Opera Mail での日本語での検索は正規表現を使うことを推奨します 2008年12月28日(日)

らくだ

もうね、アホすぎるんですよ。何がって、 Opera Mail の日本語の取り扱いがですね、ウンコすぎてあきれかえるんですよ。 Opera Mail はベイズでメールをフィルタリングするけれど、日本語の場合、単語単位ではなく、文字単位に区切ってしまうために、精度が落ちてしまう。という所までは分かっていたんですけどね。 Opera Mail が、日本語を文字単位に分けてしか扱えないのはベイズだけじゃなかったんですよ。

検索・・・最近、多少精度が上がったような気がしていたけど、誤爆もかなり多い。実はこれ、単語を文字単位に区切って、 AND 検索しているからなんですよ。たとえば、「東京」と言う単語を検索すると、「東」という文字と、「京」という文字の両方を含むメールがヒットするんですよ。そりゃ、あんた誤爆も多いっつうの。たしかに、 Opera Mail の検索は早い。早いが、こんなに誤爆ばかりでは何の意味もない。

Opera Mail で日本語の取り扱いが変なのはそれだけではない。新しいフィルタビューを作成し、「既存のメッセージもフィルタリングする」時も、日本語を使った規則だと、以上に仕分けに時間がかかったり、正確な結果が得られないことがある。この辺の実装がどうなっているか分からないが、とにかく日本語の扱いに難があるのは確かだ。これでは、メールを細かく仕分けして使うには実用的ではない。

では、どうしたらいいのか、実は、 Opera Mail の優れた点の一つに「正規表現」でフィルタリングできるという点がある。この正規表現を使って、目的の単語をバイナリ検索すると、速度も上がる上に他の方法を使うよりも精度が上がる。

Opera Mail フィルタ用の正規表現を作成する

このフォームに検索したい単語を入力し、出力された文字列をフィルタの規則に貼り付けると、目的の文字列の検索が可能になる。

Usertime : 0.07 / Systemtime : 0.01