フィルタリング日和(びより)

  • Facebook
  • Twitter
  • はてなブックマーク
  • Delicious
  • Evernote
  • Tumblr

スパム・フィルタ
Lessig教授によると、最近のbayesian spamフィルタは、かなりスパムメールを精度がよくなってるみたいですね。
http://blog.japan.cnet.com/lessig/archives/001929.html
ちなみに、bayesianフィルタというのは、ベイズ確率理論を使ったフィルタのこと。
スパムメールというのは人間が見ると一目でスパムとわかるのですが、ベイジアンフィルタ登場前までは、送り元のIPアドレスのブラックリストとかいろんな方法でフィルタしても、手間がかかるわりにコンピュータによる自動的な選り分けの精度が低かったわけです。ベイジアンフィルタは、スパムとそうでないメールを非常にくっきりと選り分けてくれる革命的な「発明」なわけです。
Bayesianってどういう考え方なんだろう
http://hawaii.aist-nara.ac.jp/~shige-o/Tips/Bayes.html
によると、

ベイズ推定の世界では全ての確率は主観的な確率(subjective probability)だとされます。
(中略)
例えば、目の前のサイコロの1の目が出る確率 1/6 という数字を

 そのサイコロの性質である

と考えるのが普通の見方。

 観察者の知識(予測・信念・期待…どんな言葉で呼んでもいいけど)
 の不確かさの性質である
 
と考えるのが主観確率の見方

とのこと。
また、
スパムへの対策 —A Plan for Spam
http://www.shiro.dreamhost.com/scheme/trans/spam-j.html
原典(A Plan for Spam):
http://www.paulgraham.com/spam.html
に、ベイジアンフィルタのスパムへの応用の考え方が載ってます。
要約すると、スパムメールには、「prescription」とか「Viagra」とか、その語があることでスパムの可能性が高い単語が含まれているので、そうした確率を掛け合わせていくと、スパムかそうでないかが非常にくっきりと分別できる、というアイデアです。
リスク管理とベイズ確率
今、ふと思いましたが、オペレーショナルリスクや昨日のモンテカルロシミュレーション、リアルオプションなどでも「確率」を定義するわけですが、この確率もわりと「主観的な」確率ですね。マーケットリスク管理(ポートフォリオレベル)だと、かなり「客観的な」確率という存在するという気持ちになるかも知れませんが、信用リスク管理あたりから、確率というのにかなり「主観」が入ってくる気がします。
先日、銀行でオペレーショナルリスクの管理をされてる方のお話を伺ったのですが、やはり、オペレーションのミスと、その原因と考えられる事象の間には、単純な相関計数的因果関係はほとんど見つからないとのこと。私も、ちらっとやってみたことがあるのですが、分布図が悲しいほどモワーんと球状星団風に散らばっちゃうので、かなり早めに見切りを付けました。
ただ、感覚的には、「ヤバそうな仕事はミスも多い」という関係はあるような気がします。
このへん、ベイズ理論を応用すると、この感覚的な「ヤバさ」を定量化しやすいんじゃないでしょうか。
これ、いいかも知れませんね。
「ベイズ理論の応用によるオペレーショナルリスクの定量化」
てな論文を書いたら、バーゼルあたりでスターになれるかも知れません。
コメントスパム
このisologue、そこそこトラフィックをいただいてはいるのですが、(昨日のfeed meter では、加藤ローサさんのおとなりで36位。)
feedmeter20041214.jpg
なぜか非常にコメントやトラックバックが少なくて、(よく言えば「荒れてない」が、)ちょっぴりさみしいブログでありまして、コメントスパムがコメントのほとんどを占めております。ただこちら、メールと違って「英語=スパム」なので判別は超簡単。「2バイトコードが1つも入ってないコメント→削除」という自動化ができるソースを公開されてらっしゃる方もいらっしゃるようですが、削除に手間もかからないので今のところ手で「草取り」してます。
お米のフィルタリング
地方の知り合いにおいしいお米をいただいたのはいいのですが、自家精米のせいか1mmくらいの小さな小石がときどき入ってまして、ご飯を食べてるときに「ガリッ」ってなことになります。
で、「美味しんぼ」の話を思い出しまして。
海原雄山のところで昔窯たきをしていた元使用人が、海原雄山が訪ねて来るのに高価な食材もないので、どうもてなそうかと考え、黒い盆の上に米を並べて割れた米など不揃いなものを一粒一粒捨てて粒をそろえまして。こうすることにより、米への火のとおり加減が均一になって、めちゃくちゃうまいご飯になる、というエピソード。(第5巻)
「美食を芸術の域まで高める条件は、それは唯一、人の心を感動させることだ。そして人の心を感動させることが出来るのは人の心だけなのだ。材料や技術だけではダメだ。それがわからぬ人間が究極のメニューだなどぬかしおって、お前に味を語る資格はなーい!」
てなことを海原雄山に言われて山岡士郎完敗となるわけですが・・・これ、一度やってみたかったんです。
ということで、嫁さんがメシを作っている間に子供と3人で黒い盆の上で一粒一粒選り分けてみましたが・・・20分で1合も選り分けられなかった・・・・。
大変です、これ。
炊けたらまたご報告します。
(ではまた)

[PR]
メールマガジン週刊isologue(毎週月曜日発行840円/月):
「note」でのお申し込みはこちらから。