« 2004年11月05日 | メイン | 2004年11月07日 »
2004年11月06日
Hot Keywords の新手法
CEEK.JP NEWS の Hot Keywords で、新手法の表示テストを開始しました。下側の Hot Keywords がそれに当たります。
辞書に頼らない単語分割を行い、それを集計しているわけですが、まだまだ課題があります。単純に、平仮名で分割しているだけですけどね(「だけ」ってわけでもないけど)。で、この結果。
赤字が KAKASI での分割では、上位に含まれなかった単語です。言い換えれば、辞書に含まれていない単語ということかな。かっこよく言えば、未知語。
課題をいくつか挙げると、「語幹 + 送り仮名」が語幹のみになること。どうしようもない。語幹のみとなる漢字を手動で弾いていたりするのですけどね。これは、辞書による分割しか方法が無いかもしれない。似たようなので、「側近語る」が「側近語」になっちゃう。意味分かりませんorz 他にも、略語の集計かな。同ニュース中に「荒川静香」と「荒川」が出てきた場合は、前者に統一するとか。これは、すぐに実装できるかもしれない(人名に絞ればより簡単かと)。
「大リーグ選抜」と「メジャー選抜」をまとめられたらすごいなぁ。シソーラスデータベースが無いと無理っぽいが。自分で構築できればすばらしい。やってみたいけどね。
ってな感じで、いろいろテストしてます。
22:21 | コメント (0) | トラックバック | Development
News Search by Namazu
News Search by Namazu をはじめました。テストなので、ほとんどいじっていないです。また、対象の記事も2004年10月の記事のみとなっています。
検索スピードが速いのでかなり良い感じ。欠点として、サマリーの表示や単語の分割があげられるわけですけどね。
サマリーの表示に関しては Estraier がよさそうな気もしています。まぁ。ダイナミックに計算する方法もあるのだけど。結果を egrep で調べるみたいな。なんだか非効率だけど。色々テストするかな。
【関連情報】
・News Search by Namazu
http://labs.ceek.jp/news/namazu.cgi
・Estraier
http://estraier.sourceforge.net/
21:54 | コメント (0) | トラックバック | Development
秋葉原で食べたマック
起きたら午後8時でした。ということで、昨日(5日)の食事内容です。
昼は、東京に向かうバスの中でおにぎりを食べた。雑誌を読んできると、車酔いのような感じになって気持ち悪かった。そりゃ、午前10時に寝て2時間しか寝なかったからな。気持ち悪くなるのもうなづける。
夜は、マックに行った。友人に頼まれていた買い物をしに、秋葉原に行ってきたわけですが午後8時50分くらいなわけです。店閉まってます。しょんぼりしながら、マック。このマックのおかげで、打ち上げに遅れた。
バス (昼)
おにぎり
マクドナルド (夜)
いつもの