« 2004年11月05日 | メイン | 2004年11月07日 »

2004年11月06日

Hot Keywords の新手法

CEEK.JP NEWS の Hot Keywords で、新手法の表示テストを開始しました。下側の Hot Keywords がそれに当たります。

辞書に頼らない単語分割を行い、それを集計しているわけですが、まだまだ課題があります。単純に、平仮名で分割しているだけですけどね(「だけ」ってわけでもないけど)。で、この結果。

赤字が KAKASI での分割では、上位に含まれなかった単語です。言い換えれば、辞書に含まれていない単語ということかな。かっこよく言えば、未知語。

課題をいくつか挙げると、「語幹 + 送り仮名」が語幹のみになること。どうしようもない。語幹のみとなる漢字を手動で弾いていたりするのですけどね。これは、辞書による分割しか方法が無いかもしれない。似たようなので、「側近語る」が「側近語」になっちゃう。意味分かりませんorz 他にも、略語の集計かな。同ニュース中に「荒川静香」と「荒川」が出てきた場合は、前者に統一するとか。これは、すぐに実装できるかもしれない(人名に絞ればより簡単かと)。

「大リーグ選抜」と「メジャー選抜」をまとめられたらすごいなぁ。シソーラスデータベースが無いと無理っぽいが。自分で構築できればすばらしい。やってみたいけどね。

ってな感じで、いろいろテストしてます。

22:21 | コメント (0) | トラックバック | Development

News Search by Namazu

News Search by Namazu をはじめました。テストなので、ほとんどいじっていないです。また、対象の記事も2004年10月の記事のみとなっています。

検索スピードが速いのでかなり良い感じ。欠点として、サマリーの表示や単語の分割があげられるわけですけどね。

サマリーの表示に関しては Estraier がよさそうな気もしています。まぁ。ダイナミックに計算する方法もあるのだけど。結果を egrep で調べるみたいな。なんだか非効率だけど。色々テストするかな。

【関連情報】
・News Search by Namazu
 http://labs.ceek.jp/news/namazu.cgi
・Estraier
 http://estraier.sourceforge.net/

21:54 | コメント (0) | トラックバック | Development

秋葉原で食べたマック

起きたら午後8時でした。ということで、昨日(5日)の食事内容です。
昼は、東京に向かうバスの中でおにぎりを食べた。雑誌を読んできると、車酔いのような感じになって気持ち悪かった。そりゃ、午前10時に寝て2時間しか寝なかったからな。気持ち悪くなるのもうなづける。
夜は、マックに行った。友人に頼まれていた買い物をしに、秋葉原に行ってきたわけですが午後8時50分くらいなわけです。店閉まってます。しょんぼりしながら、マック。このマックのおかげで、打ち上げに遅れた。

バス (昼)
 おにぎり
マクドナルド (夜)
 いつもの

21:44 | コメント (0) | トラックバック | Meal