« News Search by Namazu | メイン | 起きたら8時だった »

2004年11月06日

Hot Keywords の新手法

CEEK.JP NEWS の Hot Keywords で、新手法の表示テストを開始しました。下側の Hot Keywords がそれに当たります。

辞書に頼らない単語分割を行い、それを集計しているわけですが、まだまだ課題があります。単純に、平仮名で分割しているだけですけどね(「だけ」ってわけでもないけど)。で、この結果。

赤字が KAKASI での分割では、上位に含まれなかった単語です。言い換えれば、辞書に含まれていない単語ということかな。かっこよく言えば、未知語。

課題をいくつか挙げると、「語幹 + 送り仮名」が語幹のみになること。どうしようもない。語幹のみとなる漢字を手動で弾いていたりするのですけどね。これは、辞書による分割しか方法が無いかもしれない。似たようなので、「側近語る」が「側近語」になっちゃう。意味分かりませんorz 他にも、略語の集計かな。同ニュース中に「荒川静香」と「荒川」が出てきた場合は、前者に統一するとか。これは、すぐに実装できるかもしれない(人名に絞ればより簡単かと)。

「大リーグ選抜」と「メジャー選抜」をまとめられたらすごいなぁ。シソーラスデータベースが無いと無理っぽいが。自分で構築できればすばらしい。やってみたいけどね。

ってな感じで、いろいろテストしてます。

2004年11月06日 22:21 | Development

トラックバック

コメント