« マクドナルドにも行った | メイン | 巡回先を追加しました »

2004年08月13日

Hot Keywords は奥が深い

Hot Keywords の提供を始めたわけですが、奥が深い。まずは、その定義を決めなければいけない。今のところは、単純に「最新のニュースに頻出する単語」という定義に基づいて開発中です。いくつか質問があったので、回答を。

> RSS での配信は行わないのですか?
未踏の提案書(そのうち公開)にも含まれていますので、配信します。もうちょっと待ってください。

> 検索されたキーワードは、何らかの参考になるんじゃないですか?
分かち書き辞書に追加していこうと考えています。また、報道する側(ニュースサイト)と調べる側(私たち)との意識のずれについて、グラフにできればいいなと考えています(未踏の提案書に含まれています)。

> タイトルと本文を同じ重みで使うのは馬鹿じゃない?
ええ、馬鹿です。傾斜分析が必要ですが、まだ検討中です。

> ちょっとのニュースでしか取り上げられていないキーワードがランクインしてるぞ。
ごめんなさい。単純な出現率しか調べていません。対策を考え中です。

> 「三菱東京」が「三菱」と「東京」に別れちゃってるよ!
kakasi の限界です。「三菱東京」という単語を辞書登録するか、連続する単語をくっつけて頻度計算する方法を考えています。後者は、最適な(無駄の無い)アルゴリズムを考え中です。

> Hot Keywords は暖かいキーワードだろ?
世の中は、ポジティブなことだけではなく、ネガティブなこともあります。

> 頻出キーワードに関連するキーワードも表示されればいいなぁ。
いいですね。そうしたいです。(未踏の提案書に含まれています)

とまぁ。自作自演も含まれますが、こんな感じです。良い案や、質問があればお気軽にコメントくださいな。

【関連記事】
Hot Keywords の表示を開始 (2004年08月12日)

2004年08月13日 14:05 | Development

トラックバック

コメント