« マクドナルドにも行った | メイン | 巡回先を追加しました »
2004年08月13日
Hot Keywords は奥が深い
Hot Keywords の提供を始めたわけですが、奥が深い。まずは、その定義を決めなければいけない。今のところは、単純に「最新のニュースに頻出する単語」という定義に基づいて開発中です。いくつか質問があったので、回答を。
> RSS での配信は行わないのですか?
未踏の提案書(そのうち公開)にも含まれていますので、配信します。もうちょっと待ってください。
> 検索されたキーワードは、何らかの参考になるんじゃないですか?
分かち書き辞書に追加していこうと考えています。また、報道する側(ニュースサイト)と調べる側(私たち)との意識のずれについて、グラフにできればいいなと考えています(未踏の提案書に含まれています)。
> タイトルと本文を同じ重みで使うのは馬鹿じゃない?
ええ、馬鹿です。傾斜分析が必要ですが、まだ検討中です。
> ちょっとのニュースでしか取り上げられていないキーワードがランクインしてるぞ。
ごめんなさい。単純な出現率しか調べていません。対策を考え中です。
> 「三菱東京」が「三菱」と「東京」に別れちゃってるよ!
kakasi の限界です。「三菱東京」という単語を辞書登録するか、連続する単語をくっつけて頻度計算する方法を考えています。後者は、最適な(無駄の無い)アルゴリズムを考え中です。
> Hot Keywords は暖かいキーワードだろ?
世の中は、ポジティブなことだけではなく、ネガティブなこともあります。
> 頻出キーワードに関連するキーワードも表示されればいいなぁ。
いいですね。そうしたいです。(未踏の提案書に含まれています)
とまぁ。自作自演も含まれますが、こんな感じです。良い案や、質問があればお気軽にコメントくださいな。
【関連記事】
・Hot Keywords の表示を開始 (2004年08月12日)
2004年08月13日 14:05 | Development