« 祖父宅に行ってくる | メイン | 家族とボウリング »
2004年08月12日
Hot Keywords の表示を開始
CEEK.JP NEWS でも Hot Keywords の表示を開始しました。左側に出現率とともに表示しています。
分かち書きには先日の kakasi を利用し、以下の単語は除いています。
1. 一文字のみ
2. ひらがなのみ
3. 数字のみ
4. 句読点・記号が含まれる
単語ってのは、分かち書きされた結果の文字列のことね。(5) は、分かち書き失敗と思われる単語です。
最新100件のニュースを分析しています。しかも、他と同じように5分ごとに更新されます。「入力」「求め」「話し」など、上記のルールを抜けて出てきた意味のなさそうな単語もランクインする場合があります。今後は、どうやってこのような意味のなさそうな単語を除くかが課題になりますが、今のところは上記ルール以外の単語はすべて表示させています。
新しいことにチャレンジするのは、やっぱり楽しいな。プログラミングが楽しくなってきた。
とりあえず、カテゴリー別の表示にも対応させないと。どんな感じで表示させるかは検討中。もちろん、精度のアップも重要な課題。よい方法をご存知の方は、教えていただけると幸いです。
【関連記事】
・kakasi による分析 (2004年08月11日)
2004年08月12日 02:51 | Development
トラックバック
このリストは、次のエントリーを参照しています: Hot Keywords の表示を開始:
» CEEK.JP NEWSにホットキーワードが出現。 from 弱小エンジニアの小言
以前も紹介した、CEEK.JP NEWSだが、
ホットキーワードが表示されるようになった。
Ceekz Logs > Hot Keywords の表示を開始
開発者のブログでも、発言があるように、
入力」「求め」「話し」など、上記のルールを抜けて出てきた意味のなさそうな単語もランクインす. [続きを読む]
トラックバック時刻: 2004年08月12日 18:59
コメント
「法律用語辞書」「医学辞書」「仏教用語辞書」を追加してみた。
kakasi の辞書追加の方法がいまいちわからず焦った。基本辞書のソース(?)が必要だったんだね。
投稿者 ceekz : 2004年08月12日 04:05
5分前からの変化もわかるようにしました。劇的な変化は望めませんw
「↑」「↓」「-」の3つのマークで示しています。また、マウスポインタを当てると、前回の順位と出現率が表示されます。
投稿者 ceekz : 2004年08月12日 15:15
順位の変化が5位以上の場合は、矢印に色をつけるようにしました。
投稿者 ceekz : 2004年08月12日 17:41
偏りが出やすい「中国・朝鮮」「地方・地域」を分析の対象から外しました。
前者は、そのまんま。後者は、リアルタイム性が低いからです。1日1回の更新とかが多い。
投稿者 ceekz : 2004年08月12日 22:35
「ひらがなのみ」というルールを「最後がひらがな」というルールに変更しました。これで、動詞が除ける。
「昭和」「平成」「午前」「午後」「去年」「昨年」「今年」「前回」「今回」「過去」「現在」を不要語とし、表示しないようにしました(時間に関する語)。
不要語を手動で増やさないでいい方法を考えねば。
投稿者 ceekz : 2004年08月13日 14:27
直前が数字である単語を除くようにしました。
多分、単位にあたる単語が除外されるのではないかと思います。
投稿者 ceekz : 2004年08月14日 19:09