« 食欲がない | メイン | 2004年度未踏ユースの公募結果詳細 »

2004年08月02日

N-gram による分析

CEEK.JP NEWS の最新ニュースを N-gram によって解析してみた。

いやー。予想はしていたんだけど、純粋に N-gram だけだとノイズがいっぱい。今の状態じゃ単語ランキングとかは無理だなぁ。単語ランキングみたいなやつは、形態素解析器で解析した方が楽そうだ。上手に使えば、 N-gram の方が良さそうなんだけれど。

もっと勉強せねば。

でも、失敗というわけではない。別用途に使えるんだよね。というのは、本文抽出が上手くいっているかどうかをチェックできる。本文抽出が失敗 = 本文以外の文字列が混じる(*1) なわけですが、本文以外の文字列というのは、大概テンプレートの中に含まれるから、長い文字列が高頻度で現れれば、本文抽出に失敗している可能性があるということ。

(*1) 本文抽出の結果が空の場合は、エラーメッセージがきます

【関連情報】
・morogram (Moro-siki)
 http://ya.sakura.ne.jp/~moro/resources/ngram/morogram.html

2004年08月02日 02:41 | Development

トラックバック

コメント