« 食欲がない | メイン | 2004年度未踏ユースの公募結果詳細 »
2004年08月02日
N-gram による分析
CEEK.JP NEWS の最新ニュースを N-gram によって解析してみた。
いやー。予想はしていたんだけど、純粋に N-gram だけだとノイズがいっぱい。今の状態じゃ単語ランキングとかは無理だなぁ。単語ランキングみたいなやつは、形態素解析器で解析した方が楽そうだ。上手に使えば、 N-gram の方が良さそうなんだけれど。
もっと勉強せねば。
でも、失敗というわけではない。別用途に使えるんだよね。というのは、本文抽出が上手くいっているかどうかをチェックできる。本文抽出が失敗 = 本文以外の文字列が混じる(*1) なわけですが、本文以外の文字列というのは、大概テンプレートの中に含まれるから、長い文字列が高頻度で現れれば、本文抽出に失敗している可能性があるということ。
(*1) 本文抽出の結果が空の場合は、エラーメッセージがきます
【関連情報】
・morogram (Moro-siki)
http://ya.sakura.ne.jp/~moro/resources/ngram/morogram.html
2004年08月02日 02:41 | Development