« モスに行ってきました | メイン | 映画を見に行こうと思ったが »
2004年08月11日
kakasi による分析
CEEK.JP NEWS の最新ニュースを kakasi によって解析してみた。kakasi ってのは、よく Namazu と一緒に使われる、日本語分かち書き器。本当は、単なるかな変換プログラムであるようだけど。まぁ。分かち書き器としてよく使われている。
分析手順は以下の通り。
1. 最新ニュース100件を kakasi.txt として保存
2. kakasi を使って kakasi.txt を分かち書きした結果を kakasi.txt.tmp として保存
3. kakasi.txt.tmp での文字列出現率を計算
これらの内容を、自動的に行うべく Perl スクリプトを組んで実行する。 N-gram のときよりかなり早い。結果はそれなりに満足だけど、分かち書きが上手くいっていない箇所が結構見られるのと、助詞などストップワードが含まれてしまう。これは kakasi の限界かな。
次は、茶筌を試してみることにする。とはいっても、今のサーバに何故かインストールできないので、ちょっと後ほど。
今月中には、注目キーワードの表示はできそうだ。
【関連情報】
・KAKASI
http://kakasi.namazu.org/
2004年08月11日 02:27 | Development
トラックバック
このリストは、次のエントリーを参照しています: kakasi による分析:
» PHPとKAKASIを使って単語に分解する(その1) from ぱふぅ家のホームページ
KAKASI という、漢字かなまじり文を平仮名やローマ時に変換するプログラムがある。これを利用すると、日本語テキストを単語に分解することができる。PHP から外... [続きを読む]
トラックバック時刻: 2006年01月30日 16:36
» PHPとKAKASIを使って単語に分解する(その2) from ぱふぅ家のホームページ
1行取り込み処理を変更しました。 [続きを読む]
トラックバック時刻: 2007年09月23日 06:42