« モスに行ってきました | メイン | 映画を見に行こうと思ったが »

2004年08月11日

kakasi による分析

CEEK.JP NEWS の最新ニュースを kakasi によって解析してみた。kakasi ってのは、よく Namazu と一緒に使われる、日本語分かち書き器。本当は、単なるかな変換プログラムであるようだけど。まぁ。分かち書き器としてよく使われている。

分析手順は以下の通り。

1. 最新ニュース100件を kakasi.txt として保存
2. kakasi を使って kakasi.txt を分かち書きした結果を kakasi.txt.tmp として保存
3. kakasi.txt.tmp での文字列出現率を計算

これらの内容を、自動的に行うべく Perl スクリプトを組んで実行する。 N-gram のときよりかなり早い。結果はそれなりに満足だけど、分かち書きが上手くいっていない箇所が結構見られるのと、助詞などストップワードが含まれてしまう。これは kakasi の限界かな。

次は、茶筌を試してみることにする。とはいっても、今のサーバに何故かインストールできないので、ちょっと後ほど。

今月中には、注目キーワードの表示はできそうだ。

【関連情報】
・KAKASI
 http://kakasi.namazu.org/

2004年08月11日 02:27 | Development

トラックバック

このリストは、次のエントリーを参照しています: kakasi による分析:

» PHPとKAKASIを使って単語に分解する(その1) from ぱふぅ家のホームページ
KAKASI という、漢字かなまじり文を平仮名やローマ時に変換するプログラムがある。これを利用すると、日本語テキストを単語に分解することができる。PHP から外... [続きを読む]

トラックバック時刻: 2006年01月30日 16:36

» PHPとKAKASIを使って単語に分解する(その2) from ぱふぅ家のホームページ
1行取り込み処理を変更しました。 [続きを読む]

トラックバック時刻: 2007年09月23日 06:42

コメント