« 帰省のときに TX に乗った | メイン | チョコバナナムースを食う »
2005年09月03日
メディア情報処理専修コース(2)
メディア情報処理専修コース の 自然言語処理技術 の2日目は、 JUMAN/KNP と GETA のお話。
どちらも使ったこと無いソフトでしたが、とてもいい!
JUMAN の形態素解析に惹かれた。なんか、非常によい結果を出しているような気がする。 MeCab 0.9 をずっと待ってるのだけど、とりあえず JUMAN を使って遊んでみようかな。
GETA は、汎用連想計算エンジンというものですが、要は類似文書を探すシステムという理解でいいんじゃ無いかと思います。文書分類もできるようですが、今回の実習では触りませんでした。
ベクトル空間モデルを用いて検索をかけるわけですが、どうしても理解できないことがあったので先生に質問した。理解できなかったのは、ベクトル空間モデルを用いたシステムでは、検索するキーワード数が少ないと、小さい文書(ベクトルの次数が小さい)ものしか見つからないのでは無いか?と。
答えは、そのへんを正規化するのがキモとのこと。当たり前といえば当たり前。
この話を聞いていて、「類似文書 = 関連文書」というわけでは無いのだな。とやっと理解した。いままで、同様に扱っていたのだけど。類似文書は関連文書になり得るが、関連文書は類似文書になりえないということ。もちろん、人それぞれの定義があると思うので、一概にそうとは言えないかもしれないけど。
期待しているのは、ニュースの中で「類似ニュース」の集合というと、各ニュースサイトに配信された通信社のニュースが集まっていることかな。要は、各ニュースサイトが取材したわけではなく、通信社から配信されたニュースを編集しただけの集まり。「関連ニュース」は、あるニュース(事実)の経過や原因の集合。
Google の「関連ページ」には、似たページが表示されるわけでは無いのは、上記からわかる。実際のところ、どういうアルゴリズムかわからないが、同時にリンクされているページを引っ張ってきているのでは無いかと思う(もちろん、内容の類似度もスコアに含むだろうが)。
ある文書の集合の中から、重要そうな文書を引っ張ってくる方法を考えてみたいのだ。もちろん、重要度は、人それぞれだが、機会が何らかの理由をつけて、重要そうな文書を引っ張る仕組みを。とりあえず、あるキーワードを入れた検索結果のスコア付けの方法を詳しく調べなくては。
話がそれた。
2日目はそんな感じ。3日目は、体調を崩して参加できなかった。アンケートだけでも、郵送しておこう。
今回の滞在では、東横イン京都四条烏丸を利用しました。となりの施設が明るすぎです。
【関連記事】
・メディア情報処理専修コース(1) (2005年08月29日)
【関連情報】
・自然言語処理のためのリソース
http://www.kc.t.u-tokyo.ac.jp/nl-resource/
・汎用連想計算エンジン GETA
http://geta.ex.nii.ac.jp/
2005年09月03日 23:54 | Events
トラックバック
コメント
関係ないですが、
> 東横イン京都四条烏丸を利用しました。となりの施設が明るすぎです。
これは東横インの明かりが隣に反射しているのです。
投稿者 かぜぶろ : 2005年09月04日 14:50
>> かぜぶろ さん
確かに、隣の施設の窓に反射しているだけだったので、こちらの建物の明かりかもしれません。
1日目は、カーテンが開けっ放しだったけど、2日目は、閉めていました。清掃する人によるのかな。
投稿者 ceekz : 2005年09月04日 16:33