« 筆者の近状 | メイン | ラーメン三昧 »

2004年09月05日

日本語自動補正の有用性

以前から、検索補助やキーワード補正の話をやっているのですが、わかりやすい例があった。

北オセチヤ共和国 or 北オセチア共和国

学校人質事件があった国の名前のわけですが、英語をカタカナ表記にしているので、微妙な違いがあるのです。

ニュースの場合は、表記方法が統一されているのではないかと思っていたのですが、そうでもないみたい。上記の例で言えば、前者が「読売新聞社」、そして、後者がその他の報道機関となります。こうみれば、読売新聞社だけ仲間はずれって感じも、、、、

なぜ、こんなことに気づいたかというと、単語の辞書登録をしているときでした。何度登録しても上手くいかないなぁ。と思っていたら、微妙にカタカナ表記が違ったというオチです。

で、日本語補正の有用性なのですが、重大ニュースのポイントキーワードで表記のバラつきがあると、自動的に重要度を調べると大きな誤差が出てくるわけです。今回ならまさにそうで、「北オセチア共和国」というキーワードが、読売新聞社分だけ少なく見積もられることになるのです。同じことをあらわしているというのに。

つか、こういう問題をどうやって解決していくかがミソなのですが。

・どの段階で補正するか (データベースに入れるとき?取り出すとき?)
・補正するかしないかで差がでないだろうか
・そもそも補正キーワードをどうやって見つけるか

たくさん問題がある。しかも、難題っぽいし。

2004年09月05日 23:09 | Development

トラックバック

コメント

> 英語をカタカナ表記にしているので

たぶん,ロシア語では.

投稿者 takot : 2004年09月06日 00:45

>> takot さん
あー。確かに、場所的にロシア語の可能性が高いです。

投稿者 ceekz : 2004年09月06日 01:37

以前にも言いましたが、アラビア語なんかでもよく有ることですよ。ウサマ・ビンラディンとオサマ・ビンラディンとか、他にもたくさん。英語などは比較的接してきた歴史も長いし(?)スタンダードな読み方なんて言うものが確立されていると思います。でも、それ以外の、特に普段私たちが接する機会の少ない言葉に関しては、統一した読み方が定まっていないようです。現地の発音通りでは、カタカナで表記仕切れない部分もたくさんありますし。
というか、こういうのってどれが正しい読み方とか、決めないのかな。統一された方が分かりやすいとは思うけど。

投稿者 moko : 2004年09月08日 02:32

>> moko さん
国名は、外務省の使用に沿っていると思うのだけど、今回のは、いまいちわからなかった。

投稿者 ceekz : 2004年09月09日 02:17