« お茶漬けで飢えをしのぐ | メイン | 大根サラダは嫌い »

2005年10月18日

Hyper Estraier 1.0.0 がリリース

インデックス方法に N-Gram を採用している Hyper Estraier の 1.0.0 がリリースされました。ベータという表記がページから消えていたので、安定版とみてよいと思います。

インデックスを使った高速な検索ができます。
大量の文書のインデックスを短時間で作成できます。
N-gram方式による漏れのない検索ができます。
フレーズ検索や属性検索や類似検索をサポートします。
世界各国の言語が扱えます。
対象文書の所在や形式に依存しません。
ライブラリとして各種製品に組み込めます。
P2P連携機能をサポートします。

といった特徴がありますが、僕は、以下の点が優れていると思う。

・インデックス処理が早い
・開発者による豊富なドキュメント
・文書ドラフトが扱える
・もちろん N-Gram 採用 (教科書的な手法ではないと思うが)

P2P もすごいと思うのだけど、試していないからわからないや。複数のマシンがないとすばらしさを実感できないのではとか思ってる。メモリに乗らないくらいのインデックスを、複数のマシンに分割して実行すればそのすばらしさがわかるのではないかと。

複数のマシンにインデックスを分割したときに問題になるのが、インデックスのマージ。検索結果の1ページ目を表示するのは容易いが、2ページ目以降を表示するのが難しいと思うのだ。たとえば、100ページ目の最初の URL は、どのマシンのインデックスの何件目にあるのか、どうやって知るのだろうか。

その辺を勝手に解決してくれるんじゃないかと思ってる。

まぁ。いいや。やっとこさ、少しずつ時間をとりながら estcmd を直接叩く Perl Script を書き始めました。って、せっかく HyperEstraier.pm も出ているのだから、そっちを使ったほうがよさそうだ。

ま。ちょろっと使うなら estcmd を叩くほうが楽だよね。ちょろっと書いた Perl Script の一部をそのうち掲載します。

話は少し変わりますが、開発者の平林氏が 天才プログラマー/スーパークリエータ の評価を得てました。おめでとうございます!最近は、未踏事業にあまり注目していなくって知らなかったのですが、2004年度第2回未踏ソフトウェア創造事業の開発期間ってすでに終了してたのですね。にもかかわらず、まだ積極的に開発を続けられているようで、更なる成果が楽しみです。

偏見かもしれませんが、未踏事業って、開発期間を終了すると、一気にペースダウン(or ストップ)するプロジェクトが多いような気がします。まぁ。休職しながら開発している方々は、仕方ないと思いますが。

圧縮方式高速全文検索エンジンの開発 (平成15年度未踏 村岡PM)

このプロジェクトの行方を知ってる方はいませんか?去年の3月くらいに公開するとかいう話だったのですが、いまだの公開されていないような気がするのです。別に Hyper Estraier で足るといえばそれまでですが、注目していたので気になってます。

スラッシュドット ジャパン でも Hyper Estraier が使われてますよ。バージョンが 0.5.3 だし、インデックスしている部分もいまいちですが(コメントが検索できない)。そのうち改善されるかな。スラッシュドットって誰が運営しているかいまいちわからないのですが。

【関連情報】
・Hyper Estraier: 共同体的全文検索系
 http://hyperestraier.sourceforge.net/
・2004年度第2回未踏ソフトウェア創造事業 天才プログラマー/スーパークリエータ
 http://www.ipa.go.jp/jinzai/esp/2004mito2/creator.html

2005年10月18日 23:45 | Service

トラックバック

このリストは、次のエントリーを参照しています: Hyper Estraier 1.0.0 がリリース:

» PHPで2つの文章の類似度を計算する from ぱふぅ家のホームページ
PHPを使い、異なる2つの文章の類似度を計算するプログラムを紹介する。ブログなどで記事の転用判定に利用できるだろう。 [続きを読む]

トラックバック時刻: 2009年04月29日 13:44

コメント