« お好み焼きは断られた | メイン | お腹いっぱいになると気持ち悪い »

2005年05月30日

Hyper Estraier のお試し結果

Hyper Estraier を試していたので、その結果発表です。あとは、軽い要望など。

RFC のテキストを Hyper Estraier でインデキシングしてみました。テキストファイルのみで 194M です。3992 ドキュメントあるようなので、1ドキュメントあたり 50KB ということかな。約6分で終わりました。

$ du -h RFC/
194M    RFC

$ estcmd gather -il ja -cs 256 rfc/ RFC/ > rfc.txt &

$ du -h rfc/
87M     rfc/_idx
744K    rfc/_attr/0001
744K    rfc/_attr/0002
744K    rfc/_attr/0003
2.2M    rfc/_attr
7.1M    rfc/_text/0001
6.9M    rfc/_text/0002
7.1M    rfc/_text/0003
7.0M    rfc/_text/0004
7.5M    rfc/_text/0005
7.2M    rfc/_text/0006
6.4M    rfc/_text/0007
49M     rfc/_text
140M    rfc

$ estcmd optimize rfc/ > rfc.txt &

$ du -h rfc/
55M     rfc/_idx
284K    rfc/_attr/0001
288K    rfc/_attr/0002
288K    rfc/_attr/0003
868K    rfc/_attr
7.0M    rfc/_text/0001
6.8M    rfc/_text/0002
7.0M    rfc/_text/0003
6.9M    rfc/_text/0004
7.4M    rfc/_text/0005
7.1M    rfc/_text/0006
6.3M    rfc/_text/0007
49M     rfc/_text
105M    rfc

ちゃんと圧縮が有効になっているようです。よかった。

前回、調子乗って行っていた100万件のニュース記事のインデキシングですが、9時間ほど掛かりました。これは、月別に差分インデキシングを行ったからかもしれません。合計で 1.0G ほどかな。

$ du -h est/
2.0G    est/_idx
133M    est/_attr/0001
133M    est/_attr/0002
133M    est/_attr/0003
399M    est/_attr
125M    est/_text/0001
125M    est/_text/0002
125M    est/_text/0003
126M    est/_text/0004
125M    est/_text/0005
125M    est/_text/0006
125M    est/_text/0007
874M    est/_text
3.2G    est

最適化した後の容量がこんな感じ。最適化前は、なんか 5.0G 近くあったような気がする。

さすがに 3.0G くらいあるので厳しい感じ。特にソートが厳しい。インデキシングのときに、日付などのソート用のファイルを作っておけないかなぁ。と感じた。仕組みを良くわかってないのですが。

N-Gram は、日本語(マルチバイト文字)に対してのみ行われているようなので、インデキシングのときに、オプションで英字も N-Gram に出来るといいかも。インクリメンタル検索を有効にしたら、日本語で検索したときにゴミが増えまくったし。

今までどおり、月別に分けないとダメか。なんとなく 1164348 documents って、今のところ Hyper Estraier を使った、最大のドキュメント数なんじゃないかなぁ。とか思ったりも。開発者の方が、内部でもっとテストしてるか。

とりあえず、検索用のデーモン(or CGI)とかを作らないとなぁ。インデックスを分ける必要があるので、引数でインデックスを設定できるような CGI を。やっぱり HTTP で通信することばかり考えてます。効率的じゃないかorz

【関連記事】
Hyper Estraier をお試し中 (2005年05月29日)

2005年05月30日 23:30 | Technology

トラックバック

このリストは、次のエントリーを参照しています: Hyper Estraier のお試し結果:

» Rast,Hyper Estraierの性能評価クリップ from YappoLogs
Ceekz Logsさんと/.jのOliverさんが、性能評価をしているのでクリップするテスト。 Ceekz Logs Hyper Estraier のお試し結... [続きを読む]

トラックバック時刻: 2005年06月02日 16:40

» Hyper Estraierが世界最高の検索エンジンになれる10の理由 from Enjoy Hyper Estraier
現在優れた検索エンジンはいくつもあります。(例えばGoogle) しかし、日本人が開発した超高性能検索エンジンがあるのです。 その名もHyper Est... [続きを読む]

トラックバック時刻: 2007年06月14日 02:41

コメント

googleとかもこういうインデックスをもっているんでしょうか?

投稿者 wwっうぇwww : 2005年05月31日 03:58

>> wwっうぇwww さん
Google や Yahoo! も、このようなインデックスを持っています。この場合のインデックスとは、キーワードと URL の対のようなものです。

投稿者 ceekz : 2005年05月31日 04:39

2005年5月のニュースだけインデキシングした。
http://labs.ceek.jp/est2/estseek.cgi

サマリーが見えるのはともかく、本文が全部見えるのはまずいので candetail: false としました。

投稿者 ceekz : 2005年05月31日 17:33