« お好み焼きは断られた | メイン | お腹いっぱいになると気持ち悪い »
2005年05月30日
Hyper Estraier のお試し結果
Hyper Estraier を試していたので、その結果発表です。あとは、軽い要望など。
RFC のテキストを Hyper Estraier でインデキシングしてみました。テキストファイルのみで 194M です。3992 ドキュメントあるようなので、1ドキュメントあたり 50KB ということかな。約6分で終わりました。
$ du -h RFC/ 194M RFC $ estcmd gather -il ja -cs 256 rfc/ RFC/ > rfc.txt & $ du -h rfc/ 87M rfc/_idx 744K rfc/_attr/0001 744K rfc/_attr/0002 744K rfc/_attr/0003 2.2M rfc/_attr 7.1M rfc/_text/0001 6.9M rfc/_text/0002 7.1M rfc/_text/0003 7.0M rfc/_text/0004 7.5M rfc/_text/0005 7.2M rfc/_text/0006 6.4M rfc/_text/0007 49M rfc/_text 140M rfc $ estcmd optimize rfc/ > rfc.txt & $ du -h rfc/ 55M rfc/_idx 284K rfc/_attr/0001 288K rfc/_attr/0002 288K rfc/_attr/0003 868K rfc/_attr 7.0M rfc/_text/0001 6.8M rfc/_text/0002 7.0M rfc/_text/0003 6.9M rfc/_text/0004 7.4M rfc/_text/0005 7.1M rfc/_text/0006 6.3M rfc/_text/0007 49M rfc/_text 105M rfc
ちゃんと圧縮が有効になっているようです。よかった。
前回、調子乗って行っていた100万件のニュース記事のインデキシングですが、9時間ほど掛かりました。これは、月別に差分インデキシングを行ったからかもしれません。合計で 1.0G ほどかな。
$ du -h est/ 2.0G est/_idx 133M est/_attr/0001 133M est/_attr/0002 133M est/_attr/0003 399M est/_attr 125M est/_text/0001 125M est/_text/0002 125M est/_text/0003 126M est/_text/0004 125M est/_text/0005 125M est/_text/0006 125M est/_text/0007 874M est/_text 3.2G est
最適化した後の容量がこんな感じ。最適化前は、なんか 5.0G 近くあったような気がする。
さすがに 3.0G くらいあるので厳しい感じ。特にソートが厳しい。インデキシングのときに、日付などのソート用のファイルを作っておけないかなぁ。と感じた。仕組みを良くわかってないのですが。
N-Gram は、日本語(マルチバイト文字)に対してのみ行われているようなので、インデキシングのときに、オプションで英字も N-Gram に出来るといいかも。インクリメンタル検索を有効にしたら、日本語で検索したときにゴミが増えまくったし。
今までどおり、月別に分けないとダメか。なんとなく 1164348 documents って、今のところ Hyper Estraier を使った、最大のドキュメント数なんじゃないかなぁ。とか思ったりも。開発者の方が、内部でもっとテストしてるか。
とりあえず、検索用のデーモン(or CGI)とかを作らないとなぁ。インデックスを分ける必要があるので、引数でインデックスを設定できるような CGI を。やっぱり HTTP で通信することばかり考えてます。効率的じゃないかorz
【関連記事】
・Hyper Estraier をお試し中 (2005年05月29日)
2005年05月30日 23:30 | Technology
トラックバック
このリストは、次のエントリーを参照しています: Hyper Estraier のお試し結果:
» Rast,Hyper Estraierの性能評価クリップ from YappoLogs
Ceekz Logsさんと/.jのOliverさんが、性能評価をしているのでクリップするテスト。 Ceekz Logs Hyper Estraier のお試し結... [続きを読む]
トラックバック時刻: 2005年06月02日 16:40
» Hyper Estraierが世界最高の検索エンジンになれる10の理由 from Enjoy Hyper Estraier
現在優れた検索エンジンはいくつもあります。(例えばGoogle)
しかし、日本人が開発した超高性能検索エンジンがあるのです。
その名もHyper Est... [続きを読む]
トラックバック時刻: 2007年06月14日 02:41
コメント
googleとかもこういうインデックスをもっているんでしょうか?
投稿者 wwっうぇwww : 2005年05月31日 03:58
>> wwっうぇwww さん
Google や Yahoo! も、このようなインデックスを持っています。この場合のインデックスとは、キーワードと URL の対のようなものです。
投稿者 ceekz : 2005年05月31日 04:39
2005年5月のニュースだけインデキシングした。
http://labs.ceek.jp/est2/estseek.cgi
サマリーが見えるのはともかく、本文が全部見えるのはまずいので candetail: false としました。
投稿者 ceekz : 2005年05月31日 17:33