« 2005年05月29日 | メイン | 2005年05月31日 »
2005年05月30日
Hyper Estraier のお試し結果
Hyper Estraier を試していたので、その結果発表です。あとは、軽い要望など。
RFC のテキストを Hyper Estraier でインデキシングしてみました。テキストファイルのみで 194M です。3992 ドキュメントあるようなので、1ドキュメントあたり 50KB ということかな。約6分で終わりました。
$ du -h RFC/ 194M RFC $ estcmd gather -il ja -cs 256 rfc/ RFC/ > rfc.txt & $ du -h rfc/ 87M rfc/_idx 744K rfc/_attr/0001 744K rfc/_attr/0002 744K rfc/_attr/0003 2.2M rfc/_attr 7.1M rfc/_text/0001 6.9M rfc/_text/0002 7.1M rfc/_text/0003 7.0M rfc/_text/0004 7.5M rfc/_text/0005 7.2M rfc/_text/0006 6.4M rfc/_text/0007 49M rfc/_text 140M rfc $ estcmd optimize rfc/ > rfc.txt & $ du -h rfc/ 55M rfc/_idx 284K rfc/_attr/0001 288K rfc/_attr/0002 288K rfc/_attr/0003 868K rfc/_attr 7.0M rfc/_text/0001 6.8M rfc/_text/0002 7.0M rfc/_text/0003 6.9M rfc/_text/0004 7.4M rfc/_text/0005 7.1M rfc/_text/0006 6.3M rfc/_text/0007 49M rfc/_text 105M rfc
ちゃんと圧縮が有効になっているようです。よかった。
前回、調子乗って行っていた100万件のニュース記事のインデキシングですが、9時間ほど掛かりました。これは、月別に差分インデキシングを行ったからかもしれません。合計で 1.0G ほどかな。
$ du -h est/ 2.0G est/_idx 133M est/_attr/0001 133M est/_attr/0002 133M est/_attr/0003 399M est/_attr 125M est/_text/0001 125M est/_text/0002 125M est/_text/0003 126M est/_text/0004 125M est/_text/0005 125M est/_text/0006 125M est/_text/0007 874M est/_text 3.2G est
最適化した後の容量がこんな感じ。最適化前は、なんか 5.0G 近くあったような気がする。
さすがに 3.0G くらいあるので厳しい感じ。特にソートが厳しい。インデキシングのときに、日付などのソート用のファイルを作っておけないかなぁ。と感じた。仕組みを良くわかってないのですが。
N-Gram は、日本語(マルチバイト文字)に対してのみ行われているようなので、インデキシングのときに、オプションで英字も N-Gram に出来るといいかも。インクリメンタル検索を有効にしたら、日本語で検索したときにゴミが増えまくったし。
今までどおり、月別に分けないとダメか。なんとなく 1164348 documents って、今のところ Hyper Estraier を使った、最大のドキュメント数なんじゃないかなぁ。とか思ったりも。開発者の方が、内部でもっとテストしてるか。
とりあえず、検索用のデーモン(or CGI)とかを作らないとなぁ。インデックスを分ける必要があるので、引数でインデックスを設定できるような CGI を。やっぱり HTTP で通信することばかり考えてます。効率的じゃないかorz
【関連記事】
・Hyper Estraier をお試し中 (2005年05月29日)
23:30 | コメント (3) | トラックバック | Technology
お好み焼きは断られた
雨は嫌いです。新聞屋も嫌いです。ということで、昨日(29日)の食事内容です。
昼は、うどんを食べました。そろそろ飽きてくるかも、
夜は、お好み焼きを食べようかと思ったのですが、予約がいっぱいとのことで追い出されました。なので、民芸に行ってきました。お腹いっぱい。
自宅 (昼)
うどん
民芸 (夜)
天ざるうどん