« 米を久しぶりに炊いた | メイン | そろそろ寝ようかな »

2005年05月20日

Encode と Unicode::Japanese (2)

Encode と Unicode::Japanese を過去に取り上げたのだけど、また調べてみた。というか、軽くベンチマークを取ってみた。

UTF-8 -> Shift_JIS -> EUC-JP -> UTF-8 -> ...
の変換を、1000回行ったときの time を取ってみました。結構適当なので、参考程度に。

Encode

real    0m0.352s
user    0m0.320s
sys     0m0.010s

Unicode::Japanese

real    0m1.189s
user    0m1.150s
sys     0m0.000s

結果から言うと Encode の方がいいのだけど、僕は、一部で Unicode::Japanese を使うことにした。

UTF-8 -> EUC-JP の変換が、標準モジュールである Encode を使うと、うまくできない。「〜」が変換できずに ? に置き換わってしまうんだよね。逆を試しても変な感じ。というか UTF-8 が絡むとダメだと思う。

Unicode::Japanese を使うと UTF-8 -> EUC-JP がうまく変換できていい感じ。バックグラウンドで動くクローラーは、全部 Unicode::Japanese を使おうかな。バックグラウンドに限らず使う方が良いかもしれない。

文字コードの問題は、悩める。

【関連記事】
Encode と Unicode::Japanese (2005年01月08日)

2005年05月20日 01:12 | Programming

トラックバック

コメント