« 米を久しぶりに炊いた | メイン | そろそろ寝ようかな »
2005年05月20日
Encode と Unicode::Japanese (2)
Encode と Unicode::Japanese を過去に取り上げたのだけど、また調べてみた。というか、軽くベンチマークを取ってみた。
UTF-8 -> Shift_JIS -> EUC-JP -> UTF-8 -> ...
の変換を、1000回行ったときの time を取ってみました。結構適当なので、参考程度に。
Encode
real 0m0.352s user 0m0.320s sys 0m0.010s
Unicode::Japanese
real 0m1.189s user 0m1.150s sys 0m0.000s
結果から言うと Encode の方がいいのだけど、僕は、一部で Unicode::Japanese を使うことにした。
UTF-8 -> EUC-JP の変換が、標準モジュールである Encode を使うと、うまくできない。「〜」が変換できずに ? に置き換わってしまうんだよね。逆を試しても変な感じ。というか UTF-8 が絡むとダメだと思う。
Unicode::Japanese を使うと UTF-8 -> EUC-JP がうまく変換できていい感じ。バックグラウンドで動くクローラーは、全部 Unicode::Japanese を使おうかな。バックグラウンドに限らず使う方が良いかもしれない。
文字コードの問題は、悩める。
【関連記事】
・Encode と Unicode::Japanese (2005年01月08日)
2005年05月20日 01:12 | Programming