« 2005年07月04日 | メイン | 2005年07月06日 »
2005年07月05日
総合演習
今年も情報特別演習を履修しています。ただ、教員免許状の取得を目指しているので、教職科目の総合演習という名になってます。専門基礎科目がやばいので、専門基礎選択の 情報特別演習II にしておけばよかったと、ちょっと後悔。
今年の題材は、自然言語処理で。自然言語処理といっても範囲は広いので、とりあえずテキスト分類に絞ってみました。評判情報の抽出とかもやってみたいですけど。今年の目標は、自然言語処理とは何か?ということを理解しつつ、慣れる。ということ。
今までに数回面談し、資料を紹介して頂いたのでそのリストを。
・RSS フィード作成のためのニュース記事タイトルの抽出手法 (言語処理学会 第11回年次大会 発表論文集 2005年3月)
・情報意味論(第8回) ベイズ学習 (櫻井研究室 情報意味論の講義資料)
・多重トピックテキストの確率モデル-テキストモデル研究の最前線-(2) (情報処理 45巻3号 2004年2月)
・多重トピックテキストの確率モデル-テキストモデル研究の最前線-(1) (情報処理 45巻2号 2004年2月)
・大規模テキスト分類 (言語処理学会 第9回年次大会 発表論文集 2003年3月)
・文書分類への二次元クラスタリングの適用 (松本研究室 研究発表一覧/2002)
・情報論的学習理論とその応用:テキスト分類 - 学習理論の「見本市」 - (情報処理 42巻1号 2001年1月)
他は、奥村研究室の blogWatcher 関連発表論文 や、ニュース記事など。
・言語と心理の統計―ことばと行動の確率モデルによる分析 統計科学のフロンティア 10 (甘利 俊一 / 岩波書店)
という書籍も貸していただいたのですが、面白そうだったので、自分で買ってしまいました。
まぁ。こんな感じでボチボチやってます。
18:42 | コメント (0) | トラックバック | University
MySQL 4.1 の日本語設定
現在 MySQL 3.x を使っていますが、今後は CentOS 4.1 に乗り換えるので、それに伴い MySQL 4.1.x を使うことになりそうです。
ソースコードから入れると柔軟に変更できるようですが、普通は RPM のをそのまま使うので、その設定でうまく使う方法を考えないといけない。
どの辺が変わったかは、他のページを見ていただくとして、とりあえず、設定が柔軟になったのです。あまりにも柔軟に設定できるようになってしまったので、初期設定では、日本語を扱いにくくなってます。
俺 UTF-8 をずっと使ってるもーん。という方は、そのままでもいけると思う。
僕は、昔(?)から EUC を使ってるんですよね。なので、なかなか UTF-8 に乗り換える機会が無い。ここで乗り換えようかと思ったのだけど、結局 EUC で行きそうです。
/etc/my.cnf の変更
[mysqld] old_passwords=1 default-character-set=ujis character-set-server=ujis [client] default-character-set=ujis [mysql] default-character-set=ujis [mysqldump] default-character-set=ujis
ちょっと、変更しすぎたかもしれないけど。こんな感じに変更してる。
Perl の DBD::mysql での呼び出し
$dbh = DBI->connect('DBI:mysql:table:host;mysql_read_default_file=/etc/my.cnf', 'user', 'pass');
コネクション毎に設定が変更できるなんて、知らなかった。
内部での保存形式が UTF-8 になった影響は、まだわかりません。後々調べないと。
【関連情報】
・MySQL 4.1 日本語環境設定方法 (キャラクタセット設定方法)
http://iandeth.dyndns.org/mt/ian/archives/000108.html
18:20 | コメント (5) | トラックバック | Technology
少ない食事をモスで
お腹すいた。ということで、昨日(4日)の食事内容です。
夜は、モスでいつものを食べる。それだけでは足らないと思うので、モスチキンも追加した。うーむ。偏りつつあるなぁ。
モスバーガー (夜)
いつもの, モスチキン