« 2005年07月04日 | メイン | 2005年07月06日 »

2005年07月05日

総合演習

今年も情報特別演習を履修しています。ただ、教員免許状の取得を目指しているので、教職科目の総合演習という名になってます。専門基礎科目がやばいので、専門基礎選択の 情報特別演習II にしておけばよかったと、ちょっと後悔。

今年の題材は、自然言語処理で。自然言語処理といっても範囲は広いので、とりあえずテキスト分類に絞ってみました。評判情報の抽出とかもやってみたいですけど。今年の目標は、自然言語処理とは何か?ということを理解しつつ、慣れる。ということ。

今までに数回面談し、資料を紹介して頂いたのでそのリストを。

RSS フィード作成のためのニュース記事タイトルの抽出手法 (言語処理学会 第11回年次大会 発表論文集 2005年3月)
情報意味論(第8回) ベイズ学習櫻井研究室 情報意味論の講義資料
多重トピックテキストの確率モデル-テキストモデル研究の最前線-(2) (情報処理 45巻3号 2004年2月)
多重トピックテキストの確率モデル-テキストモデル研究の最前線-(1) (情報処理 45巻2号 2004年2月)
・大規模テキスト分類 (言語処理学会 第9回年次大会 発表論文集 2003年3月)
文書分類への二次元クラスタリングの適用松本研究室 研究発表一覧/2002
情報論的学習理論とその応用:テキスト分類 - 学習理論の「見本市」 - (情報処理 42巻1号 2001年1月)

他は、奥村研究室の blogWatcher 関連発表論文 や、ニュース記事など。

言語と心理の統計―ことばと行動の確率モデルによる分析 統計科学のフロンティア 10 (甘利 俊一 / 岩波書店)

という書籍も貸していただいたのですが、面白そうだったので、自分で買ってしまいました。

まぁ。こんな感じでボチボチやってます。

18:42 | コメント (0) | トラックバック | University

MySQL 4.1 の日本語設定

現在 MySQL 3.x を使っていますが、今後は CentOS 4.1 に乗り換えるので、それに伴い MySQL 4.1.x を使うことになりそうです。

ソースコードから入れると柔軟に変更できるようですが、普通は RPM のをそのまま使うので、その設定でうまく使う方法を考えないといけない。

どの辺が変わったかは、他のページを見ていただくとして、とりあえず、設定が柔軟になったのです。あまりにも柔軟に設定できるようになってしまったので、初期設定では、日本語を扱いにくくなってます。

俺 UTF-8 をずっと使ってるもーん。という方は、そのままでもいけると思う。

僕は、昔(?)から EUC を使ってるんですよね。なので、なかなか UTF-8 に乗り換える機会が無い。ここで乗り換えようかと思ったのだけど、結局 EUC で行きそうです。

/etc/my.cnf の変更

[mysqld]
old_passwords=1

default-character-set=ujis
character-set-server=ujis

[client]
default-character-set=ujis

[mysql]
default-character-set=ujis

[mysqldump] 
default-character-set=ujis

ちょっと、変更しすぎたかもしれないけど。こんな感じに変更してる。

Perl の DBD::mysql での呼び出し

$dbh = DBI->connect('DBI:mysql:table:host;mysql_read_default_file=/etc/my.cnf', 'user', 'pass');

コネクション毎に設定が変更できるなんて、知らなかった。

内部での保存形式が UTF-8 になった影響は、まだわかりません。後々調べないと。

【関連情報】
・MySQL 4.1 日本語環境設定方法 (キャラクタセット設定方法)
 http://iandeth.dyndns.org/mt/ian/archives/000108.html

18:20 | コメント (5) | トラックバック | Technology

少ない食事をモスで

お腹すいた。ということで、昨日(4日)の食事内容です。
夜は、モスでいつものを食べる。それだけでは足らないと思うので、モスチキンも追加した。うーむ。偏りつつあるなぁ。

モスバーガー (夜)
 いつもの, モスチキン

18:17 | コメント (0) | トラックバック | Meal