« 用語が全然わからない | メイン | 7月4日 ネット三昧 »

2008年07月04日

ウェブの言語分布の資料はありますか?

昨日、研究室で出ていた話題。

機械翻訳の研究を行っているグループが、イントロでウェブの言語分布(自然言語の分布ね)を挙げるのですが、その情報が少々古い(2003年発表のデータ)。新しいデータは無いのかな?と言うお話。

というエントリーを書こうと思ったら、研究室の中の人が見つけた!早い!

全世界のWebサイトの言語分布と日本語を含むWebサイトのリンク・地理的位置の解析

本稿では,2004年1月〜2006年8月の間に収集された107億Webページに対し, 言語分布,TLD分布等の解析を行うと共に,2006年9月以降に収集された日本語Webページを1ページ以上含むWebサーバから発信される約3億のWebページに対して,Webサーバの地理的な位置を特定し地理上での分布・リンク特徴抽出を行った.

4ヶ月前に発表されたペーパーだけど、対象自体は新しくて2年前なのか。大量のデータ解析には、困難が付きまといますね。

他にもありましたら、是非教えてください!

あと…。Google, Yahoo, Ask, Baidu など、検索エンジン各社が自社で抱える検索インデックスの言語分布を公開してくれると嬉しいですね。20%ルールのある Google や、研究支援に力を入れている Yahoo! JAPAN に期待ということで。

2008年07月04日 11:08 | Etc

トラックバック

コメント

webダークマターでも言及しましたが、
たぶん、真の意味で正確な統計は誰にも分からないような気がします.....

アクセス制限されていない、万人がアクセス可能なコンテンツだけに限定しても、
たぶん....

投稿者 tak : 2008年07月04日 18:23

>> tak さん
Googleが「日本語のページを検索」で検索できるページがどれだけあるかを纏めてくれるだけでも嬉しいのですけどね…。

投稿者 ceekz : 2008年07月05日 14:24