« あなたのモテ度採点します Ver.2 | メイン | マッチ演算子 or index »

2004年11月02日

Search Keywords の集計を正確に

CEEK.JP NEWS の Search Keywords の集計を少々厳しくしてみました。

1. 最新1000件の検索キーワードを含む検索履歴を集計
2. クローラーからのアクセスを除く
3. 解析対象内での同IPによる同キーワードの検索を除外

こんな感じなのですが、 (3) の導入で結構統計がより正確になりました。これがどういう意味なのかというと、同じキーワードで違う分野を検索しても統計に含まれないということです。もちろん、最新1000件以内に何度同じキーワードで検索しても、統計に含まれません。

Yahoo! JAPAN かなんかの冊子に、検索されるほとんどのキーワードは、1日1回しか検索されない。ということらしい。結果的に、検索頻度はが各々低くなっているので正しいのじゃないかな。地震があったときは、地震のキーワードが 30% くらい占めていたのだけど、いまの集計方法でも同じくらいいくかなぁ。もうちょっと早く、集計方法を改めたらと思って、微妙に後悔していますw

Hot Keywords もさっさと分野別の集計を行うか。そうしたら RSS を配信する方向だったので。あと、解析は最新100件のニュースに絞っているのだけど、やはり日付別の統計や時間ごと(直前1時間のとか)の方がいいかな。

2004年11月02日 20:24 | Development

トラックバック

コメント

>検索されるほとんどのキーワードは、1日1回しか検索されない
このへんにもzipfの法則が成り立ちそうな感じが。

投稿者 いはら : 2004年11月02日 22:57

>> いはら さん
どんな法則かよくわからないです。調べてみるか。

「容疑者」「男性」というキーワードが上位に来る理由を調べてみたところ、香田さんの殺害ビデオを探している人からのアクセスの模様。その精神が良く理解できん。
(Google経由ってことね)

投稿者 ceekz : 2004年11月03日 01:31

Google の検索結果経由は、集計しないようにしました。
アクセス数がいっぱいあれば無視できる数字なんだけどね。そんなことも無いので、除外しています。

投稿者 ceekz : 2004年11月03日 07:43