« あなたのモテ度採点します Ver.2 | メイン | マッチ演算子 or index »
2004年11月02日
Search Keywords の集計を正確に
CEEK.JP NEWS の Search Keywords の集計を少々厳しくしてみました。
1. 最新1000件の検索キーワードを含む検索履歴を集計
2. クローラーからのアクセスを除く
3. 解析対象内での同IPによる同キーワードの検索を除外
こんな感じなのですが、 (3) の導入で結構統計がより正確になりました。これがどういう意味なのかというと、同じキーワードで違う分野を検索しても統計に含まれないということです。もちろん、最新1000件以内に何度同じキーワードで検索しても、統計に含まれません。
Yahoo! JAPAN かなんかの冊子に、検索されるほとんどのキーワードは、1日1回しか検索されない。ということらしい。結果的に、検索頻度はが各々低くなっているので正しいのじゃないかな。地震があったときは、地震のキーワードが 30% くらい占めていたのだけど、いまの集計方法でも同じくらいいくかなぁ。もうちょっと早く、集計方法を改めたらと思って、微妙に後悔していますw
Hot Keywords もさっさと分野別の集計を行うか。そうしたら RSS を配信する方向だったので。あと、解析は最新100件のニュースに絞っているのだけど、やはり日付別の統計や時間ごと(直前1時間のとか)の方がいいかな。
2004年11月02日 20:24 | Development
トラックバック
コメント
>検索されるほとんどのキーワードは、1日1回しか検索されない
このへんにもzipfの法則が成り立ちそうな感じが。
投稿者 いはら : 2004年11月02日 22:57
>> いはら さん
どんな法則かよくわからないです。調べてみるか。
「容疑者」「男性」というキーワードが上位に来る理由を調べてみたところ、香田さんの殺害ビデオを探している人からのアクセスの模様。その精神が良く理解できん。
(Google経由ってことね)
投稿者 ceekz : 2004年11月03日 01:31
Google の検索結果経由は、集計しないようにしました。
アクセス数がいっぱいあれば無視できる数字なんだけどね。そんなことも無いので、除外しています。
投稿者 ceekz : 2004年11月03日 07:43