« 検索会議 〜 全体 | メイン | 検索会議 〜 お土産 »

2005年03月06日

検索会議 〜 プレゼンテーション

Example. 10B documents

・20K/doc
 - 200T bytes
・Crawling once a day:
 - 8640 seconds / day
・Bandwidth needed:
 - 20G bits / second
・Searching in parallel:
 - 1M docs/machine: 10000 machines
・Response time:
 - less than 100ms

Ranking Matching Results

・Test
 - Body
 - Title
 - Meta text
 - URL words
 - Anchor Text
・Proximity
 - phrases
・Links
・Language
・Region
 - English: US, Canada, Australia, South Africa, ...

Spam

・Intentionally try to mislead the search engines
 - Keyword spam
 - Invisible text
 - Link spam

メモ的なものなので、説明は省略です。最初のは、例えば100億ページのサイトをクローリングしたら?という話題です。あと、3つしかないのは、これらが特に興味を持って聞けたからです。

2005年03月06日 21:12 | Events

トラックバック

コメント