« 検索会議 〜 全体 | メイン | 検索会議 〜 お土産 »
2005年03月06日
検索会議 〜 プレゼンテーション
Example. 10B documents
・20K/doc
- 200T bytes
・Crawling once a day:
- 8640 seconds / day
・Bandwidth needed:
- 20G bits / second
・Searching in parallel:
- 1M docs/machine: 10000 machines
・Response time:
- less than 100ms
Ranking Matching Results
・Test
- Body
- Title
- Meta text
- URL words
- Anchor Text
・Proximity
- phrases
・Links
・Language
・Region
- English: US, Canada, Australia, South Africa, ...
Spam
・Intentionally try to mislead the search engines
- Keyword spam
- Invisible text
- Link spam
メモ的なものなので、説明は省略です。最初のは、例えば100億ページのサイトをクローリングしたら?という話題です。あと、3つしかないのは、これらが特に興味を持って聞けたからです。
2005年03月06日 21:12 | Events