« ラーメンは、当分食べない予定 | メイン | 英語のリスニングはさっぱり »

2005年12月04日

はてブニュース

はてブニュース

それは、1ヶ月もの前のことでした。

はてブをニュースサイト風に扱う

と、とあるサイトで書かれていました。

そんなことより、リンク張ったら公開前にばれてしまいましたorz 公開されているページは、共有されるべきだと思っているので、別に悪いわけなんじゃないんだけど… いきなりリンクや大量のはてポありがとうございます!ということで、そんな名言を発したのは tomozo3氏 でした。

ここから新たな伝説が始まったのです。

ニュースが掲載される仕組みはご存知ですか?僕も良く知らなかったりするのですが、記者が記事を書いて、編集者が編集して、デスクが掲載の可否を決める。みたいな感じじゃないかと思っています。デスクと編集者は同じ人かもしれない。

ということは、デスクが GO!! といわない限り、ニュースは掲載されないわけ。また、記者は常に最新の出来事を記事にするわけではない。あのときのことを今更かよ?という記事を見かけることが多いのではないか。これは仕方が無い。記者が興味を持って、デスクが OK を出したのだから。

この仕組みを、はてなブックマークでも考えてみた。

出来事 ... どこかのページ
記者 ... 初めて「出来事」をブックマークした人
デスク ... 「出来事」の被ブックマーク数が5を超えたという現象

残念ながら、編集者は居ない。その代わり、コメントをつける人は居る。はてブのコメントを見れば、その「出来事」に関する「記者」や「デスク」などのコメントがついている。

まぁ。どうでもいいや。

とりあえず、はてなブックマークをニュースサイトと見立てたらどうなるのか?ということを、やってみたわけだ。当然、ニュースサイトなので、記事の分類もニュースサイト風にしないとダメだ。「はてな」なんていう分類は、ニュースサイトに無い。あるとすれば、癒着の結果でしかないのだ!

分類には、前に作って、さっぱり人気の無い Text Classification with CEEK.JP NEWS を使いました。分類精度は、大体 81.4% くらい。目的は、電脳に偏る中、他の分野の記事を見つけ出す。ということですけどね。

また、最近の「記者」はサボり気味という話も耳にする。「記者クラブ」という温泉に浸かってしまっていて、新しい「出来事」を探そうとしないらしい。「記者クラブ」発の記事は、独自性に乏しいのがほとんどらしいですよ。

記者クラブ ... はてブで良くブックマークされるサイト

ということで、そんな「記者クラブ」発の記事は、人目で区別できるようにした。良くブックマークされるサイトのデータは、結構前に作って、そろそろ下火な Hatena Bookmarker Ranking のデータを使用した。ホスト名ランキングで、「人気エントリー」となりやすいホスト名をリスト化してある。

話は少し変わって、先ほど、電通大の 井原さん と話をして、もっと面白いアイデアが無いのか?というやり取りをしていた中で、ブックマークには、必ず バースト があるはず。という話が出た。

それは、それまでは見向きもされていなかったサイトが、突然、たくさんブックマークされるということである。もちろん、サイトに限らずとも、自然言語的に、ある事柄を取り上げたエントリーが連続してブックマークされるということも挙げられる。モヒカンや無断リンク禁止論は、記憶に新しい。

長くなってきたな。

そろそろ、サイトの説明をしておくか。

はてブニュースは、はてなブックマークの 注目エントリー人気エントリー を15分おきにクロールしています。これまで書いた内容からすれば、前者の監視のみで良いのですが、なんとなく、両方を監視対象にしたほうが良いと判断しました。

15分おきにクロールして、新しい URL が無いか監視しているわけですね。新しいのが見つかったら、そのページにアクセスして、コンテンツを取得します。そのコンテンツを分類器に通して分野を決定していると。

その他に分類されているものは、コンテンツの取得失敗、日本語サイトでない、文字コード取得失敗が挙げられます。これは、どうしようもないのでどうもしませんorz

一覧は、非常にシンプルにしました。というか、あれだけしかデータは保持していません。被ブックマーク数やタグの監視は、はてなに多くのリクエストを送ることになるので、見送りました。アクセス拒否されたら、はてなで遊べませんし。

こんなもんかな。

ニュースとブログを色分けした方が良いかもしれない。また、2ちゃんねるのスレッド情報は持っているので、2ちゃんねるのスレッドに似ているページは「2ちゃんねる系」なんていうタグをつけてもいいかな。

と、出来ることややりたいことは色々あるけど、あまりこだわると公開できなくなってしまうので、この辺で公開ということで。

「はてブニュース」というよりは「ニュースサイト風はてブ」ですね。デザインが一番だるかった。ニュースサイト風のページを作るときは、このデザインを流用することにする。

【関連情報】
・はてブニュース
 http://labs.ceek.jp/hbnews/

2005年12月04日 16:15 | Development

トラックバック

このリストは、次のエントリーを参照しています: はてブニュース:

» 「はてブ」が新聞社サイトを殺す可能性 from 踊る新聞屋†。
 先日から右サイドバーの目立つとこに「ADD TO Hatena::RSSボタン」をつけてみた。 「はてな」の使い方はいまいち分からなかったのだけど、最近「はて [続きを読む]

トラックバック時刻: 2006年01月02日 03:46

コメント

こういうのもおもしろいですねぇ。
見た瞬間RSSが欲しいと思ったのはリーダー使いのサガなんですかね〜(笑)
はてなブックマークの注目エントリーと人気エントリーもRSSがないのがもったいないなぁと思ってたので。

あ、あとCEEK.JP NEWSのHot NewsもRSSあるといいと前から思ってたので、感想ということで。

投稿者 ちくたく : 2005年12月04日 19:37

灰色はおかしい。

投稿者 mala : 2005年12月05日 08:59

やっぱおかしくないかも。

投稿者 mala : 2005年12月05日 11:07

期間を指定して、その中でブックマーク数が多い順にソートして見られるようにして下さいorz。自分としては、やっぱり 最新<人気 の方が重要ですかね。

投稿者 Ryo : 2005年12月05日 11:30

>> ちくたく さん
はてなでも RSS は配られていると思いますよ。
はてブニュースで RSS を配るつもりは無かったんですが、需要がありそうなので検討します。

>> Ryo さん
僕がはてなに JOIN しない限り無理だと思いますー。

投稿者 ceekz : 2005年12月05日 21:20

あ、確かにありますね。
以前見たときはなかったような…見落としてただけかしら。
ありがとうございます。

投稿者 ちくたく : 2005年12月07日 22:35