« ラーメンは、当分食べない予定 | メイン | 英語のリスニングはさっぱり »
2005年12月04日
はてブニュース
それは、1ヶ月もの前のことでした。
はてブをニュースサイト風に扱う
と、とあるサイトで書かれていました。
そんなことより、リンク張ったら公開前にばれてしまいましたorz 公開されているページは、共有されるべきだと思っているので、別に悪いわけなんじゃないんだけど… いきなりリンクや大量のはてポありがとうございます!ということで、そんな名言を発したのは tomozo3氏 でした。
ここから新たな伝説が始まったのです。
ニュースが掲載される仕組みはご存知ですか?僕も良く知らなかったりするのですが、記者が記事を書いて、編集者が編集して、デスクが掲載の可否を決める。みたいな感じじゃないかと思っています。デスクと編集者は同じ人かもしれない。
ということは、デスクが GO!! といわない限り、ニュースは掲載されないわけ。また、記者は常に最新の出来事を記事にするわけではない。あのときのことを今更かよ?という記事を見かけることが多いのではないか。これは仕方が無い。記者が興味を持って、デスクが OK を出したのだから。
この仕組みを、はてなブックマークでも考えてみた。
出来事 ... どこかのページ
記者 ... 初めて「出来事」をブックマークした人
デスク ... 「出来事」の被ブックマーク数が5を超えたという現象
残念ながら、編集者は居ない。その代わり、コメントをつける人は居る。はてブのコメントを見れば、その「出来事」に関する「記者」や「デスク」などのコメントがついている。
まぁ。どうでもいいや。
とりあえず、はてなブックマークをニュースサイトと見立てたらどうなるのか?ということを、やってみたわけだ。当然、ニュースサイトなので、記事の分類もニュースサイト風にしないとダメだ。「はてな」なんていう分類は、ニュースサイトに無い。あるとすれば、癒着の結果でしかないのだ!
分類には、前に作って、さっぱり人気の無い Text Classification with CEEK.JP NEWS を使いました。分類精度は、大体 81.4% くらい。目的は、電脳に偏る中、他の分野の記事を見つけ出す。ということですけどね。
また、最近の「記者」はサボり気味という話も耳にする。「記者クラブ」という温泉に浸かってしまっていて、新しい「出来事」を探そうとしないらしい。「記者クラブ」発の記事は、独自性に乏しいのがほとんどらしいですよ。
記者クラブ ... はてブで良くブックマークされるサイト
ということで、そんな「記者クラブ」発の記事は、人目で区別できるようにした。良くブックマークされるサイトのデータは、結構前に作って、そろそろ下火な Hatena Bookmarker Ranking のデータを使用した。ホスト名ランキングで、「人気エントリー」となりやすいホスト名をリスト化してある。
話は少し変わって、先ほど、電通大の 井原さん と話をして、もっと面白いアイデアが無いのか?というやり取りをしていた中で、ブックマークには、必ず バースト があるはず。という話が出た。
それは、それまでは見向きもされていなかったサイトが、突然、たくさんブックマークされるということである。もちろん、サイトに限らずとも、自然言語的に、ある事柄を取り上げたエントリーが連続してブックマークされるということも挙げられる。モヒカンや無断リンク禁止論は、記憶に新しい。
長くなってきたな。
そろそろ、サイトの説明をしておくか。
はてブニュースは、はてなブックマークの 注目エントリー と 人気エントリー を15分おきにクロールしています。これまで書いた内容からすれば、前者の監視のみで良いのですが、なんとなく、両方を監視対象にしたほうが良いと判断しました。
15分おきにクロールして、新しい URL が無いか監視しているわけですね。新しいのが見つかったら、そのページにアクセスして、コンテンツを取得します。そのコンテンツを分類器に通して分野を決定していると。
その他に分類されているものは、コンテンツの取得失敗、日本語サイトでない、文字コード取得失敗が挙げられます。これは、どうしようもないのでどうもしませんorz
一覧は、非常にシンプルにしました。というか、あれだけしかデータは保持していません。被ブックマーク数やタグの監視は、はてなに多くのリクエストを送ることになるので、見送りました。アクセス拒否されたら、はてなで遊べませんし。
こんなもんかな。
ニュースとブログを色分けした方が良いかもしれない。また、2ちゃんねるのスレッド情報は持っているので、2ちゃんねるのスレッドに似ているページは「2ちゃんねる系」なんていうタグをつけてもいいかな。
と、出来ることややりたいことは色々あるけど、あまりこだわると公開できなくなってしまうので、この辺で公開ということで。
「はてブニュース」というよりは「ニュースサイト風はてブ」ですね。デザインが一番だるかった。ニュースサイト風のページを作るときは、このデザインを流用することにする。
【関連情報】
・はてブニュース
http://labs.ceek.jp/hbnews/
2005年12月04日 16:15 | Development
トラックバック
このリストは、次のエントリーを参照しています: はてブニュース:
» 「はてブ」が新聞社サイトを殺す可能性 from 踊る新聞屋†。
先日から右サイドバーの目立つとこに「ADD TO Hatena::RSSボタン」をつけてみた。 「はてな」の使い方はいまいち分からなかったのだけど、最近「はて [続きを読む]
トラックバック時刻: 2006年01月02日 03:46
コメント
こういうのもおもしろいですねぇ。
見た瞬間RSSが欲しいと思ったのはリーダー使いのサガなんですかね〜(笑)
はてなブックマークの注目エントリーと人気エントリーもRSSがないのがもったいないなぁと思ってたので。
あ、あとCEEK.JP NEWSのHot NewsもRSSあるといいと前から思ってたので、感想ということで。
投稿者 ちくたく : 2005年12月04日 19:37
灰色はおかしい。
投稿者 mala : 2005年12月05日 08:59
やっぱおかしくないかも。
投稿者 mala : 2005年12月05日 11:07
期間を指定して、その中でブックマーク数が多い順にソートして見られるようにして下さいorz。自分としては、やっぱり 最新<人気 の方が重要ですかね。
投稿者 Ryo : 2005年12月05日 11:30
>> ちくたく さん
はてなでも RSS は配られていると思いますよ。
はてブニュースで RSS を配るつもりは無かったんですが、需要がありそうなので検討します。
>> Ryo さん
僕がはてなに JOIN しない限り無理だと思いますー。
投稿者 ceekz : 2005年12月05日 21:20
あ、確かにありますね。
以前見たときはなかったような…見落としてただけかしら。
ありがとうございます。
投稿者 ちくたく : 2005年12月07日 22:35