« 毎日新聞と琉球新報の変更に対応しました | メイン | 少しぶり返したかな »

2008年03月31日

学術機関リポジトリ横断検索構想

Development の話題かもしれませんが、構想は Toshokan に書くということで。

開発中の学術機関リポジトリ横断検索

学術機関リポジトリの横断検索を開発します。横断検索を実装した暁には、フィード(RSS)出力機能を付けたいと思います。

宣言した通り開発に着手しました(現実逃避とも言います)。リポジトリシステムに DSpace を採用している機関(64機関)を収集し、約28万件のデータ(タイトルと URL のみ)が集まっています。また、冒頭のスクリーンショットの通り、タイトルで検索できる仕組みを作成してみました。

今後はメタデータの収集を行いますが、予備調査では、各機関のメタデータがまちまちなので統合が難しそうな予感。まずは、使われている要素名の統計を取るところからですね。その後、統合ルールを決めたいと思います。

現在調査中ですが、メタデータ交換プロトコル OAI-PMH を利用すればクロールが楽になりそう(ListIdentifiers で全リソースの識別子を取得できる模様)。各リソースの情報は、限定子相当が明示されていない点がアレなので、利用しにくいのですが(オリジナルのタイトルや翻訳のタイトルが dc:title で区別されない)。各リソースの情報は、ルールを作成して HTML から抽出する方が良さそうな感じです。

学術機関リポジトリ横断検索ですが、各リポジトリの横断検索にとどまらず、インターネット上に公開されている論文などを登録できる仕組みも設けたいと思っています。論文 PDF の URL と、数要素のメタデータを登録して貰うイメージです。登録は手動になるので、何らかのインセンティブを提供したいのですが、妙案は未だ浮かばず…。

JuNii+ 機関リポジトリポータル
筑波大学学内プロジェクト 機関リポジトリ横断検索

機関リポジトリの横断検索は、上記の通り既に実現されています。開発している横断検索システムは後発ですから、先発のインタフェースや機能を検証しながら開発を進めていきます。

あ。各リポジトリのデータを収集していればわかるのですが、リソースの種類は非常にカオス。ある大学はシラバスの情報ばかりだったり、ある大学は論文ばかりだったり。各機関のポリシーのようなものが垣間見えて面白いです。

【関連記事】
横断検索の実現方法とか (2008年03月22日)

【関連情報】
・機関リポジトリ一覧 - 学術機関リポジトリ構築連携支援事業 - NII
 http://www.nii.ac.jp/irp/list/

2008年03月31日 23:57 | Toshokan

トラックバック

コメント