« ノーカントリー | メイン | がりがりプログラミングを »
2008年04月05日
NII は DC の限定子を指示した方が良いと思う
学術機関リポジトリ横断検索の開発を続けていますが、メタデータの要素名の統一の無さにうんざりしてきました。先人に学ぶということで、既に実装されている JuNii+ の仕様を参考にしています。
JuNii+のハーベスタは次のようなリクエストにより定期的にハーベスティングを行います。
JuNii+ のクロールは OAI-PMH を利用し、独自規格の junii2 形式のデータを収集しているようです。
junii2とは、国立情報学研究所が機関リポジトリの相互運用性確保のために策定したメタデータ・フォーマットです。
junii2 は oai_dc に代わる独自規格のようです。また、ウェブ公開用には Dublin Core (以下 DC)も定義されています(内部データの管理用なので DC といえるかも謎ですが)。今回の横断検索では、公開用の DC メタデータを利用しようと考えていました。理由は、他のメタデータ(junii2, oai_dc)とは違い、限定子が明記されているからです。
・Capability-based egress network access control by using DNS server (DC)
・Capability-based egress network access control by using DNS server (junii2)
・Capability-based egress network access control by using DNS server (oai_dc)
上記の例で言えば、著者が creator で纏められているか、限定子を加えた contributor.author, contributor.alternative で区別されるかどうかの違いがあります。小さな違いのように見えるかもしれませんが、属性検索の実装などを考えると、結構大きな違いです。解りやすいのは oai_dc では、タイトルに類するもの(本タイトル, 翻訳タイトル etc...)は title で纏められています。この場合、検索結果のタイトルにどのタイトルを採用するのかシステムが迷います(DC, junii2 などからも取れば解決しますが)。
DC の要素名は、デフォルトで設定されているもの以外は、リポジトリ設置者が拡張できるようです。この拡張が、非常に曲者なのです。
筑波大学の場合は limedio.id などが独自に定義されています。この要素は、導入している図書館システム LIMEDIO で振られた ID を示しているようです。このように、図書館独自のシステムに関する要素であればいいのですが、他にも type.nii が振られていますね。この要素は、先ほどの junii2 の NIItype と対応しています。
oai_dcにダムダウンさせるときの行き先
oai_dc で NIItype を表記するときは type を使うようにとの指示があります。さて、ウェブ表示用の DC の時は、なんと表記するのでしょうか?特に決まっていないので type, type.nii, type.niitype などが混在しています。
junii2 で定めた形式は、 DC で表記する際の限定子も示して欲しいのですが、そこまで踏み込んでいません。内部形式といえども、ウェブにメタデータ相当で出力される場合は、できるだけ統一して欲しいものですね。
DC をクロールしようと思っていたのですが、現在は JuNii+ と同じく junii2 をクロールしようかと傾いています。先ほど挙げた著者の区別ですが、リポジトリによっては contributor.alternative を活用していない例もあり、思ったほど限定子で区別できないとも思われるからです。
悩む悩む。
本日のまとめ。
・JuNii+ では junii2 形式のデータを集めています
・junii2 では DC 代替のための限定子が示されていません
・リポジトリごとに DC の限定子が乱立しています
前回、学術機関リポジトリ検索の開発中スクリーンショットを掲載しました。あのスクリーンショットで、本当に開発中と判りましたか?単なる HTML で記述しただけの物と思いませんでしたか?
と書きましたが、本当に動いています。開発中なので不特定多数に公開したくないのですが、インタフェース改善やアルファテストにお付き合いいただける方はご連絡ください。連絡先は、トップの右下に記載しています。開発中 URL をブログに記載するとか、はてなブックマークに登録するとかしなければ何をしていただいても構いませんので(日記に感想を書いていただいても良いです)、お気軽にご連絡ください。
【関連記事】
・学術機関リポジトリ横断検索構想 (2008年03月31日)
【関連情報】
・DSpace システム説明書: 目次 - NII
http://www.nii.ac.jp/metadata/irp/dspace-docs-jp/
2008年04月05日 18:20 | Toshokan
トラックバック
コメント
NIIはお役所ですから、横断検索構想 なんて最初からないですよ。
というか、最近yoshidaさんのやってることとか見ると、
一応内部みないなわたくしのやってることとか、逆じゃないかとか思えてきました...
投稿者 tak : 2008年04月07日 21:26
>> tak さん
既にある形式の他に、新たに形式を定義するときは、既存の形式との対応を厳格に決めて欲しいのですよね。今回の junii2 は、国産規格なので、上手く立ち回らないと世界から孤立してしまう…。
自分の研究に結びつくか微妙なことばかりをしていて、今後の研究生活に不安を抱いています…。どうしたものか。
投稿者 ceekz : 2008年04月07日 21:51