セマンティック?ウェブと学术情报サービス@国立国会図书馆讲演会(2010.07.27)2. 国立情報学研究所 准教授 次世代のウェブとコミュニケーション セマンティックウェブ?ソーシャルウェブ 「ウェブがわかる本」岩波ジュニア新書 「セマンティック Web プログラミング」オライリー(監訳) 学術情報流通 CiNii :論文情報ナビゲータ 株式会社グルコース 取締役 インタラクションデザイン? UI デザイン 自己紹介:大向 一輝 3. 国立情報学研究所( NII ) 研究と事業の 2 本柱 学術情報インフラの整備機関 ネットワークサービス: SINET コンテンツサービス CiNii ? Webcat Plus ? KAKEN ? JAIRO… 4. CiNii とは 国内最大規模の論文検索?提供サービス NII-ELS+CJP+ NDL 雑索 +IR+ J-Stage/J@= 約 1300 万論文 書誌 DB NII-ELS ( 学協会誌 + 紀要 ) 約 350 万論文 本文 DB 発信 学協会?大学 研究者?学生の研究教育基盤 (電子図書館) (論文情報ナビゲータ) 電子化 6. CiNii 書誌データベース 自動?手動処理を組み合わせて書誌同定?統合 * 1 参考文献 / 被引用文献 の閲覧は制限あり。 * 2 重複データが統合されるため、単純合計とは一致しない。 データベース名 データ数 年間増加数 更新頻度 本文 料金 NII-ELS 学協会刊行物 約 350 万件 約 18 万件 週次 ○ 一部有料 NII-ELS 研究紀要 約 87 万件 約 3.5 万件 週次 △ 無料 引用文献索引データベース 書誌:約 154 万件 引用:約 1661 万件 書誌:約 14 万件 引用:約 161 万件 10 回 / 年 × 無料 *1 雑誌記事索引データベース 約 827 万件 約 40 万件 週次 × 無料 機関リポジトリ 約 30 万件 不定 週次 ○ 無料 J-Stage/ [email_address] 約 8 万件 不定 数回 / 年 ○ 無料 CiNii 合計 *2 約 1239 万件 約 70 万件 週次 10. CiNii のセマンティックウェブ対応 設計方針をどうするか? データ構造?語彙… 厳密性と利便性のトレードオフ 既存?独自? ウェブ API として考える できるだけ開発者が使いやすいように シンプルなデータ構造 ライブラリの普及状況を念頭に 世界標準に準拠 どういう用途に使ってもらいたいのか サービスの主要な機能に対応 11. CiNii ウェブ API 検索: OpenSearch RSS 1.0 (= RDF )と Atom 1.0 RSS/Atom 基本語彙+ Dublin Core ( Legacy ) 一般のブラウザ?フィードリーダーで扱えるように Prism Standard 書誌情報は国際標準に準拠( Nature など) 書誌: RDF Dublin Core + Prism Standard (書誌情報) XML 時代の語彙はリテラルを値に持つように FOAF (著者情報) RDF ならではの表現は RDF 時代の語彙で 独自語彙は使用しない はじめての試みだったため 12. CiNii ウェブ API 検索 RSS と書誌 RDF をつなぐ RDF の水準で整合性を持たせる 課題?問題点 RDF の世界と HTML の世界をどうつなぐか? 著者が空白ノード 14. CiNii 著者検索 NII 著者 ID (NRID) の導入 科研費番号+機械処理による著者への ID 付与 著者ごとに URI を発行(著者パーマリンク) NRID ベースの論文検索機能 著者名-> ID リスト->論文リスト API の提供 新たなデータ生成?管理モデル 研究成果の活用 ユーザーフィードバック 組織 機械 ユーザ 16. CiNii 著者検索 ALS ( Author Linking System ) i-Linkage ( NII 相澤教授)の大規模?実運用システム CPU32 コア?メモリ 320GB ?計算時間 5 日(全件処理) フィードバック(同一人物の報告) 機械処理だけで 100% の精度を得ることは不可能 あらかじめフィードバックを織り込んだシステム?アルゴリズム設計 例:過統合より未統合を指摘する方が簡単 実績: 6217 件( 4 月 1 日? 7 月 15 日) Researchmap 経由で研究者本人からのフィードバックも可能に 17. CiNii とセマンティックウェブ 他の情報源とのリンク NII のサービス: KAKEN ?研究者リゾルバー 外部のサービス: Wikipedia / DBpedia ? Freebase… 今度の展望 各種情報の ID ?パーマリンク化 組織名?キーワード リンクトデータの一部に Web NDLSH 「ことはぶ」