狠狠撸

狠狠撸Share a Scribd company logo
セマンティック?ウェブと 学術情報サービス   国立情報学研究所( NII ) 大向 一輝
国立情報学研究所 准教授 次世代のウェブとコミュニケーション セマンティックウェブ?ソーシャルウェブ 「ウェブがわかる本」岩波ジュニア新書 「セマンティック Web プログラミング」オライリー(監訳) 学術情報流通 CiNii :論文情報ナビゲータ 株式会社グルコース 取締役 インタラクションデザイン? UI デザイン 自己紹介:大向 一輝
国立情報学研究所( NII ) 研究と事業の 2 本柱 学術情報インフラの整備機関 ネットワークサービス: SINET コンテンツサービス CiNii ? Webcat Plus ? KAKEN ? JAIRO…
CiNii とは 国内最大規模の論文検索?提供サービス NII-ELS+CJP+ NDL 雑索 +IR+ J-Stage/J@= 約 1300 万論文 書誌 DB NII-ELS ( 学協会誌 + 紀要 ) 約 350 万論文 本文 DB 発信 学協会?大学 研究者?学生の研究教育基盤 (電子図書館) (論文情報ナビゲータ) 電子化
CiNii 論文データベース 約 350 万論文の PDF 提供 ※ 2009.8 時点
CiNii 書誌データベース 自動?手動処理を組み合わせて書誌同定?統合 * 1   参考文献 / 被引用文献 の閲覧は制限あり。 * 2  重複データが統合されるため、単純合計とは一致しない。 データベース名 データ数 年間増加数 更新頻度 本文 料金 NII-ELS 学協会刊行物 約 350 万件 約 18 万件 週次 ○ 一部有料 NII-ELS 研究紀要 約 87 万件 約 3.5 万件 週次 △ 無料 引用文献索引データベース 書誌:約 154 万件 引用:約 1661 万件 書誌:約 14 万件 引用:約 161 万件 10 回 / 年 × 無料 *1 雑誌記事索引データベース 約 827 万件 約 40 万件 週次 × 無料 機関リポジトリ 約 30 万件 不定 週次 ○ 無料 J-Stage/ [email_address] 約 8 万件 不定 数回 / 年 ○ 無料 CiNii 合計 *2 約 1239 万件 約 70 万件 週次
アクセス数の推移 継続的な右肩上がり傾向 ウェブ API の急速な増加 2009.4 新 CiNii 公開 2007.4 Google 連携
セマンティックウェブの意義 ウェブ情報の構造化?組織化 コンピュータにとっての意味の曖昧性を除去し、自動処理の可能性を拡大する 横断検索?マッシュアップ 推論?人工知能 実現方法 ひとつのものごと?概念に対応する ID を与える URI ?パーマリンク 構造化フォーマットで表現する XML / RDF 表現内容は URI 同士の関係性
学術情報とセマンティックウェブ 学術情報分野の特徴 情報の構造化を生業とする職業集団?組織がある 研究者(大学?研究機関)?学会?図書館… 情報の構造化フォーマットが共有されている タイトル?著者名?抄録?本文?参考文献… フォーマットを変換するだけでセマンティックウェブ対応に
CiNii のセマンティックウェブ対応 設計方針をどうするか? データ構造?語彙… 厳密性と利便性のトレードオフ 既存?独自? ウェブ API として考える できるだけ開発者が使いやすいように シンプルなデータ構造 ライブラリの普及状況を念頭に 世界標準に準拠 どういう用途に使ってもらいたいのか サービスの主要な機能に対応
CiNii ウェブ API 検索: OpenSearch RSS 1.0 (= RDF )と Atom 1.0 RSS/Atom 基本語彙+ Dublin Core ( Legacy ) 一般のブラウザ?フィードリーダーで扱えるように Prism Standard 書誌情報は国際標準に準拠( Nature など) 書誌: RDF Dublin Core + Prism Standard (書誌情報) XML 時代の語彙はリテラルを値に持つように FOAF (著者情報) RDF ならではの表現は RDF 時代の語彙で 独自語彙は使用しない はじめての試みだったため
CiNii ウェブ API 検索 RSS と書誌 RDF をつなぐ RDF の水準で整合性を持たせる 課題?問題点 RDF の世界と HTML の世界をどうつなぐか? 著者が空白ノード
学術情報とセマンティックウェブ 構造化されてこなかった情報への対応 既存データに手をつけるコスト 分量?ワークフロー 完全性の保証 代表的な例:著者 ID 高まる重要性 個人の業績管理 国際競争( ResearcherID ? ORCID ) 著者名典拠がない 論文の著者名は膨大かつロングテール 同姓同名?旧姓?タイプミス…
CiNii 著者検索 NII 著者 ID (NRID)  の導入 科研費番号+機械処理による著者への ID 付与 著者ごとに URI を発行(著者パーマリンク) NRID ベースの論文検索機能 著者名-> ID リスト->論文リスト API の提供 新たなデータ生成?管理モデル 研究成果の活用 ユーザーフィードバック 組織 機械 ユーザ
?
CiNii 著者検索 ALS ( Author Linking System ) i-Linkage ( NII 相澤教授)の大規模?実運用システム CPU32 コア?メモリ 320GB ?計算時間 5 日(全件処理) フィードバック(同一人物の報告) 機械処理だけで 100% の精度を得ることは不可能 あらかじめフィードバックを織り込んだシステム?アルゴリズム設計 例:過統合より未統合を指摘する方が簡単 実績: 6217 件( 4 月 1 日? 7 月 15 日) Researchmap 経由で研究者本人からのフィードバックも可能に
CiNii とセマンティックウェブ 他の情報源とのリンク NII のサービス: KAKEN ?研究者リゾルバー 外部のサービス: Wikipedia / DBpedia ? Freebase… 今度の展望 各種情報の ID ?パーマリンク化 組織名?キーワード リンクトデータの一部に Web NDLSH 「ことはぶ」
図書館とセマンティックウェブ 図書館の役割 アーカイブ+構造化?組織化 組織?機械?ユーザーの三位一体によるセマンティックウェブ環境の実現 インセンティブのデザイン 誰が何のために情報を構造化するのか? 著者検索は著者 ID のためのきっかけ システムの外部にあるインセンティブ ユーザー参加型サービスとの連携
Thank you! http://ci.nii.ac.jp/

More Related Content

セマンティック?ウェブと学术情报サービス@国立国会図书馆讲演会(2010.07.27)