1. 정보겶색 제2장.
정보의 특성과
INFORMATION RETRIEVAL 문헌파일
강의: 정창용 (timothy97@gmail.com)
http://www.facebook.com/hhuIR
Korea Maritime University
Navis Control Inc.
2. OVERVIEW
문헌파일의 구조
정보의 속성과 속성값
서비스기관에서 문헌파일의 재조직
색인할 문헌단위
탐색의 접근점과 제한점
접근 필드의 단어단위/구단위 색인
3. 벤더 시스템의 구성
외부의 DB 생성기관이 생산한 다양
한 문헌 DB를 가져와 벤더시스템에
적합한 형식으로 수정, 탐색을 제공
4. OUTLINE
문헌파일의 구조
정보의 속성과 속성값
서비스기관에서 문헌파일의 재조직
색인할 문헌단위
탐색의 접근점과 제한점
접근 필드의 단어단위/구단위 색인
5. 문헌파일의 구조
LC * OPAC
구조화된(structured) 텍스트
서지정보 + 소장정보
ERIC : 학술정보겶색 시스템
구조화된 텍스트
서지사항 + 초록 + 본문
Google
비구조화된(unstructured) 텍스트
<body> 태그 내에 포함된 free text
저자명, 본문내용 등으로 한정하여 검색할 수 없음
XML로 표현된 웹 페이지
부분 구조화된(semi-structured) 텍스트
*LC : Library of Congress (미국 의회도서관)
6. 문헌파일의 구조 - M A RC t a g
【MARC 필드 정보】 - http://catalog.loc.gov or http://catalog2.loc.gov
10. OVERVIEW
문헌파일의 구조
정보의 속성과 속성값
서비스기관에서 문헌파일의 재조직
색인할 문헌단위
탐색의 접근점과 제한점
접근 필드의 단어단위/구단위 색인
11. 정보의 속성과 속성값
필드로 구조화된 텍스트
외적인 속성
정보가 발생할 때 가지고 있는 값
ex) 문헌제목, 저자명 등
통일된 입력 방식이 필요
내적인 속성
DB 생산자가 색인어를 결정해야 하는 값
ex) 문헌의 주제 등
12. 데이터베이스별 저자명 표현방식
DB 이름 입력되는 저자 수 표현방식 예
BIOSIS 9명, et al 성 이름(I) 둘째 이름(I) Cochrane P A.
MEDLINE 10명, et al. 성 이름(I) Cochrane PA
EMBASE 성 이름(I). 둘째 이름(I) Cochrane P.A.
FSTA 성, 이름(I). 둘째 이름(I) Cochrane, P.A.
Dissertation
성, 이름(F) 둘째 이름(F) Cochrane, Pauline Atherton
Abstracts
Compendex 16명
Cochrane, Pauline Atherton
Cochrane, Pauline A.
ERIC 2명, And Others 성, 이름
Cochrane, P.
Cochrane, P. A.
NTIS 5명
13. 데이터베이스별 정보원 형식 비교
DB 이름 정보원 표현 형식
Compendex 완전서명 v 2 n 3 Sep 1990 p 221-238
ERIC 완전서명 v2 n3 p221-238 Sep 1990
FSTA 완전서명 1990, 2 (2) 221-238
MLA Bibliography 완전서명, 출판지. 1990 Sept.; 2(3) : 221-238.
T&IASAP 완전서명 v2 p221(18)
BIOSIS 완전서명 2 (3). 1990. 221-238
Zoological Record 간략서명 2(3) 1990 : 221-238
MEDLINE 간략서명 Sep 1990, 2 (3) p. 221-38
14. OVERVIEW
문헌파일의 구조
정보의 속성과 속성값
서비스기관에서 문헌파일의 재조직
색인할 문헌단위
탐색의 접근점과 제한점
접근 필드의 단어단위/구단위 색인
15. 문헌파일의 재조직
문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환
ASCII 코드, EBCDIC 코드
UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용)
HTML, XML에서 바이트열을 문자열로 변환
Ex) & ⇒ &
Markup 언어에서 Tag 처리
DB 생산자의 차이에 따른 레코드 구조 변경
16. 색인할 문헌단위
색인할 문헌단위 결정
복합문헌을 분리하여 색인할 것인가? (첨부된 e-메일)
문서전체 혹은 장(chapter), 단락으로 문헌을 나눌 것인가?
Dialog : 문단 단위 색인
OVID : 문장 단위 색인
본문(fulltext) 전체 혹은 일부분만을 색인할 것인가?
Google : 전반부 520 KB
Yahoo : 210 KB
Microsoft : 1,020 KB
18. 탐색 접근점과 제한점
탐색의 접근점과 제한점 결정
탐색에 사용할 필드를 결정
접근점으로 사용하는 필드에 대해서 색인
LC OPAC : 저자명, 서명, 주제명, LCCN, ISBN, ISSB 필드 사용
Dialog : DB의 거의 모든 필드 사용
19. 탐색 접근점과 제한점 – CO N T.
접근 필드의 단어(word)단위/구(phrase)단위 색인
색인을 필드 값 그대로 할 것인지(구단위), 단어단위로 할 것인지 결정
초록, 본문 : 단어단위
서명 : 구단위(LC)
학술논문명 : 단어단위(Dialog)
LC ERIC Dialog ERIC
저자명 구단위, 단어단위 색인 단어단위 구단위
서명 구단위, 단어단위 색인 단어단위 색인