ݺߣ

ݺߣShare a Scribd company logo
정보겶색                  제2장.
                                        정보의 특성과
INFORMATION RETRIEVAL                   문헌파일




   강의: 정창용 (timothy97@gmail.com)
     http://www.facebook.com/hhuIR
            Korea Maritime University
                   Navis Control Inc.
OVERVIEW

 문헌파일의 구조

 정보의 속성과 속성값

 서비스기관에서 문헌파일의 재조직
  색인할 문헌단위

  탐색의 접근점과 제한점

  접근 필드의 단어단위/구단위 색인
벤더 시스템의 구성


       외부의 DB 생성기관이 생산한 다양
       한 문헌 DB를 가져와 벤더시스템에
       적합한 형식으로 수정, 탐색을 제공
OUTLINE

 문헌파일의 구조

 정보의 속성과 속성값

 서비스기관에서 문헌파일의 재조직
  색인할 문헌단위

  탐색의 접근점과 제한점

  접근 필드의 단어단위/구단위 색인
문헌파일의 구조

 LC * OPAC
       구조화된(structured) 텍스트
       서지정보 + 소장정보
 ERIC : 학술정보겶색 시스템
       구조화된 텍스트
       서지사항 + 초록 + 본문
 Google
       비구조화된(unstructured) 텍스트
       <body> 태그 내에 포함된 free text
       저자명, 본문내용 등으로 한정하여 검색할 수 없음
 XML로 표현된 웹 페이지
       부분 구조화된(semi-structured) 텍스트

*LC   : Library of Congress (미국 의회도서관)
문헌파일의 구조                      - M A RC t a g




【MARC 필드 정보】 - http://catalog.loc.gov or http://catalog2.loc.gov
문헌파일의 구조   - Dialog
문헌파일의 구조   – W W W. N Y T I M E S . CO M
LC에서의 검색결과
OVERVIEW

 문헌파일의 구조

 정보의 속성과 속성값

 서비스기관에서 문헌파일의 재조직
  색인할 문헌단위

  탐색의 접근점과 제한점

  접근 필드의 단어단위/구단위 색인
정보의 속성과 속성값

 필드로 구조화된 텍스트
  외적인 속성
   정보가 발생할 때 가지고 있는 값

   ex) 문헌제목, 저자명 등

   통일된 입력 방식이 필요

  내적인 속성
   DB 생산자가 색인어를 결정해야 하는 값

   ex) 문헌의 주제 등
데이터베이스별 저자명 표현방식

 DB 이름         입력되는 저자 수             표현방식                       예

  BIOSIS          9명, et al     성 이름(I) 둘째 이름(I)           Cochrane P A.

 MEDLINE         10명, et al.         성 이름(I)               Cochrane PA

 EMBASE                         성 이름(I). 둘째 이름(I)          Cochrane P.A.


   FSTA                         성, 이름(I). 둘째 이름(I)         Cochrane, P.A.

Dissertation
                                성, 이름(F) 둘째 이름(F)    Cochrane, Pauline Atherton
 Abstracts

Compendex           16명
                                                     Cochrane, Pauline Atherton
                                                        Cochrane, Pauline A.
   ERIC        2명, And Others        성, 이름
                                                            Cochrane, P.
                                                          Cochrane, P. A.
   NTIS             5명
데이터베이스별 정보원 형식 비교

       DB 이름                                정보원 표현 형식

Compendex           완전서명 v 2 n 3 Sep 1990 p 221-238

ERIC                완전서명 v2 n3 p221-238 Sep 1990

FSTA                완전서명 1990, 2 (2) 221-238

MLA Bibliography    완전서명, 출판지. 1990 Sept.; 2(3) : 221-238.

T&IASAP             완전서명 v2 p221(18)

BIOSIS              완전서명 2 (3). 1990. 221-238

Zoological Record   간략서명 2(3) 1990 : 221-238

MEDLINE             간략서명 Sep 1990, 2 (3) p. 221-38
OVERVIEW

 문헌파일의 구조

 정보의 속성과 속성값

 서비스기관에서 문헌파일의 재조직
  색인할 문헌단위

  탐색의 접근점과 제한점

  접근 필드의 단어단위/구단위 색인
문헌파일의 재조직

 문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환
  ASCII 코드, EBCDIC 코드

  UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용)

 HTML, XML에서 바이트열을 문자열로 변환
  Ex) &amp; ⇒ &

 Markup 언어에서 Tag 처리

 DB 생산자의 차이에 따른 레코드 구조 변경
색인할 문헌단위

 색인할 문헌단위 결정
  복합문헌을 분리하여 색인할 것인가? (첨부된 e-메일)
  문서전체 혹은 장(chapter), 단락으로 문헌을 나눌 것인가?
   Dialog : 문단 단위 색인
   OVID : 문장 단위 색인
  본문(fulltext) 전체 혹은 일부분만을 색인할 것인가?
   Google : 전반부 520 KB
   Yahoo : 210 KB
   Microsoft : 1,020 KB
색인 대상 필드
탐색 접근점과 제한점

 탐색의 접근점과 제한점 결정
  탐색에 사용할 필드를 결정
   접근점으로 사용하는 필드에 대해서 색인
  LC OPAC : 저자명, 서명, 주제명, LCCN, ISBN, ISSB 필드 사용
  Dialog : DB의 거의 모든 필드 사용
탐색 접근점과 제한점            – CO N T.



 접근 필드의 단어(word)단위/구(phrase)단위 색인
    색인을 필드 값 그대로 할 것인지(구단위), 단어단위로 할 것인지 결정
    초록, 본문 : 단어단위
    서명 : 구단위(LC)
    학술논문명 : 단어단위(Dialog)



                 LC        ERIC       Dialog ERIC
     저자명    구단위, 단어단위 색인   단어단위          구단위
      서명    구단위, 단어단위 색인      단어단위 색인

More Related Content

제2장 정보의 특성과 문헌파일

  • 1. 정보겶색 제2장. 정보의 특성과 INFORMATION RETRIEVAL 문헌파일 강의: 정창용 (timothy97@gmail.com) http://www.facebook.com/hhuIR Korea Maritime University Navis Control Inc.
  • 2. OVERVIEW  문헌파일의 구조  정보의 속성과 속성값  서비스기관에서 문헌파일의 재조직  색인할 문헌단위  탐색의 접근점과 제한점  접근 필드의 단어단위/구단위 색인
  • 3. 벤더 시스템의 구성 외부의 DB 생성기관이 생산한 다양 한 문헌 DB를 가져와 벤더시스템에 적합한 형식으로 수정, 탐색을 제공
  • 4. OUTLINE  문헌파일의 구조  정보의 속성과 속성값  서비스기관에서 문헌파일의 재조직  색인할 문헌단위  탐색의 접근점과 제한점  접근 필드의 단어단위/구단위 색인
  • 5. 문헌파일의 구조  LC * OPAC  구조화된(structured) 텍스트  서지정보 + 소장정보  ERIC : 학술정보겶색 시스템  구조화된 텍스트  서지사항 + 초록 + 본문  Google  비구조화된(unstructured) 텍스트  <body> 태그 내에 포함된 free text  저자명, 본문내용 등으로 한정하여 검색할 수 없음  XML로 표현된 웹 페이지  부분 구조화된(semi-structured) 텍스트 *LC : Library of Congress (미국 의회도서관)
  • 6. 문헌파일의 구조 - M A RC t a g 【MARC 필드 정보】 - http://catalog.loc.gov or http://catalog2.loc.gov
  • 8. 문헌파일의 구조 – W W W. N Y T I M E S . CO M
  • 10. OVERVIEW  문헌파일의 구조  정보의 속성과 속성값  서비스기관에서 문헌파일의 재조직  색인할 문헌단위  탐색의 접근점과 제한점  접근 필드의 단어단위/구단위 색인
  • 11. 정보의 속성과 속성값  필드로 구조화된 텍스트  외적인 속성  정보가 발생할 때 가지고 있는 값  ex) 문헌제목, 저자명 등  통일된 입력 방식이 필요  내적인 속성  DB 생산자가 색인어를 결정해야 하는 값  ex) 문헌의 주제 등
  • 12. 데이터베이스별 저자명 표현방식 DB 이름 입력되는 저자 수 표현방식 예 BIOSIS 9명, et al 성 이름(I) 둘째 이름(I) Cochrane P A. MEDLINE 10명, et al. 성 이름(I) Cochrane PA EMBASE 성 이름(I). 둘째 이름(I) Cochrane P.A. FSTA 성, 이름(I). 둘째 이름(I) Cochrane, P.A. Dissertation 성, 이름(F) 둘째 이름(F) Cochrane, Pauline Atherton Abstracts Compendex 16명 Cochrane, Pauline Atherton Cochrane, Pauline A. ERIC 2명, And Others 성, 이름 Cochrane, P. Cochrane, P. A. NTIS 5명
  • 13. 데이터베이스별 정보원 형식 비교 DB 이름 정보원 표현 형식 Compendex 완전서명 v 2 n 3 Sep 1990 p 221-238 ERIC 완전서명 v2 n3 p221-238 Sep 1990 FSTA 완전서명 1990, 2 (2) 221-238 MLA Bibliography 완전서명, 출판지. 1990 Sept.; 2(3) : 221-238. T&IASAP 완전서명 v2 p221(18) BIOSIS 완전서명 2 (3). 1990. 221-238 Zoological Record 간략서명 2(3) 1990 : 221-238 MEDLINE 간략서명 Sep 1990, 2 (3) p. 221-38
  • 14. OVERVIEW  문헌파일의 구조  정보의 속성과 속성값  서비스기관에서 문헌파일의 재조직  색인할 문헌단위  탐색의 접근점과 제한점  접근 필드의 단어단위/구단위 색인
  • 15. 문헌파일의 재조직  문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환  ASCII 코드, EBCDIC 코드  UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용)  HTML, XML에서 바이트열을 문자열로 변환  Ex) &amp; ⇒ &  Markup 언어에서 Tag 처리  DB 생산자의 차이에 따른 레코드 구조 변경
  • 16. 색인할 문헌단위  색인할 문헌단위 결정  복합문헌을 분리하여 색인할 것인가? (첨부된 e-메일)  문서전체 혹은 장(chapter), 단락으로 문헌을 나눌 것인가?  Dialog : 문단 단위 색인  OVID : 문장 단위 색인  본문(fulltext) 전체 혹은 일부분만을 색인할 것인가?  Google : 전반부 520 KB  Yahoo : 210 KB  Microsoft : 1,020 KB
  • 18. 탐색 접근점과 제한점  탐색의 접근점과 제한점 결정  탐색에 사용할 필드를 결정  접근점으로 사용하는 필드에 대해서 색인  LC OPAC : 저자명, 서명, 주제명, LCCN, ISBN, ISSB 필드 사용  Dialog : DB의 거의 모든 필드 사용
  • 19. 탐색 접근점과 제한점 – CO N T.  접근 필드의 단어(word)단위/구(phrase)단위 색인  색인을 필드 값 그대로 할 것인지(구단위), 단어단위로 할 것인지 결정  초록, 본문 : 단어단위  서명 : 구단위(LC)  학술논문명 : 단어단위(Dialog) LC ERIC Dialog ERIC 저자명 구단위, 단어단위 색인 단어단위 구단위 서명 구단위, 단어단위 색인 단어단위 색인