10. 语料库开发 1. 語料庫類型 把兩種語言中完全對應的文本(如法律文件)輸入計算機,通過分析對比找出兩者關係,可用於機器翻譯研究。 平行語料庫稱為 parallel corpura 將各種程度的學生在學習英語過程中的研與輸出輸入計算機,建立學生英語語料庫。對於研究中間語的性質及找出學生易犯的錯誤,從而提高學習效率。 如 Chinese Learner English Corpus 學生英語語料庫 研究口語特徵的重要工具,如語音語調的規律,其研究成果在語聲合成中有重要應用。其建設涉及口語真實語料的採集及語音轉錄,工作量極大。 如 The London-Lund Corpus 、 the Corpus of Spoken American English 。 口語語料庫 COBUILD 語料庫:用於觀察現代英語的變遷。 監控語料庫稱為 Monitor corpus JDEST :學術英語語料庫,用於研究學術英語。 Helsinki Corpus of Historical English :用於研究古英語。 專用語料庫 LOB 語料庫:在構成上完全和 BROWN 對應,取材自當代英國英語語料。 BROWN 語料庫:當代美國英語語料庫。 通用語料庫
11. 语料库开发 2. 語料庫規模 早期的語料庫,如 BROWN 語料庫和 LOB 語料庫,都只有 100 萬詞的容量,稱為標準 語料庫。對一般研究而言是可接受的,若要研究搭配關係顯然容量太小。因此 語料庫的規模目前有變得愈來愈大的趨勢,如 Bank of English 語料庫已經達 到 3.2×10? 詞次的規模。但是百萬詞級的標準語料庫,由於其語料的代表性、 採樣的隨機性和各種語體比例的合理性,迄今仍是語言研究的重要工具。 3. 語料庫加工深度 未經加工的語料庫稱為生語料庫( raw corpus ),生語料是真實使用中的語言 採樣的集合。生語料可以用於進行頻率統計和 KWIC 詞語索引查詢,也可用於進 行各種定性定量的研究。 4. 語料庫加工路徑 語料庫中的語言數據有些可以完全由機器自動楚哩,有些則要採用人機互助的 加工方法。 5 語言數據庫 語言是一個開放系統,語言又在不斷的發展,因此所謂語料庫容量足夠大只是 一個相對的概念。求得精確的語言概率信息是一個漸進的過程 , 這些不斷更新 的語言數據應當有專門的地方存放,這就是語言數據庫。語言數據庫紀錄的是 語言的統計特徵和概率信息,它是相對於語料庫而獨立存在的。