狠狠撸
Submit Search
颁丑4语料库建设及其统计手段和原理
Aug 28, 2009
1 like
369 views
ungian iunn
1 of 40
Download now
Download to read offline
Recommended
05 台語文學及非文學類詞彙差異分析
05 台語文學及非文學類詞彙差異分析
ungian iunn
?
英语短文语意相似度评估演算法
英语短文语意相似度评估演算法
milo152
?
大学教育之问题,出在「课程太无趣」?
大学教育之问题,出在「课程太无趣」?
ungian iunn
?
9579017 李昱陞
肠丑2语料库与学习者语料库
肠丑2语料库与学习者语料库
ungian iunn
?
corpus ungian 陳郁芬
04 Ui1945年以前e台語羅馬字文獻看宜蘭地區e發展
04 Ui1945年以前e台語羅馬字文獻看宜蘭地區e發展
ungian iunn
?
活资讯
活资讯
ungian iunn
?
9478650 郭馥頡
?颈台语新约圣经探讨台语语词变化
?颈台语新约圣经探讨台语语词变化
ungian iunn
?
台湾罗马字国际学术研讨会论文集辫20-1词20-20,台南,国家台湾文学馆,2004/10/9-10
周末创叠濒辞驳
周末创叠濒辞驳
ungian iunn
?
9579026 吳政澔
肠丑12语料驱动学习模式的理论与实践
肠丑12语料驱动学习模式的理论与实践
ungian iunn
?
06 第二、三批教育部台灣閩南語推薦用字-建議用字與異用字之分析比較研究
06 第二、三批教育部台灣閩南語推薦用字-建議用字與異用字之分析比較研究
ungian iunn
?
語料庫31 34作業20曹麗華
語料庫31 34作業20曹麗華
ungian iunn
?
corpus ungian 曹麗華
驰辞耻苍颈惫别谤蝉别开站!先吸.在包.后牵.叁部曲灵活运用
驰辞耻苍颈惫别谤蝉别开站!先吸.在包.后牵.叁部曲灵活运用
ungian iunn
?
班級:資管2A 姓名:蔡孟彥
20英语致谢词的词汇形式和社会制约因素初探17号雅芬
20英语致谢词的词汇形式和社会制约因素初探17号雅芬
ungian iunn
?
corpus ungian 張簡雅芬
网站中的「连续瀏览」不该就这样消失掉
网站中的「连续瀏览」不该就这样消失掉
ungian iunn
?
9579032 王鵬閔
怎样查阅文献
怎样查阅文献
Weixiang Sun
?
给课题组同学做对于怎样查阅文献的报告
科学研究中的文献利用
科学研究中的文献利用
stone8167
?
第九章千年之際展望語料庫語言學 佩娟15
第九章千年之際展望語料庫語言學 佩娟15
ungian iunn
?
15蔡佩娟
IT445_Week_9.pdf
IT445_Week_9.pdf
AiondBdkpt
?
IT445_Week_9.pdf
Scopus paper writetraining-ppt2-08
Scopus paper writetraining-ppt2-08
Mooi Hsieh
?
38語學習者口語敘事的人物指稱策略 22正擁
38語學習者口語敘事的人物指稱策略 22正擁
ungian iunn
?
corpus ungian 黃正擁
Python in word cloud
Python in word cloud
FEG
?
Python in word cloud
2学习语文的工具痴1.0
2学习语文的工具痴1.0
pyjchinese
?
2学习语文的工具
Ch1 語料庫語言學概述
Ch1 語料庫語言學概述
ungian iunn
?
Ch1語料庫語言學概述 汪女嫈
Ch1語料庫語言學概述 汪女嫈
ungian iunn
?
語料庫語言學概述 汪女嫈
ch01-05 當代語料庫語言學的應用與發展
ch01-05 當代語料庫語言學的應用與發展
ungian iunn
?
11号张秀鑾
20120218 Dissemination - Tim sharing
20120218 Dissemination - Tim sharing
KBTNHKU
?
黃老師 - 經驗分享 (18-2-2012)
黃老師 - 經驗分享 (18-2-2012)
KBTNHKU
?
使用 zotero 做文獻管理及引用(1)
使用 zotero 做文獻管理及引用(1)
Chengtao Lin
?
下个世代的数位编辑
下个世代的数位编辑
Bobby Tung
?
12/15 世新編輯理論演講,談容器、敘事、樣式設計。
chatbotandsemanticenhancement.pptx
chatbotandsemanticenhancement.pptx
Mingyu WAN
?
semantic enhancement of chatbot, a brief discussion
More Related Content
Viewers also liked
(6)
肠丑12语料驱动学习模式的理论与实践
肠丑12语料驱动学习模式的理论与实践
ungian iunn
?
06 第二、三批教育部台灣閩南語推薦用字-建議用字與異用字之分析比較研究
06 第二、三批教育部台灣閩南語推薦用字-建議用字與異用字之分析比較研究
ungian iunn
?
語料庫31 34作業20曹麗華
語料庫31 34作業20曹麗華
ungian iunn
?
corpus ungian 曹麗華
驰辞耻苍颈惫别谤蝉别开站!先吸.在包.后牵.叁部曲灵活运用
驰辞耻苍颈惫别谤蝉别开站!先吸.在包.后牵.叁部曲灵活运用
ungian iunn
?
班級:資管2A 姓名:蔡孟彥
20英语致谢词的词汇形式和社会制约因素初探17号雅芬
20英语致谢词的词汇形式和社会制约因素初探17号雅芬
ungian iunn
?
corpus ungian 張簡雅芬
网站中的「连续瀏览」不该就这样消失掉
网站中的「连续瀏览」不该就这样消失掉
ungian iunn
?
9579032 王鵬閔
肠丑12语料驱动学习模式的理论与实践
肠丑12语料驱动学习模式的理论与实践
ungian iunn
?
06 第二、三批教育部台灣閩南語推薦用字-建議用字與異用字之分析比較研究
06 第二、三批教育部台灣閩南語推薦用字-建議用字與異用字之分析比較研究
ungian iunn
?
語料庫31 34作業20曹麗華
語料庫31 34作業20曹麗華
ungian iunn
?
驰辞耻苍颈惫别谤蝉别开站!先吸.在包.后牵.叁部曲灵活运用
驰辞耻苍颈惫别谤蝉别开站!先吸.在包.后牵.叁部曲灵活运用
ungian iunn
?
20英语致谢词的词汇形式和社会制约因素初探17号雅芬
20英语致谢词的词汇形式和社会制约因素初探17号雅芬
ungian iunn
?
网站中的「连续瀏览」不该就这样消失掉
网站中的「连续瀏览」不该就这样消失掉
ungian iunn
?
Similar to 颁丑4语料库建设及其统计手段和原理
(16)
怎样查阅文献
怎样查阅文献
Weixiang Sun
?
给课题组同学做对于怎样查阅文献的报告
科学研究中的文献利用
科学研究中的文献利用
stone8167
?
第九章千年之際展望語料庫語言學 佩娟15
第九章千年之際展望語料庫語言學 佩娟15
ungian iunn
?
15蔡佩娟
IT445_Week_9.pdf
IT445_Week_9.pdf
AiondBdkpt
?
IT445_Week_9.pdf
Scopus paper writetraining-ppt2-08
Scopus paper writetraining-ppt2-08
Mooi Hsieh
?
38語學習者口語敘事的人物指稱策略 22正擁
38語學習者口語敘事的人物指稱策略 22正擁
ungian iunn
?
corpus ungian 黃正擁
Python in word cloud
Python in word cloud
FEG
?
Python in word cloud
2学习语文的工具痴1.0
2学习语文的工具痴1.0
pyjchinese
?
2学习语文的工具
Ch1 語料庫語言學概述
Ch1 語料庫語言學概述
ungian iunn
?
Ch1語料庫語言學概述 汪女嫈
Ch1語料庫語言學概述 汪女嫈
ungian iunn
?
語料庫語言學概述 汪女嫈
ch01-05 當代語料庫語言學的應用與發展
ch01-05 當代語料庫語言學的應用與發展
ungian iunn
?
11号张秀鑾
20120218 Dissemination - Tim sharing
20120218 Dissemination - Tim sharing
KBTNHKU
?
黃老師 - 經驗分享 (18-2-2012)
黃老師 - 經驗分享 (18-2-2012)
KBTNHKU
?
使用 zotero 做文獻管理及引用(1)
使用 zotero 做文獻管理及引用(1)
Chengtao Lin
?
下个世代的数位编辑
下个世代的数位编辑
Bobby Tung
?
12/15 世新編輯理論演講,談容器、敘事、樣式設計。
chatbotandsemanticenhancement.pptx
chatbotandsemanticenhancement.pptx
Mingyu WAN
?
semantic enhancement of chatbot, a brief discussion
怎样查阅文献
怎样查阅文献
Weixiang Sun
?
科学研究中的文献利用
科学研究中的文献利用
stone8167
?
第九章千年之際展望語料庫語言學 佩娟15
第九章千年之際展望語料庫語言學 佩娟15
ungian iunn
?
IT445_Week_9.pdf
IT445_Week_9.pdf
AiondBdkpt
?
Scopus paper writetraining-ppt2-08
Scopus paper writetraining-ppt2-08
Mooi Hsieh
?
38語學習者口語敘事的人物指稱策略 22正擁
38語學習者口語敘事的人物指稱策略 22正擁
ungian iunn
?
Python in word cloud
Python in word cloud
FEG
?
2学习语文的工具痴1.0
2学习语文的工具痴1.0
pyjchinese
?
Ch1 語料庫語言學概述
Ch1 語料庫語言學概述
ungian iunn
?
Ch1語料庫語言學概述 汪女嫈
Ch1語料庫語言學概述 汪女嫈
ungian iunn
?
ch01-05 當代語料庫語言學的應用與發展
ch01-05 當代語料庫語言學的應用與發展
ungian iunn
?
20120218 Dissemination - Tim sharing
20120218 Dissemination - Tim sharing
KBTNHKU
?
黃老師 - 經驗分享 (18-2-2012)
黃老師 - 經驗分享 (18-2-2012)
KBTNHKU
?
使用 zotero 做文獻管理及引用(1)
使用 zotero 做文獻管理及引用(1)
Chengtao Lin
?
下个世代的数位编辑
下个世代的数位编辑
Bobby Tung
?
chatbotandsemanticenhancement.pptx
chatbotandsemanticenhancement.pptx
Mingyu WAN
?
More from ungian iunn
(20)
雙語讀寫佮語言科技: 台華雙語冊ê翻譯佮教學
雙語讀寫佮語言科技: 台華雙語冊ê翻譯佮教學
ungian iunn
?
华台双语读本製作实务及延伸学习探讨
华台双语读本製作实务及延伸学习探讨
ungian iunn
?
华台双语读本製作实务及延伸学习探讨 楊允言 張學謙
資訊管理系基本資料表 95年
資訊管理系基本資料表 95年
ungian iunn
?
19从语料库看后置修饰语的分隔现象17号雅芬
19从语料库看后置修饰语的分隔现象17号雅芬
ungian iunn
?
19从语料库看后置修饰语的分隔现象17号雅芬
20英语致谢词的词汇形式和社会制约因素初探17号雅芬
20英语致谢词的词汇形式和社会制约因素初探17号雅芬
ungian iunn
?
20英语致谢词的词汇形式和社会制约因素初探17号雅芬
22英语会话中简短反馈语言研究17号雅芬
22英语会话中简短反馈语言研究17号雅芬
ungian iunn
?
22英语会话中简短反馈语言研究17号雅芬
Ch8學術英語中的語義韻研究 Huilian
Ch8學術英語中的語義韻研究 Huilian
ungian iunn
?
Ch8學術英語中的語義韻研究 陳慧蓮
Ch7語料庫語言學與學術英語語體研究概述 Unhoa
Ch7語料庫語言學與學術英語語體研究概述 Unhoa
ungian iunn
?
Ch7語料庫語言學與學術英語語體研究概述 Unhoa 戴允華
颁丑4语料库建设及其统计手段和原理
颁丑4语料库建设及其统计手段和原理
ungian iunn
?
语料库建设及其统计手段和原理
03 台語華語句型差異分析-以金安版國民小學台語課本為例
03 台語華語句型差異分析-以金安版國民小學台語課本為例
ungian iunn
?
04 Ui1945年以前E台語羅馬字文獻看宜蘭地區E發展
04 Ui1945年以前E台語羅馬字文獻看宜蘭地區E發展
ungian iunn
?
02 國民小學台語教科書詞彙比較分析
02 國民小學台語教科書詞彙比較分析
ungian iunn
?
01 Ui三Pho台語新約聖經看台語語詞的變化
01 Ui三Pho台語新約聖經看台語語詞的變化
ungian iunn
?
Ch3 語料庫證據支援的詞語搭配研究
Ch3 語料庫證據支援的詞語搭配研究
ungian iunn
?
Ch7 語料庫語言學與學術英語語體研究概述
Ch7 語料庫語言學與學術英語語體研究概述
ungian iunn
?
Ch6 英語詞語搭配的種類
Ch6 英語詞語搭配的種類
ungian iunn
?
Ch8 學術英語中的語義韻研究
Ch8 學術英語中的語義韻研究
ungian iunn
?
ch46 基於英語課堂語料庫的詞彙教學課段分析
ch46 基於英語課堂語料庫的詞彙教學課段分析
ungian iunn
?
ch46 基於英語課堂語料庫的詞彙
Ch46 基於英語課堂語料庫的詞彙教學課段分析
Ch46 基於英語課堂語料庫的詞彙教學課段分析
ungian iunn
?
Ch46 基於英語課堂語料庫的詞彙
Ch42 基於語料庫的英語教師話語分析
Ch42 基於語料庫的英語教師話語分析
ungian iunn
?
Ch42 基於語料庫的英語教師話語分析
雙語讀寫佮語言科技: 台華雙語冊ê翻譯佮教學
雙語讀寫佮語言科技: 台華雙語冊ê翻譯佮教學
ungian iunn
?
华台双语读本製作实务及延伸学习探讨
华台双语读本製作实务及延伸学习探讨
ungian iunn
?
資訊管理系基本資料表 95年
資訊管理系基本資料表 95年
ungian iunn
?
19从语料库看后置修饰语的分隔现象17号雅芬
19从语料库看后置修饰语的分隔现象17号雅芬
ungian iunn
?
20英语致谢词的词汇形式和社会制约因素初探17号雅芬
20英语致谢词的词汇形式和社会制约因素初探17号雅芬
ungian iunn
?
22英语会话中简短反馈语言研究17号雅芬
22英语会话中简短反馈语言研究17号雅芬
ungian iunn
?
Ch8學術英語中的語義韻研究 Huilian
Ch8學術英語中的語義韻研究 Huilian
ungian iunn
?
Ch7語料庫語言學與學術英語語體研究概述 Unhoa
Ch7語料庫語言學與學術英語語體研究概述 Unhoa
ungian iunn
?
颁丑4语料库建设及其统计手段和原理
颁丑4语料库建设及其统计手段和原理
ungian iunn
?
03 台語華語句型差異分析-以金安版國民小學台語課本為例
03 台語華語句型差異分析-以金安版國民小學台語課本為例
ungian iunn
?
04 Ui1945年以前E台語羅馬字文獻看宜蘭地區E發展
04 Ui1945年以前E台語羅馬字文獻看宜蘭地區E發展
ungian iunn
?
02 國民小學台語教科書詞彙比較分析
02 國民小學台語教科書詞彙比較分析
ungian iunn
?
01 Ui三Pho台語新約聖經看台語語詞的變化
01 Ui三Pho台語新約聖經看台語語詞的變化
ungian iunn
?
Ch3 語料庫證據支援的詞語搭配研究
Ch3 語料庫證據支援的詞語搭配研究
ungian iunn
?
Ch7 語料庫語言學與學術英語語體研究概述
Ch7 語料庫語言學與學術英語語體研究概述
ungian iunn
?
Ch6 英語詞語搭配的種類
Ch6 英語詞語搭配的種類
ungian iunn
?
Ch8 學術英語中的語義韻研究
Ch8 學術英語中的語義韻研究
ungian iunn
?
ch46 基於英語課堂語料庫的詞彙教學課段分析
ch46 基於英語課堂語料庫的詞彙教學課段分析
ungian iunn
?
Ch46 基於英語課堂語料庫的詞彙教學課段分析
Ch46 基於英語課堂語料庫的詞彙教學課段分析
ungian iunn
?
Ch42 基於語料庫的英語教師話語分析
Ch42 基於語料庫的英語教師話語分析
ungian iunn
?
颁丑4语料库建设及其统计手段和原理
1.
第四章 語料庫建設及其基本
統計手段和原理 ? 語料庫已經被廣泛應用於語言相關的各領 域,如語言學研究、語言教學與研究、自 然語言處理和語言工程等,並在其中發揮 日益重要的作用。 ? 語料庫的產生使定性與定量相結合的語言 研究成為可能。
2.
? 本章先討論語料庫的代表性問題和預加工
問題。 ? 然後介紹當前用於語料分析的幾個主要的 統計手段及其原理。
3.
1.1語料庫建設 ? 語料庫的代表性和預加工就是兩個重要問
題。 ? 20世紀30年代計算機尚未問世之時,一些 語言學家開始建立一定規模的非機讀語料 庫並開始進行人工詞頻統計。這種研究方 法以實證性而贏得了語言學家的讚譽,並 在50年代蓬勃發展。
4.
? 然而,這種發展在50年代末受到了重創。 ? 喬姆斯基(1957)《句法結構》的發表標
誌著以布隆菲爾德(L.Bloomfied)為代表 的結構主義時代的結束,也標誌著轉換生 成語法的開始。
5.
? 喬姆斯基對語料庫的批評歸納起來主要有
三點: (1)語料庫模擬的是語言的使用 (performance)而不是能力 (competence); (2)語料庫試圖列舉無限的自然語言; (3)語料庫往往完全避開內省 (introspection)。
6.
? 20世紀60年代和70年代是喬姆斯基語言學
的鼎盛時期。語料庫方法與喬姆斯基語言 學相比只是一個微不足道的支流。 ? 這個時期三個著名的機讀語料庫--- BROWN、LLC、LOB相繼問世。 ? 從80年代開始,語料庫的語言學研究得到 了迅速發展。
7.
? 到了90年代,大型的機讀語料庫如BNC
(British National Corpus)、Bank of English等以建立並投入實際使用吸引了大 批的語言學家投身於語料庫語言學研究。 語料庫語言學變得愈益重要。 ? 有人把喬姆斯基出現之前的語料庫研究稱 為早期語料庫語言學參閱 。
8.
? 喬姆斯基對早期語料庫所做的批評不能說
全無道理,但沒有哪一點批評是真正致命 的。 ? 就第一點批評而言,喬姆斯基認為語料庫 因為模擬的是語言的使用而非能力,因此 不是研究語言的最好材料。 ? 這一觀點是建立在對能力和使用的區分之 上的。 ? 但是倫敦學派的語言學家,認為能力和使 用不是兩個事物,是不能截然分開的。
9.
? 所以語料庫反映語言使用不是什麼不正常
的事。語料庫反應的就是人們實際使用中 的真實語言。 ? 第二點批評,是語料庫無法列舉無限的語 言,但是,對無限的總體進行抽樣調查早 已證明是行之有效的科學方法。語料庫是 無限語言的樣本,用它研究語言是無可厚 非的。
10.
? 第三點批評,當前多數語言學家並沒有否
認內省的價值和意義,只是認為內省的證 據需要實證。 ? 從現在的角度看,這三點批評中需要考慮 的是第二點,它向語料庫語言學家提出了 如何解決語料庫代表性的問題。
11.
? 語料庫是否具有代表性直接關係到在語料
庫基礎上所做出的研究及其結論的可靠性 和普遍性。 ? 這裡需要考慮三個問題, 1.語料庫的代表總體。 2.語料庫的規模。 3.語料庫的內容。
12.
? 1.1.1語料庫代表的總體 ? 一個語料庫是否有代表性首先要看該語料
庫所代表的總體。 ? 在多數情況下,語料庫代表的往往是無限 的總體。
13.
? 1.1.2語料庫的規模 ? 如果語料庫要代表一個無限的或者非常大
的總體,那麼就有一個採樣或抽樣的問題 ,樣本越大代表性越好。
14.
? 1.1.3語料庫的內容 ? 語料庫的規模和內容是一體兩面的,前者
是量的問題,後者是質的問題。 ? 對於內容,最根本的要求是:真實。 ? 真實有兩層意思:一是要收集實際使用中 的文本(不能是杜撰的文本),二是要收 集符合條件的文本。但是,真實並非是代 表性的唯一標準。
15.
? 除了真實以外,還要考慮收入語料庫各類
型文本的比例。 ? 至於各部分之間的比例安排問題,最好能 找到一些較為客觀的外部標準。 ? 收集完整的文本也是對語料內容的一種要 求,雖然適當取捨也未嘗不可。
16.
? 1.1.4建設 ? 建庫時內容和規模應該兼顧。 ?
在規模上,越大越好。 ? 在內容上,除了採集真實語言,還要進行 必要的文本分類,並按客觀的標準確定各 類的比例。 ? 語言本身是動態發展的,語料庫也應該是 動態的,可以不斷擴充的。 ? 簡言之,每一篇文本都應獨立標識,需要 時可以按各種不同的標準進行歸類。
17.
? 1.2語料庫的預加工 ? 文本輸入計算機之後,一般需要進行一些
預加工,主要包括語料的標識和語料的賦 碼 ? 註:賦碼也可以看做是一種特殊的標識。
18.
? 1.2.1語料庫的標識 ? 主要分為兩類:
一類是對文本的性質和特徵進行標識, 另一類是對文本中符號、格式等進行標 識。 ? 不管語料將來作什麼用,類標識是必要 的,它可以對文本進行必要的分類。為靈 活提取進行各類目的研究提供了大的便 利。
19.
? 1.2.2語料庫的賦碼 ? 語料庫的賦碼主要分為兩類:
一類是詞類碼,又稱語法碼。 另一類是句法碼,一般稱為句法分析。 ? 詞類賦碼就是對文本中每一個單詞賦予相 應的詞類碼,包括對標點符號的賦碼。 ? 詞類碼代表一個詞的語法特徵,所以也稱 做語法碼。
20.
? 在賦碼操作中,需要解決的問題是區分一
個詞不同的詞類,而對具體的詞義不做區 分,因為這不是賦詞類碼的主要目的。 ? 這裡所講的詞類賦碼是計算機自動賦碼。 語料庫建設者可開發一系列軟件用於識別 和區分不同詞類。
21.
? 不管是詞典還是概率矩陣都要依賴於一個
已賦好碼的語料庫。 ? 沒有賦好碼的語料庫就無法知道當一個詞 有一個以上詞類時候跟某一詞類的概率是 多少。
22.
? 通常的作法是先對小規模語料庫用手工賦
碼,求出初步的詞類相鄰碼渡越概率信息 矩陣,用於處理規模大一些的語料庫,根 據處理結果,修正詞類相鄰碼渡越概率如 此循環,直道德到穩定的詞類相鄰碼渡越 概率信息為止。 ? 若已有成熟的詞類相鄰碼渡越概率信息, 則當然可以借用。
23.
? 序列概率的計算方法如下: ? 先計算一個語法碼後面跟另一個語法碼的
渡越概率,其公式如下: ? 最後經過下面公式的計算就可以求出每一 序列的概率: ? 以上是CLAWS系統解決一詞多碼問題的基 本方法。
24.
? CLAWS賦碼系統分五個步驟對文本進行賦
碼。它們依次是: a)預編輯(pre-editing); b)配碼(tag assignment); c)習語賦碼(idiom-tagging); d)解決歧異碼(tag disambiguation) e)後編輯(post-editing), 其中b)c)d)是賦詞類碼的核心步驟(參見 Garside 1987)。
25.
? CLAWS賦碼系統分五個步驟對文本進行賦
碼。它們依次是: a)預編輯(pre-editing); b)配碼(tag assignment); c)習語賦碼(idiom-tagging); d)解決歧異碼(tag disambiguation) e)後編輯(post-editing), 其中b)c)d)是賦詞類碼的核心步驟(參見 Garside 1987)。
26.
? 預編輯是由一個叫做PREEDIT的程序來完
成的,其主要目的是為語料庫中的每一個 詞或標點創建單獨的一行,把詞和標點放 在這一行中規定的標準位置,並用字母和 數字標出該詞或標點在語料庫中所屬的文 本類型、所在的文本、所在的行、行中的 位置。
27.
? 配碼就是前面提到的通過查詢預先編好的
詞類詞典,把可能的詞類碼配給每一個單 詞的過程。 ? 習語賦碼是非常關鍵的一部,用於對一組 一組的詞進行賦碼,以除去一些明顯的錯 誤。
28.
? 解決歧異碼,主要任務就是通過上下文確
定各詞類碼的可能性,一般情況下,可能 性最大的詞類是正確的詞類碼。 ? 後編輯就是人工檢查CHAINPROBS計算的 可能性最大的詞類是否是正確的詞類,並 去除多餘的詞類碼。
29.
? 1.2.2.2句法分析 ? 句法分析又稱為句法賦碼,就是對文本中
的每一個句子進行句法標註。 ? 句法賦碼建立在詞類賦碼基礎之上,即詞 類賦碼的輸出正式句法賦碼的輸入。 ? 這裡主要介紹UCREL小組的概率句法賦碼 系統。
30.
? 句法賦碼系統主要分三個步驟。 ? 第一步是對文本中每一個詞賦以可能的句
法符。 ? 第二步是尋找一些特殊的語法碼形式和句 法片段並對句法結構作必要的修改。 ? 第三步主要的任務就是確定這些成分的結 束位置。
31.
? 1.2.2.3對當前賦碼技術的評價 ? 自動詞類賦碼技術準確率超過96%~97%,達
到了實際研究和應用的需要。 ? 目前詞類賦碼和句法賦碼存在的問題: (1)各系統的詞類碼和句法碼不統一。 (2)對詞類及句法單位的劃分沒有客觀的標準。 (3)把詞類分析作為句法分析的低一層次的分析 ,這在一定程度上隔離了詞彙和句法的關係 。
32.
2.語料庫的基本統計手段和原理 2.1文本總體統計特徵 ?
文件的字節數 ? 句子數 ? 形符數 ? 平均句長數 ? 類符數 ? 句長標準差 ? 類符形符比 ? 段落數 ? 標準化類符形符比 ? 平均段落長 ? 平均詞長 ? 段落長標準差
33.
? 2.2詞頻統計 ? 詞頻統計是語料庫研究的一個統計手段。 ?
做詞頻統計後,一般可以產生兩個詞頻 表,一個以詞的字母順序排列,一個以詞 的頻率大小排列。 ? 因此詞頻統計與其說是在計算詞的頻率還 不如說是在計算詞形的頻率。
34.
? 2.3搭配詞記搭配力的計算 ? 據辛克萊的定義,搭配是“兩個或兩個以上
的詞在文本中很短的距離內的共現” ? 但單從共現的次數看兩個詞的搭配是否有 意義還不能確定反映實際狀況。因此需同 時考慮該詞在文本中的使用頻率,由此也 就產生了“搭配力”這個概念。 ?搭配力越大,搭配的意義就越大;反之, 就越小。搭配力一般以Z值(Z-score)或T 值(T-score)表示。
35.
要計算Z值,需要知道五個數據: ? 被研究詞或節點詞的
? 以及整個文本的長度 頻數N, W。 ? 跨距S, ? 根據這些數據,可以 ? 搭配詞在整個文本中 計算小文本的長度 的頻數C, M,搭配詞占整個文 本的比率P,搭配詞在 ? 搭配詞在小文本中的 頻數C’ 小文本中的期望數E, 其標準差及最終的Z值 ? 以及整個文本的長度 或Z分數。 W。
36.
?
它們的計算公事分別是: ? M=(2S+1)N ? P=C/W ? E=P×M ? SD= ? Z=(C’-E)/SD
37.
? 2.4關鍵詞及關鍵性的計算 ? 關鍵詞,指的是跟某一標準相比其頻率顯
著偏高的詞,偏高的程度就是該關鍵詞的 “關鍵性”。 ? 關鍵詞頻率的偏高程度可用兩種方法計 算,其一是值,其二是對數或然率。
38.
的計算方法並不複雜,它牽涉到四個變量, 即某個詞在文中的頻數a,所在文本中的長度 b,該詞在參照語料庫中的頻數c,參照語料 庫的長度d ? 計算公式如下:
(註:狈是补、产、肠、诲的总和)
39.
? 3.結束語 ? 語料庫的預加工為更深層次的分析創造了
條件。經過預加工的語料為語言的研究提 供了方便。 ? 語料庫研究需要的是一個開放的思路,而 不是固步自封,應不斷去嘗試和探詢更好 的研究方法和手段。
40.
THE END
Download