1. Dịch trí tuệ nhân tạo
Thay vì làm tăng sự không rõ ràng để sinh thêm hai nhánh phân tích riêng biệt, chúng ta
có một nhánh(cây) lớn có sự phân chia thành những phần phụ không rõ ràng thể hiện
bằng những đường cong. Tất nhiên, khi n=2, sự khác nhau giữa 2 và 2n không nhiều lắm,
nhưng đối với n lớn, sự thể hiện này cho thấy sự rút gọn đáng kể. Sự miêu tả này được
gọi là “rừng được đóng gói” vì nó tương đương với một loạt các cây(nhánh), nhưng các
cây được đóng gói thành một cấu trúc tối ưu. Để bổ xung sự miêu tả “rừng được đóng
gói”, chúng ta đổi nghĩa Completer để giữ dấu vết của danh sách những cây con có thể và
chúng ta đổi ADD-END sao cho khi ta thêm vào được 1 cạnh đã có trong sơ đồ (biểu đồ).
Ta trộn lẫn danh sách những cây con có thể với danh sách đã có ở đó.
Thuật toán kết thúc với độ phức tạp của nó là O(n 3 ) trong trường hợp không tốt nhất(khi
n=số các phần tử đầu vào). Trường hợp tốt nhất là cái có thể đạt được cho văn phạm
không phụ thuộc bối cảnh. Chú ý: nếu không có ”rừng đóng gói”, thuật toán sẽ có số mũ
trong tình huống xấu nhất vì mỗi câu có thể có O(2’’) cây(nhánh) phân tích khác nhau.
Thực tế, ta có thể mong muốn 1 sự bổ xung thuật toán để phân tích theo thứ tự 100
từ/giây với phương án dựa vào sự phức tạp của văn phạm và đầu vào.
2.3.3. Đo vốn từ vựng
Trong chương 22, đầu vào là một chuỗi các từ. Trong các hệ thống bối cảnh thực tế, đầu
vào là một chuỗi các ký tự, từ đó các từ được trích ra(lấy ra). Đa phần các hệ thống tuân
theo trình tự gồm 4 bước: Bằng chứng hoá, phân tích hình thái hoá học, tra từ điển và
khôi phục lỗi.
-Bằng chứng hóa là quá trình chia đầu vào thành các bằng chứng(dấu hiệu) phân biệt-từ
và dấu câu. Trong tiếng Nhật, điều này rất khó vì không có dấu cách giữa các từ. Các
ngôn ngữ như tiếng anh thì dễ hơn nhưng không phải không quan trọng. Dấu gạch nối ở
cuối mỗi dòng có thể là kết thúc hoặc dấu nối trong từ. Ở một số văn bản, chuyển font
chữ, gạch chân, dấu mũ và hàng loạt kiểm tra khác được tính đến. Cách làm bằng chứng
hóa được thiết kế nhanh với ý nghĩa rằng miền là cách đó bao gồm cách tách đầu vào
thành các dấu hiệu thì bất cứ vấn đề đề nào cũng có thể tiến hành được ở giai đoạn xử lý
sau đó.
-Phân tích hình thái hoá là quá trình miêu tả 1 từ bằng cách thêm tiền tố, hậu tố và dạng
gốc của từ chứa nó. Có 3 cách để cấu tạo từ:
+Hình thái hoá chuyển đổi phản sự thay đổi thành 1 từ cần cho 1 ngữ cảnh cụ thể. Ví dụ,
đa số danh từ lấy(nhận) hậu tố “s” khi chuyển sang số nhiều.
+Hình thái hoá từ gốc: tìm thấy nguồn(gốc) của 1 từ mới từ 1 từ khác của 1 phạm trù
khác. Ví dụ, danh từ “shortness” bắt nguồn từ tính từ “short” kết hợp với hậu tố “ness”.
+Ghép từ: Dùng 2 từ và ghép chúng với nhau. Ví dụ, “bookkeeper” là từ ghép giữa
“book” và “keeper”. (danh từ”keeper” có nguồn gốc từ động từ “keep” bằng hình thái hoá
từ gốc. Thậm chí ở ngôn ngữ có hình thái đơn giản như TA, cũng có sự không rõ ràng
trong hình thái. “Walks” có thể là DT số nhiều cũng có thể là ĐT chia ngôi 3 số ít.
"Unionizable" có thể phân tích thành "untieable"có thể thành "un-(tie-able)" hoặc "(un-
tie)-able".
Nhiều ngôn ngữ khác có nhiều cách sử dụng hình thái hơn TA. Trong tiếng Đức, không
phải không phải không phổ biến khi thấy từ như: " Lebensversi......."(nhân viên công ty
bảo hiểm Nhân Thọ).
Các ngôn ngữ như Phần Lan, Thổ Nhĩ Kỳ, Input và Yupik có những quy tắc biến đổi
hình thái có thể sinh và rất nhiều từ dài.
2. -Tra từ điển được dùng cho mọi dấu hiệu.(Trừ những dấu hiệu đặc biệt như dấu chấm
câu). Sẽ hiệu quả hơn khi lưu nhiều từ có hình thái phức tạp như "walked" trong từ điển
hoặc có thể sẽ tốt hơn khi phân tích hình thái trước: quy tắc biến đổi hình thái ở đầu vào
và nói rằng ta phải bỏ "ed" để tra "walk" là thời quá khứ của ĐT gốc. Cách khác, nhiệm
vụ của việc tra từ điển là tìm 1 từ trong từ điển và nghĩa của nó. Do vậy, bất cứ 1 bổ xung
nào trong trong thể loại từ trừu tượng đều đưa vào từ điển. Lựa chọn bao gồm hash table,
binary trees, b-tree, tries. Lựa chọn phụ thuộc 1 phần vào còn chỗ trống để lập từ điển lưu
trữ những từ dễ hiểu nhất (cơ sở, cơ bản) hoặc lưu trữ vào 1 file.
Khôi phục lỗi được tiến hành khi 1 từ không được tìm thấy trong từ điển. Có ít nhất 4
cách khôi phục lỗi(tìm lỗi). Một là, quy tắc biến đổi hình thái có thể đoán qua cú pháp
của từ "smarply" không có trong từ điển nhưng đó có thể là 1 trạng từ. Hai là, chữ in hoa
là dấu hiệu mà 1 từ hoặc 1 loạt từ là tên riêng.