Báo cáo này sẽ hướng dẫn: lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA. Chi tiết thêm về dataset xin mời truy cập blog của chúng tôi tại: http://bit.ly/weka-luat-ket-hop
Tiền xử lí dữ liệu bằng weka và lập trình tiền xử líKhoa Hồ AnhDùng weka để thực hiện các chức năng tiền xử lí. Code tiền xử lí bằng python theo đề bài.
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đDịch vụ viết bài trọn gói ZALO 0917193864Nhận viết luận văn Đại học , thạc sĩ - Zalo: 0917.193.864
Tham khảo bảng giá dịch vụ viết bài tại: vietbaocaothuctap.net
Download luận văn đồ án tốt nghiệp ngành công nghệ thông tin với đề tài: Xây dựng phần mềm quản lý quán cà phê, cho các bạn có thể tham khảo
Phân tích thiết kế hệ thống của hàng bán điện thoại di độngNguyễn Danh ThanhPhân tích thiết kế hệ thống cửa hàng bán điện thoại di động
Chương trình viết bằng PHP và hệ quản trị CSDL MySql
Luận văn: Nhận dạng và phân loại hoa quả trong ảnh màu, HAYDịch vụ viết bài trọn gói ZALO 0917193864Nhận viết luận văn Đại học , thạc sĩ - Zalo: 0917.193.864
Tham khảo bảng giá dịch vụ viết bài tại: vietbaocaothuctap.net
Download luận văn tóm tắt ngành kĩ thuật phần mềm với đề tài: Nhận dạng và phân loại hoa quả trong ảnh màu, cho các bạn làm luận văn tham khảo
Giới thiệu về Rational Rose và Các diagramHuy VũGiới thiệu về Rational Rose - một phần mềm hỗ trợ mạnh về phân tích thiết kế hệ thống. Ngoài ra, còn giới thiệu về các Diagram và cách xây dựng các Diagram này.
Luận văn: Khai phá dữ liệu; Phân cụm dữ liệu, HAYDịch vụ viết bài trọn gói ZALO: 0909232620 Download luận văn đồ án tốt nghiệp ngành công nghệ thông tin với đề tài: Khai phá dữ liệu; Phân cụm dữ liệu;Ứng dụng trong đời sống, cho các bạn tham khảo
Kĩ thuật lọc ảnh và ứng dụng trong lọc nhiễu làm trơnNguyen ThieuBài tập lớn môn học Xử Lý Ảnh (Thế Anh, Thiệu)
Code và toàn bộ báo cáo có thể xem tại đây:
https://drive.google.com/drive/folders/0B0gRRELQqRA8QlYwaE14NDlsZHc?usp=sharing
Đề tài: Quản lí Tour du lịch, HAY, 9đDịch Vụ Viết Bài Trọn Gói ZALO 0917193864Nhận viết luận văn đại học, thạc sĩ trọn gói, chất lượng, LH ZALO=>0909232620
Tham khảo dịch vụ, bảng giá tại: https://vietbaitotnghiep.com/dich-vu-viet-thue-luan-van
Download báo cáo môn Phân tích thiết kế hướng đối tượng với đề tài: Quản lí Tour du lịch, cho các bạn làm đề tài tham khảo
Luận văn: Khai phá dữ liệu; Phân cụm dữ liệu, HAYDịch vụ viết bài trọn gói ZALO: 0909232620 Download luận văn đồ án tốt nghiệp ngành công nghệ thông tin với đề tài: Khai phá dữ liệu; Phân cụm dữ liệu;Ứng dụng trong đời sống, cho các bạn tham khảo
Kĩ thuật lọc ảnh và ứng dụng trong lọc nhiễu làm trơnNguyen ThieuBài tập lớn môn học Xử Lý Ảnh (Thế Anh, Thiệu)
Code và toàn bộ báo cáo có thể xem tại đây:
https://drive.google.com/drive/folders/0B0gRRELQqRA8QlYwaE14NDlsZHc?usp=sharing
Đề tài: Quản lí Tour du lịch, HAY, 9đDịch Vụ Viết Bài Trọn Gói ZALO 0917193864Nhận viết luận văn đại học, thạc sĩ trọn gói, chất lượng, LH ZALO=>0909232620
Tham khảo dịch vụ, bảng giá tại: https://vietbaitotnghiep.com/dich-vu-viet-thue-luan-van
Download báo cáo môn Phân tích thiết kế hướng đối tượng với đề tài: Quản lí Tour du lịch, cho các bạn làm đề tài tham khảo
Chuong 5 toi_uu_hoa_van_tinMasterCode.vn Tổng quan vềxửlý truy vấn
2. Tối ưu hóa truy vấn dùng Heuristics
ố ấ 3. Tối ưu hóa truy vấn dùng phương pháp
ước lượng chi phí
Tableau business intelligenceBSD SOLUTIONSTài liệu giới thiệu giải pháp phân tích dữ liệu của Tableau
(1) Cung cấp công cụ giải pháp tổng thể cho môi trường phân tích số liệu và business Intelligence
(2) Người dùng nghiệp vụ xây dựng, vận hành & làm chủ dữ liệu
(3) Dễ dàng trực quan, phân tích số liệu theo nhu cầu của người dùng, quản lý
(4) Triển khai rất nhanh
(5) Khả năng mở rộng nhu cầu phân tích, kết nối với các dữ liệu mới
(6) Không nhất thiết cần Data Warehouse
(7) Truy xuất, Phân tích mọi lúc mọi nơi trên Web & Mobile App
(8) Thấu hiểu các hoạt động của doanh nghiệp
(9) Công cụ xây dựng môi trường làm việc Dữ liệu, Phân tích, và Cộng tác
(10) Chi phí vận hành & bảo trì giải pháp thấp
Ứng dụng mạng RetinaNet vào nhận diện đối tượng.pdfaicandyỨng dụng mạng RetinaNet vào nhận diện đối tượng
Nội dung
1. Bài toán
2. Thực hiện
2.1. Cấu trúc chương trình
2.2. Dữ liệu
2.3. Build model
2.4. Chương trình train
2.5. Chương trình test
3. Kết quả train
4. Kết quả test
5. Source code
Cursor & Function trong SQL ServerHuy VũGiới thiệu, khái niệm, cú pháp, demo của Cursor và Function
trong hệ quản trị CSDL
Tham khảo demo vui lòng liên hệ email: pinuit11@gmail.com
Chúc các bạn học tập thật tốt!
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đDịch Vụ Viết Bài Trọn Gói ZALO 0917193864Nhận viết luận văn đại học, thạc sĩ trọn gói, chất lượng, LH ZALO=>0909232620
Tham khảo dịch vụ, bảng giá tại: https://vietbaitotnghiep.com/dich-vu-viet-thue-luan-van
Download luận văn tóm tắt ngành hệ thống thông tin với đề tài: Nghiên cứu thuật toán tìm kiếm chuỗi DNA sử dụng phương pháp tương tự nhanh, cho các bạn làm luận văn tham khảo
Hướng dẫn sử dụng đồng hồ Casio AE-1000WDHo Quang ThanhThe document provides instructions for changing time and date settings on a watch. It describes how to access the setting screen, select the individual settings like hours, minutes, date, and daylight saving time that can be changed. It also summarizes the various functions of the watch like timekeeping, alarms, stopwatch and countdown timer.
Long mode page traslationHo Quang ThanhThis document outlines the hierarchy of memory management entries used in virtual memory systems: page-map entry references a page-directory pointer entry, which references a page-directory entry, which references a page table entry that maps a virtual page to a physical frame.
ĐẢNG CỘNG SẢN VIỆT NAM giải quyết xung đột với Pháp sau CMT8 trước Toàn quốc ...Ho Quang ThanhTải bản Powerpoint tại: http://megaurl.in/bcqukaTu
Tải bản Word tại: http://megaurl.in/XNEc4K
Đề bài: LÀM RÕ QUÁ TRÌNH ĐẢNG TỪNG BƯỚC GIẢI QUYẾT XUNG ĐỘT VỚI PHÁP SAU CMT8/1945 ĐẾN TRƯỚC KHI QUYẾT ĐỊNH PHÁT ĐỘNG TOÀN QUỐC KHÁNG CHIẾN 12/1946
"Đừng tin, Hãy nhìn và lắng nghe"
ĐẢNG CỘNG SẢN VIỆT NAM RA ĐỜI QUÁ TRÌNH SÀNG LỌC NGHIÊM KHẮC CỦA LỊCH SỬ & DÂ...Ho Quang ThanhDownload báo cáo Work: http://megaurl.in/yNtAmDP
Đề bài: ĐẢNG CỘNG SẢN VIỆT NAM RA ĐỜI QUÁ TRÌNH SÀNG LỌC NGHIÊM KHẮC CỦA LỊCH SỬ & DÂN TỘC VIỆT NAM
"Đừng tin, Hãy nhìn và lắng nghe"
ĐƯỜNG LỐI CÔNG NGHIỆP HÓA CỦA ĐẢNG CỘNG SẢN VIỆT NAMHo Quang ThanhDownload bản PowerPoint: http://megaurl.in/2dm39td
Báo cáo Work: http://megaurl.in/FosWQ
Báo cáo của nhóm 11 về đề tài: ĐƯỜNG LỐI CÔNG NGHIỆP HÓA VIỆT NAM
"Đừng tin, hãy nhìn và lắng nghe"
Low-code Platform: Tìm hiểu về nền tảng ít lập trìnhHo Quang ThanhĐiều gì dẫn chúng ta đến với các nền tảng low-code (ít-lập-trình), quá trình chuyển đổi số, nhu cầu hay điều gì?
VINASTAS - các đối tượng hữu quan và đạo đức tổ chức trong vụ "Nước mắm Asen"Ho Quang Thanh+ Liên hệ lấy bản gốc tại zefro.wordpress.com
+ Trong năm 2016, VINASTAS công bố trên website chính thức của họ: "Chỉ có 25 trong tổng số 150 mẫu nước mắm được lấy thử nghiệm (tương ứng 16,67%) đạt theo TCVN 5107:2003, 104 (69%) mẫu nước mắm không đạt chỉ tiêu về asen (thạch tín) - một loại á kim cực độc." (VINASTAS, 2016; nguoitieudung.com.vn, 2016). Sự việc đã tạo ra một làn sóng nghi ngờ chất lượng của nước mắm từ phía người tiêu dung, hàng loạt siêu thị đã tạm ngừng nhập các sản phẩm của những đơn vị liên quan (Thùy, 2016) trong khoảng thời gian chờ kết luận của các cơ quan chức năng, điều này dẫn đến những thiệt hại cho những doanh nghiệp kinh doanh nước mắm truyền thống.
+ Thông qua nghiên cứu, nhóm sẽ tập trung tìm hiểu về vai trò của mối quan hệ đạo đức từ những hậu quả mà báo cáo của VINASTAS tác động lên những đối tượng hữu quan trong giai đoạn 2016-2017.
Nhận dạng tin tức giả Tiếng ViệtHo Quang ThanhTrong bài này, nhóm mình làm về chủ đề Nhận dạng tin tức giả: nhận dạng các đặc trưng của tin tức giả, hiện thực công cụ thu thập và phân loại tin tức
Danh sách tài liệu tham khảo: megaurl.in/2auOdY
Machine Learning resource textbook - Andrew Ng - print versionHo Quang ThanhThis text book contain all resource of machine learning course by Andrew Ng on Coursera. It's made by Ho Quang Thanh for education purpose.
Quyển textbook này tổng hợp lại từ khóa Machine Learning của Andrew Ng trên Coursera. Tài liệu chỉ để phục vụ mục đích học tập.
Link khóa học: https://www.coursera.org/learn/machine-learning/
Nếu có kiến vui lòng liên hệ / If you have any issue please contact: thanh.hoquangcse96@gmail.com
HCMUT-TBI Training of Trainer Ho Quang ThanhChương trình Training of Trainer được HCMUT-TBI tổ chức, HCMUT-TBI là tổ chức phi lợi nhuận của trường Đại học Bách Khoa HCM hỗ trợ các startup, entrepreneur, ...
Giải quyết bài toán Speech-2-Text bằng Long Short-term MemoryHo Quang ThanhMục tiêu của bài toán Speech-2-text đó là nhận ra dữ liệu đầu vào và có thể học nó liên tục, Mô hình Long Short-term Memory phù hợp với dạng bài toán học Hồi quy
Luận cương chính trị 10/1930 - Giải quyết hạn chế & Phát triểnHo Quang ThanhDownload bản PowerPoint: http://megaurl.in/2jWIFk
Báo cáo Work: http://megaurl.in/0ncJl49e
Báo cáo của nhóm 11 về đề tài: Luận cương chính trị 10/1930 - Giải quyết hạn chế & Phát triển. Chia thành 4 giai đoạn để phân tích
"Đừng tin, hãy nhìn và lắng nghe"
AGILE project management - Quản lý dự án linh hoạt & Ứng dụng trong eCommerceHo Quang ThanhAgile project management và cách sử dụng phát triển hệ thống eCommerce. Báo cáo bởi Nhóm 12: Trúc Phương, Ngọc Sơn, Quang Thanh
Cấu hình và bảo mật cho Ubuntu Server Ho Quang ThanhCấu hình Ubuntu server và cài đặt các bảo mật cần thiết:
1. Cài đặt tường lửa
2. Cài đặt antivirus
3. Cài đặt LAMP (Linux Apache, MySQL, PHP)
4. Cài đặt quản trị
Link server mẫu: http://megaurl.in/IZb9
Phiên chợ khởi nghiệp lần 1 - Startup & SMEs Fair 1Ho Quang ThanhTrong phiên chợ lần đầu tiên sẽ không tránh khỏi sai sót, rất mong nhận được sự góp ý của quý doanh nghiệp
Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA
1. LỰA CHỌN THUỘC TÍNH &
KHAI PHÁ LUẬT KẾT HỢP
TRÊN WEKA
THỰC HIỆN LỰA CHỌN THUỘC TÍNH, LÀM SẠCH DỮ LIỆU VÀ
KHAI PHÁ LUẬT KẾT HỢP
DATA MINING 1
2. MỤC LỤC
1. GIỚI THIỆU VỀ BÀI TOÁN
2. CHUẨN BỊ DỮ LIỆU
3. DATA CLEANING – LÀM SẠCH DỮ LIỆU
4. ASSOCIATION RULE MINNING – KHAI PHÁ LUẬT
KẾT HỢP
5. ATTRIBUTE SELECTION – LỰA CHỌN THUỘC TÍNH
DATA MINING 2
3. 1. Giới thiệu về WEKA và dữ liệu
WEKA - Waikato Enviroment for
Knowledge Analysis – là một tập
hợp các giải thuật học máy và các
công cụ xử lý dữ liệu.
Ngôn ngữ: Java, phân phối dưới
giấy phép GNU General Public
Hình 1. Logo của Weka khi chương trình được
khởi động
DATA MINING 3
4. Mô tả dữ liệu bank-data
Dữ liệu bank-data từ DePaul University, đây là dữ liệu ví dụ
mô phỏng từ dữ liệu ngân hàng
Trong thực tế dữ liệu - dữ liệu bank-data - được tập hợp từ
các đơn đăng ký của các khách hàng đến mở dịch vụ và thực
hiện đăng ký online của 1 ngân hàng
DATA MINING 4
5. id Số định danh (mỗi tài khoản 1 thứ tự)
age Số tuổi của khách hàng (tính bằng năm, dạng số)
sex 2 giá trị giới tính: MALE/FEMALE
region 4 giá trị về khu vực: inner_city/rural/suburban/town
income Thu nhập của khách hàng (dạng số)
married Khách hàng đã kết hôn hay chưa, 2 giá trị: YES/NO
children Số lượng con cái của khách hàng (dữ liệu dạng số)
car Khách hàng có xe hơi hay không: YES/NO
save_acct Khách hàng có tài khoản (TK) tiết kiệm hay không: YES/NO
current_acc Khách hàng có TK vãng lai hay không: YES/NO
mortgage Khách hàng có tài sản thế chấp hay không: YES/NO
pep Khách hàng có mua PEP (Personal Equity Plan) sau lần liên
lạc gần nhất: YES/NO
DATA MINING 5
6. 2. CHUẨN BỊ DỮ LIỆU TRÊN WEKA
Chuyển file CSV > ARFF: dữ liệu dạng Attribute-
Relation File Format (ARFF) là dữ liệu được Weka
chấp nhận, trong khi dữ liệu chúng ta thường có ở
dạng csv hoặc tsv
DATA MINING 6
7. Chuyển file CSV > ARFF
Chọn Tools > ArffViewer
để mở hộp thoại
ArffViewer
Mở file định dạng CSV,
sau đó lưu lại với định
dạng ARFF
DATA MINING 7
8. Lưu ý
Chọn Invoke options
dialog là vì các giải
thuật khai phá luật kết
hợp như Apriori,
FPGrowth yêu cầu
thuộc tính dạng
Nominal attributes
(dữ liệu phân loại
DATA MINING 8
10. 3. DATA CLEANING – LÀM SẠCH DỮ LIỆU
Mục đích: Tìm, sửa đổi hoặc loại bỏ các record
dữ liệu không hoàn thiện, không chính xác hoặc
không liên quan đến dữ liệu hiện có
Data Cleansing là 1 phần trong quá trình Tiền xử
lý dữ liệu
DATA MINING 10
12. Thực hiện data cleaning bằng weka
Với các giá trị bị mất
◦Weka sẽ đưa ra tỉ lệ % dữ liệu bị mất
◦Dùng bộ lọc: ReplaceMissingValues
Với dữ liệu nhiễu
◦Weka sẽ báo cáo về các dữ liệu cá biệt
◦Các bộ lọc có thể sử dụng: RemoveMisclassified,
MergeTwoValues
DATA MINING 12
13. Thực hiện làm sạch dữ liệu bank-data
DATA MINING 13
Theo báo cáo trên thì dữ liệu bank-data không bị mất dữ
liệu và cũng không có dữ liệu ngoại lai
14. Làm sạch dữ liệu bầu cử: vote
Dữ liệu có số record bị mất là 12 chiếm 3% và không có dữ
liệu ngoại lai
DATA MINING 14
22. 5. KHAI PHÁ LUẬT KẾT HỢP
Mục đích: của luật kết hợp (Association Rule - AR) là
tìm ra các mối kết hợp (association) hay tương quan
(correlation) giữa các đối tượng trong khối lượng lớn
dữ liệu.
DATA MINING 22
23. Ứng dụng: trong nhiều lĩnh vực, nhất là trong kinh
doanh như Market Basket Analysis: Cross selling –
bán hàng chéo, Product placement – sắp xếp sản
phẩm, Affinity promotion – quảng cáo liên kết,
Customer behavior Analysis – phân tích hành vi khách
hàng.
DATA MINING 23
24. Một số khái niệm thường gặp khi khai
phá luật kết hợp với weka:
•Item: phần tử
•ItemSet: tập phần tử
•Transaction: giao dịch
•Association: sự kết hợp
•Association rule: luật kết hợp
•Support: độ hỗ trợ
•Confidence: độ tin cậy
DATA MINING 24
25. •Frequent itemset: tập phần tử phổ biến
•Strong association rule: luật kết hợp mạnh
•Minimum support threshold: ngưỡng hỗ trợ tối
thiểu
•Minimum confidence threshold: ngưỡng tin cậy tối
thiểu
DATA MINING 25
26. Thực hiện khai phá luật kết hợp với
giải thuật Apriori:
Mục tiêu khai phá được mối quan hệ của các thuộc
tính thu thập được từ khách hàng
DATA MINING 26
28. DATA MINING 28
• car: khai phá luật kết hợp phân lớp
• classindex: -1 ở đây là lấy lớp cuối cùng
• lowerBoundMinSupport: cận dưới độ hỗ trợ tối thiểu
• metricType: dạng thang đo độ tin cậy của giải - ở trường hợp này: Confidence
• minMetric: số điểm tối thiểu chấp nhận được của thang đo
• numRules: số rules cần tìm
• outputItemSets: hiển thị tập dữ liệu
• removeAllMissingCols: loại bỏ các cột không chứa giá trị
• significanceLevel: mức ý nghĩa, chỉ hoạt động với metric type là Confidence
• treatZeroAsMissing: loại bỏ giá trị đầu tiên mỗi row
• upperBoundMinSupport: cận trên độ hỗ trợ tối thiểu
• verbose: chạy chế độ hiển thị chi tiết quá trình
Một số thông số lưu ý:
29. Chi tiết các thông số
• car: khai phá luật kết hợp phân lớp
• classindex: index của lớp dùng trong trường hợp "car=true", -1 ở đây là lấy lớp cuối cùng
• lowerBoundMinSupport: cận dưới độ hỗ trợ tối thiểu
• metricType: dạng thang đo độ tin cậy của giải thuật khai phá luật kết hợp, ở đây là dạng
Confidence
• minMetric: số điểm tối thiểu chấp nhận được của thang đo
• numRules: số rules cần tìm
• outputItemSets: hiển thị tập dữ liệu
• removeAllMissingCols: loại bỏ các cột không chứa giá trị
• significanceLevel: mức ý nghĩa, chỉ hoạt động với metric type là Confidence
• treatZeroAsMissing: loại bỏ giá trị đầu tiên mỗi row
• upperBoundMinSupport: cận trên độ hỗ trợ tối thiểu
• verbose: chạy chế độ hiển thị chi tiết quá trình
DATA MINING 29
30. 5. ATTRIBUTE SELECTION
Dữ liệu phân tích thường chứa nhiều rất nhiều thuộc
tính, nhưng không phải tất cả chúng đều cần thiết để
khai phá tri thức.
DATA MINING 30
31. Lựa chọn thuộc tính trong Weka
Để chọn lựa thuộc tính trong weka bạn cần xác định
attribute evaluator và serch method, sau đó nó sẽ tìm
kiếm trong không gian các thuộc tính con, và đánh giá
từng tập con một. Mỗi attribute evaluator được sử
dụng với một phương pháp tìm kiếm tương ứng
31
33. "Wrapper" method
Đánh giá tập thuộc tính bằng một giải thuật học. Độ
chính xác của giải thuật học trên tập thuộc tính này
được xấp xỉ nhờ cross-validation.
33
34. "Wrapper" method
•Attribute evaluator chọn WrapperSubsetEval, chọn J48, 10 fold cross-validation
•Search method: BestFirst, chọn backward.
•Áp dụng với bank-data, ta được tập thuộc tính là income, married, children,
save_act, mortgage có merit = 0.863
•Tổng số tập được đánh giá: 72 với search termination là 5
34
35. • Tập thuộc tính bắt đầu: (1,2,3,4,5,6,7,8), backward search, và search
termination = 1, ta được (1,2,3,4,5,6,7). Nếu termination = 5 ta được (4,5,6).
• Nếu dùng forward search với tập bắt đầu (1,2,3) ta sẽ lấy toàn bộ thuộc tính.
• Nếu dùng bi-directional với tập (1,2,3) ta có được (4,5,6,8,10) với merit =
0.863
Chú ý: tối ưu cục bộ vs tối ưu toàn cục
• search termination > 1 sẽ giúp bạn vượt qua được thung lũng.
• Với các điểm bắt đầu khác nhau, chúng ta sẽ tới được điểm tối ưu khác nhau.
• Greedy searching chỉ tìm được tối ưu cục bộ trong không gian tìm kiếm.
35
36. Scheme-Indepedent attribute selection
Wrapper đơn giản, trực tiếp nhưng rất chậm.
Chúng ta chú ý:
1. Sử dụng single-attribute evaluator với ranking.
- Giúp loại bỏ những thuộc tính không thích hợp
2. Sử dụng attribute subset evaluator cùng với search method.
- Giúp loại bỏ những thuộc tính dư thừa.
Attribute subset evaluator:
- wrapper method là scheme-dependent subset evaluators
- Còn có scheme-independent subset evaluators
36
37. Scheme-Indepedent attribute selection
CfsSubsetEval: là một scheme-independent subset evaluators
Theo CfsSubsetEval thì một tập thuộc tính tốt phải thỏa mãn:
- Có tương quan cao với thuộc tính phân lớp (class attribute).
- Tương quan yếu với các thuộc tính trong cùng tập.
Nó được thể hiện qua công thức sau:
C là hàm đánh giá tương quan giữa 2 thuộc tính
37
39. Attribute Selected classifier
AttributeSelectedClassifier chọn lựa thuộc tính chỉ dựa trên
tập huấn luyện, thậm chí khi được đánh giá bằng cross-
validation. Đây là cách làm đúng.
Nó cho kết quả tôt nếu chọn bộ phân loại cùng loại thuộc
wrapper.
39
40. Attribute Selected classifier
So sánh CfsSubsetEval với Wrapper trên bank-data.arff
Naive Bayes J48 IBK
No attribute selection 70.33% 85% 75.33%
Attribute selection sử dụng AttributeSelectedClassifier
CfsSubsetEval (rất nhanh) 69.83% 79% 77.66%
Wrapper selection (khá chậm) 72% 85.5% 85.16%
GainRatioAttributeEval (cực nhanh) 71% 79.16% 77.83%
(giữ lại 4 thuộc tính)
Trong nhiều trường hợp thì CfsSubsetEval tốt gần bằng Wrapper
selection nhưng nhanh hơn nhiều.
40
41. Fast attribute selection sử dụng ranking
Single-attribute evaluator: có thể loại bỏ những thuộc tính không
thích hợp, nhưng thuộc tính dư thừa thì không.
- Sử dụng với ranker search, nó dùng để sắp xếp thuộc tính theo giá
trị đánh giá.
- Single-attribute evaluator đánh giá mối tương quan của từng thuộc
tính với với thuộc tính phân lớp.
Mỗi phương pháp thì có công thức riêng.
VD: InfoGainAttributeEval sử dụng information gain, hay
GainRatioAttributeEval sử dụng công thức gain ratio.
41
42. Ranker method có các tham số: số lượng tham số cần
giữ, ngưỡng cần chọn.
Do đó Single-attribute evaluation tuy nhanh nhưng
khó xác định số lượng tham số cần giữ lại.
Không loại được thuộc tính dư
42
43. Thành viên đóng góp
Tên
Nguyễn Tuấn Vũ
Nguyễn Anh Việt
Hồ Quang Thanh
Đoàn Vương Bính Tú
Vũ Văn Thống
Nguyễn Tường Vi
DATA MINING 43