Tên luận án:
PHƯƠNG PHÁP LỰA CHỌN THUỘC TÍNH VÀ KỸ THUẬT GOM CỤM DỮ LIỆU PHÂN LOẠI SỬ DỤNG TẬP THÔ
Ngành:
Khoa học máy tính
Tóm tắt nội dung tài liệu:
Luận án này tập trung vào việc giải quyết các thách thức trong khai phá tri thức từ cơ sở dữ liệu lớn, đặc biệt là trong bối cảnh dữ liệu ngày càng phức tạp và có chứa thông tin mơ hồ, không chắc chắn. Tận dụng Lý thuyết tập thô của Zdzisaw Pawlak như một công cụ hữu hiệu để xử lý các bài toán này, nghiên cứu đề xuất các phương pháp mới nhằm cải thiện hiệu quả của quá trình khai phá dữ liệu.
Mục tiêu chính của luận án là giải quyết hai vấn đề cốt lõi: (1) phát triển thuật toán hiệu quả để tìm tập rút gọn thuộc tính trong bảng quyết định và (2) xây dựng kỹ thuật gom cụm dữ liệu phân loại có khả năng xử lý sự không chắc chắn.
Bố cục của luận án được tổ chức rõ ràng, bắt đầu bằng việc giới thiệu các khái niệm cơ bản về lý thuyết tập thô, quy trình khám phá tri thức từ cơ sở dữ liệu và ứng dụng của lý thuyết tập thô trong khai phá dữ liệu ở Chương 2.
Chương 3 trình bày chi tiết về bài toán lựa chọn thuộc tính. Luận án đề xuất một thuật toán mới có tên gọi ACBRC (Attribute Clustering Based Reduct Computing) dựa trên phương pháp gom cụm thuộc tính để tìm tập rút gọn. Kết quả thực nghiệm cho thấy ACBRC có khả năng tính toán tập rút gọn xấp xỉ với kích thước nhỏ hơn và độ chính xác phân lớp cao hơn so với các thuật toán so sánh.
Chương 4 tập trung vào bài toán gom cụm dữ liệu phân loại. Luận án giới thiệu thuật toán mới MMNVI (Minimum Mean Normalized Variation of Information), một phương pháp gom cụm phân cấp sử dụng lý thuyết tập thô kết hợp các khái niệm entropy. Các thử nghiệm trên các tập dữ liệu thực từ kho dữ liệu UCI chứng minh MMNVI là một thuật toán ổn định, cho kết quả gom cụm tốt hơn hoặc tương đương so với các thuật toán cơ sở khác.
Những đóng góp chính của luận án bao gồm việc đề xuất hai thuật toán ACBRC và MMNVI, đã được công bố trên các tạp chí khoa học uy tín. Hướng phát triển trong tương lai bao gồm việc cải tiến các thuật toán này để xử lý thông tin bị thiếu, tự động xác định số lượng cụm, xử lý dữ liệu hỗn hợp (số và phân loại), và tối ưu hóa độ phức tạp tính toán.
Mục lục chi tiết:
- CHƯƠNG 1. MỞ ĐẦU....................................................................................... 1
- CHƯƠNG 2. KHÁI QUÁT VỀ LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG KHAI PHÁ DỮ LIỆU....................................................................... 3
- 2.1 Các khái niệm cơ bản của lý thuyết tập thô.............................................. 3
- 2.1.1 Hệ thông tin........................................................................................... 3
- 2.1.2 Quan hệ không phân biệt được và các xấp xỉ của một tập hợp........... 4
- 2.1.3 Bảng quyết định.................................................................................... 4
- 2.1.4 Các khái niệm lý thuyết thông tin liên quan........................................ 5
- 2.2 Khám phá tri thức từ cơ sở dữ liệu........................................................... 7
- 2.2.1 Các kỹ thuật khai phá dữ liệu............................................................... 7
- 2.3 Ứng dụng của lý thuyết tập thô trong khai phá dữ liệu............................ 7
- 2.4 Kết luận chương 2....................................................................................... 8
- CHƯƠNG 3. LỰA CHỌN THUỘC TÍNH SỬ DỤNG LÝ THUYẾT TẬP THÔ................................................................................................................... 8
- 3.1 Khái quát về bài toán lựa chọn thuộc tính................................................ 8
- 3.1.1 Phương pháp tạo lập các tập con......................................................... 8
- 3.1.2 Tiêu chuẩn đánh giá.............................................................................. 9
- 3.2 Các phương pháp lựa chọn thuộc tính sử dụng lý thuyết tập thô......... 10
- 3.2.1 Đề xuất thuật toán rút gọn thuộc tính dựa vào gom cụm ACBRC.. 11
- 3.3 Kết luận chương 3.................................................................................... 16
- CHƯƠNG 4. GOM CỤM DỮ LIỆU SỬ DỤNG LÝ THUYẾT TẬP THÔ................................................................................................................. 16
- 4.1 Thuật toán MMNVI.................................................................................. 18
- 4.1.1 Ý tưởng và những định nghĩa cơ bản................................................ 18
- 4.1.2 Thuật toán MMNVI........................................................................... 19
- 4.1.3 Độ phức tạp của thuật toán MMNVI........................... Error! Bookmark not defined.
- 4.1.4 Nhận xét thuật toán MMNVI....................................... Error! Bookmark not defined.
- 4.1.5 Kết quả thực nghiệm thuật toán MMNVI......................................... 21
- 4.1.6 Bộ dữ liệu đánh giá............................................................................ 21
- 4.1.7 Phương pháp đánh giá hiệu suất......................................................... 21
- 4.1.8 Kết quả gom cụm............................................................................... 21
- 4.2 Kết luận chương 4.................................................................................... 22
- CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.................................. 23
- 5.1 Những kết quả và đóng góp chính của luận án....................................... 23
- 5.2 Hướng phát triển của luận án................................................................... 24