PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ THEO TIẾP CẬN FILTER-WRAPPER
Cơ sở toán học cho tin học, Mã số: 9 46 01 10
Luận án này tập trung giải quyết bài toán rút gọn thuộc tính trong bảng quyết định không đầy đủ, một thách thức phổ biến trong xử lý dữ liệu thực tế. Khởi điểm từ lý thuyết tập thô của Pawlak, vốn hiệu quả cho bảng đầy đủ, luận án mở rộng sang các bảng không đầy đủ bằng cách sử dụng mô hình tập thô dung sai của Kryszkiewicz. Các phương pháp rút gọn thuộc tính hiện có, chủ yếu là phương pháp lọc (filter), thường chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp.
Với mục tiêu khắc phục hạn chế này, luận án nghiên cứu và đề xuất các phương pháp rút gọn thuộc tính theo tiếp cận kết hợp filter-wrapper. Hai mục tiêu chính bao gồm: (1) đề xuất các thuật toán filter-wrapper để tìm tập rút gọn của bảng quyết định không đầy đủ theo tập thô dung sai, nhằm giảm thiểu số lượng thuộc tính và cải thiện độ chính xác phân lớp; (2) đề xuất các thuật toán gia tăng filter-wrapper cho bảng quyết định không đầy đủ thay đổi, cũng theo tập thô dung sai, để giảm thuộc tính và tăng độ chính xác so với các thuật toán gia tăng khác.
Các kết quả chính của luận án bao gồm: (1) xây dựng độ đo khoảng cách mới và thuật toán filter-wrapper IDS_FW_DAR, chứng minh khả năng giảm thiểu đáng kể số lượng thuộc tính và cải thiện độ chính xác phân lớp; (2) phát triển bốn thuật toán gia tăng filter-wrapper (IDS_IFW_AO, IDS_IFW_DO, IDS_IFW_AA, IDS_IFW_DA) cho các trường hợp bổ sung/loại bỏ đối tượng và thuộc tính. Các thuật toán này đã được cài đặt, thử nghiệm và đánh giá trên các bộ dữ liệu mẫu từ kho UCI, cho thấy hiệu quả trong việc giảm số lượng thuộc tính và/hoặc nâng cao độ chính xác phân lớp so với các phương pháp filter truyền thống và thuật toán gia tăng khác. Tuy nhiên, chi phí thời gian tính toán của các thuật toán filter-wrapper có thể cao hơn do giai đoạn phân lớp.
Chương 1: Trình bày các khái niệm cơ bản về lý thuyết tập thô truyền thống, mô hình tập thô dung sai, tổng quan về tiếp cận filter-wrapper trong rút gọn thuộc tính và các nghiên cứu liên quan. Trên cơ sở đó, luận án phân tích các vấn đề còn tồn tại và nêu rõ các mục tiêu nghiên cứu cùng với tóm tắt các kết quả đạt được.
Chương 2: Trình bày kết quả nghiên cứu về xây dựng độ đo khoảng cách mới và đề xuất thuật toán gia tăng filter-wrapper IDS_FW_DAR tìm tập rút gọn của bảng quyết định không đầy đủ.
Chương 3: Đề xuất bốn thuật toán gia tăng filter-wrapper: (1) Thuật toán IDS_IFW_AO tìm tập rút gọn trong trường hợp bổ sung tập đối tượng; (2) Thuật toán IDS_IFW_DO tìm tập rút gọn trong trường hợp loại bỏ tập đối tượng; (3) Thuật toán IDS_IFW_AA tìm tập rút gọn trong trường hợp bổ sung tập thuộc tính; (4) Thuật toán IDS_IFW_DA tìm tập rút gọn trong trường hợp loại bỏ tập thuộc tính.
Cuối cùng: Phần kết luận nêu những đóng góp của luận án, hướng phát triển và những vấn đề quan tâm của tác giả.