NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP MỜ BIỂU THỊ BẰNG THÔNG TIN NGÔN NGỮ VÀ ỨNG DỤNG
Cơ sở toán học cho tin học
Luận án "NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP MỜ BIỂU THỊ BẰNG THÔNG TIN NGÔN NGỮ VÀ ỨNG DỤNG" tập trung vào việc cải thiện quá trình khai phá luật kết hợp mờ từ các kho dữ liệu số. Nhận thức được những hạn chế của các phương pháp truyền thống, bao gồm độ phức tạp tính toán và khả năng tạo ra các luật kém ý nghĩa, nghiên cứu này đề xuất một hướng tiếp cận mới sử dụng Đại số gia tử (ĐSGT) thay vì lý thuyết tập mờ truyền thống.
Mục tiêu chính của luận án là phát triển các phương pháp biểu thị khái niệm mờ ngôn ngữ thông qua hàm thuộc, nghiên cứu các kỹ thuật khai phá tri thức nói chung và luật mờ nói riêng, cũng như khám phá các cách biểu diễn dữ liệu đa dạng (đơn thể hạt và đa thể hạt) để tạo ra các luật kết hợp phong phú và có ý nghĩa hơn.
Các đóng góp cốt lõi của luận án bao gồm việc tích hợp ĐSGT với một phương pháp nén cơ sở dữ liệu giao dịch mờ. Kỹ thuật nén này giúp giảm đáng kể kích thước cơ sở dữ liệu ban đầu bằng cách gom nhóm các giao dịch mờ tương tự, từ đó rút ngắn thời gian khai phá luật kết hợp. Nghiên cứu cũng đề xuất một thuật toán tối ưu hóa các hàm thuộc dựa trên lý thuyết ĐSGT, sử dụng giải thuật di truyền (GA). Phương pháp này tối ưu hóa ít tham số hơn so với các phương pháp dựa trên lý thuyết tập mờ trước đây, dẫn đến quá trình tối ưu nhanh và hiệu quả hơn.
Luận án đã thực nghiệm trên cả biểu diễn đơn thể hạt và đa thể hạt. Biểu diễn đơn thể hạt được dùng để tính toán độ thuộc của dữ liệu vào các miền mờ và sinh ra các luật kết hợp mờ. Đặc biệt, biểu diễn đa thể hạt kết hợp với ĐSGT cho phép khám phá các luật kết hợp vừa có tính khái quát cao vừa chi tiết, đồng thời không làm tăng đáng kể độ phức tạp tính toán hay thời gian xử lý mà vẫn mang lại kết quả vượt trội. Các thử nghiệm trên nhiều bộ dữ liệu khác nhau (FAM95, STULONG, pollution, basketball, quake, stock) đã chứng minh hiệu quả và ưu điểm của các phương pháp đề xuất so với các phương pháp hiện có.