NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP MỜ BIỂU THỊ BẰNG THÔNG TIN NGÔN NGỮ VÀ ỨNG DỤNG
Cơ sở toán học cho tin học
Luận án này tập trung nghiên cứu phát triển phương pháp khai phá luật kết hợp mờ biểu thị bằng thông tin ngôn ngữ từ các cơ sở dữ liệu số, với mục tiêu giảm thời gian xử lý và nâng cao ý nghĩa của các luật được khai phá. Luận án sử dụng Đại số gia tử (ĐSGT) thay cho lý thuyết tập mờ truyền thống để giải quyết các nhược điểm trong việc xây dựng thuật toán tăng tốc độ xử lý và phân hoạch mờ miền xác định, đồng thời cung cấp một cách tiếp cận thống nhất và hiệu quả cho các biểu diễn dữ liệu khác nhau.
Mục đích nghiên cứu chính bao gồm việc biểu thị ngữ nghĩa các khái niệm mờ thông qua hàm thuộc, khai phá tri thức nói chung và luật mờ nói riêng, cùng với việc nghiên cứu các cách biểu diễn dữ liệu đa dạng (đơn thể hạt và đa thể hạt) để tạo ra các luật kết hợp mang nhiều ý nghĩa hơn.
Công trình đề xuất phương pháp nén cơ sở dữ liệu giao dịch mờ dựa trên ĐSGT, giúp gộp các giao dịch mờ gần nhau để giảm kích thước CSDL và rút ngắn thời gian khai phá luật kết hợp. Thuật toán khai phá luật kết hợp mờ được cải tiến từ thuật toán Apriori, áp dụng trên CSDL nén.
Để tối ưu hóa các tham số mờ, luận án đề xuất sử dụng lý thuyết ĐSGT kết hợp với giải thuật di truyền (GA) để tìm kiếm các hàm thuộc tối ưu. Phương pháp này tập trung vào tối ưu độ đo tính mờ và số lượng tham số, ít phức tạp hơn so với các phương pháp dựa trên lý thuyết tập mờ thông thường. Các hàm thuộc được xây dựng dựa trên biểu diễn đơn thể hạt và đa thể hạt của ĐSGT, đảm bảo độ phủ và độ chồng lấn hợp lý trên miền giá trị của thuộc tính, đồng thời phản ánh ngữ nghĩa ngôn ngữ tự nhiên.
Kết quả thực nghiệm trên sáu bộ dữ liệu thực tế (FAM95, pollution, stulong, basketball, quake, stock) từ kho dữ liệu UCI cho thấy phương pháp đề xuất có hiệu quả cao. Cụ thể, giải pháp nén CSDL mờ mang lại tốc độ xử lý nhanh hơn và các tập phổ biến tìm được tương tự như khi không nén. Đồng thời, phương pháp phân hoạch mờ dựa trên ĐSGT với biểu diễn đa thể hạt tạo ra các luật kết hợp vừa có tính khái quát cao, vừa chi tiết, với độ thú vị trung bình cao hơn hoặc tương đương so với các phương pháp khác. Việc tính toán với biểu diễn đa thể hạt không làm tăng đáng kể độ phức tạp hay thời gian xử lý.