MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM MỜ THEO NHÓM CHO BÀI TOÁN DỮ LIỆU ĐA NGUỒN, NHIỀU ĐẶC TRƯNG
Cơ sở toán học cho tin học
Luận án này tập trung giải quyết thách thức về phân cụm dữ liệu ngày càng lớn và phức tạp, đặc biệt là dữ liệu đa nguồn và nhiều đặc trưng, nơi các kỹ thuật phân cụm truyền thống thường không hiệu quả. Mục tiêu chính là cải tiến và phát triển các thuật toán phân cụm mờ, đồng thời đề xuất các mô hình phân cụm mờ theo nhóm nhằm nâng cao hiệu suất và khả năng ứng dụng trong phân tích dữ liệu đa nguồn.
Nghiên cứu đề xuất một số giải pháp chính. Thứ nhất là thuật toán FCOCM (Fuzzy Co-Clustering with Optimal Centroids Model), một cải tiến của thuật toán đồng phân cụm mờ FCoC, kết hợp với thuật toán tối ưu bầy đàn PSO để tối ưu hóa việc lựa chọn tâm cụm khởi tạo. FCOCM được chứng minh đạt độ chính xác cao hơn đáng kể trong phân cụm dữ liệu đa biến. Thứ hai là thuật toán MSFCoC (Multi-Source Fuzzy Co-Clustering), được thiết kế để phân tích dữ liệu đa nguồn thông qua cơ chế chia sẻ thông tin giữa các đồng phân cụm cơ sở và tích hợp entropy của hàm thuộc đặc trưng, giúp nâng cao hiệu suất phân cụm dữ liệu đa nguồn. Cuối cùng, luận án đề xuất mô hình FOMOCE (Fuzzy Optimization Multi-Objective Clustering Ensemble), một mô hình phân cụm mờ theo nhóm đa hàm mục tiêu sử dụng tri thức ẩn từ các tập dữ liệu đa nguồn để lựa chọn thuật toán phân cụm phù hợp. FOMOCE linh hoạt trong việc phân loại nguồn dữ liệu và điều chỉnh các kỹ thuật xử lý.
Kết quả thực nghiệm cho thấy các phương pháp đề xuất, đặc biệt là FOMOCE, đạt được độ chính xác và ổn định phân cụm cao nhất với thời gian xử lý hiệu quả, chứng minh tiềm năng ứng dụng trong phân tích dữ liệu lớn và nhiều đặc trưng. Các đóng góp chính của luận án là cải thiện chất lượng phân loại dữ liệu nhiều đặc trưng, nâng cao hiệu suất phân cụm dữ liệu đa nguồn và tích hợp các hàm mục tiêu cùng tri thức ẩn để phát triển mô hình phân cụm mờ theo nhóm đa hàm mục tiêu.