info@luanan.net.vn
Luận án DOC

Luận án Khai phá mẫu dãy có trọng số trong Cơ sở dữ liệu Dãy

Năm2021
Lĩnh vựcCông nghệ thông tin
Ngôn ngữTiếng Việt, Tiếng Anh

Mô tả tài liệu

Tên luận án:

KHAI PHÁ MẪU DÃY CÓ TRỌNG SỐ TRONG CƠ SỞ DỮ LIỆU DÃY

Ngành:

Hệ thống thông tin (ngành Máy tính)

Tóm tắt nội dung tài liệu:

Luận án này tập trung giải quyết vấn đề khai phá mẫu dãy trong cơ sở dữ liệu, đặc biệt là tích hợp các thông tin mở rộng như trọng số, định lượng và khoảng cách thời gian, những yếu tố mà các phương pháp khai phá mẫu dãy cổ điển thường bỏ qua. Vấn đề khai phá mẫu dãy thường xuyên có trọng số trong CSDL dãy có khoảng cách thời gian và khai phá mẫu dãy lợi ích cao trong CSDL dãy định lượng có khoảng cách thời gian được xác định là trọng tâm nghiên cứu.

Các đóng góp chính của luận án bao gồm:

  • Đề xuất thuật toán TopKWFP để khai phá top-k mẫu dãy thường xuyên trọng số với khoảng cách thời gian trong CSDL dãy. Thuật toán này sử dụng phương pháp xây dựng mẫu dãy ứng viên đảm bảo tính chất phản điệu, chiến lược tăng dần ngưỡng hỗ trợ và tạo mẫu dãy ứng viên hứa hẹn nhất nhằm giảm không gian tìm kiếm và tăng tốc độ xử lý.
  • Đề xuất hai thuật toán là UIPrefixSpanHUISP để khai phá mẫu dãy lợi ích cao với khoảng cách thời gian trên CSDL dãy định lượng.
    • UIPrefixSpan áp dụng chiến lược 2 pha: pha 1 sinh ra các mẫu ứng viên lợi ích cao, pha 2 tính toán lại lợi ích thực để xác định các mẫu cuối cùng.
    • HUISP sử dụng phương pháp xây dựng mẫu dãy ứng viên lợi ích cao để đảm bảo tính chất phản điệu, kết hợp cấu trúc bảng lợi ích để duy trì ngưỡng cận trên và lợi ích thực, cùng với cấu trúc bảng chỉ mục để tăng tốc tìm kiếm khi xây dựng CSDL chiếu.

Các thuật toán đã được kiểm chứng tính đúng đắn và đầy đủ, đồng thời được thực nghiệm trên các bộ dữ liệu thực tế, cho thấy hiệu quả và khả thi. Kết quả thử nghiệm chỉ ra rằng HUISP có hiệu năng tốt hơn UIPrefixSpan cả về thời gian chạy và bộ nhớ sử dụng, đặc biệt khi ngưỡng lợi ích tối thiểu giảm. Độ phức tạp của các thuật toán được đánh giá là hàm mũ O(n^n).

Hướng nghiên cứu tương lai bao gồm phát triển các phương pháp hiệu quả hơn, khai phá các mẫu dãy trên CSDL tăng trưởng/cập nhật sử dụng khái niệm cửa sổ trượt, và khai phá các luật kết hợp từ các mẫu dãy có trọng số và lợi ích cao trong CSDL có khoảng cách thời gian.

Tài liệu liên quan