info@luanan.net.vn
Luận án PDF

Luận án Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử

Năm2018
Lĩnh vựcCông nghệ thông tin
Ngôn ngữTiếng Việt, Tiếng Anh
Xem trước tài liệu
Đang tải...

Đang tải tài liệu...

Mô tả tài liệu

Tên luận án:

PHÂN LỚP DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH MỜ DỰA TRÊN ĐẠI SỐ GIA TỬ

Ngành:

KHOA HỌC MÁY TÍNH (Mã số: 62.48.01.01)

Tóm tắt nội dung tài liệu:

Luận án này tập trung giải quyết các thách thức trong phân lớp dữ liệu bằng cây quyết định, đặc biệt khi đối mặt với dữ liệu mờ và không thuần nhất trong các kho dữ liệu nghiệp vụ. Xuất phát từ thực tế các khái niệm mờ luôn tồn tại, luận án nghiên cứu việc hình thức hóa toán học của khái niệm mờ thông qua lý thuyết tập mờ và đại số gia tử (ĐSGT) do L. A. Zadeh khởi xướng.

Mục tiêu chính của luận án là xây dựng mô hình học phân lớp dữ liệu bằng cây quyết định mờ hiệu quả, đơn giản cho người dùng và đạt được khả năng dự đoán cao. Để thực hiện điều này, luận án đề xuất một phương pháp xử lý giá trị ngôn ngữ của các thuộc tính chưa thuần nhất dựa trên ĐSGT, đồng thời phát triển các thuật toán học cây quyết định mờ.

Cụ thể, luận án đã nghiên cứu các thuật toán học cây truyền thống và những hạn chế của chúng. Luận án giới thiệu phương pháp trích chọn tập mẫu huấn luyện đặc trưng, các khái niệm về tập mẫu không thuần nhất, giá trị ngoại lai, và xây dựng thuật toán để thuần nhất các thuộc tính này. Hai thuật toán mới, MixC4.5 và FMixC4.5, được đề xuất để phục vụ quá trình học cây quyết định trên tập mẫu không thuần nhất. Các kết quả thực nghiệm trên dữ liệu Northwind và Mushroom cho thấy MixC4.5 và FMixC4.5 cải thiện hiệu quả dự đoán so với các thuật toán truyền thống.

Tiếp theo, luận án tập trung vào phương pháp huấn luyện cây quyết định mờ dựa trên đối sánh khoảng mờ. Luận án đề xuất các khái niệm đối sánh khoảng mờ, khoảng mờ lớn nhất, và xây dựng thuật toán HAC4.5 cùng HAC4.5* để tối ưu mô hình cây quyết định mờ theo hướng đa mục tiêu (tăng hiệu quả dự đoán và giảm độ phức tạp của cây). Các thuật toán này được đánh giá trên dữ liệu Mushroom và Adult, cho thấy khả năng dự đoán được cải thiện đáng kể và số nút trên cây huấn luyện giảm, đáp ứng các hàm mục tiêu đặt ra.

Luận án đóng góp vào việc ứng dụng ĐSGT trong biểu diễn và xử lý thông tin mờ, định lượng giá trị ngôn ngữ mà không phụ thuộc vào miền trị Min-Max cố định, làm phong phú thêm các phương pháp học phân lớp bằng cây quyết định, và có thể dùng làm tài liệu tham khảo cho nghiên cứu về học phân lớp dữ liệu.

Mục lục chi tiết:

  • Chương 1. CƠ SỞ LÝ THUYẾT VỀ ĐẠI SỐ GIA TỬ VÀ TỔNG QUAN PHÂN LỚP DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH

    • 1.1. Lý thuyết tập mờ
    • 1.2. Đại số gia tử
      • 1.2.1. Khái niệm đại số gia tử
      • 1.2.2. Các hàm đo của đại số gia tử
      • 1.2.3. Một số tính chất của các hàm đo
      • 1.2.4. Khoảng mờ và các mối tương quan của khoảng mờ
    • 1.3. Phân lớp dữ liệu bằng cây quyết định
      • 1.3.1. Bài toán phân lớp trong khai phá dữ liệu
      • 1.3.2. Cây quyết định
      • 1.3.3. Lợi ích thông tin và tỷ lệ lợi ích thông tin
      • 1.3.4. Vấn đề quá khớp trong mô hình cây quyết định
    • 1.4. Phân lớp dữ liệu bằng cây quyết định mờ
      • 1.4.1. Các hạn chế của phân lớp dữ liệu bằng cây quyết định rõ
      • 1.4.2. Bài toán phân lớp dữ liệu bằng cây quyết định mờ
      • 1.4.3. Một số vấn đề của bài toán phân lớp dữ liệu bằng cây quyết định mờ
  • Chương 2. PHÂN LỚP DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH MỜ THEO PHƯƠNG PHÁP ĐỐI SÁNH ĐIỂM MỜ DỰA TRÊN ĐẠI SỐ GIA TỬ

    • 2.1. Giới thiệu
    • 2.2. Phương pháp chọn tập mẫu huấn luyện đặc trưng cho bài toán học phân lớp bằng cây quyết định
      • 2.2.1. Tính chất thuộc tính của tập mẫu huấn luyện đối với quá trình huấn luyện
      • 2.2.2. Ảnh hưởng của phụ thuộc hàm giữa các thuộc tính trong tập huấn luyện
    • 2.3. Học phân lớp bằng cây quyết định dựa trên việc xác định ngưỡng miền trị thuộc tính
      • 2.3.1. Cơ sở của việc xác định ngưỡng cho quá trình học
      • 2.3.2. Thuật toán MixC4.5 dựa trên ngưỡng miền trị thuộc tính
      • 2.3.3. Cài đặt thử nghiệm và đánh giá thuật toán MixC4.5
    • 2.4. Học phân lớp bằng cây quyết định mờ dựa trên đối sánh điểm mờ
      • 2.4.1. Xây dựng mô hình phân lớp dữ liệu bằng cây quyết định mờ
      • 2.4.2. Vấn đề với tập mẫu huấn luyện không thuần nhất
      • 2.4.3. Một cách định lượng giá trị ngôn ngữ ngoại lai trong tập mẫu huấn luyện
      • 2.4.4. Thuật toán học cây quyết định mờ FMixC4.5 dựa trên việc đối sánh điểm mờ
      • 2.4.5. Cài đặt thử nghiệm và đánh giá thuật toán FMixC4.5
    • 2.5. Tiểu kết Chương 2
  • Chương 3. PHƯƠNG PHÁP HUẤN LUYỆN CÂY QUYẾT ĐỊNH MỜ CHO BÀI TOÁN PHÂN LỚP DỮ LIỆU DỰA TRÊN ĐỐI SÁNH KHOẢNG MỜ

    • 3.1. Giới thiệu
    • 3.2. Phương pháp đối sánh giá trị khoảng trên thuộc tính mờ
      • 3.2.1. Xây dựng cách thức đối sánh giá trị khoảng dựa trên ĐSGT
      • 3.2.2. Phương pháp xác định khoảng mờ khi chưa biết miền trị MIN, MAX của các thuộc tính mờ
    • 3.3. Học phân lớp bằng cây quyết định mờ dựa trên cách thức đối sánh khoảng mờ
      • 3.3.1. Thuật toán học cây quyết định mờ HAC4.5 dựa trên đối sánh khoảng mờ
      • 3.3.2. Cài đặt thử nghiệm và đánh giá thuật toán HAC4.5
    • 3.4. Xây dựng khái niệm khoảng mờ lớn nhất và phương pháp nhằm tối ưu mô hình cây quyết định mờ
      • 3.4.1. Phát biểu bài toán học cây quyết định mờ theo hướng đa mục tiêu
      • 3.4.2. Khái niệm về khoảng mờ lớn nhất và cách thức tính khoảng mờ lớn nhất cho các thuộc tính mờ
      • 3.4.3. Thuật toán học cây quyết định mờ HAC4.5* theo cách tiếp cận khoảng mờ lớn nhất
      • 3.4.4. Cài đặt thử nghiệm và đánh giá thuật toán HAC4.5*
    • 3.5. Tiểu kết chương 3

Tài liệu liên quan