Tên luận án:
TÓM TẮT DỮ LIỆU BẰNG NGÔN NGỮ THEO CÁCH TIẾP CẬN ĐẠI SỐ GIA TỬ
Ngành:
Khoa học máy tính
Tóm tắt nội dung tài liệu:
Luận án này tập trung giải quyết bài toán trích rút tri thức ngôn ngữ từ các kho dữ liệu lớn, một hướng nghiên cứu có tính thời sự và ứng dụng thực tiễn cao. Dựa trên lý thuyết tập mờ, các phương pháp hiện có thường gặp hạn chế về tính giải nghĩa của các câu tóm tắt ngôn ngữ, số lượng hạng từ có thể trích rút, và khả năng tìm kiếm tập câu tóm tắt tối ưu từ không gian dữ liệu rộng lớn.
Để khắc phục những vấn đề này, luận án đề xuất một nền tảng phương pháp luận mới dựa trên lý thuyết Đại số gia tử (ĐSGT). Mục tiêu chính là phát triển một phương pháp tóm tắt ngôn ngữ dữ liệu (LSMd) có khả năng đảm bảo tính giải nghĩa của nội dung thông tin trong các câu tóm tắt và tương thích với tính mở rộng của tập hạng từ của các thuộc tính. Đồng thời, luận án cũng đề xuất một mô hình giải thuật di truyền cải tiến để trích rút tập câu tóm tắt tối ưu, chứa các câu tóm tắt chất lượng cao và thể hiện tri thức đa dạng.
Những đóng góp chính của luận án bao gồm:
- Đề xuất thủ tục HA-TFS-MG dựa trên phương pháp luận Đại số gia tử để sản sinh các tập mờ trong các cấu trúc đa thể, được chứng minh là ảnh đẳng cấu ngữ nghĩa với các từ trong miền hạng từ của thuộc tính.
- Đề xuất một phương pháp trích rút câu tóm tắt đảm bảo sự tương đồng giữa ngữ nghĩa tính toán trích rút từ tập dữ liệu và ngữ nghĩa vốn có của nó trong ngôn ngữ tự nhiên, với tính khả thi và ưu điểm được chứng tỏ qua thực nghiệm.
- Đề xuất thủ tục sử dụng chiến lược tham lam Random-Greedy-LS và mô hình giải thuật di truyền Greedy-GA để tìm kiếm một tập câu tóm tắt tối ưu từ cơ sở dữ liệu, cho thấy hiệu suất vượt trội so với mô hình Hybrid-GA đã có.
Các kết quả thực nghiệm chứng minh tính khả thi và ưu điểm của phương pháp đề xuất, góp phần nâng cao hiệu quả và độ tin cậy của quá trình khai phá tri thức bằng ngôn ngữ.
Mục lục chi tiết:
-
MỞ ĐẦU
- 1. Tính cấp thiết của luận án
- 2. Mục tiêu nghiên cứu
- 3. Các nội dung nghiên cứu chính
-
CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ
- 1.1. Một số kiến thức cơ bản về tập mờ
- 1.2. Khung nhận thức dựa trên lý thuyết tập mờ
- 1.3. Tổng quan về trích rút tóm tắt ngôn ngữ dựa trên lý thuyết tập mờ
- 1.4. Trích rút tập câu tóm tắt tối ưu từ cơ sở dữ liệu
- 1.5. Lý thuyết Đại số gia tử
- 1.6. Kết luận chương 1
-
CHƯƠNG 2. VẤN ĐỀ NỘI DUNG THÔNG TIN CÂU TÓM TẮT VÀ BIỂU DIỄN TẬP MỜ CỦA MIỀN NGÔN NGỮ THUỘC TÍNH
- 2.1. Vai trò của khung nhận thức trong bài toán trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ
- 2.2. Vấn đề nội dung thông tin của các câu tóm tắt bằng ngôn ngữ
- 2.3. Khung nhận thức ngôn ngữ trong lý thuyết Đại số gia tử
- 2.4. Cấu trúc đa ngữ nghĩa và tính mở rộng được của LFoC
- 2.5. Xây dựng cấu trúc ngữ nghĩa tính toán giải nghĩa được của LFoC
- 2.6. Kết luận chương 2
-
CHƯƠNG 3. PHƯƠNG PHÁP TRÍCH RÚT TÓM TẮT NGÔN NGỮ DỰA TRÊN ĐẠI SỐ GIA TỬ
- 3.1. Cú pháp câu tóm tắt trong ngôn ngữ tự nhiên
- 3.2. Phương pháp trích rút câu tóm tắt dựa trên lý thuyết Đại số gia tử
- 3.3. Thực nghiệm
- 3.4. Kết luận chương 3
-
CHƯƠNG 4. TRÍCH RÚT TẬP CÂU TÓM TẮT TỐI ƯU SỬ DỤNG GIẢI THUẬT DI TRUYỀN KẾT HỢP CHIẾN LƯỢC THAM LAM
- 4.1. Mối liên hệ giữa luật kết hợp ngôn ngữ và câu tóm tắt có từ lượng hóa
- 4.2. Bài toán trích rút tập con câu tóm tắt tối ưu
- 4.3. Giải thuật di truyền trích rút tập câu tóm tắt tối ưu
- 4.4. Đề xuất thủ tục sinh câu tóm tắt tốt dựa trên chiến lược tham lam
- 4.5. Đề xuất mô hình giải thuật di truyền kết hợp chiến lược tham lam trích rút tập câu tóm tắt tối ưu
- 4.6. Thực nghiệm
- 4.7. Kết luận chương 4
-
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
-
NHỮNG ĐÓNG GÓP MỚI CỦA LUẬN ÁN