Tên luận án:
Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Ngành:
Xử lý ngôn ngữ tự nhiên
Tóm tắt nội dung tài liệu:
Trong kỷ nguyên số, với sự bùng nổ của dữ liệu văn bản từ nhiều nguồn khác nhau, việc tóm tắt thủ công trở nên không khả thi. Do đó, tóm tắt văn bản tự động là một nhiệm vụ cấp thiết nhằm giúp người dùng tiếp cận thông tin hiệu quả và tiết kiệm thời gian. Các hệ thống tóm tắt tự động được phân loại thành tóm tắt đơn văn bản và đa văn bản, sử dụng hai phương pháp tiếp cận chính: hướng trích rút và hướng tóm lược.
Phương pháp trích rút hoạt động bằng cách lựa chọn những câu quan trọng nhất từ văn bản nguồn. Phương pháp này có ưu điểm là thực thi đơn giản, nhanh và đạt độ chính xác cao, nhưng còn hạn chế về khả năng xử lý dư thừa thông tin, thiếu ngữ nghĩa và tính liên kết trong bản tóm tắt, đặc biệt là trong bối cảnh đa văn bản. Các kỹ thuật phổ biến bao gồm thống kê, khái niệm, chủ đề, trọng tâm/phân cụm, đồ thị, ngữ nghĩa, học máy và học sâu.
Ngược lại, phương pháp tóm lược biểu diễn văn bản đầu vào ở dạng trung gian để sinh ra bản tóm tắt với từ ngữ mới, khác biệt so với văn bản gốc, nhằm đạt được chất lượng gần với tóm tắt thủ công. Tuy nhiên, việc phát triển các hệ thống tóm lược chất lượng cao rất khó khăn do yêu cầu kỹ thuật sinh ngôn ngữ tự nhiên phức tạp, cùng với các vấn đề như lặp từ và xử lý từ không có trong từ vựng (OOV).
Nghiên cứu hiện tại đối mặt với nhiều thách thức, bao gồm sự phức tạp của tóm tắt đa văn bản, hạn chế trong hỗ trợ các ngôn ngữ khác ngoài tiếng Anh (đặc biệt là tiếng Việt do thiếu kho ngữ liệu), nhu cầu cải thiện các phương pháp tóm lược và hỗn hợp, phát hiện các đặc trưng thống kê và ngôn ngữ mới, cũng như giải quyết vấn đề khan hiếm dữ liệu thử nghiệm cho các mô hình học sâu và nâng cao chất lượng ngữ nghĩa của bản tóm tắt.
Luận án này tập trung giải quyết các thách thức trên bằng cách đề xuất và phát triển các mô hình tóm tắt văn bản hiệu quả dựa trên kỹ thuật học sâu cho cả tiếng Anh và tiếng Việt. Phạm vi nghiên cứu bao gồm việc nghiên cứu các đặc trưng văn bản, bộ dữ liệu thử nghiệm cho tóm tắt đơn/đa văn bản và các kỹ thuật như véc tơ hóa, học máy, học sâu, mô hình huấn luyện trước, cơ chế chú ý, tìm kiếm, loại bỏ trùng lặp và đánh giá độ chính xác.
Các đóng góp chính của luận án bao gồm việc đề xuất và thử nghiệm thành công ba mô hình tóm tắt đơn văn bản hướng trích rút (RoPhoBERT_MLP_ESDS, mBERT_CNN_ESDS, mBERT-Tiny_seq2seq_DeepQL_ESDS), một mô hình tóm tắt đơn văn bản hướng tóm lược (PG_Feature_ASDS), một mô hình tóm tắt đa văn bản hướng trích rút (Kmeans_Centroid_EMDS), và hai mô hình tóm tắt đa văn bản hướng tóm lược (PG_Feature_AMDS, Ext_Abs_AMDS-mds-mmr). Các mô hình này đã được áp dụng hiệu quả cho cả tiếng Anh và tiếng Việt, đạt độ chính xác cao và có tiềm năng ứng dụng thực tiễn trong xử lý ngôn ngữ tự nhiên.
Mục lục chi tiết:
- MỞ ĐẦU
- 1. Bối cảnh nghiên cứu
- 2. Động lực thúc đẩy
- 3. Đối tượng và phạm vi nghiên cứu
- 4. Mục tiêu nghiên cứu
- 5. Phương pháp nghiên cứu
- 6. Nội dung nghiên cứu
- 7. Ý nghĩa khoa học và ý nghĩa thực tiễn
- 8. Những đóng góp chính của luận án
- 9. Bố cục của luận án
- Chương 1. TỔNG QUAN VỀ TÓM TẮT VĂN BẢN
- 1.1. Giới thiệu về tóm tắt văn bản
- 1.1.1. Giới thiệu bài toán tóm tắt văn bản
- 1.1.2. Phân loại bài toán tóm tắt văn bản
- 1.1.3. Các bước thực hiện trong tóm tắt văn bản
- 1.1.4. Một số đặc trưng của văn bản
- 1.2. Một số phương pháp đánh giá văn bản tóm tắt tự động
- 1.2.1. Phương pháp dựa trên độ tương tự về nội dung
- 1.2.2. Phương pháp dựa trên độ tương quan phù hợp
- 1.2.3. Phương pháp ROUGE
- 1.3. Các phương pháp kết hợp văn bản trong tóm tắt đa văn bản
- 1.4. Các phương pháp tóm tắt văn bản hướng trích rút cơ sở
- 1.5. Các bộ dữ liệu thử nghiệm
- 1.5.1. Các bộ dữ liệu văn bản tiếng Anh
- 1.5.2. Các bộ dữ liệu văn bản tiếng Việt
- 1.6. Kết luận chương 1
- Chương 2. CÁC KIẾN THỨC NỀN TẢNG
- 2.1. Các kỹ thuật học sâu cơ sở
- 2.1.1. Mạng Perceptron nhiều lớp
- 2.1.2. Mạng nơ ron tích chập
- 2.1.2.1. Giới thiệu mạng nơ ron tích chập
- 2.1.2.2. Mạng CNN cho bài toán xử lý ngôn ngữ tự nhiên
- 2.1.3. Mạng nơ ron hồi quy
- 2.1.3.1. Mô hình mạng nơ ron hồi quy
- 2.1.3.2. Huấn luyện mạng nơ ron hồi quy
- 2.1.4. Một số biến thể của RNN
- 2.1.4.1. Mạng LSTM
- 2.1.4.2. Mạng biLSTM
- 2.1.4.3. Mạng GRU
- 2.1.4.4. Mạng biGRU
- 2.1.5. Mô hình chuỗi sang chuỗi cơ bản
- 2.1.6. Cơ chế chú ý
- 2.1.7. Cơ chế tự chú ý và mô hình Transformer
- 2.1.7.1. Cơ chế tự chú ý
- 2.1.7.2. Kiến trúc của Transformer
- 2.2. Các mô hình ngôn ngữ dựa trên học sâu được huấn luyện trước
- 2.2.1. Mã hóa từ
- 2.2.2. Phương pháp Word2Vec
- 2.2.3. Mô hình BERT
- 2.2.3.1 Giới thiệu
- 2.2.3.2 Kiến trúc BERT
- 2.2.3.3 Biểu diễn đầu vào
- 2.2.3.4. Biểu diễn đầu ra
- 2.2.3.5. BERT được huấn luyện trước
- 2.2.3.6. Tinh chỉnh BERT
- 2.2.4. Một số phiên bản mô hình của BERT
- 2.3. Kỹ thuật học tăng cường Deep Q-Learning
- 2.3.1. Học tăng cường Q-Learning
- 2.3.2. Thuật toán học tăng cường Q-Learning
- 2.4. Tìm kiếm Beam
- 2.5. Phương pháp độ liên quan cận biên tối đa
- 2.6. Kết luận chương 2
- Chương 3. PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN HƯỚNG TRÍCH RÚT
- 3.1. Giới thiệu bài toán và hướng tiếp cận
- 3.2. Mô hình tóm tắt đơn văn bản hướng trích rút RoPhoBERT_MLP_ESDS
- 3.2.1. Giới thiệu mô hình
- 3.2.2. Mô hình tóm tắt văn bản đề xuất
- 3.2.2.1. Véc tơ hóa dữ liệu
- 3.2.2.2. Huấn luyện
- 3.2.2.3. Sinh văn bản tóm tắt
- 3.2.3. Thử nghiệm mô hình
- 3.2.3.1. Dữ liệu thử nghiệm
- 3.2.3.2. Tiền xử lý dữ liệu
- 3.2.3.3. Thiết kế thử nghiệm
- 3.2.4. Đánh giá và so sánh kết quả
- 3.3. Mô hình tóm tắt đơn văn bản hướng trích rút mBERT_CNN_ESDS
- 3.3.1. Giới thiệu mô hình
- 3.3.2. Mô hình tóm tắt văn bản đề xuất
- 3.3.2.1. Véc tơ hóa từ
- 3.3.2.2. Mô hình phân loại câu
- 3.3.2.3. Sinh văn bản tóm tắt
- 3.3.3. Thử nghiệm mô hình
- 3.3.3.1. Các bộ dữ liệu thử nghiệm
- 3.3.3.2. Tiền xử lý dữ liệu
- 3.3.3.3. Thiết kế thử nghiệm
- 3.3.4. Đánh giá và so sánh kết quả
- 3.4. Mô hình tóm tắt đơn văn bản hướng trích rút mBERT-Tiny_seq2seq_DeepQL_ESDS
- 3.4.1. Giới thiệu mô hình
- 3.4.2. Mô hình tóm tắt văn bản đề xuất
- 3.4.2.1. Véc tơ hóa từ
- 3.4.2.2. Mô hình phân loại câu
- 3.4.2.3. Sinh bản tóm tắt
- 3.4.3. Huấn luyện mô hình với kỹ thuật học tăng cường
- 3.4.4. Thử nghiệm mô hình
- 3.4.4.1. Dữ liệu thử nghiệm
- 3.4.4.2. Tiền xử lý dữ liệu
- 3.4.4.3. Thiết kế thử nghiệm
- 3.4.5. Đánh giá và so sánh kết quả
- 3.5. So sánh đánh giá ba mô hình tóm tắt đơn văn bản hướng trích rút đề xuất
- 3.6. Kết luận chương 3
- Chương 4. PHÁT TRIỂN PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN HƯỚNG TÓM LƯỢC
- 4.1. Giới thiệu bài toán và hướng tiếp cận
- 4.2. Mô hình tóm tắt cơ sở
- 4.2.1. Kiến trúc seq2seq
- 4.2.2. Kỹ thuật chú ý
- 4.2.3. Cơ chế Pointer - Generator
- 4.2.4. Cơ chế bao phủ
- 4.3. Mô hình tóm tắt đơn văn bản hướng tóm lược đề xuất PG_ASDS
- 4.3.1. Các đặc trưng đề xuất thêm mới cho mô hình
- 4.3.2. Mô hình tóm tắt đơn văn bản hướng tóm lược đề xuất PG_Feature_ASDS
- 4.4. Thử nghiệm mô hình
- 4.4.1. Các bộ dữ liệu thử nghiệm
- 4.4.2. Tiền xử lý dữ liệu
- 4.4.3. Thiết kế thử nghiệm
- 4.5. Đánh giá và so sánh kết quả
- 4.6. Kết luận chương 4
- Chương 5. PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐA VĂN BẢN
- 5.1. Giới thiệu bài toán tóm tắt đa văn bản và hướng tiếp cận
- 5.2. Mô hình tóm tắt đa văn bản hướng trích rút Kmeans_Centroid_EMDS
- 5.2.1. Giới thiệu mô hình
- 5.2.2. Các thành phần chính của mô hình
- 5.2.2.1. Véc tơ hóa câu
- 5.2.2.2. K-means cho bài toán phân cụm
- 5.2.2.3. Tóm tắt văn bản dựa trên trung tâm
- 5.2.3. Mô hình tóm tắt đa văn bản đề xuất
- 5.2.3.1. Xây dựng các mô hình tóm tắt
- 5.2.3.2. Mô hình tóm tắt đa văn bản hướng trích rút Kmeans_Centroid_EMDS
- 5.2.4. Thử nghiệm mô hình và kết quả
- 5.2.4.1. Dữ liệu thử nghiệm
- 5.2.4.2. Cài đặt các tham số
- 5.2.4.3. Thiết kế thử nghiệm
- 5.2.5. So sánh và đánh giá kết quả
- 5.3. Các mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản được huấn luyện trước
- 5.3.1. Đặt vấn đề
- 5.3.2. Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản hướng tóm lược được huấn luyện trước PG_Feature_AMDS
- 5.3.2.1. Giới thiệu mô hình
- 5.3.2.2. Các thành phần của mô hình
- 5.3.2.3. Mô hình tóm tắt đa văn bản hướng tóm lược đề xuất dựa trên mô hình tóm tắt đơn văn bản được huấn luyện trước PG_Feature_AMDS
- 5.3.2.4. Huấn luyện mô hình
- 5.3.2.5. Thiết kế thử nghiệm
- 5.3.3. Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản hỗn hợp được huấn luyện trước
- 5.3.3.1. Giới thiệu mô hình
- 5.3.3.2. Các thành phần của mô hình
- 5.3.3.3. Xây dựng mô hình tóm tắt đa văn bản hướng tóm lược đề xuất
- 5.3.3.4. Mô hình huấn luyện đề xuất
- 5.3.3.5. Thử nghiệm mô hình
- 5.3.3.6. Đánh giá và so sánh kết quả
- 5.4. Kết luận chương 5
- KẾT LUẬN
- A. Kết quả đạt được của luận án
- B. Những khó khăn và tồn tại của luận án
- C. Định hướng phát triển