Tên luận án:
TÓM TẮT TỰ ĐỘNG VĂN BẢN TRÊN TẬP DỮ LIỆU LỚN
Ngành:
Chuyên ngành: Hệ thống thông tin
Mã ngành: 9480104
Tóm tắt nội dung tài liệu:
Luận án này tập trung giải quyết bài toán tóm tắt tự động văn bản trên tập dữ liệu lớn tiếng Việt, một lĩnh vực nghiên cứu quan trọng trong xử lý ngôn ngữ tự nhiên nhưng còn hạn chế đối với tiếng Việt. Mục tiêu chính là thu thập dữ liệu, nghiên cứu và đề xuất các mô hình tóm tắt tự động hiệu quả, chính xác cho văn bản tiếng Việt.
Các đóng góp chính của luận án bao gồm:
- **Xây dựng Tập dữ liệu VNText:** Luận án đã xây dựng thành công tập dữ liệu văn bản tiếng Việt quy mô lớn, gồm hơn một triệu bài viết từ các trang báo điện tử. Tập dữ liệu này không chỉ dùng cho tóm tắt mà còn có thể ứng dụng trong phân lớp văn bản và huấn luyện các mô hình ngôn ngữ.
- **Đánh giá mô hình nền tảng:** Ba mô hình tóm tắt tự động hiện đại với kiến trúc sequence-to-sequence (PointC dựa trên mạng LSTM, T5 và BART dựa trên mạng Transformer) đã được nghiên cứu, cài đặt và kiểm chứng trên tập VNText, cho thấy chất lượng bản tóm tắt cao theo thang đo ROUGE.
- **Đề xuất các mô hình tóm tắt rút trích hiệu suất cao:**
- **SKSUM:** Trích xuất câu dựa trên mô hình gom cụm dữ liệu huấn luyện trực tiếp trên tập câu của văn bản đầu vào, sử dụng vector ngữ nghĩa. SKSUM đạt hiệu suất cao về thời gian thực thi và chất lượng bản tóm tắt.
- **PESUM:** Cải tiến SKSUM bằng cách sử dụng mô hình gom cụm được huấn luyện trước trên tập dữ liệu huấn luyện VNText và áp dụng cơ chế song song hóa (toàn cục và cục bộ) trong quá trình tóm tắt, giúp giảm thời gian tóm tắt đáng kể (nhanh hơn SKSUM 3 lần) mà vẫn giữ được độ chính xác.
- **CPESUM:** Nâng cao chất lượng bản tóm tắt của PESUM bằng cách thay thế mô hình gom cụm toàn cục bằng các mô hình gom cụm cục bộ được huấn luyện trên các tập con của VNText dựa trên nhãn văn bản, đồng thời thừa hưởng hiệu suất thời gian của PESUM.
- **Đề xuất mô hình tóm tắt tóm lược nhanh THASUM:** Mô hình dựa trên kiến trúc Transformer đầy đủ encoder và decoder. THASUM được tối ưu để giảm thời gian huấn luyện và tóm tắt thông qua việc giảm số lượng lớp, tối ưu chuỗi đầu vào và chiều dài vector attention. Mô hình đạt hiệu suất tóm tắt cao trên cả CPU và GPU (nhanh hơn PointC 115.42 lần trên GPU), với chất lượng bản tóm tắt tương đương hoặc tốt hơn các mô hình hiện đại ở một số độ đo ROUGE.
Các mô hình được đề xuất trong luận án giúp tăng hiệu quả về mặt thời gian và đảm bảo chất lượng bản tóm tắt trên tập dữ liệu lớn tiếng Việt, tạo tiền đề cho các nghiên cứu tiếp theo trong lĩnh vực này.