Đăng nhập để tải tài liệu không giới hạn
Tham gia 8.000+ người dùng Thư Viện Luận Án
NGHIÊN CỨU MỘT SỐ BÀI TOÁN TRONG HỎI ĐÁP CỘNG ĐỒNG
Hệ thống thông tin
Luận án này tập trung nghiên cứu một số bài toán quan trọng trong hệ thống Hỏi đáp cộng đồng (Community Question Answering - CQA), bao gồm lựa chọn câu trả lời tốt nhất, tóm tắt các câu trả lời và tìm kiếm câu hỏi tương đồng. Nhu cầu tìm kiếm thông tin và câu trả lời hàng ngày là rất lớn, với CQA là một trong những hệ thống hiệu quả. Tuy nhiên, hệ thống này đối mặt với các thách thức như lượng thông tin lớn gây khó khăn trong việc lựa chọn câu trả lời tốt nhất, sự không đầy đủ của câu trả lời, và độ trễ khi tìm kiếm câu trả lời cho câu hỏi mới. Đặc biệt, khoảng cách từ vựng và hạn chế nghiên cứu trên dữ liệu tiếng Việt là những vấn đề cần giải quyết.
Để giải quyết các thách thức này, luận án đề xuất các mô hình học sâu kết hợp với cơ chế chú ý. Cụ thể, luận án đã đạt được ba kết quả chính. Thứ nhất, mô hình match-LSTM kết hợp cơ chế chú ý có giám sát (supervised attention) được đề xuất để cải thiện bài toán lựa chọn câu trả lời. Mô hình này học ra trọng số chú ý tốt hơn, giúp dự đoán chính xác hơn và đạt kết quả tương đương với các đội hàng đầu trong cuộc thi SemEval 2017. Thứ hai, luận án trình bày phương pháp tóm tắt câu trả lời cho các câu hỏi non-factoid bằng cách sử dụng các mô hình học biểu diễn câu không giám sát như Auto-Encoder (AE) và LSTM-AE, kết hợp với thuật toán MMR để trích rút tóm tắt. Phương pháp này cho kết quả tương đương hoặc tốt hơn so với các phương pháp có giám sát trên một số độ đo. Thứ ba, để giải quyết bài toán tìm câu hỏi tương đồng, luận án đã xây dựng tập dữ liệu tiếng Việt trên miền thương mại điện tử và thử nghiệm mô hình BERT. Đặc biệt, mô hình SBERT được đề xuất để học biểu diễn câu, giúp rút ngắn thời gian suy diễn từ O(m.n) xuống còn O(m), từ đó giảm đáng kể thời gian phản hồi mà vẫn duy trì độ chính xác cao.
Các mô hình đề xuất trong luận án có ưu điểm về hiệu năng trên các độ đo như MAP, MRR, Rouge-N và có tính giải thích tốt hơn thông qua trực quan hóa trọng số chú ý. Luận án đã giải quyết các mục tiêu đề ra và các mô hình này có thể triển khai áp dụng trực tiếp vào hệ thống CQA.
Tải không giới hạn tất cả tài liệu, không cần chờ. Chỉ từ 199.000đ/tháng.
Xem gói hội viên