info@luanan.net.vn
Luận án PDF

Luận án Nghiên cứu phát triển các kỹ thuật tự động tóm tắt văn bản tiếng Việt

Năm2014
Lĩnh vựcKhoa học tự nhiên
Ngôn ngữTiếng Việt, Tiếng Anh

Mô tả tài liệu

Tóm tắt nội dung tài liệu:

Tài liệu này trình bày về tính cấp thiết và tình hình nghiên cứu của bài toán tóm tắt văn bản tự động, một giải pháp quan trọng nhằm giải quyết vấn đề quá tải thông tin do sự phát triển nhanh chóng của các dịch vụ trực tuyến và công nghệ lưu trữ hiện đại. Lượng thông tin văn bản khổng lồ trên Internet gây ra khó khăn trong việc tìm kiếm và tổng hợp, đòi hỏi các giải pháp xử lý thông tin hiệu quả.

Trên thế giới, bài toán tóm tắt văn bản đã được nghiên cứu từ những năm 1950, tập trung vào hai hướng chính: tóm tắt trích rút (Extraction Summarization - ES) và tóm tắt tóm lược (Abstraction Summarization - AS). Hướng ES, dễ thực hiện và có tốc độ xử lý nhanh hơn, chủ yếu dựa vào việc tính trọng số câu để trích rút thông tin quan trọng. Ngược lại, hướng AS sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên kết hợp thông tin ngôn ngữ để tạo ra các bản tóm tắt mới. Các phương pháp này được áp dụng cho cả bài toán tóm tắt đơn văn bản và đa văn bản và đã đạt được nhiều kết quả cho nhiều ngôn ngữ khác nhau.

Đối với tiếng Việt, do tính phức tạp và đặc thù riêng, số lượng và chất lượng các nghiên cứu về tóm tắt văn bản còn hạn chế so với các ngôn ngữ phổ biến khác, chủ yếu là các đề tài ở cấp độ tốt nghiệp đại học, luận văn thạc sĩ, tiến sĩ và đề tài khoa học công nghệ cấp bộ. Phần lớn các nghiên cứu hiện có dựa trên hướng trích rút cho bài toán tóm tắt đơn văn bản. Một thách thức lớn là sự thiếu hụt kho ngữ liệu chuẩn phục vụ cho tóm tắt văn bản tiếng Việt, dẫn đến việc đánh giá hiệu quả của các phương pháp còn chưa khách quan.

Tính cấp thiết của bài toán tóm tắt văn bản tiếng Việt được nhấn mạnh bởi vai trò quan trọng của nó trong việc khai thác hiệu quả lượng thông tin khổng lồ, ứng dụng trong các hệ thống tìm kiếm thông minh, đa ngôn ngữ, và tổng hợp thông tin. Đặc biệt, trong lĩnh vực an ninh quốc phòng, tóm tắt tin tức có thể hỗ trợ cán bộ nghiệp vụ thu thập và xử lý thông tin kịp thời. Mặc dù bài toán này đang nhận được sự quan tâm từ các nhà nghiên cứu trong nước, số lượng và chất lượng nghiên cứu vẫn còn khiêm tốn, một phần nguyên nhân là do các nghiên cứu xử lý ngôn ngữ tự nhiên tiếng Việt hiện đang tập trung vào các vấn đề cơ bản như tách từ, gán nhãn từ loại, cây cú pháp, và xây dựng các kho ngữ liệu cùng WordNet tiếng Việt.

Tài liệu liên quan