Luận án Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng Việt

Năm2023

Lĩnh vựcCông nghệ thông tin

Ngôn ngữTiếng Việt, Tiếng Anh

Mô tả tài liệu

Tên luận án:

NGHIÊN CỨU PHƯƠNG PHÁP CHUẨN HOÁ VĂN BẢN VÀ NHẬN DẠNG THỰC THỂ ĐỊNH DANH TRONG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT

Ngành:

Hệ thống thông tin

Tóm tắt nội dung tài liệu:

Luận án "Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng Việt" của Nguyễn Thị Thu Hiền, chuyên ngành Hệ thống thông tin, giải quyết các thách thức trong xử lý văn bản đầu ra từ hệ thống nhận dạng tiếng nói tự động (ASR) tiếng Việt. Văn bản ASR thường thiếu cấu trúc, dấu câu và chữ hoa, gây khó khăn cho việc hiểu ngữ nghĩa và nhận dạng thực thể định danh (NER) – một bài toán quan trọng trong Xử lý ngôn ngữ tự nhiên (XLNNTN).

Mục tiêu chính của luận án là đề xuất giải pháp chuẩn hóa văn bản bằng cách khôi phục dấu câu, chữ hoa, và nhận dạng thực thể định danh trên văn bản đầu ra của ASR tiếng Việt. Nghiên cứu đã xây dựng các bộ dữ liệu đặc thù, đề xuất mô hình CaPu (Transformer Encoder – CRF) cho việc khôi phục dấu câu và chữ hoa, sử dụng kỹ thuật phân đoạn chồng lấn để cải thiện ngữ cảnh. Kết quả thực nghiệm cho thấy phương pháp hợp nhất đoạn chồng lấn giúp tăng đáng kể hiệu suất.

Đối với bài toán NER, luận án đề xuất hai hướng tiếp cận: đường ống (Pipeline) và đầu-cuối (End-to-End - E2E). Mô hình Pipeline kết hợp CaPu và sử dụng mô hình biểu diễn ngôn ngữ tiền huấn luyện ViBERT (dựa trên RoBERTa) để nhúng từ, cùng với GRU và CRF để phân loại nhãn thực thể. Mô hình E2E giải quyết đồng thời cả hai bài toán khôi phục dấu câu, chữ hoa và nhận dạng thực thể định danh, tận dụng kiến thức học đa tác vụ và kỹ thuật chia sẻ tham số.

Các đóng góp chính bao gồm việc xây dựng các bộ dữ liệu cho huấn luyện và đánh giá, đề xuất mô hình CaPu cải tiến, và hai giải pháp NER (Pipeline và E2E). Mô hình E2E, dù hiệu suất chưa vượt trội đáng kể so với Pipeline, mang lại ưu thế về tích hợp hệ thống, giảm thiểu sai số tích lũy và thuận lợi trong triển khai thực tế. Luận án đã chứng minh tầm quan trọng của việc chuẩn hóa văn bản đầu vào để nâng cao hiệu suất NER cho tiếng Việt.

Luận án Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng Việt

Mô tả tài liệu

Tên luận án:

Ngành:

Tóm tắt nội dung tài liệu:

Tài liệu liên quan

Hội viên Premium

Tài liệu tải nhiều

Lĩnh vực khác