Đăng nhập để tải tài liệu không giới hạn
Tham gia 8.000+ người dùng Thư Viện Luận Án
Đang tải tài liệu...
NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ KỸ THUẬT TÁCH TỪ TIẾNG VIỆT
Cơ sở Toán học cho Tin học
Luận án "Nghiên cứu phát triển một số kỹ thuật tách từ tiếng Việt" tập trung giải quyết các vấn đề khó khăn trong bài toán tách từ tiếng Việt, một nền tảng quan trọng trong xử lý ngôn ngữ tự nhiên. Bài toán này đặc biệt phức tạp do tiếng Việt không có ký hiệu phân tách từ rõ ràng, cùng với các thách thức về nhận diện tên riêng, từ mới và xử lý nhập nhằng ranh giới từ.
Mục tiêu chính của luận án là phân tích những điểm tồn tại, tích hợp tri thức từ điển, ngữ liệu và quy tắc cấu tạo từ để nâng cao hiệu quả nhận diện các thực thể văn bản và xử lý nhập nhằng. Luận án đã đề xuất và phát triển các kỹ thuật mới. Cụ thể, luận án giới thiệu kỹ thuật nhận diện từ láy và từ ghép đẳng lập bằng học máy không giám sát kết hợp với quy tắc ngôn ngữ học. Phương pháp này đã phát hiện thêm 1.024 từ láy kép và 1.040 từ ghép song tiết đẳng lập mới, góp phần tăng độ chính xác tách từ lên 0,44%.
Đối với vấn đề nhập nhằng ranh giới từ (gồm nhập nhằng chồng lấp OA và nhập nhằng ghép tách CA), luận án đưa ra ba nhóm giải pháp hiệu quả: so khớp cực đại kết hợp thông tin vị trí quán từ, sử dụng độ phức tạp văn bản với mô hình xác suất bigram mức từ và HMM gán nhãn từ loại, cùng với mô hình điểm số tích hợp các tài nguyên và tri thức. Các giải pháp này đã cải thiện độ chính xác F1-score thêm 1,17%.
Luận án cũng đề xuất kỹ thuật nhận diện và khử nhập nhằng tên riêng, giải quyết ba dạng nhập nhằng tên riêng (tiền tố, hậu tố, tên riêng với tên riêng), đạt độ chính xác nhận diện tên riêng là 97,91% và tăng 3,82% độ chính xác F1-score.
Mô hình tách từ VWS được đề xuất trong luận án cho kết quả thử nghiệm đạt độ đo F1-score 98,78%, vượt trội so với các công cụ hiện hành như VnTokenizer (96,71%), DongDu (97,90%) và JvnSegmenter (98,11%), đồng thời đảm bảo thời gian thực hiện tuyến tính O(n). Ngoài ra, luận án còn đề xuất bước đầu ứng dụng kiểm lỗi chính tả tiếng Việt. Các khảo sát và thử nghiệm được thực hiện trên các kho ngữ liệu VietTreeBank và từ điển VCL.
Tải không giới hạn tất cả tài liệu, không cần chờ. Chỉ từ 199.000đ/tháng.
Xem gói hội viên