NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ KỸ THUẬT HỖ TRỢ PHÁT HIỆN ĐẠO VĂN VÀ ỨNG DỤNG CHO VĂN BẢN TIẾNG VIỆT
Cơ sở toán học cho tin học
Luận án này tập trung nghiên cứu và phát triển các kỹ thuật hỗ trợ phát hiện sao chép cho văn bản tiếng Việt, nhằm giải quyết các hạn chế hiện có như sự đa dạng và phức tạp của các trường hợp sao chép ý tưởng, ứng dụng kỹ thuật phát hiện sao chép còn hạn chế cho tiếng Việt và thiếu kho ngữ liệu chuẩn lớn. Mục tiêu chính của luận án là đề xuất các kỹ thuật phát hiện sao chép toàn cục, bao gồm tìm tập tài liệu ứng cử và phát hiện đoạn sao chép giữa hai tài liệu, đồng thời xây dựng các kho ngữ liệu tiếng Việt phù hợp.
Các kết quả nghiên cứu chính của luận án bao gồm: nghiên cứu tổng quan về bài toán phát hiện sao chép toàn cục, phân tích ưu nhược điểm của các hướng tiếp cận hiện có. Luận án đã đề xuất hai kỹ thuật trích rút từ khóa: một dựa trên trọng số TF-IDF kết hợp từ loại, và một dựa trên kỹ thuật trích rút đặc trưng cùng mô hình mạng nơ ron truyền thẳng FFNN. Các kỹ thuật này được ứng dụng cho cả văn bản tiếng Anh và tiếng Việt, với các cải tiến phù hợp cho tiếng Việt (sử dụng công cụ PhoBERT-large để trích rút Cụm danh từ và Thực thể có tên). Đồng thời, luận án đề xuất hai kỹ thuật phát hiện đoạn sao chép: một dựa trên mô hình chủ đề kết hợp thuật toán tìm tập phổ biến Apriori, và một dựa trên kỹ thuật trích rút đặc trưng cùng mô hình học sâu LSTM xếp chồng. Phương pháp LSTM xếp chồng được thiết kế với hai pha (pha đoạn và pha từ) để tăng độ chính xác, đặc biệt trong việc loại bỏ các từ dư thừa.
Các phương pháp đề xuất đã được thử nghiệm và so sánh với các nghiên cứu quốc tế, cho thấy hiệu quả cao. Đặc biệt, luận án đã xây dựng thành công kho ngữ liệu đơn ngữ tiếng Việt cho bài toán phát hiện đoạn sao chép (1.022 trường hợp sao chép) và hai kho ngữ liệu tiếng Việt cho bài toán trích rút từ khóa (bài báo và đồ án tốt nghiệp). Các kho ngữ liệu này giúp đánh giá các phương pháp đề xuất. Luận án đã chứng minh tính hiệu quả của các giải pháp đề xuất thông qua thực nghiệm, tạo cơ sở cho việc xây dựng các hệ thống phát hiện sao chép hoàn chỉnh trong tương lai.