info@luanan.net.vn
VIP Luận án DOC

Luận án Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng Việt.

Năm2022
Lĩnh vựcKhoa học tự nhiên
Ngôn ngữTiếng Anh, Tiếng Việt

Mô tả tài liệu

Tên luận án:

NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ KỸ THUẬT HỖ TRỢ PHÁT HIỆN ĐẠO VĂN VÀ ỨNG DỤNG CHO VĂN BẢN TIẾNG VIỆT

Ngành:

Cơ sở toán học cho tin học

Tóm tắt nội dung tài liệu:

Luận án này tập trung nghiên cứu và phát triển các kỹ thuật hỗ trợ phát hiện sao chép cho văn bản tiếng Việt, nhằm giải quyết các hạn chế hiện có như sự đa dạng và phức tạp của các trường hợp sao chép ý tưởng, ứng dụng kỹ thuật phát hiện sao chép còn hạn chế cho tiếng Việt và thiếu kho ngữ liệu chuẩn lớn. Mục tiêu chính của luận án là đề xuất các kỹ thuật phát hiện sao chép toàn cục, bao gồm tìm tập tài liệu ứng cử và phát hiện đoạn sao chép giữa hai tài liệu, đồng thời xây dựng các kho ngữ liệu tiếng Việt phù hợp.

Các kết quả nghiên cứu chính của luận án bao gồm: nghiên cứu tổng quan về bài toán phát hiện sao chép toàn cục, phân tích ưu nhược điểm của các hướng tiếp cận hiện có. Luận án đã đề xuất hai kỹ thuật trích rút từ khóa: một dựa trên trọng số TF-IDF kết hợp từ loại, và một dựa trên kỹ thuật trích rút đặc trưng cùng mô hình mạng nơ ron truyền thẳng FFNN. Các kỹ thuật này được ứng dụng cho cả văn bản tiếng Anh và tiếng Việt, với các cải tiến phù hợp cho tiếng Việt (sử dụng công cụ PhoBERT-large để trích rút Cụm danh từ và Thực thể có tên). Đồng thời, luận án đề xuất hai kỹ thuật phát hiện đoạn sao chép: một dựa trên mô hình chủ đề kết hợp thuật toán tìm tập phổ biến Apriori, và một dựa trên kỹ thuật trích rút đặc trưng cùng mô hình học sâu LSTM xếp chồng. Phương pháp LSTM xếp chồng được thiết kế với hai pha (pha đoạn và pha từ) để tăng độ chính xác, đặc biệt trong việc loại bỏ các từ dư thừa.

Các phương pháp đề xuất đã được thử nghiệm và so sánh với các nghiên cứu quốc tế, cho thấy hiệu quả cao. Đặc biệt, luận án đã xây dựng thành công kho ngữ liệu đơn ngữ tiếng Việt cho bài toán phát hiện đoạn sao chép (1.022 trường hợp sao chép) và hai kho ngữ liệu tiếng Việt cho bài toán trích rút từ khóa (bài báo và đồ án tốt nghiệp). Các kho ngữ liệu này giúp đánh giá các phương pháp đề xuất. Luận án đã chứng minh tính hiệu quả của các giải pháp đề xuất thông qua thực nghiệm, tạo cơ sở cho việc xây dựng các hệ thống phát hiện sao chép hoàn chỉnh trong tương lai.

Mục lục chi tiết:

  • MỞ ĐẦU

    • 1. Tính cấp thiết của đề tài luận án
    • 2. Mục tiêu nghiên cứu
    • 3. Đối tượng và phạm vi nghiên cứu
    • 4. Nội dung nghiên cứu
    • 5. Phương pháp nghiên cứu:
    • 6. Ý nghĩa khoa học và thực tiễn
    • 7. Bố cục của luận án
  • CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN SAO CHÉP

    • 1.1 Tổng quan
    • 1.2 Các kiến thức nền tảng
    • 1.3 Các hướng tiếp cận phát hiện sao chép ngoài nước
    • 1.4 Các hướng tiếp cận phát hiện sao chép trong nước
    • 1.5 Kho ngữ liệu và phương pháp đánh giá
    • 1.6 Những vấn đề luận án cần tập trung nghiên cứu giải quyết
    • 1.7 Kết luận chương 1
  • CHƯƠNG 2: TRÍCH RÚT TỪ KHÓA DỰA TRÊN MÔ HÌNH HỌC SÂU

    • 2.1 Đặt vấn đề
    • 2.2 Phát biểu bài toán tìm tập tài liệu ứng cử và bài toán trích rút từ khóa
    • 2.3 Đề xuất ý tưởng
    • 2.4 Trích rút từ khóa dựa trên kỹ thuật trích rút đặc trưng và mô hình mạng FFNN
    • 2.5 Kết luận chương 2
  • CHƯƠNG 3: PHÁT HIỆN ĐOẠN SAO CHÉP GIỮA HAI TÀI LIỆU DỰA TRÊN CÁC MÔ HÌNH HỌC MÁY

    • 3.1 Đặt vấn đề
    • 3.2 Phát biểu bài toán phát hiện sao chép
    • 3.3 Đề xuất ý tưởng
    • 3.4 Mô hình chủ đề cho bài toán phát hiện đoạn sao chép
    • 3.5 Kỹ thuật trích rút đặc trưng và mô hình LSTM xếp chồng cho bài toán phát hiện đoạn sao chép
    • 3.6 Kết luận chương 3
  • CHƯƠNG 4: ỨNG DỤNG CÁC KỸ THUẬT PHÁT HIỆN SAO CHÉP CHO VĂN BẢN TIẾNG VIỆT

    • 4.1 Đặt vấn đề
    • 4.2 Xây dựng kho ngữ liệu phát hiện đoạn sao chép tiếng Việt
    • 4.3 Tìm tập tài liệu ứng cử cho văn bản tiếng Việt
    • 4.4 Ứng dụng kỹ thuật phát hiện đoạn sao chép cho văn bản tiếng Việt
  • KẾT LUẬN

    • 1. Các kết quả nghiên cứu của luận án
    • 2. Những đóng góp mới của luận án
    • 3. Hướng nghiên cứu tiếp theo
  • DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ

Tài liệu liên quan