Đăng nhập để tải tài liệu không giới hạn
Tham gia 8.000+ người dùng Thư Viện Luận Án
Đang tải tài liệu...
ĐÁNH GIÁ MỨC ĐỘ GIỐNG NHAU CỦA VĂN BẢN TIẾNG VIỆT
KHOA HỌC MÁY TÍNH
Luận án "Đánh giá mức độ giống nhau của văn bản tiếng Việt" giải quyết vấn nạn sao chép tài liệu số trên Internet, đặc biệt đối với văn bản tiếng Việt. Nghiên cứu này tập trung vào việc đánh giá mức độ tương đồng và phát hiện nội dung sao chép, đối mặt với các thách thức về xây dựng kho dữ liệu, biểu diễn văn bản hiệu quả, thuật toán tính độ tương tự và xử lý dữ liệu lớn.
Ý tưởng nổi bật của luận án là ứng dụng các thành tựu từ lĩnh vực sinh học và xử lý tín hiệu số vào xử lý ngôn ngữ tự nhiên. Cụ thể, đề xuất một hướng tiếp cận mới bằng cách áp dụng phương pháp biến đổi Wavelet rời rạc (DWT) và bộ lọc Haar để chuyển văn bản thành chuỗi số DNA, từ đó tổ chức lưu trữ và phát triển các giải thuật so sánh, tìm kiếm hiệu quả trên dữ liệu lớn.
Các mục tiêu chính bao gồm đề xuất phương pháp biểu diễn văn bản hiệu quả cho phát hiện sao chép, cải thiện tốc độ và độ chính xác của các giải thuật khi xử lý dữ liệu lớn, và xây dựng hệ thống phát hiện sao chép văn bản tiếng Việt ứng dụng thử nghiệm tại Đại học Đà Nẵng. Luận án tập trung vào mô hình vector và phương pháp tính độ tương tự dựa trên chuỗi, không đi sâu vào ngữ nghĩa.
Những đóng góp chính của luận án là cải tiến mô hình vector với độ đo Cosine cho đơn vị từ và câu, đề xuất cách tiếp cận mới dựa trên chuỗi số thực DNA sử dụng DWT và bộ lọc Haar, xây dựng quy trình và thuật toán phát hiện sự giống nhau bằng khoảng cách Euclid, cùng các giải pháp xử lý dữ liệu lớn hiệu quả thông qua mã hóa văn bản sang chuỗi DNA và tìm kiếm nhị phân. Luận án cũng đã xây dựng bộ dữ liệu tiếng Việt và triển khai hệ thống thử nghiệm tại ĐHĐN, đạt kết quả thực nghiệm cao về độ chính xác (trên 97-99% với PAN 2009 và dữ liệu tiếng Việt tự tạo).
Tải không giới hạn tất cả tài liệu, không cần chờ. Chỉ từ 199.000đ/tháng.
Xem gói hội viên