Luận án Đánh giá mức độ giống nhau của văn bản tiếng việt

Năm2019

Lĩnh vựcCông nghệ thông tin

Ngôn ngữTiếng Việt, Tiếng Anh

Xem trước tài liệu

Đang tải tài liệu...

Mô tả tài liệu

Tên luận án:

ĐÁNH GIÁ MỨC ĐỘ GIỐNG NHAU CỦA VĂN BẢN TIẾNG VIỆT

Ngành:

KHOA HỌC MÁY TÍNH

Tóm tắt nội dung tài liệu:

Luận án "Đánh giá mức độ giống nhau của văn bản tiếng Việt" giải quyết vấn nạn sao chép tài liệu số trên Internet, đặc biệt đối với văn bản tiếng Việt. Nghiên cứu này tập trung vào việc đánh giá mức độ tương đồng và phát hiện nội dung sao chép, đối mặt với các thách thức về xây dựng kho dữ liệu, biểu diễn văn bản hiệu quả, thuật toán tính độ tương tự và xử lý dữ liệu lớn.

Ý tưởng nổi bật của luận án là ứng dụng các thành tựu từ lĩnh vực sinh học và xử lý tín hiệu số vào xử lý ngôn ngữ tự nhiên. Cụ thể, đề xuất một hướng tiếp cận mới bằng cách áp dụng phương pháp biến đổi Wavelet rời rạc (DWT) và bộ lọc Haar để chuyển văn bản thành chuỗi số DNA, từ đó tổ chức lưu trữ và phát triển các giải thuật so sánh, tìm kiếm hiệu quả trên dữ liệu lớn.

Các mục tiêu chính bao gồm đề xuất phương pháp biểu diễn văn bản hiệu quả cho phát hiện sao chép, cải thiện tốc độ và độ chính xác của các giải thuật khi xử lý dữ liệu lớn, và xây dựng hệ thống phát hiện sao chép văn bản tiếng Việt ứng dụng thử nghiệm tại Đại học Đà Nẵng. Luận án tập trung vào mô hình vector và phương pháp tính độ tương tự dựa trên chuỗi, không đi sâu vào ngữ nghĩa.

Những đóng góp chính của luận án là cải tiến mô hình vector với độ đo Cosine cho đơn vị từ và câu, đề xuất cách tiếp cận mới dựa trên chuỗi số thực DNA sử dụng DWT và bộ lọc Haar, xây dựng quy trình và thuật toán phát hiện sự giống nhau bằng khoảng cách Euclid, cùng các giải pháp xử lý dữ liệu lớn hiệu quả thông qua mã hóa văn bản sang chuỗi DNA và tìm kiếm nhị phân. Luận án cũng đã xây dựng bộ dữ liệu tiếng Việt và triển khai hệ thống thử nghiệm tại ĐHĐN, đạt kết quả thực nghiệm cao về độ chính xác (trên 97-99% với PAN 2009 và dữ liệu tiếng Việt tự tạo).

Mục lục chi tiết:

Chương 1: Tổng quan tình hình nghiên cứu.
Chương 2: So sánh văn bản dựa trên mô hình vector.
Chương 3: Phát hiện sao chép văn bản dựa trên biến đổi Wavelet rời rạc.
Chương 4: Phát triển hệ thống phát hiện sao chép văn bản tiếng Việt.

Luận án Đánh giá mức độ giống nhau của văn bản tiếng việt

Mô tả tài liệu

Tên luận án:

Ngành:

Tóm tắt nội dung tài liệu:

Mục lục chi tiết:

Chương 1: Tổng quan tình hình nghiên cứu.

Chương 2: So sánh văn bản dựa trên mô hình vector.

Chương 3: Phát hiện sao chép văn bản dựa trên biến đổi Wavelet rời rạc.

Chương 4: Phát triển hệ thống phát hiện sao chép văn bản tiếng Việt.

Tài liệu liên quan

Hội viên Premium

Tài liệu tải nhiều

Lĩnh vực khác