info@luanan.net.vn
Luận án DOCX

Luận án Nghiên cứu các phương pháp phát hiện tin nhắn rác tiếng Việt

Năm2023
Lĩnh vựcCông nghệ thông tin
Ngôn ngữTiếng Việt, Tiếng Anh

Mô tả tài liệu

Tên luận án:

NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÁT HIỆN TIN NHẮN RÁC TIẾNG VIỆT

Ngành:

Hệ thống thông tin (Mã số: 9.48.01.04)

Tóm tắt nội dung tài liệu:

Luận án "NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÁT HIỆN TIN NHẮN RÁC TIẾNG VIỆT" của Vũ Minh Tuấn, được thực hiện tại Học viện Công nghệ Bưu chính Viễn thông vào năm 2024, tập trung giải quyết vấn đề tin nhắn rác SMS trong bối cảnh kỹ thuật số hóa. Đề tài xuất phát từ nhu cầu cải thiện chất lượng dịch vụ tin nhắn và bảo vệ người dùng khỏi thông tin không mong muốn, góp phần đảm bảo an ninh thông tin.

Mục tiêu chính của nghiên cứu là phát triển và cải tiến các kỹ thuật phát hiện tin nhắn rác, đặc biệt cho ngôn ngữ tiếng Việt. Luận án đặt ra ba mục tiêu cụ thể: xây dựng tập dữ liệu tin nhắn rác và tin nhắn thường bằng tiếng Việt, phân tích mức độ ảnh hưởng của độ dài tin nhắn đến hiệu quả của các mô hình phát hiện, và đề xuất phương pháp phù hợp với đặc thù đa biến thể của tiếng Việt. Đối tượng nghiên cứu là các phương pháp phát hiện tin nhắn rác tiếng Việt, với khách thể là các tin nhắn rác được phát tán đến người dùng dịch vụ di động.

Phương pháp nghiên cứu bao gồm thu thập và chuẩn bị dữ liệu, nghiên cứu lý thuyết, triển khai thực nghiệm và đánh giá kết quả dựa trên các tiêu chí như Accuracy, Precision, Recall và F1 Score. Luận án đã đạt được các kết quả quan trọng: xây dựng thành công bộ dữ liệu tin nhắn rác và tin nhắn thường tiếng Việt, phân tích chi tiết mức độ phụ thuộc của hiệu quả mô hình vào độ dài tin nhắn và đề xuất mô hình ổn định, đồng thời đề xuất hai hướng tiếp cận để giải quyết bài toán phát hiện tin nhắn rác với đặc điểm đa biến thể của tiếng Việt. Các thí nghiệm đã được thực hiện với các mô hình học máy truyền thống và học sâu (CNN, LSTM kết hợp với các kỹ thuật vector hóa văn bản như Word2Vec, GloVe, FastText, PhoBERT, và BERT NER), cho thấy mô hình CNN với học sâu là hiệu quả nhất trong điều kiện nội dung giới hạn.

Mục lục chi tiết:

  • Phần Mở đầu:

    • Tập trung làm rõ những lý do cơ bản để lựa chọn đề tài, xác định rõ mục tiêu, đối tượng, phạm vi và phương pháp nghiên cứu của đề tài.
  • Chương 1: Giới thiệu tổng quan về tin nhắn SMS và phương pháp phát hiện tin nhắn rác tiếng Việt

    • Làm rõ các khái niệm tin nhắn SMS, cấu trúc và cơ chế hoạt động của tin nhắn SMS.
    • Giới thiệu về tin nhắn rác, bao gồm các khái niệm, quy định và đặc trưng của tin nhắn rác và các bài toán liên quan.
  • Chương 2: Phân tích mức độ ảnh hưởng của độ dài tin nhắn tới hiệu quả của mô hình phát hiện tin nhắn rác

    • Nghiên cứu mức độ ảnh hưởng của độ dài tin nhắn tới hiệu quả của mô hình phát hiện tin nhắn rác tiếng Việt.
    • Từ đó, lựa chọn và đề xuất mô hình phát hiện tin nhắn rác tiếng Việt thích ứng với điều kiện giới hạn về nội dung tin nhắn.
  • Chương 3: Phương pháp phát hiện tin nhắn rác với đặc điểm đa biến thể của tiếng Việt

    • Đề xuất 2 phương án tiếp cận để giải quyết bài toán phát hiện tin nhắn rác với đặc điểm đa biến thể của tiếng Việt.

Tài liệu liên quan