Luận án Nghiên cứu, phát triển một số kỹ thuật trích xuất mô hình mạng nơ-ron học sâu dựa trên dữ liệu trong phân loại văn bản

Năm2025

Lĩnh vựcKhoa học tự nhiên

Ngôn ngữTiếng Việt, Tiếng Anh

Mô tả tài liệu

Tên luận án:

NGHIÊN CỨU, PHÁT TRIỂN MỘT SỐ KỸ THUẬT TRÍCH XUẤT MÔ HÌNH MẠNG NƠ-RON HỌC SÂU DỰA TRÊN DỮ LIỆU TRONG PHÂN LOẠI VĂN BẢN

Ngành:

Cơ sở toán học cho tin học, Mã số: 9 46 01 10

Tóm tắt nội dung tài liệu:

Luận án này tập trung giải quyết những thách thức quan trọng về tính minh bạch, bảo mật và độ chính xác của các mô hình mạng nơ-ron học sâu, đặc biệt là trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP). Các mô hình này thường hoạt động như "hộp đen", gây khó khăn trong việc hiểu rõ cơ chế ra quyết định bên trong, từ đó đặt ra những lo ngại về an toàn khi ứng dụng AI trong các lĩnh vực nhạy cảm.

Nghiên cứu nhấn mạnh sự cấp thiết của việc phát triển kỹ thuật dịch ngược mô hình học sâu để không chỉ nâng cao độ tin cậy, khả năng kiểm soát AI mà còn mở ra cơ hội cải tiến và bảo vệ các hệ thống hiện tại trước các cuộc tấn công. Luận án khảo sát các công trình nghiên cứu trong 10 năm gần đây về tấn công trích xuất mô hình hộp đen, chỉ ra rằng phần lớn tập trung vào thị giác máy tính, còn NLP vẫn chưa được khám phá đầy đủ, đặc biệt là các kỹ thuật ứng dụng mô hình sinh dữ liệu văn bản.

Đề tài xây dựng phương pháp luận tổng quát về tấn công trích xuất chức năng mô hình hộp đen, tập trung vào mô hình phân loại văn bản trong NLP. Luận án đề xuất hai đóng góp chính: (1) Phương pháp lấy mẫu thích nghi (ASbD và ASbC) dựa trên học tăng cường để trích xuất chức năng mô hình phân loại văn bản, cho phép mô hình knockoff bắt chước hiệu quả chức năng của mô hình mục tiêu với số lượng truy vấn tối ưu hơn so với các phương pháp lấy mẫu ngẫu nhiên hoặc kỹ thuật học chủ động truyền thống; (2) Phương pháp ứng dụng các mô hình sinh văn bản (GAN và LLM) để tạo ra dữ liệu tổng hợp dùng trong quá trình trích xuất chức năng mô hình phân loại văn bản. Các thử nghiệm trên dữ liệu tiếng Anh và tiếng Việt đều cho thấy hiệu quả của các phương pháp đề xuất, đặc biệt là khả năng của mô hình LLM trong việc sinh dữ liệu chất lượng cao để huấn luyện mô hình knockoff, giảm chi phí truy vấn và bảo vệ dữ liệu gốc. Nghiên cứu này góp phần quan trọng vào việc xây dựng các hệ thống AI an toàn và đáng tin cậy hơn.

Mục lục chi tiết:

mở đầu (6 trang)
Chương 1 - Tổng quan (48 trang)
- 1.1. Những kiến thức nền tảng liên quan đến hướng nghiên cứu
  - 1.1.1. Tổng quan về học máy và học sâu
  - 1.1.2. Phân loại văn bản
  - 1.1.3. Phân loại văn bản tiếng Việt
  - 1.1.4. Kỹ thuật lấy mẫu
  - 1.1.5. Kỹ thuật sinh mẫu
  - 1.1.6. Chắt lọc tri thức
- 1.2. Trích xuất mô hình mạng nơ-ron hộp đen
  - 1.2.1. Khảo sát các nghiên cứu trong trích xuất mô hình hộp đen
  - 1.2.2 Bài toán trích xuất chức năng mô hình
  - 1.2.3 Trích xuất mô hình hộp đen trong CV
  - 1.2.4 Trích xuất mô hình hộp đen trong NLP
  - 1.2.5 Tấn công trích xuất mô hình hộp đen bằng sinh dữ liệu
- 1.3. Định hướng nghiên cứu của luận án
- 1.4. Kết luận chương 1
Chương 2 – Phương pháp lấy mẫu thích nghi (42 trang)
- 2.1. Đề xuất phương pháp lấy mẫu để trích xuất mô hình
  - 2.1.1. Phương pháp lấy mẫu ngẫu nhiên
  - 2.1.2. Phương pháp lấy mẫu thích nghi
- 2.2. Thiết kế thử nghiệm
  - 2.2.1. Các tập dữ liệu và lựa chọn mô hình mục tiêu
  - 2.2.2. Thiết lập tham số thử nghiệm
- 2.3. Phân tích kết quả và thảo luận
  - 2.3.1. Kết quả thử nghiệm thuật toán ngẫu nhiên
  - 2.3.2. Kết quả thử nghiệm thuật toán thích nghi
  - 2.3.3. So sánh kết quả với một số phương pháp khác
  - 2.3.4. Thử nghiệm dữ liệu văn bản tiếng Việt
- 2.4. Kết luận chương 2
Chương 3 – Phương pháp sinh dữ liệu (29 trang)
- 3.1. Đề xuất phương pháp sinh dữ liệu văn bản từ các mô hình GAN
  - 3.1.1. Đề xuất phương pháp
  - 3.1.2. Phân tích độ phức tạp tính toán
  - 3.1.3. Thiết kế thử nghiệm
  - 3.1.4. Phân tích hiệu quả của phương pháp đề xuất
- 3.2. Đề xuất phương pháp sinh dữ liệu văn bản từ LLM
  - 3.2.1. Sinh dữ liệu từ LLM
  - 3.2.2. Huấn luyện mô h.nh knockoff từ dữ liệu sinh bằng LLM
  - 3.2.3. Phân tích độ phức tạp tính toán
  - 3.2.4. Thiết kế thử nghiệm
  - 3.2.5. Phân tích hiệu quả của phương pháp đề xuất
- 3.3. Kết luận chương 3
kết luận (2 trang)
danh mục các công trình khoa học đã công bố (1 trang)
tài liệu tham khảo (12 trang, 129 công trình tham khảo)

Luận án Nghiên cứu, phát triển một số kỹ thuật trích xuất mô hình mạng nơ-ron học sâu dựa trên dữ liệu trong phân loại văn bản

Mô tả tài liệu

Tên luận án:

Ngành:

Tóm tắt nội dung tài liệu:

Mục lục chi tiết:

Tài liệu liên quan

Hội viên Premium

Tài liệu tải nhiều

Lĩnh vực khác