NGHIÊN CỨU, PHÁT TRIỂN MỘT SỐ KỸ THUẬT TRÍCH XUẤT MÔ HÌNH MẠNG NƠ-RON HỌC SÂU DỰA TRÊN DỮ LIỆU TRONG PHÂN LOẠI VĂN BẢN
Cơ sở toán học cho tin học, Mã số: 9 46 01 10
Luận án này tập trung giải quyết những thách thức quan trọng về tính minh bạch, bảo mật và độ chính xác của các mô hình mạng nơ-ron học sâu, đặc biệt là trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP). Các mô hình này thường hoạt động như "hộp đen", gây khó khăn trong việc hiểu rõ cơ chế ra quyết định bên trong, từ đó đặt ra những lo ngại về an toàn khi ứng dụng AI trong các lĩnh vực nhạy cảm.
Nghiên cứu nhấn mạnh sự cấp thiết của việc phát triển kỹ thuật dịch ngược mô hình học sâu để không chỉ nâng cao độ tin cậy, khả năng kiểm soát AI mà còn mở ra cơ hội cải tiến và bảo vệ các hệ thống hiện tại trước các cuộc tấn công. Luận án khảo sát các công trình nghiên cứu trong 10 năm gần đây về tấn công trích xuất mô hình hộp đen, chỉ ra rằng phần lớn tập trung vào thị giác máy tính, còn NLP vẫn chưa được khám phá đầy đủ, đặc biệt là các kỹ thuật ứng dụng mô hình sinh dữ liệu văn bản.
Đề tài xây dựng phương pháp luận tổng quát về tấn công trích xuất chức năng mô hình hộp đen, tập trung vào mô hình phân loại văn bản trong NLP. Luận án đề xuất hai đóng góp chính: (1) Phương pháp lấy mẫu thích nghi (ASbD và ASbC) dựa trên học tăng cường để trích xuất chức năng mô hình phân loại văn bản, cho phép mô hình knockoff bắt chước hiệu quả chức năng của mô hình mục tiêu với số lượng truy vấn tối ưu hơn so với các phương pháp lấy mẫu ngẫu nhiên hoặc kỹ thuật học chủ động truyền thống; (2) Phương pháp ứng dụng các mô hình sinh văn bản (GAN và LLM) để tạo ra dữ liệu tổng hợp dùng trong quá trình trích xuất chức năng mô hình phân loại văn bản. Các thử nghiệm trên dữ liệu tiếng Anh và tiếng Việt đều cho thấy hiệu quả của các phương pháp đề xuất, đặc biệt là khả năng của mô hình LLM trong việc sinh dữ liệu chất lượng cao để huấn luyện mô hình knockoff, giảm chi phí truy vấn và bảo vệ dữ liệu gốc. Nghiên cứu này góp phần quan trọng vào việc xây dựng các hệ thống AI an toàn và đáng tin cậy hơn.