KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG
Khoa học máy tính (Mã số ngành: 9480101)
Luận án này tập trung nghiên cứu và đề xuất các giải pháp nhằm nâng cao chất lượng phân lớp của các Hệ thống phát hiện xâm nhập mạng (IDS), đặc biệt là cải thiện độ chính xác và giảm tỷ lệ cảnh báo sai trong bối cảnh tài nguyên tính toán hạn chế. Vấn đề tấn công mạng ngày càng gia tăng và phức tạp, trong khi các IDS truyền thống và cả các IDS dựa trên học máy hiện tại vẫn đối mặt với thách thức về tốc độ, thời gian tính toán, độ chính xác và khả năng phát hiện các cuộc tấn công mới, cũng như xử lý dữ liệu lớn và mất cân bằng.
Để giải quyết những thách thức này, luận án đã đạt được ba đóng góp chính. Thứ nhất, đề xuất hai kỹ thuật cải tiến về lựa chọn thuộc tính là mFFC (cải tiến từ FFC) và mBFE (cải tiến từ BFE). Các thuật toán này kết hợp xếp hạng thuộc tính và xem xét sự tương quan giữa các thuộc tính, giúp giảm độ phức tạp thời gian từ O(N!) xuống O(N*(N-1)/2), đồng thời loại bỏ các thuộc tính không liên quan hoặc dư thừa, từ đó giảm thời gian huấn luyện, kiểm tra và nâng cao độ chính xác phân lớp. Thứ hai, cải tiến các kỹ thuật tăng mẫu (oversampling) và giảm mẫu (undersampling) để xử lý hiệu quả vấn đề mất cân bằng dữ liệu trong các tập dữ liệu huấn luyện của IDS, qua đó cải thiện chất lượng phân lớp của hệ thống. Thứ ba, đề xuất phương pháp xây dựng mô hình phân lớp lai trên cơ sở sử dụng các kỹ thuật lấy mẫu lại tập dữ liệu và lựa chọn thuộc tính đã cải tiến, kết hợp với kỹ thuật phân lớp phối hợp (ensemble).
Các thực nghiệm trên tập dữ liệu UNSW-NB15 – một tập dữ liệu hiện đại và phức tạp với nhiều kiểu tấn công – đã chứng minh hiệu quả của các giải pháp đề xuất. Kết quả cho thấy các kỹ thuật lựa chọn thuộc tính và lấy mẫu lại cải tiến giúp cải thiện đáng kể chỉ số F-Measure, đặc biệt đối với các kiểu tấn công phức tạp như Shellcode, Analysis, Recce, Fuzzers và Generic. Mô hình phân lớp lai đề xuất cũng đạt được chất lượng phân lớp tốt hơn so với các bộ phân lớp đơn lẻ và nhiều nghiên cứu gần đây, cung cấp cơ sở quan trọng giúp các nhà quản trị mạng phát hiện sớm và ứng phó hiệu quả với các nguy cơ xâm nhập.