info@luanan.net.vn
VIP Luận án PDF

Luận án Mô hình xử lý hiệu quả dữ liệu biểu hiện gen

Năm2020
Lĩnh vựcKhoa học tự nhiên
Ngôn ngữTiếng Việt, Tiếng Anh
Xem trước tài liệu
Đang tải...

Đang tải tài liệu...

Mô tả tài liệu

Tên luận án:

MÔ HÌNH XỬ LÝ HIỆU QUẢ DỮ LIỆU BIỂU HIỆN GEN

Ngành:

Hệ thống thông tin

Tóm tắt nội dung tài liệu:

Luận án này tập trung giải quyết bài toán phân lớp dữ liệu biểu hiện gen, một thách thức quan trọng trong chẩn đoán và điều trị ung thư do đặc điểm dữ liệu có số chiều rất lớn và số mẫu thường nhỏ. Mục tiêu chính là đề xuất các phương pháp tiếp cận mới nhằm nâng cao độ chính xác của các mô hình phân lớp.

Luận án đã đóng góp ba mô hình chính. Thứ nhất, đề xuất mô hình rút trích đặc trưng sử dụng mạng nơ-ron tích chập sâu (DCNN) cho dữ liệu biểu hiện gen. DCNN giúp giảm chiều dữ liệu hiệu quả, tạo ra các đặc trưng mới có tính chất phân loại vượt trội so với đặc trưng gốc. Kết quả thực nghiệm trên dữ liệu DNA Microarray và RNA-Seq cho thấy mô hình DCNN cải thiện đáng kể độ chính xác phân loại của các thuật toán như SVM, LSVM và kNN, trong đó SVM với hàm nhân RBF đạt hiệu suất tốt nhất.

Thứ hai, luận án giới thiệu mô hình tăng cường dữ liệu bằng giải thuật SMOTE, được áp dụng trên các đặc trưng đã rút trích bởi DCNN. Sự kết hợp này giải quyết đồng thời hai khó khăn lớn của dữ liệu biểu hiện gen là số chiều cao và số mẫu ít, từ đó nâng cao độ chính xác phân lớp cho SVM, LSVM, RF và kNN.

Thứ ba, luận án đề xuất mô hình tăng cường dữ liệu biểu hiện gen sử dụng mạng đối kháng sinh mẫu (GAN) để khắc phục vấn đề thiếu mẫu. GAN tạo ra các mẫu dữ liệu tổng hợp có phân phối tương đồng với dữ liệu gốc, được gán nhãn chính xác bằng SVM. Mô hình GAN đã chứng minh khả năng cải thiện độ chính xác phân loại của SVM, LSVM, RF, kNN và C4.5, với GAN-SVM mang lại kết quả tối ưu.

Cuối cùng, luận án còn phát triển mô hình tập hợp cây xiên phân ngẫu nhiên đơn giản (RODS) theo hai tiếp cận Bagging (Bag-RODS) và Boosting (Boost-RODS). Các mô hình này sử dụng siêu phẳng tối ưu từ huấn luyện SVM để phân lớp hiệu quả dữ liệu biểu hiện gen, vượt trội hơn các giải thuật phân loại truyền thống và tiếp tục cải thiện độ chính xác khi tích hợp với DCNN và GAN. Các đóng góp này mang lại những tiến bộ đáng kể trong lĩnh vực phân lớp dữ liệu biểu hiện gen, mở ra hướng phát triển cho các hệ thống chẩn đoán ung thư hiệu quả hơn.

Tài liệu liên quan