Tên luận án:
PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC
Ngành:
Hệ thống thông tin
Tóm tắt nội dung tài liệu:
Luận án tập trung vào bài toán phân hạng và dự đoán gen liên quan đến bệnh, một vấn đề trọng yếu trong y sinh học và sinh học phân tử. Việc xác định các gen này có giá trị cao trong phòng ngừa, chẩn đoán và điều trị bệnh. Mặc dù các phương pháp thực nghiệm truyền thống cho kết quả đáng tin cậy, chúng lại đòi hỏi nhiều thời gian và chi phí. Trong bối cảnh dữ liệu sinh học ngày càng phong phú, các phương pháp tính toán đã nổi lên như giải pháp hiệu quả hơn, tuy nhiên vẫn còn tồn tại nhiều thách thức như hạn chế về độ bao phủ của mạng sinh học, chưa tận dụng hết các tương tác chức năng có trọng số, bỏ qua các tương tác gián tiếp, và thiếu các phương pháp tích hợp dữ liệu mới.
Để giải quyết những vấn đề này, luận án nghiên cứu và đề xuất các phương pháp phân hạng và dự đoán gen bệnh dựa trên mạng tương tác gen/protein và mạng không đồng nhất. Cụ thể, luận án giới thiệu phương pháp RL_Rank with Priors, kết hợp học tăng cường với thuật toán PageRank with priors, nhằm phân hạng gen ứng viên dựa trên mạng tương tác gen/protein. Phương pháp này được chứng minh có độ chính xác cao (AUC), vượt trội so với các phương pháp cùng lớp, và đã được thử nghiệm thành công trong dự đoán gen liên quan đến bệnh cao huyết áp.
Bên cạnh đó, luận án ứng dụng thuật toán SigPathSum từ phân tích mạng xã hội/web để phân hạng và dự đoán gen ứng viên có độ liên quan cao nhất dựa trên tổng xác suất đường đi giữa các gen/protein. Phương pháp này có độ phức tạp tính toán thấp và thời gian thực hiện nhanh hơn, đặc biệt phù hợp cho các mạng tương tác gen/protein lớn. Kết quả thực nghiệm cho thấy phương pháp này hiệu quả trong dự đoán gen liên quan đến bệnh tiểu đường tuýp 2.
Cuối cùng, luận án đề xuất phương pháp xây dựng mạng không đồng nhất, bao gồm mạng bệnh tương đồng dựa trên Human Phenotype Ontology (HPO) và mạng gen/protein, nhằm cải thiện hiệu quả dự đoán gen mới liên quan đến bệnh. Phương pháp này cho thấy hiệu quả phân hạng tốt hơn so với các mạng không đồng nhất dựa trên OMIM, và đã được áp dụng để dự đoán các gen liên quan đến bệnh Alzheimer. Các kết quả nghiên cứu của luận án đóng góp đáng kể vào lý thuyết tin sinh học và có tiềm năng ứng dụng vào các phần mềm hỗ trợ phát hiện gen bệnh, hướng tới y học cá nhân hóa.
Mục lục chi tiết:
-
Chương 1 - TỔNG QUAN VỀ PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH
-
1.1. CƠ SỞ VỀ SINH HỌC PHÂN TỬ
- 1.1.1. Tế bào
- 1.1.2. DNA
- 1.1.3. Gen
- 1.1.4. Quá trình điều khiển tổng hợp protein từ gen
-
1.2. PHÂN HẠNG GEN VÀ CÁC HƯỚNG TIẾP CẬN GIẢI QUYẾT
- 1.2.1. Bài toán phân hạng gen
- 1.2.2. Các hướng tiếp cận giải quyết bài toán phân hạng gen
- 1.2.2.1. Các phương pháp dựa trên dữ liệu chú giải chức năng
- 1.2.2.2. Các phương pháp dựa trên học máy
- 1.2.2.3. Các phương pháp dựa trên mạng sinh học
-
1.3. CÁC CƠ SỞ DỮ LIỆU VÀ MẠNG SINH HỌC
- 1.3.1. Các cơ sở dữ liệu sinh học
- 1.3.2. Các mạng sinh học
- 1.3.3. Mạng tương tác gen/protein
-
1.4. CÁC PHƯƠNG PHÁP PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG SINH HỌC
- 1.4.1. Phương pháp dựa trên mức độ gần nhau của các gen/protein
- 1.4.2. Phương pháp dựa trên tích hợp các dữ liệu về gen qui mô lớn
- 1.4.3. Phương pháp dựa trên tích hợp thông tin kiểu hình
- 1.4.4. Phương pháp xây dựng các mô đun bệnh
-
1.5. PHƯƠNG PHÁP ĐÁNH GIÁ CÁC THUẬT TOÁN PHÂN HẠNG
- 1.5.1. Phương pháp kiểm tra chéo
- 1.5.2. Xác định hiệu quả của các phương pháp phân hạng
-
1.6. KẾT LUẬN CHƯƠNG 1
-
Chương 2 – PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG TƯƠNG TÁC GEN/PROTEIN
-
2.1. ĐẶT VẤN ĐỀ
-
2.1.1. Bài toán phân hạng nút trên đồ thị
-
2.1.2. Thuật toán phân hạng trang kết hợp với xác suất tiên nghiệm
-
2.1.3. Thuật toán phân hạng bằng học tăng cường
-
2.1.4. Thuật toán bước ngẫu nhiên có quay lui
-
2.2. PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG KẾT HỢP VỚI XÁC SUẤT TIỀN NGHIỆM
- 2.2.1. Thuật toán phân hạng học tăng cường kết hợp với xác suất tiên nghiệm
- 2.2.2. Dữ liệu thực nghiệm
- 2.2.3. Thực nghiệm và kết quả
- 2.2.3.1. Ảnh hưởng của các tham số
- 2.2.3.2. So sánh với các thuật toán cùng lớp
- 2.2.3.3. Dự đoán các gen liên quan tới bệnh cao huyết áp
-
2.3. PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP TÍNH TỔNG XÁC SUẤT LIÊN KẾT TRONG MẠNG TƯƠNG TÁC GEN/PROTEIN
- 2.3.1. Thuật toán dựa trên xác suất liên kết
- 2.3.2. Dữ liệu thực nghiệm
- 2.3.3. Thực nghiệm và kết quả
- 2.3.3.1. Ảnh hưởng của các tham số
- 2.3.3.2. So sánh với phương pháp bước ngẫu nhiên có quay lui
- 2.3.3.3. Dự đoán các gen liên quan đến bệnh tiểu đường tuýp 2
-
2.4. SO SÁNH CÁC PHƯƠNG PHÁP PHÂN HẠNG GEN ĐỀ XUẤT
- 2.4.1. Về nguyên tắc thực hiện, ưu nhược điểm và phạm vi áp dụng
- 2.4.2. Về thực nghiệm
-
2.5. KẾT LUẬN CHƯƠNG 2
-
Chương 3 - PHÂN HẠNG VÀ DỰ ĐOÁN GEN GÂY BỆNH DỰA TRÊN MẠNG KHÔNG ĐỒNG NHẤT
-
3.1. ĐẶT VẤN ĐỀ
-
3.2. MẠNG KHÔNG ĐỒNG NHẤT BỆNH - GEN
- 3.2.1. Tổng quan về xây dựng mạng không đồng nhất
- 3.2.2. Các mạng gen/protein
- 3.2.2.1. Mạng tương tác gen/protein
- 3.2.2.2. Mạng tương đồng dựa trên dữ liệu biểu hiện gen
- 3.2.2.3. Mạng tương đồng dựa trên bản thể gen
- 3.2.3. Các mạng bệnh tương đồng
- 3.2.3.1. Mạng bệnh tương đồng dựa trên OMIM
- 3.2.3.2. Mạng bệnh tương đồng dựa trên HPO
- 3.2.4. Mạng lưỡng phân
3.3. THUẬT TOÁN BƯỚC NGẪU NHIÊN CÓ QUAY LUI TRÊN MẠNG KHÔNG ĐỒNG NHẤT
3.4. CÁC THỰC NGHIỆM VÀ KẾT QUẢ
- 3.4.1. So sánh hiệu quả với các phương pháp cùng lớp
- 3.4.2. Dự đoán các gen liên quan đến bệnh Alzheimer
3.5. KẾT LUẬN CHƯƠNG 3
KẾT LUẬN