全基因組關聯分析學習資料(GWAS tutorial)20210313更新版
時隔一年多,于今日(20210313)再次更新教程,后續如果新出教程的話會一直更新。
同時感謝多年陪伴我成長、一直默默關注我的「你們」~
by 「橙子牛奶糖(陳文燕)」
1.前言
很多人問我有沒有關于全基因組關聯分析(GWAS)原理的書籍或者文章推薦。
其實我個人覺得,做這個分析,先從跑流程開始,再去看原理。
為什么這么說呢,因為對于初學者來說,跑流程就像一個大黑洞,學習原理就像一個小黑洞。
很多人花了好幾個月的時間在看原理,一旦丟給他數據去分析,依舊束手無策。
不會跑流程,內心依舊會很恐慌。就像從來沒有入門一樣。
所以,我的建議是咱們先不去管原理,直接從分析入手。
等把數據跑出來了,整個流程的技能點滿了,再去看看它的原理。
2.入門:學習GWAS的在線網站:
對于沒有編程基礎的人來說,建議先從一個在線的網站走一遍GWAS流程。
這樣就能知道完成GWAS需要多少個步驟,心里大概有個底。
easygwas網站提供了公共數據,可以直接開始分析GWAS。整個流程按照網站提示,很簡單。
3.進階
3.1 備選1:在linux下學習GWAS的實操數據
由于我們最終還是需要拿著自己的數據完成GWAS分析,不必避免的需要一定的編程基礎。
在線網站只是一個提供理解GWAS流程的網站,因此,我們還是需要在linux系統下拿一些數據練練手。學會最基本的命令行。
在這里,我推薦一個提供linux下學習GWAS的教程:GWA_tutorial.
網址:https://github.com/MareesAT/GWA_tutorial/
網站分為四個教程:1)GWAS的數據QC; 2)處理群體分層;3)關聯分析(GWAS); 4)多基因風險得分分析(Polygenic risk score analyses)
「示例數據都有了,就等你自己上手了。」
「我敢保證,當你能完整的跑完這個流程的時候,你對GWAS的理解少說也有70% ,下一個在群里幫我解答問題的大神就是你了(申請進群方式見公眾號菜單欄)。」
3.2 備選2:使用R語言做GWAS分析
有些人對R語言可能比較熟悉,這里提供了一個用R語言分析GWAS的流程。
該流程有:GWAS的QC,PCA分析,Manhattan圖,QQ圖,候選位點的功能分析
感興趣的看這個:Genome-wide association studies in R
網址:https://www.r-bloggers.com/genome-wide-association-studies-in-r/
3.3 備選3(當然是我的教程啦~~~~)
3.3.0 原理
3.3.1 分析流程
3.3.2 數據處理
3.3.2.1 數據質量過濾
GWAS基因芯片數據預處理:質量控制(quality control)
3.3.2.2 正負鏈翻轉(stand flip)
3.3.2.3 基因型數據填補(imputation)
soga,網頁版的基因型填充可以這么做(genotype imputation)
3.3.2.4 群體分層校正
GWAS群體分層 (Population stratification):利用plink對基因型進行PCA
3.3.3 關聯分析
GWAS: 曼哈頓圖,QQ plot 圖,膨脹系數( manhattan、Genomic Inflation Factor)
對曼哈頓圖(Manhattan plot )多個顯著位點標志不同顏色,拒絕屎一樣的綠色
3.3.4 meta分析
只用一行命令,就可以學會全基因組關聯分析(GWAS)的meta分析
3.3.5 條件分析
GWAS條件分析(conditional analysis):作用,步驟,結果解讀
3.3.6 基因多效性
3.3.7 gene-based 關聯分析
使用VEGAS2(Versatile Gene-based Association Study)進行gene based的研究
3.3.8 孟德爾隨機化分析
講一講孟德爾隨機化分析中的敏感性分析(sensitivity analyses)
使用MR-PRESSO檢驗水平基因多效性(孟德爾隨機化分析)
孟德爾隨機化(Mendelian Randomization) 統計功效(power)和樣本量計算
3.3.9 LocusZoom圖、連鎖不平衡圖(LD block)
推薦一個畫連鎖不平衡圖(LD block)的軟件LDBlockShow,親測比haploview好用!
一個R包(IntAssoPlot),LocusZoom圖、連鎖不平衡圖和基因結構圖一步到位
3.3.10 多基因風險評分(Polygenic Risk Score)
GWAS系列分析:多基因風險評分(Polygenic Risk Score)的計算
多文解讀:多基因分險得分(Polygenic risk score,PRS)應用
3.3.11 基因多效性、遺傳度、遺傳相關性
利用GCTA工具計算復雜性狀/特征(Complex Trait)的遺傳相關性(genetic correlation)
3.3.12 常規 fine-mapping 分析
GWAS這么多信號位點,哪一個才是影響表型的決定性位點?fine-mapping:PAINTOR教程
3.3.13 共定位分析
eQTL、mQTL共定位分析(Summary-data-based Mendelian Randomization,SMR)
3.3.14 富集分析
DEPICT實現基因優化、gene set富集分析、組織富集分析(tissue enrichment)
3.3.15 全轉錄組分析
基于GWAS結果預測靶基因及特異性組織的表達(又名全轉錄組分析)
3.3.16 上位效應(epistasis)分析
3.3.17 其他的 GWAS 后續分析
GWAS:拒絕假陽性之case和control數量比例嚴重失衡的解決方案(SAIGE模型的應用)
使用metaCCA進行單/多個SNP與多表型的典型相關性分析
3.3.18 SNP 注釋
批處理!功能富集分析、基因ID轉換、查找同源基因、SNP注釋一站式服務
3.3.19 增強子、啟動子、轉錄因子等調控元件數據庫
查詢、可視化變異位點/序列是否有enhancers和Epromoters活性
EpiRegio:查找感興趣的基因、基因組區域是否有調控元件
(史上最全)SNP位點與轉錄因子結合特異性數據庫:GVATdb
感興趣的SNP/區域上是否有增強子/轉錄因子?增強子/轉錄因子調控哪個靶基因?(EnhancerDB)
3.3.20 其他相關數據庫
囊括45萬人數據,778個表型,3千萬個位點的公共數據庫:GeneATLAS
Mouse Genome Informatics(MGI)數據庫介紹
LDtrait工具: 查找SNP及其高度連鎖位點顯著相關的表型
3.3.21 進化相關分析
kaks calculator批量計算多個基因的選擇壓力kaks值
使用 KaKs Calculator 計算 KaKs 的衍生問題解答
平衡選擇(Balancing Selection)檢測及應用
haploPS、XP-EHH、 Fst檢測正向選擇信號的實例介紹
3.3.22 相關文獻閱讀
什么!GWAS研究中case和control的比例是有講究的?
GWAS文獻解讀:The stability of educational achievement
GWAS+自然選擇:62個樣本的GWAS分析,沒信號,如何巧妙的發文章
4. 其他補充
4.1 GWAS其他教程:
www.transplantdb.eu/sites/transplantdb.eu/files/HandsOnTutorialtoGWAS_Seren-030715.pdf
https://doc.goldenhelix.com/SVS/tutorials/snp_gwas/index.html
ccbb.jnu.ac.in/IUBDDJan2015/workshop_files/GWAS Tutorial.pdf
https://www.r-project.org/conferences/useR-2009/slides/Zhao+Tan.pdf
users.du.se/~lrn/NOVAComputerExercises/NOVA_GenABEL_tutorial.pdf
gsea4gwas-v2.psych.ac.cn/docs/tutorial.jsp
www.montefiore.ulg.ac.be/~kvansteen/GeneticEpi-UA2/Class5/Introduction to GenABEL.pdf
4.2 看看文獻,加深對GWAS的理解:
A tutorial on conducting genome‐wide association studies: Quality control and statistical analysis(網址:https://onlinelibrary.wiley.com/doi/full/10.1002/mpr.1608)
Genome-wide association studies and beyond(網址:https://www.ncbi.nlm.nih.gov/pubmed/20235850)
Genome-wide association studies(網址:https://www.ncbi.nlm.nih.gov/pubmed/23300413)
本文來自博客園,作者:橙子牛奶糖(陳文燕),轉載請注明原文鏈接:http://www.rzrgm.cn/chenwenyan/p/11803311.html

浙公網安備 33010602011771號