plink 基礎(chǔ)
一、PLINK 核心功能
-
數(shù)據(jù)管理與格式轉(zhuǎn)換
? 支持格式:PLINK 支持多種基因型數(shù)據(jù)格式,包括文本格式(.ped+.map)、二進(jìn)制格式(.bed+.bim+.fam)及 VCF 格式。
? 轉(zhuǎn)換示例:# VCF 轉(zhuǎn)二進(jìn)制格式 plink --vcf input.vcf --make-bed --out binary_data # 二進(jìn)制轉(zhuǎn)文本格式 plink --bfile binary_data --recode --out text_data文件結(jié)構(gòu):
?.ped文件:包含樣本基因型信息(家系、個(gè)體、基因型等)。
?.map文件:記錄 SNP 的染色體位置、物理位置等元數(shù)據(jù)。 -
數(shù)據(jù)質(zhì)控(QC)
PLINK 提供多維度質(zhì)控參數(shù),確保數(shù)據(jù)可靠性:
? 樣本與 SNP 過(guò)濾:
?--geno:過(guò)濾 SNP 缺失率(如--geno 0.1表示缺失率 >10% 的 SNP 被剔除)。
?--mind:過(guò)濾樣本缺失率(如--mind 0.1剔除缺失率 >10% 的樣本)。
? 遺傳*衡檢驗(yàn):
?--maf:過(guò)濾最小等位基因頻率(如--maf 0.05保留 MAF ≥5% 的 SNP)。
?--hwe:哈迪-溫伯格*衡檢驗(yàn)(如--hwe 1e-6剔除顯著偏離*衡的 SNP)。
? 性別一致性檢查:
?--check-sex:驗(yàn)證樣本遺傳性別與記錄是否一致。 -
關(guān)聯(lián)分析(GWAS)
PLINK 支持多種統(tǒng)計(jì)模型用于 GWAS:
? 連續(xù)性狀:使用--linear參數(shù)進(jìn)行線(xiàn)性回歸分析。
? 二分類(lèi)性狀:使用--logistic參數(shù)進(jìn)行邏輯回歸分析。
? 協(xié)變量調(diào)整:通過(guò)--covar指定協(xié)變量文件(如年齡、性別)。plink --bfile data --linear --pheno pheno.txt --covar covariates.txt --out gwas_results -
群體遺傳分析
? 主成分分析(PCA):通過(guò)--pca參數(shù)生成主成分,用于群體分層校正。plink --bfile data --pca 3 --out pca_results? 親緣關(guān)系計(jì)算:
--genome參數(shù)生成 IBD(Identity by Descent)矩陣,檢測(cè)樣本間親緣性。
? 連鎖不*衡(LD)分析:--indep-pairwise參數(shù)用于 LD 過(guò)濾。
二、關(guān)鍵參數(shù)與命令速查
| 參數(shù) | 功能 | 示例 |
|---|---|---|
--bfile |
指定二進(jìn)制輸入文件前綴 | --bfile mydata |
--pheno |
指定表型文件 | --pheno trait.txt |
--maf |
過(guò)濾次等位基因頻率 | --maf 0.01 |
--adjust |
多重檢驗(yàn)校正(Bonferroni/FDR) | --adjust fdr |
--recode |
轉(zhuǎn)換輸出格式(如 VCF 或文本) | --recode vcf |
--threads |
多線(xiàn)程加速 | --threads 8 |
三、典型應(yīng)用場(chǎng)景
-
GWAS 全流程
-
數(shù)據(jù)預(yù)處理:格式轉(zhuǎn)換與缺失過(guò)濾。
-
質(zhì)控:剔除低質(zhì)量 SNP 和樣本。
-
關(guān)聯(lián)分析:運(yùn)行線(xiàn)性/邏輯回歸模型。
-
結(jié)果校正:多重檢驗(yàn)校正與曼哈頓圖繪制。
-
群體遺傳結(jié)構(gòu)分析
? PCA 分析:檢測(cè)群體分層并生成可視化結(jié)果(需結(jié)合 R/ggplot2)。
? LD 過(guò)濾:通過(guò)--indep-pairwise 50 5 0.1保留獨(dú)立性 SNP。 -
精細(xì)定位與功能注釋
? 精細(xì)定位(Fine Mapping):結(jié)合 LD 結(jié)構(gòu)和功能注釋篩選候選 SNP。
? 基因注釋工具集成:如 VEP、ANNOVAR 等。
四、高級(jí)功能與擴(kuò)展
- 版本更新(PLINK 2.0)
? 性能優(yōu)化:提升大規(guī)模數(shù)據(jù)計(jì)算速度(如 IBS 矩陣計(jì)算)。
? 新功能:支持多等位位點(diǎn)處理、混合模型分析等。
- 與其他工具集成
? GCTA:用于遺傳力估計(jì)和復(fù)雜性狀分析。
? Haploview:可視化 LD 區(qū)塊。
? R 語(yǔ)言擴(kuò)展:通過(guò)qqman包繪制曼哈頓圖。
五、安裝與資源
-
安裝方法
? Linux/Mac:wget https://s3.amazonaws.com/plink1-assets/plink_linux_x86_64.zip unzip plink_linux_x86_64.zip && chmod +x plink? Windows:直接下載二進(jìn)制文件。
-
學(xué)習(xí)資源
? 官方文檔:PLINK 1.9 文檔。
? 案例教程:GWAS 全流程分析指南(CSDN、GitHub 社區(qū))。
? 開(kāi)源社區(qū):nf-core、GWAS Central 提供流程模板。
六、注意事項(xiàng)
? 數(shù)據(jù)規(guī)模:處理百萬(wàn)級(jí) SNP 時(shí)建議使用二進(jìn)制格式以節(jié)省存儲(chǔ)。
? 版本兼容性:PLINK 1.9 與 2.0 的命令參數(shù)存在差異,需注意版本適配。
? 錯(cuò)誤排查:日志文件(.log)可幫助定位數(shù)據(jù)格式或參數(shù)錯(cuò)誤。
*交系數(shù)計(jì)算:
PLINK 計(jì)算*交系數(shù)主要通過(guò)兩種方法實(shí)現(xiàn):基于純合性分析(--het)和基于連續(xù)純合片段(ROH)檢測(cè)。以下是具體操作及解讀:
一、基于純合性分析(--het命令)
- 核心命令
plink --file [輸入文件前綴] --het --out [輸出前綴] # 適用于文本格式(.ped/.map) 或 plink --bfile [二進(jìn)制文件前綴] --het --out [輸出前綴] # 適用于二進(jìn)制格式(.bed/.bim/.fam)
關(guān)鍵參數(shù):
? --allow-extra-chr:處理非數(shù)字染色體(如性染色體)
? --noweb:跳過(guò)版本檢查(可選)
- 輸出文件解讀
生成的.het文件包含以下字段:
| 列名 | 說(shuō)明 | 示例值 |
|---|---|---|
| FID/IID | 家系/個(gè)體ID | DOR1/DOR1 |
| O(HOM) | 觀測(cè)純合子數(shù) | 49,002,256 |
| E(HOM) | 期望純合子數(shù)(理論計(jì)算值) | 4.714e+07 |
| N(NM) | 非缺失基因型總數(shù) | 55,370,187 |
| F | *交系數(shù)(核心結(jié)果) | 0.2262 |
F值意義:
? 理論范圍:0(無(wú)*交)到 1(完全*交)
? 負(fù)值處理:若出現(xiàn)負(fù)值(如 -0.5),可能因雜合子過(guò)多(提示樣本污染或分型錯(cuò)誤)
二、基于連續(xù)純合片段(ROH)檢測(cè)
- ROH檢測(cè)命令
plink --file [輸入文件前綴] \ --homozyg-snp 30 \ # 要求ROH中至少包含30個(gè)連續(xù)SNP --homozyg-kb 1000 \ # ROH最小長(zhǎng)度1000 kb --homozyg-density 1000 \ # 每1 Mb區(qū)域至少1個(gè)SNP --homozyg-gap 1000 \ # 允許ROH中斷的最大間隔(kb) --homozyg-window-snp 50 \ # 滑動(dòng)窗口包含50個(gè)SNP --homozyg-window-het 1 \ # 窗口內(nèi)允許的雜合子數(shù) --homozyg-window-missing 1 \ # 窗口內(nèi)允許的缺失基因型數(shù) --out [輸出前綴]
輸出文件:
? .hom:每個(gè)ROH的詳細(xì)位置
? .hom.indiv:個(gè)體ROH統(tǒng)計(jì)(總長(zhǎng)度、*交系數(shù)F)
- 基因組*交系數(shù)(FROH)計(jì)算
通過(guò)ROH總長(zhǎng)度占基因組比例計(jì)算:
FROH = (ROH總長(zhǎng)度) / (基因組總長(zhǎng)度)
應(yīng)用場(chǎng)景:
? 歷史推斷:長(zhǎng)ROH(>10 Mb)反映*期*交,短ROH(<1 Mb)提示遠(yuǎn)古*交
? 精準(zhǔn)育種:結(jié)合系譜數(shù)據(jù)驗(yàn)證遺傳多樣性
三、結(jié)果驗(yàn)證與注意事項(xiàng)
-
對(duì)比其他工具:
? GCTA:通過(guò)--ibc參數(shù)計(jì)算*交系數(shù)(結(jié)果包含F(xiàn)hat1/Fhat2/Fhat3多維度指標(biāo))
? 一致性檢查:PLINK的F值與GCTA的Fhat3結(jié)果相關(guān)性較高 -
數(shù)據(jù)質(zhì)控要求:
? SNP過(guò)濾:建議使用--geno 0.05 --maf 0.01剔除低質(zhì)量位點(diǎn)
? 樣本篩選:排除雜合度異常樣本(如F < -0.1)
四、實(shí)際應(yīng)用案例
-
群體遺傳研究
? 步驟:- 計(jì)算群體*均F值,評(píng)估*交水*
- 結(jié)合PCA分析(
--pca)校正群體分層對(duì)關(guān)聯(lián)分析的影響
-
動(dòng)植物育種
? 目標(biāo):篩選高*交個(gè)體(F > 0.25)優(yōu)化核心育種群
? 工具聯(lián)動(dòng):PLINK + R(繪制F值分布圖)
詳細(xì)的參數(shù)說(shuō)明或?qū)崙?zhàn)案例,參考 PLINK 官方文檔 。

浙公網(wǎng)安備 33010602011771號(hào)