beagle 的使用方法和參數信息
一、基本使用場景
1. 單倍型推斷(Phasing)
將未分型的基因型數據(如 VCF/BCF 文件)推斷為單倍型。
java -jar beagle.jar \
gt=input.vcf.gz \ # 輸入基因型數據(需bgzip壓縮)
out=phased_output # 輸出文件前綴(自動生成 .vcf.gz 和 .log)
2. 基因型填充(Imputation)
使用參考面板填充目標數據中的缺失基因型。
java -jar beagle.jar \
gt=target.vcf.gz \ # 待填充的目標數據
ref=reference.vcf.gz \ # 參考面板(如千人基因組)
out=imputed_output # 輸出文件名前綴
二、核心參數說明
| 參數 | 作用 | 示例值 |
|---|---|---|
gt |
輸入基因型數據(VCF/BCF) | gt=data.vcf.gz |
ref |
參考面板文件(用于填充) | ref=1kgp.vcf.gz |
out |
輸出文件前綴 | out=result |
nthreads |
使用的CPU線程數 | nthreads=4 |
window |
分析窗口大小(cM) | window=40 |
impute |
強制填充缺失基因型 | impute=true |
Xmx |
Java堆內存分配 | java -Xmx8g -jar beagle.jar ... |
三、進階使用示例
1. 使用參考面板和外部遺傳圖譜
java -jar beagle.jar \
gt=target.vcf.gz \
ref=reference.vcf.gz \
map=genetic_map.b37.txt \ # 遺傳圖譜文件(染色體位置→cM)
out=imputed_with_map
2. 多線程加速(推薦用于大型數據)
java -Xmx16g -jar beagle.jar \ # 分配 16GB 內存
gt=large_data.vcf.gz \
nthreads=8 \ # 使用8個CPU線程
out=fast_phasing
四、輸入文件準備
-
VCF文件壓縮和索引:
bgzip input.vcf # 壓縮為 .vcf.gz tabix -p vcf input.vcf.gz # 生成索引文件 .tbi -
參考面板下載:
? 千人基因組計劃參考面板(1KGP):wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/
五、輸出文件說明
? phased_output.vcf.gz:分型/填充后的結果(bgzip壓縮)。
? phased_output.log:運行日志(檢查錯誤和耗時)。
? phased_output.phased.vcf.gz(舊版本可能生成此文件)。
六、常見問題
1. 內存不足(OutOfMemoryError)
增加Java堆內存(如分配32GB):
java -Xmx32g -jar beagle.jar ...
2. 輸入文件格式錯誤
? 錯誤信息:Invalid VCF header 或 Could not read input file
? 解決:
- 用
bcftools驗證文件:bcftools view input.vcf.gz - 確保文件用
bgzip(而非gzip)壓縮。
3. 參考面板與目標數據不兼容
? 表現:填充后結果異常或報錯。
? 解決:確保參考面板和目標數據的基因組版本一致(如 hg19 vs. hg38)。
七、參考資源
? 官方文檔:http://faculty.washington.edu/browning/beagle/beagle_5.4_08Jul22.pdf

浙公網安備 33010602011771號