beagle 的使用方法和參數信息

一、基本使用場景
1. 單倍型推斷（Phasing）
將未分型的基因型數據（如 VCF/BCF 文件）推斷為單倍型。

java -jar beagle.jar \
  gt=input.vcf.gz \       # 輸入基因型數據（需bgzip壓縮）
  out=phased_output       # 輸出文件前綴（自動生成 .vcf.gz 和 .log）

2. 基因型填充（Imputation）
使用參考面板填充目標數據中的缺失基因型。

java -jar beagle.jar \
  gt=target.vcf.gz \      # 待填充的目標數據
  ref=reference.vcf.gz \  # 參考面板（如千人基因組）
  out=imputed_output      # 輸出文件名前綴

二、核心參數說明

三、進階使用示例
1. 使用參考面板和外部遺傳圖譜

java -jar beagle.jar \
  gt=target.vcf.gz \
  ref=reference.vcf.gz \
  map=genetic_map.b37.txt \  # 遺傳圖譜文件（染色體位置→cM）
  out=imputed_with_map

2. 多線程加速（推薦用于大型數據）

java -Xmx16g -jar beagle.jar \  # 分配 16GB 內存
  gt=large_data.vcf.gz \
  nthreads=8 \                  # 使用8個CPU線程
  out=fast_phasing

四、輸入文件準備

VCF文件壓縮和索引：

bgzip input.vcf           # 壓縮為 .vcf.gz
tabix -p vcf input.vcf.gz # 生成索引文件 .tbi

參考面板下載：
? 千人基因組計劃參考面板（1KGP）：
```
wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/
```

五、輸出文件說明
? phased_output.vcf.gz：分型/填充后的結果（bgzip壓縮）。

? phased_output.log：運行日志（檢查錯誤和耗時）。

? phased_output.phased.vcf.gz（舊版本可能生成此文件）。

六、常見問題
1. 內存不足（OutOfMemoryError）
增加Java堆內存（如分配32GB）：

java -Xmx32g -jar beagle.jar ...

2. 輸入文件格式錯誤
? 錯誤信息：Invalid VCF header 或 Could not read input file

? 解決：

3. 參考面板與目標數據不兼容
? 表現：填充后結果異常或報錯。

? 解決：確保參考面板和目標數據的基因組版本一致（如 hg19 vs. hg38）。

七、參考資源
? 官方文檔：http://faculty.washington.edu/browning/beagle/beagle_5.4_08Jul22.pdf

posted @ 2025-05-07 13:59 Kevinarcsin001 閱讀(526) 評論(0) 收藏舉報

刷新頁面返回頂部

kevinarcsin001