bcftools 基礎(chǔ)
一、軟件簡介
bcftools 是專用于處理VCF/BCF(變體調(diào)用格式/二進(jìn)制變體格式)文件的工具集,與samtools同源。核心功能包括:
? SNP/Indel檢測與過濾
? 變異位點注釋與統(tǒng)計
? 文件格式轉(zhuǎn)換(文本?二進(jìn)制)
? 多文件合并與比較
二、安裝方式
- 源碼安裝(推薦)
wget http://www.htslib.org/download/bcftools-X.X.tar.bz2 # 替換X.X為版本號
tar -jxvf bcftools-X.X.tar.bz2
cd bcftools-X.X
./configure
make
sudo make install
- 包管理器安裝(Ubuntu)
sudo apt-get install bcftools
三、核心命令與參數(shù)
- 基礎(chǔ)操作
? 查看文件頭信息
bcftools view -h input.vcf
? 提取特定變異類型
bcftools view -v snps input.vcf > snps.vcf # 提取SNP
bcftools view -v indels input.vcf > indels.vcf
- 過濾操作
? 按QUAL值過濾
bcftools filter -i '%QUAL>20' input.vcf > filtered.vcf
? 按深度/缺失率過濾
bcftools filter -e 'INFO/DP<10 || INFO/MissingRate>0.2' input.vcf
#### 3. 統(tǒng)計與注釋
- **生成統(tǒng)計報告**
```bash
bcftools stats input.vcf > stats.txt
- dbSNP注釋
bcftools annotate -a dbsnp.vcf -c ID input.vcf > annotated.vcf
4. 高級功能
- 合并多個VCF
bcftools merge file1.vcf file2.vcf > merged.vcf - 生成等位基因頻率
bcftools query -f '%CHROM\t%POS\t%AF\n' input.vcf
四、常用參數(shù)速查
| 參數(shù) | 功能描述 | 示例 |
|---|---|---|
-i/-e |
包含/排除滿足條件的記錄 | -i 'DP>10' |
-r chr:start-end |
指定染色體區(qū)域 | -r chr1:1000-2000 |
-s sample |
篩選特定樣本 | -s sample1,sample2 |
-Oz |
輸出gzip壓縮文件 | -Oz -o output.vcf.gz |
--threads |
多線程加速 | --threads 8 |
五、典型應(yīng)用場景
- GWAS數(shù)據(jù)清洗
組合使用filter與annotate命令過濾低質(zhì)量位點并添加功能注釋 - 群體遺傳分析
通過stats生成群體SNP頻譜、Tajima's D等指標(biāo) - 臨床變異篩選
利用query提取特定基因區(qū)域的致病突變
六、常見問題
- 文件格式兼容性
處理大文件時建議使用BCF格式(二進(jìn)制),可節(jié)省50%存儲空間 - 性能優(yōu)化
啟用多線程(--threads)可提升處理速度,尤其在合并/排序操作時 - 與其他工具聯(lián)動
常與vcftools互補使用:bcftools側(cè)重基礎(chǔ)操作,vcftools擅長復(fù)雜統(tǒng)計
完整參數(shù)手冊,可訪問htslib官方文檔。

浙公網(wǎng)安備 33010602011771號