GATK 检测 Germline CNV
适用于GATK 4.2 版本以上,流程参考于这篇文章。
软件安装
GATK建议使用conda部署环境,其中gatkcondaenv.yml文件可以在下载的gatk.zip中找到。
conda env create -f gatkcondaenv.yml
conda activate gatk
或者使用GATK官方docker
docker pull broadinstitute/gatk:4.2.2.0
测试了一下,普通环境下主要是缺少gcnvkernel这个模块。
下载测试数据
测试数据照旧使用xhmm的数据。这些数据是使用hs37d5参考基因组进行比对,经过了排序、去重以及GATK BQSR的标准bam文件准备流程。
wget https://statgen.bi...
ExomeDepth检测CNV
ExomeDepth是一个基于HMM方法来检测全外显子CNV的软件。软件文档可在这里查看。
安装exomeDepth
exomeDepth是一个R包,在R中安装
install.packages("ExomeDepth")
下载测试数据
测试数据使用上次xhmm的数据。
wget https://statgen.bitbucket.io/xhmm/EXAMPLE_BAMS.zip
unzip EXAMPLE_BAMS.zip
这些数据是使用hs37d5参考基因组进行比对,经过了排序、去重以及GATK BQSR的标准bam文件准备流程。
ExomeDepth流程
以下均是R脚本。
导入bam及bed
bed文件需要四列,无标题
<chrom> <...
XHMM检测CNV
XHMM是一个用PCA降噪+HMM方法来检测全外显子CNV的软件。软件文档可在这里查看。
安装XHMM
XHMM安装依赖GCC 4.4以上,以及pthread和lapack。
wget https://bitbucket.org/statgen/xhmm/get/master.zip
unzip master.zip
cd statgen-xhmm-*
make
安装比较麻烦,可以到docker hub找一个现成的镜像。
下载测试数据
XHMM文档中从1000g弄了30个样本,每个样本取300个外显子作为测试数据
wget https://statgen.bitbucket.io/xhmm/EXAMPLE_BAMS.zip
unzip EXAMPLE_BAMS.zip
...
MitoMap 数据库
MitoMap是人类线粒体基因组数据库,除可以直接在线查询线粒体坐标的注释与相关文献研究外,还可以在线分析fasta序列(我没用过)。当然,最值得使用的方式是下载MitoMap提供的注释文件,形成自己的注释数据库。
MitoMap在线查询
MitoMap提供在线查询的接口,只要输入线粒体的起始终止位置,即输出其中包含的突变以及突变的注释信息。起始位置限制范围是1到16569,由此可见,如果我们使用的是UCSC的hg19参考基因组(chrM长度16571bp),与MitoMap的线粒体参考是不匹配的,而使用hs37d5、b37、GRCh37、GRCh38等则都能对得上。搜索能除了突变位点人群频率等信息外,还有参考文献以及MitoTIP、HmtVar、APOGEE等软件预测有害性。
...
参考转录本
大部分时候,报告结果上呈现的cDNA及氨基酸突变等,都是以某个转录本为参考的。不同转录本的位置会有差异。
因此,对每个基因,固定一个参考转录本非常重要。
Nirvana方法
illumina的Nirvana文档中,提到了选择参考转录本的方式。
只把RefSeq中NM或NR开头的转录本作为候选;
对转录本按以下优先度顺序排序:
i. 来源于LRG;
II. CDS长度降序;
III. 转录本长度降序;
iv. 编号升序;
使用排第一的结果。
杂七杂八
不想过于复杂,按以下方法进行。
下载LRG、MANE Select、RefSeq、Clinvar、HGNC等参考。
# LRG
wget ftp://ftp.ebi.ac.uk/pub/databas...
再整理一次测序数据去重流程
二代测序PCR过程中会产生duplications,为了下游分析的正确,一般需要进行去重操作。最常用的去重工具是picard MarkDuplicates。picard MarkDuplicates默认计算比对后的Reads,当存在Start与End以及序列一致的情况时,再计算这些reads的比对质量值之和,取其中最大的作为模板,其他作为duplications并在flag值中加上1024进行标记。
参考xGen Prism DNA Library Prep Kit。
以下包括常规的MarkDuplicates去重流程、有UMI下的MarkDuplicates去重流程,以及单端和双端的fgbio去重流程。
无UMI
使用组织作为样本检测时,很少会加入UMI序列,在比对后,使用M...
GATK PoN相关
检测正常样本
要求是不能有mnp
gatk Mutect2 -R reference.fasta \
-I normal.bam \
-max-mnp-distance 0 \
-L target.bed \
-O normal.vcf.gz
导入pon需要有索引,以往没有索引的vcf可以这样重建索引
gatk IndexFeatureFile -F normal.vcf
如果需要压缩再建立索引可以
bgzip normal.vcf
tabix -p vcf normal.vcf.gz
建立新pon数据库
可以通过写多次-V导入vcf或者利用–sample-name-map传入vcf的路径。
gatk GenomicsDBImport -R refere...
UMI去重强行MarkDuplicates
使用fastp+gencore的去重流程以及fgbio流程均是默认把dups删除,而不是类似picard MarkDuplicates以及sambamba那样把dups标记到flags值中。不过应该可以利用MarkDuplicates的–BARCODE_TAG来去重。
以index-umiA-template-umiB-index结构的双端 4bpUMI为例,首先将fastq(过滤adapter后)转为ubam
gatk FastqToSam -F1 cleanReads.R1.fq.gz -F2 cleanReads.R2.fq.gz \
-O Test.ubam \
-SM Test -PL illumina -PU Test
然后使用fgbio提取UMI,注意提取的结...
共计 204 篇文章,26 页。