主页

GATK 检测 Germline CNV

适用于GATK 4.2 版本以上,流程参考于这篇文章。 软件安装 GATK建议使用conda部署环境,其中gatkcondaenv.yml文件可以在下载的gatk.zip中找到。 conda env create -f gatkcondaenv.yml conda activate gatk 或者使用GATK官方docker docker pull broadinstitute/gatk:4.2.2.0 测试了一下,普通环境下主要是缺少gcnvkernel这个模块。 下载测试数据 测试数据照旧使用xhmm的数据。这些数据是使用hs37d5参考基因组进行比对,经过了排序、去重以及GATK BQSR的标准bam文件准备流程。 wget https://statgen.bi...

阅读更多

ExomeDepth检测CNV

ExomeDepth是一个基于HMM方法来检测全外显子CNV的软件。软件文档可在这里查看。 安装exomeDepth exomeDepth是一个R包,在R中安装 install.packages("ExomeDepth") 下载测试数据 测试数据使用上次xhmm的数据。 wget https://statgen.bitbucket.io/xhmm/EXAMPLE_BAMS.zip unzip EXAMPLE_BAMS.zip 这些数据是使用hs37d5参考基因组进行比对,经过了排序、去重以及GATK BQSR的标准bam文件准备流程。 ExomeDepth流程 以下均是R脚本。 导入bam及bed bed文件需要四列,无标题 <chrom> <...

阅读更多

XHMM检测CNV

XHMM是一个用PCA降噪+HMM方法来检测全外显子CNV的软件。软件文档可在这里查看。 安装XHMM XHMM安装依赖GCC 4.4以上,以及pthread和lapack。 wget https://bitbucket.org/statgen/xhmm/get/master.zip unzip master.zip cd statgen-xhmm-* make 安装比较麻烦,可以到docker hub找一个现成的镜像。 下载测试数据 XHMM文档中从1000g弄了30个样本,每个样本取300个外显子作为测试数据 wget https://statgen.bitbucket.io/xhmm/EXAMPLE_BAMS.zip unzip EXAMPLE_BAMS.zip ...

阅读更多

MitoMap 数据库

MitoMap是人类线粒体基因组数据库,除可以直接在线查询线粒体坐标的注释与相关文献研究外,还可以在线分析fasta序列(我没用过)。当然,最值得使用的方式是下载MitoMap提供的注释文件,形成自己的注释数据库。 MitoMap在线查询 MitoMap提供在线查询的接口,只要输入线粒体的起始终止位置,即输出其中包含的突变以及突变的注释信息。起始位置限制范围是1到16569,由此可见,如果我们使用的是UCSC的hg19参考基因组(chrM长度16571bp),与MitoMap的线粒体参考是不匹配的,而使用hs37d5、b37、GRCh37、GRCh38等则都能对得上。搜索能除了突变位点人群频率等信息外,还有参考文献以及MitoTIP、HmtVar、APOGEE等软件预测有害性。 ...

阅读更多

参考转录本

大部分时候,报告结果上呈现的cDNA及氨基酸突变等,都是以某个转录本为参考的。不同转录本的位置会有差异。 因此,对每个基因,固定一个参考转录本非常重要。 Nirvana方法 illumina的Nirvana文档中,提到了选择参考转录本的方式。 只把RefSeq中NM或NR开头的转录本作为候选; 对转录本按以下优先度顺序排序: i. 来源于LRG; II. CDS长度降序; III. 转录本长度降序; iv. 编号升序; 使用排第一的结果。 杂七杂八 不想过于复杂,按以下方法进行。 下载LRG、MANE Select、RefSeq、Clinvar、HGNC等参考。 # LRG wget ftp://ftp.ebi.ac.uk/pub/databas...

阅读更多

再整理一次测序数据去重流程

二代测序PCR过程中会产生duplications,为了下游分析的正确,一般需要进行去重操作。最常用的去重工具是picard MarkDuplicates。picard MarkDuplicates默认计算比对后的Reads,当存在Start与End以及序列一致的情况时,再计算这些reads的比对质量值之和,取其中最大的作为模板,其他作为duplications并在flag值中加上1024进行标记。 参考xGen Prism DNA Library Prep Kit。 以下包括常规的MarkDuplicates去重流程、有UMI下的MarkDuplicates去重流程,以及单端和双端的fgbio去重流程。 无UMI 使用组织作为样本检测时,很少会加入UMI序列,在比对后,使用M...

阅读更多

GATK PoN相关

检测正常样本 要求是不能有mnp gatk Mutect2 -R reference.fasta \ -I normal.bam \ -max-mnp-distance 0 \ -L target.bed \ -O normal.vcf.gz 导入pon需要有索引,以往没有索引的vcf可以这样重建索引 gatk IndexFeatureFile -F normal.vcf 如果需要压缩再建立索引可以 bgzip normal.vcf tabix -p vcf normal.vcf.gz 建立新pon数据库 可以通过写多次-V导入vcf或者利用–sample-name-map传入vcf的路径。 gatk GenomicsDBImport -R refere...

阅读更多

UMI去重强行MarkDuplicates

使用fastp+gencore的去重流程以及fgbio流程均是默认把dups删除,而不是类似picard MarkDuplicates以及sambamba那样把dups标记到flags值中。不过应该可以利用MarkDuplicates的–BARCODE_TAG来去重。 以index-umiA-template-umiB-index结构的双端 4bpUMI为例,首先将fastq(过滤adapter后)转为ubam gatk FastqToSam -F1 cleanReads.R1.fq.gz -F2 cleanReads.R2.fq.gz \ -O Test.ubam \ -SM Test -PL illumina -PU Test 然后使用fgbio提取UMI,注意提取的结...

阅读更多