主页

VEP安装和使用

VEP是ensembl推出的一款注释软件,VEP基于Apache-2.0许可,可以商用。与annovar和snpeff相比,对国内用户来说,VEP的安装和使用都更加复杂。但由于目前很多软件,如maftools、autoPVS1、CharGer等均基于VEP的注释结果,因此很有必要装上。 VEP的安装 最简单的安装方法是使用docker。目前最新版本是106。 docker docker pull ensemblorg/ensembl-vep:release_106.1 但是在集群中,使用docker或singluarity要导入数据库,为了便于使用,采取逐步安装的方式。 VEP的安装需要gcc、g++和make;Perl≥5.10;需要安装 Archive::Zip和DBI。...

阅读更多

WDL流程中导入文件夹

在集群中使用WDL流程语言,会通过singularity镜像导入环境。但是,一些巨大的数据库不可能封装进镜像中。之前在使用annovar等注释软件时,我都是不打包为镜像而是在各个节点中都安装上软件的,然后通过在WDL中写入数据库的路径来达到对应效果。 类似的task如下: task annovar { input { File vcf } String humandb = "/path/to/humandb" command <<< annovar ~{vcf} ~{humandb} >>> output { File xxx = "xxx" } } 其实可以把整个数据库文件夹使用tar打包,然后通过File...

阅读更多

外显子bed

NCCL室间质评推荐使用的外显子bed是UCSC的hg19外显子bed,而推荐使用的TMB计算区间则是CCDS的交集。下面介绍怎么获得这两个bed。 使用UCSC Table Browser,assembly选择GRCh37/hg19,track选择NCBI RefSeq,output format选择BED,然后选择get output,再在下一个页面中选择Exons plus 0。点击get Bed即是外显子bed。需注意的是,这个bed包含同一基因的多个转录本。 对于CDS区域(即外显子区域去除UTR3),可以在上一步选择Coding Exons,然后获得bed。 另外可以从NCBI获取CCDS的bed。 对于GRCh37,最新的版本是Hs105。 wget https...

阅读更多

建立snpEFF的线粒体注释库

目前无论是GRCh37基因组抑或是GRCh38基因组,线粒体均是使用NC_012920这一基因组(hg19版本除外), 如果直接用snpeff的GRCh37来注释,结果中并不会提示使用的转录本,因此这里对NC_012920建立一个用于snpeff注释的数据库。 首先在snpeff数据库/path/to/data目录下,新建一个MT文件夹。 需要到NCBI的对应页面中,下载fasta格式的序列文件,并命名为sequences.fa,修改文件中contig名为MT,放置于MT文件夹下。 然后按照下图,下载genebank文件。 把下载下来的文件放置于MT文件夹下, 并命名为genes.gbk。 修改genes.gbk内容 sed -i 's/NC_012920.1/NC_0...

阅读更多

医保相关靶向药物位点

可能是因为阿斯利康事件,检测公司需整理近年的检测报告结果。 看看目前有哪些靶向药针对哪些突变进了医保吧(非权威,勿参考)。 癌种 基因 药名 突变 乳腺癌、胃癌 HER2 曲妥珠单抗 HER2扩增 肺癌 EGFR 吉非替尼 EGFR 19del、L858R 白血病、胃肠道间质瘤 PDGFRA、CKIT 伊马替尼 PDGFRA突变、CKIT突变(多是exon11上的缺失) 肺...

阅读更多

乳腺癌21基因复发评分

乳腺癌有一个由21个基因组成,并且在指南里推荐了的复发评分模型。这个模型由Paik等提出。目前也有成熟的商品Oncotype DX。 评分由以上6组基因组成,包括HER2组的GRB7、HER2;Proliferation组的Ki67、STK15、Survivin、CCNB1、MYBL2;Invasion组的MMP11、CTSL2;其他组的GSTM1、CD68、BAG1以及参考组的ACTB、GAPDH、RPLPO、GUS、TFRC。 各个基因使用qPCR获得CT值,然后用CT值计算获得最终的复发评分RS值。根据指南区分:低(RS < 26)、中(RS = 26到30)、高危RS(RS≥31)。另外,指南中对不同的年龄段也有了不同的RS划分。以下代码均为python。 测试...

阅读更多

CNVnator和CNVpytor的使用

CNVnator可用于分析全基因组CNV。 软件依赖于root框架以及samtools。最终的可视化也是依赖于root软件,另外还有衍生的拓展程序CNVpytor。从更新时间以及介绍页面看,CNVpytor貌似能更好的出图。 安装 CNVnator的安装 git clone https://github.com/abyzovlab/CNVnator.git cd CNVnator ln -s /path/to/src/samtools samtools make CNVpytor的安装 git clone https://github.com/abyzovlab/CNVpytor.git cd CNVpytor pip install --user . 还可以选择dock...

阅读更多

CNVkit分析WGS

CNVkit一般用来分析肿瘤样本的拷贝数变异(使用配对样本或者正常样本建立参考基线的)。实际上,CNVkit也提供了全基因组胚系CNV分析的方法。 一般来说,WGS遗传样本不会做参考样本(也有会用同批次其他WGS样本作为参考的),同时分析多个样本时,运行命令如下 cnvkit.py batch \ sample1.bam sample2.bam sample3.bam \ -m wgs -f reference.fa \ --annotate refFlat.txt \ -t target.bed --target-avg-size 1000 \ -p 16 -d output_dir \ --segment-method hmm -n 其中,annotate参数需要...

阅读更多