VEP安装和使用
VEP是ensembl推出的一款注释软件,VEP基于Apache-2.0许可,可以商用。与annovar和snpeff相比,对国内用户来说,VEP的安装和使用都更加复杂。但由于目前很多软件,如maftools、autoPVS1、CharGer等均基于VEP的注释结果,因此很有必要装上。
VEP的安装
最简单的安装方法是使用docker。目前最新版本是106。
docker
docker pull ensemblorg/ensembl-vep:release_106.1
但是在集群中,使用docker或singluarity要导入数据库,为了便于使用,采取逐步安装的方式。
VEP的安装需要gcc、g++和make;Perl≥5.10;需要安装 Archive::Zip和DBI。...
WDL流程中导入文件夹
在集群中使用WDL流程语言,会通过singularity镜像导入环境。但是,一些巨大的数据库不可能封装进镜像中。之前在使用annovar等注释软件时,我都是不打包为镜像而是在各个节点中都安装上软件的,然后通过在WDL中写入数据库的路径来达到对应效果。
类似的task如下:
task annovar {
input {
File vcf
}
String humandb = "/path/to/humandb"
command <<<
annovar ~{vcf} ~{humandb}
>>>
output {
File xxx = "xxx"
}
}
其实可以把整个数据库文件夹使用tar打包,然后通过File...
外显子bed
NCCL室间质评推荐使用的外显子bed是UCSC的hg19外显子bed,而推荐使用的TMB计算区间则是CCDS的交集。下面介绍怎么获得这两个bed。
使用UCSC Table Browser,assembly选择GRCh37/hg19,track选择NCBI RefSeq,output format选择BED,然后选择get output,再在下一个页面中选择Exons plus 0。点击get Bed即是外显子bed。需注意的是,这个bed包含同一基因的多个转录本。
对于CDS区域(即外显子区域去除UTR3),可以在上一步选择Coding Exons,然后获得bed。
另外可以从NCBI获取CCDS的bed。
对于GRCh37,最新的版本是Hs105。
wget https...
建立snpEFF的线粒体注释库
目前无论是GRCh37基因组抑或是GRCh38基因组,线粒体均是使用NC_012920这一基因组(hg19版本除外),
如果直接用snpeff的GRCh37来注释,结果中并不会提示使用的转录本,因此这里对NC_012920建立一个用于snpeff注释的数据库。
首先在snpeff数据库/path/to/data目录下,新建一个MT文件夹。
需要到NCBI的对应页面中,下载fasta格式的序列文件,并命名为sequences.fa,修改文件中contig名为MT,放置于MT文件夹下。
然后按照下图,下载genebank文件。
把下载下来的文件放置于MT文件夹下, 并命名为genes.gbk。
修改genes.gbk内容
sed -i 's/NC_012920.1/NC_0...
医保相关靶向药物位点
可能是因为阿斯利康事件,检测公司需整理近年的检测报告结果。
看看目前有哪些靶向药针对哪些突变进了医保吧(非权威,勿参考)。
癌种
基因
药名
突变
乳腺癌、胃癌
HER2
曲妥珠单抗
HER2扩增
肺癌
EGFR
吉非替尼
EGFR 19del、L858R
白血病、胃肠道间质瘤
PDGFRA、CKIT
伊马替尼
PDGFRA突变、CKIT突变(多是exon11上的缺失)
肺...
乳腺癌21基因复发评分
乳腺癌有一个由21个基因组成,并且在指南里推荐了的复发评分模型。这个模型由Paik等提出。目前也有成熟的商品Oncotype DX。
评分由以上6组基因组成,包括HER2组的GRB7、HER2;Proliferation组的Ki67、STK15、Survivin、CCNB1、MYBL2;Invasion组的MMP11、CTSL2;其他组的GSTM1、CD68、BAG1以及参考组的ACTB、GAPDH、RPLPO、GUS、TFRC。
各个基因使用qPCR获得CT值,然后用CT值计算获得最终的复发评分RS值。根据指南区分:低(RS < 26)、中(RS = 26到30)、高危RS(RS≥31)。另外,指南中对不同的年龄段也有了不同的RS划分。以下代码均为python。
测试...
CNVnator和CNVpytor的使用
CNVnator可用于分析全基因组CNV。
软件依赖于root框架以及samtools。最终的可视化也是依赖于root软件,另外还有衍生的拓展程序CNVpytor。从更新时间以及介绍页面看,CNVpytor貌似能更好的出图。
安装
CNVnator的安装
git clone https://github.com/abyzovlab/CNVnator.git
cd CNVnator
ln -s /path/to/src/samtools samtools
make
CNVpytor的安装
git clone https://github.com/abyzovlab/CNVpytor.git
cd CNVpytor
pip install --user .
还可以选择dock...
CNVkit分析WGS
CNVkit一般用来分析肿瘤样本的拷贝数变异(使用配对样本或者正常样本建立参考基线的)。实际上,CNVkit也提供了全基因组胚系CNV分析的方法。
一般来说,WGS遗传样本不会做参考样本(也有会用同批次其他WGS样本作为参考的),同时分析多个样本时,运行命令如下
cnvkit.py batch \
sample1.bam sample2.bam sample3.bam \
-m wgs -f reference.fa \
--annotate refFlat.txt \
-t target.bed --target-avg-size 1000 \
-p 16 -d output_dir \
--segment-method hmm -n
其中,annotate参数需要...
共计 204 篇文章,26 页。