主页

弄了个孟德尔遗传病的panel

其实就是几个数据库的使用而已啦。 说起孟德尔遗传病(遵循孟德尔遗传定律的基因病),首先想到的数据库肯定是OMIM。 我们需要的是申请下载OMIM的数据。申请地址点这里。 主要需要的是genemap2.txt这个文件。 因为做的是panel,所以一定要有据可循,要做到李菊福。 所以,我们可以去用免费的疾病数据库Clinvar。 可以在Clinvar中筛选出致病的位点,但是这样不能保证都是孟德尔遗传病,所以,要增加一个筛选条件,就是提交者为OMIM。 我发现了一个不错的网站,利用Clinvar的数据进一步归类分析。叫做Clinvar Miner。 所以我直接在Clinvar Miner中选择了OMIM作为提交者的位点。 然后再选择致病位点。大概是24000多个。 直接下载完...

阅读更多

GO/KEGG 富集分析

可以说是自己慢慢琢磨着写的第一个R程序了。。主要用的是大佬写的clusterProfiler这个包。 首先就是装这些包。 #source("https://bioconductor.org/biocLite.R") #biocLite("DOSE") #biocLite("topGO") #biocLite("clusterProfiler") #biocLite("pathview") 载入包。 library(DOSE) library(org.Hs.eg.db) library(topGO) library(clusterProfiler) library(pathview) 导入数据。原始数据是一个基因列表。只有一列就是基因,有标题。 data <- rea...

阅读更多

把clinvar转换成annovar可用的格式

annovar可以说是最常用的注释软件了。可是官方的数据库更新很慢,所以,最好是自己更新。 学会了下面的操作,自建数据库用annovar注释也不是问题。 首先我们需要下载最新的clinvar数据库。 点击进入GRCh37版本的FTP地址。 我下载的是20180401的Clinvar。 wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/clinvar_20180401.vcf.gz gunzip clinvar_20180401.vcf.gz 解压后,用下面的python脚本进行解析。 a = open('clinvar_20180401.vcf', 'r') b = open('hg19_clinvar_20180401...

阅读更多

用VVP分析一下致病位点看看

VVP是一个用来给位点打分的软件。 文章PMID:29463208 从Vcf到VVP的注释,要经过下面的过程: Vcf -> VEP注释 -> VVP注释。 首先我们来安装VEP。 需要注意的是,在装VEP之前,要确保已经安装了perl。 然后需要安装下面的perl模组。 可以使用cpan安装。(最好在root用户下进行) cpan install DBI cpan install Archive::Zip cpan install DBD::mysql cpan install Set::IntervalTree cpan install JSON cpan install PerlIO::gzip cpan install Bio::DB::BigFile ...

阅读更多

知道RSID,怎么得到在染色体上的位置

如果只有几个位点,好说,可以直接上NCBI一个一个查,如果位点一多,就需要批量查询了! 第一种方法: 使用annovar进行注释。 annovar提供了一个把rsid注释出region location的方法: convert2annovar.pl -format rsid rsid.txt -dbsnpfile humandb/hg19_snp138.txt > tempfile table_annovar.pl tempfile humandb/ \ -buildver hg19 \ -out rsid.anno \ -remove \ -protocol refGene,cytoBand,snp138,avsnp150 \ -operation g,r,f,f ...

阅读更多

通过OMIM做一个癫痫panel

panel检测和外显子、全基因检测相比,有耗时短,价格便宜,针对性高等优点。 但是,缺点也是很明显的,比如说碱基个数不等的拷贝数/增添/缺失等突变,panel比较难测出来。 还有就是panel没有覆盖到就会有阴性的结果出现。还有就是panel都是基于前人的研究的,如果研究不准确,panel就会错。 而全基因,外显子等还有校正的余地。 这里以癫痫为例子,简单的介绍一个做panel的方法。 首先,我们要用到的数据库是OMIM,人类孟德尔遗传数据库。搜索癫痫,得到结果。 当然,单纯的epilepsy是不足以覆盖到所有癫痫基因的,我建议更准确的方法是找到所有癫痫的相关疾病。 点击download as下载相关文件。下载下来的文件里,需要的是‘Phenotype MIM number’...

阅读更多

GATK4推荐的call生殖细胞突变流程(脚本)

这是整理过的脚本! 说一说我的目录结构: |--~ |--Project # 存放项目 | |--Germline # 每个项目单独一个文件夹 | |--Bam # 存放最终生成的bam文件 | |--Bin # 存放使用的脚本 | |--Temp # 存放中间文件,最终可以删掉 | |--Vcf # 存放最终的Vcf文件 | |--Database # 数据库 |--Scripts # 脚本大杂烩,做啥都套模板就行了 |--So...

阅读更多

GATK4推荐的call体细胞突变流程(脚本)

这是整理过的脚本! 说一说我的目录结构: |--~ |--Project # 存放项目 | |--Somatic # 每个项目单独一个文件夹 | |--Bam # 存放最终生成的bam文件 | |--Bin # 存放使用的脚本 | |--Temp # 存放中间文件,最终可以删掉 | |--Vcf # 存放最终的Vcf文件 | |--Database # 数据库 |--Scripts # 脚本大杂烩,做啥都套模板就行了 |--So...

阅读更多