弄了个孟德尔遗传病的panel
其实就是几个数据库的使用而已啦。
说起孟德尔遗传病(遵循孟德尔遗传定律的基因病),首先想到的数据库肯定是OMIM。
我们需要的是申请下载OMIM的数据。申请地址点这里。
主要需要的是genemap2.txt这个文件。
因为做的是panel,所以一定要有据可循,要做到李菊福。
所以,我们可以去用免费的疾病数据库Clinvar。
可以在Clinvar中筛选出致病的位点,但是这样不能保证都是孟德尔遗传病,所以,要增加一个筛选条件,就是提交者为OMIM。
我发现了一个不错的网站,利用Clinvar的数据进一步归类分析。叫做Clinvar Miner。
所以我直接在Clinvar Miner中选择了OMIM作为提交者的位点。
然后再选择致病位点。大概是24000多个。
直接下载完...
GO/KEGG 富集分析
可以说是自己慢慢琢磨着写的第一个R程序了。。主要用的是大佬写的clusterProfiler这个包。
首先就是装这些包。
#source("https://bioconductor.org/biocLite.R")
#biocLite("DOSE")
#biocLite("topGO")
#biocLite("clusterProfiler")
#biocLite("pathview")
载入包。
library(DOSE)
library(org.Hs.eg.db)
library(topGO)
library(clusterProfiler)
library(pathview)
导入数据。原始数据是一个基因列表。只有一列就是基因,有标题。
data <- rea...
把clinvar转换成annovar可用的格式
annovar可以说是最常用的注释软件了。可是官方的数据库更新很慢,所以,最好是自己更新。
学会了下面的操作,自建数据库用annovar注释也不是问题。
首先我们需要下载最新的clinvar数据库。
点击进入GRCh37版本的FTP地址。
我下载的是20180401的Clinvar。
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/clinvar_20180401.vcf.gz
gunzip clinvar_20180401.vcf.gz
解压后,用下面的python脚本进行解析。
a = open('clinvar_20180401.vcf', 'r')
b = open('hg19_clinvar_20180401...
用VVP分析一下致病位点看看
VVP是一个用来给位点打分的软件。
文章PMID:29463208
从Vcf到VVP的注释,要经过下面的过程:
Vcf -> VEP注释 -> VVP注释。
首先我们来安装VEP。
需要注意的是,在装VEP之前,要确保已经安装了perl。
然后需要安装下面的perl模组。
可以使用cpan安装。(最好在root用户下进行)
cpan install DBI
cpan install Archive::Zip
cpan install DBD::mysql
cpan install Set::IntervalTree
cpan install JSON
cpan install PerlIO::gzip
cpan install Bio::DB::BigFile
...
知道RSID,怎么得到在染色体上的位置
如果只有几个位点,好说,可以直接上NCBI一个一个查,如果位点一多,就需要批量查询了!
第一种方法:
使用annovar进行注释。
annovar提供了一个把rsid注释出region location的方法:
convert2annovar.pl -format rsid rsid.txt -dbsnpfile humandb/hg19_snp138.txt > tempfile
table_annovar.pl tempfile humandb/ \
-buildver hg19 \
-out rsid.anno \
-remove \
-protocol refGene,cytoBand,snp138,avsnp150 \
-operation g,r,f,f ...
通过OMIM做一个癫痫panel
panel检测和外显子、全基因检测相比,有耗时短,价格便宜,针对性高等优点。
但是,缺点也是很明显的,比如说碱基个数不等的拷贝数/增添/缺失等突变,panel比较难测出来。
还有就是panel没有覆盖到就会有阴性的结果出现。还有就是panel都是基于前人的研究的,如果研究不准确,panel就会错。
而全基因,外显子等还有校正的余地。
这里以癫痫为例子,简单的介绍一个做panel的方法。
首先,我们要用到的数据库是OMIM,人类孟德尔遗传数据库。搜索癫痫,得到结果。
当然,单纯的epilepsy是不足以覆盖到所有癫痫基因的,我建议更准确的方法是找到所有癫痫的相关疾病。
点击download as下载相关文件。下载下来的文件里,需要的是‘Phenotype MIM number’...
GATK4推荐的call生殖细胞突变流程(脚本)
这是整理过的脚本!
说一说我的目录结构:
|--~
|--Project # 存放项目
| |--Germline # 每个项目单独一个文件夹
| |--Bam # 存放最终生成的bam文件
| |--Bin # 存放使用的脚本
| |--Temp # 存放中间文件,最终可以删掉
| |--Vcf # 存放最终的Vcf文件
|
|--Database # 数据库
|--Scripts # 脚本大杂烩,做啥都套模板就行了
|--So...
GATK4推荐的call体细胞突变流程(脚本)
这是整理过的脚本!
说一说我的目录结构:
|--~
|--Project # 存放项目
| |--Somatic # 每个项目单独一个文件夹
| |--Bam # 存放最终生成的bam文件
| |--Bin # 存放使用的脚本
| |--Temp # 存放中间文件,最终可以删掉
| |--Vcf # 存放最终的Vcf文件
|
|--Database # 数据库
|--Scripts # 脚本大杂烩,做啥都套模板就行了
|--So...
共计 204 篇文章,26 页。