多序列比对软件mafft
2018年的第一次更新。
mafft是一个用来做比对的软件。最近我在研究HLA的分型(用的一代)的时候想用来试试。
先看看官网。
可以看到目前的最新版本是7.313。
我装的是这个,linux版本的。
官网提供了按照的方法:
# 在root下
rpm -Uvh mafft-xxxxx-rpm
exit
# if necessary
rehash
装好之后可以用:
mafft -help
查看帮助文档。
最简单的使用方式就是:
mafft input > output
比如说我有一个HLA-C区的fasta文件,点这里下载。
然后运行下面这个就可以了。
mafft C_nuc.fasta > output.txt
建立阿尔兹海默病的panel
简单的,做panel的,例子
panel就是关于某个疾病的位点,一般包括这个疾病的致病基因位点,药敏基因位点,毒副作用基因位点,风险基因位点这些。
很多时候都要靠手工去查询文献来手动添加。或者,可以去购买商业化的疾病panel。
一个panel,最重要的是可信。可信的意思是,位点要有相关文献的支持。
然后位点要的是参考基因组上的绝对位置。
例如hg19的chr1:0000001这样的。
下面利用这个公开的老年痴呆数据库来建立一个panel。
数据库
这个数据库的有点在于,每个位点都有pmid,而且标注了位点是致病的还是良性的。
首先,我们通过浏览器右键查看源代码简单粗暴的把这个网页弄下来。
当然,页面很多的情况下是写一个爬虫程序来把网页弄下来,但是我们需要的只是一个页面,...
使用Transvar来找位点
很多时候,看文献啊报告这类东西的时候作者因为某些原因,不会给出明确位点,只会给基因名和碱基突变或蛋白质突变。例如,给出 ITPA c.94C>A 这样的突变。
这里介绍一个可以凭这点信息找到绝对位置(染色体+物理长度)的工具:Transvar
Transvar是一个用python写的开源软件,我们可以下载下来使用,但是下载的话还要下载数据库比较麻烦。所以可以选择使用网页版。
Transvar Web。
网页版还是一个做了用户界面的,非常贴心而且非常容易使用。看一眼就会的那种。
如上图,Select a task可以选择protein(aachange)、cDNA、gDNA等。
Select a reference genome可以选择参考基因组。
Select on...
建立阿尔兹海默病的数据库
要弄一个项目,首先要找到相关的panel。比如说,要做老年痴呆的项目,首先就应该去找关于阿尔兹海默病和额颞叶痴呆的相关基因位点。
刚好的是,发现一个统计了相关文献研究的网站。
这里molgen.vib-ua.be。
然后选择基因可以看到这样的一个界面。
首选的弄下来的方法,当然是复制粘贴。
然而,复制粘贴格式会乱掉。
只好用脚本处理了。
我们可以找到这个网页的源代码。
点这里
下面是我用来处理的python脚本:
from bs4 import BeautifulSoup
inputFile = open('AD.html', 'r')
outputFile = open('result.txt', 'w')
soup = BeautifulSoup(input...
新手组装电脑注意事项
纯文字,并没有图。
首先,要知道必要的配件。
##第一,主板。
主板有大有小。主要的有三种:
ATX:标准板,一般游戏推荐这个,因为插槽多
MATX:小一点的,因为这样机箱也能缩小,能兼顾更多场景
ITX:非常小的主板,可以说是非常强迫症了。
##第二,CPU。
CPU无非就是牙膏厂(英特尔)和按摩店(AMD)的。
目前牙膏厂的八代U已经出来了,价格在持续下降。主频高,适合玩游戏。
其次,牙膏厂的七代U,就是垃圾,千万别买。
按摩店有锐龙算是农企翻身。不推荐带X的,因为不带X的超频之后性能和带X的差不多。
锐龙主要是多核多线程,在处理数据渲染等环境下很不错。(其实游戏性能也不差啦,而且价格比牙膏厂的实惠多了)
##第三,散热。
如果不是要超频/运行大型程序,买盒装CPU的时候自...
用Exomiser筛选致病基因
自从知道这款软件,工作效率提高了不少。
这是一款输入表型和下机的vcf就可以输出与表型最相关的基因的软件。目前看来效果很好。用java写的,注意系统要有java的环境。
首先例行放上软件的主页。
Exomiser
然后这里是下载地址。
Installation
windows、linux、mac版本都有,按自己的系统安装就行了。
记得还要下载它的数据库。
data
简单的操作介绍,简直是官网的典范。
manual
接下来讲一下基本操作。
首先,得到患者的临床信息,把表型信息分析出来,去获得表型的HP号。所谓的HP号,就是Human Phenotype Ontology对表型的编号。
中文的话,可以去奇恩生物的罕见病辅助诊断系统。
英文的话,就去HPO提供的phenomize...
关于注释之后怎么进行基本的筛选
因为最近很冷!不想码字,所以随便更新一点点
用annovar注释出来的文件。
我们可以放进excel里面看。
首先应该去关注一下clinvar有没有注释出致病(pathogenic)的位点。
但是!因为clinvar不是很准确,所以我们只能用来作为一个参考的标准。
第二步,筛选一下1000g_all的突变频率。一般以0.001也就是0.1%为准。
因为突变率太高的话,就说明这个突变在人群中是常见的,并不是罕见的变异,没有参考的价值。
同时,可以筛选EXac_eas的频率(表示东亚人),当然其他区域的人筛选其他的。
第三步,去除同义突变,我们要的是没有研究过的以及非同义突变。这样才有意义。
第四步,对剩下的进行与临床表型的匹配。这时候可以借助一些软件。
比如Exomiser。也...
只知道位点,怎么查询到rsid
很多时候,我们查资料,文献里只说了某基因,某位置,A>C(栗子)。那么,只知道这些信息,要怎么查询到rsid。
下面说一个方法。例如,现在已知的信息是TPMT基因,719 A>G。
要查到rsid。
第一步,上ncbi的variation-viewer。输入TPMT查询。
然后在左边下面的选择栏里,选择source database选择dbSNP,因为我们就是要rsid。Has publications 选 yes。因为我们就是看到文章所以才来找的。
然后点击edit columns,把alleles勾上。得到的结果,看alleles那一列。我们要关注的是A,G或者T,C这样的列。(因为我们知道719 A>G。所以A,G和T,C都是对的。正链和负链。)
...
共计 204 篇文章,26 页。