主页 - 生物信息文件夹

2018年的第一次更新。 mafft是一个用来做比对的软件。最近我在研究HLA的分型（用的一代）的时候想用来试试。先看看官网。可以看到目前的最新版本是7.313。我装的是这个，linux版本的。官网提供了按照的方法： # 在root下 rpm -Uvh mafft-xxxxx-rpm exit # if necessary rehash 装好之后可以用: mafft -help 查看帮助文档。最简单的使用方式就是： mafft input > output 比如说我有一个HLA-C区的fasta文件，点这里下载。然后运行下面这个就可以了。 mafft C_nuc.fasta > output.txt

简单的，做panel的，例子 panel就是关于某个疾病的位点，一般包括这个疾病的致病基因位点，药敏基因位点，毒副作用基因位点，风险基因位点这些。很多时候都要靠手工去查询文献来手动添加。或者，可以去购买商业化的疾病panel。一个panel，最重要的是可信。可信的意思是，位点要有相关文献的支持。然后位点要的是参考基因组上的绝对位置。例如hg19的chr1:0000001这样的。下面利用这个公开的老年痴呆数据库来建立一个panel。数据库这个数据库的有点在于，每个位点都有pmid，而且标注了位点是致病的还是良性的。首先，我们通过浏览器右键查看源代码简单粗暴的把这个网页弄下来。当然，页面很多的情况下是写一个爬虫程序来把网页弄下来，但是我们需要的只是一个页面，...

很多时候，看文献啊报告这类东西的时候作者因为某些原因，不会给出明确位点，只会给基因名和碱基突变或蛋白质突变。例如，给出 ITPA c.94C>A 这样的突变。这里介绍一个可以凭这点信息找到绝对位置（染色体+物理长度）的工具：Transvar Transvar是一个用python写的开源软件，我们可以下载下来使用，但是下载的话还要下载数据库比较麻烦。所以可以选择使用网页版。 Transvar Web。网页版还是一个做了用户界面的，非常贴心而且非常容易使用。看一眼就会的那种。如上图，Select a task可以选择protein（aachange）、cDNA、gDNA等。 Select a reference genome可以选择参考基因组。 Select on...

要弄一个项目，首先要找到相关的panel。比如说，要做老年痴呆的项目，首先就应该去找关于阿尔兹海默病和额颞叶痴呆的相关基因位点。刚好的是，发现一个统计了相关文献研究的网站。这里molgen.vib-ua.be。然后选择基因可以看到这样的一个界面。首选的弄下来的方法，当然是复制粘贴。然而，复制粘贴格式会乱掉。只好用脚本处理了。我们可以找到这个网页的源代码。点这里下面是我用来处理的python脚本： from bs4 import BeautifulSoup inputFile = open('AD.html', 'r') outputFile = open('result.txt', 'w') soup = BeautifulSoup(input...

纯文字，并没有图。首先，要知道必要的配件。 ##第一，主板。主板有大有小。主要的有三种： ATX：标准板，一般游戏推荐这个，因为插槽多 MATX：小一点的，因为这样机箱也能缩小，能兼顾更多场景 ITX：非常小的主板，可以说是非常强迫症了。 ##第二，CPU。 CPU无非就是牙膏厂（英特尔）和按摩店（AMD）的。目前牙膏厂的八代U已经出来了，价格在持续下降。主频高，适合玩游戏。其次，牙膏厂的七代U，就是垃圾，千万别买。按摩店有锐龙算是农企翻身。不推荐带X的，因为不带X的超频之后性能和带X的差不多。锐龙主要是多核多线程，在处理数据渲染等环境下很不错。（其实游戏性能也不差啦，而且价格比牙膏厂的实惠多了） ##第三，散热。如果不是要超频/运行大型程序，买盒装CPU的时候自...

自从知道这款软件，工作效率提高了不少。这是一款输入表型和下机的vcf就可以输出与表型最相关的基因的软件。目前看来效果很好。用java写的，注意系统要有java的环境。首先例行放上软件的主页。 Exomiser 然后这里是下载地址。 Installation windows、linux、mac版本都有，按自己的系统安装就行了。记得还要下载它的数据库。 data 简单的操作介绍，简直是官网的典范。 manual 接下来讲一下基本操作。首先，得到患者的临床信息，把表型信息分析出来，去获得表型的HP号。所谓的HP号，就是Human Phenotype Ontology对表型的编号。中文的话，可以去奇恩生物的罕见病辅助诊断系统。英文的话，就去HPO提供的phenomize...

因为最近很冷！不想码字，所以随便更新一点点用annovar注释出来的文件。我们可以放进excel里面看。首先应该去关注一下clinvar有没有注释出致病（pathogenic）的位点。但是！因为clinvar不是很准确，所以我们只能用来作为一个参考的标准。第二步，筛选一下1000g_all的突变频率。一般以0.001也就是0.1%为准。因为突变率太高的话，就说明这个突变在人群中是常见的，并不是罕见的变异，没有参考的价值。同时，可以筛选EXac_eas的频率（表示东亚人），当然其他区域的人筛选其他的。第三步，去除同义突变，我们要的是没有研究过的以及非同义突变。这样才有意义。第四步，对剩下的进行与临床表型的匹配。这时候可以借助一些软件。比如Exomiser。也...

很多时候，我们查资料，文献里只说了某基因，某位置，A>C(栗子)。那么，只知道这些信息，要怎么查询到rsid。下面说一个方法。例如，现在已知的信息是TPMT基因，719 A>G。要查到rsid。第一步，上ncbi的variation-viewer。输入TPMT查询。然后在左边下面的选择栏里，选择source database选择dbSNP，因为我们就是要rsid。Has publications 选 yes。因为我们就是看到文章所以才来找的。然后点击edit columns，把alleles勾上。得到的结果，看alleles那一列。我们要关注的是A,G或者T,C这样的列。（因为我们知道719 A>G。所以A,G和T,C都是对的。正链和负链。） ...

主页

多序列比对软件mafft

建立阿尔兹海默病的panel

使用Transvar来找位点

建立阿尔兹海默病的数据库

新手组装电脑注意事项

用Exomiser筛选致病基因

关于注释之后怎么进行基本的筛选

只知道位点，怎么查询到rsid