Cromwell GUI
在搭建好WDL流程,以及使用Cromwell来运行之后,理所当然的,就会想用GUI界面来替代命令行。现在比较有名的开源生信GUI是Galaxy,但是并不支持WDL和Cromwell。
在github找了一下,找到几个工具。
diy-cromwell-server
diy-cromwell-server,最近还在更新中。需要联系作者建立账户,太麻烦,放弃。
cromwellDashboard
cromwellDashboard,最后更新是在2018年,比较久远。
用R安装
install.packages("cromwellDashboard")
在后台运行cromwell server
java -jar cromwell-62.jar server
运行
libra...
WDL学习笔记
经历Snakemake与WDL之间的反复横跳之后,我还是决定学习WDL。主要学习路线是WDL的语法以及Cromwell的使用。
WDL
WDL全称是Workflow Description Language,是Broad Institute专门开发用来跑流程的语言。由于是需要快速建立流程,因此这个语言的特点就是可以快速编写,简单易懂(我还是觉得Snakemake比较容易上手)。
WDL基本元件有5个,分别是定义总流程的workflow、定义单个任务的task、运行任务的call、定义任务中命令的command以及输出output。
下面将以bwa比对流程为例,展示WDL的语法。WDL支持以“#”作为注释,另外为了格式规范,建议使用四个空格作为缩进。首先在WDL脚本中,需要声明W...
Docker WDL Snakemake学习
最近学习了一下Docker、WDL以及Snakemake。目前来说,使用Docker将每个流程/软件进行封装应该是生信的主要趋势。现在的想法是将流程都封装到Docker,然后使用WDL或者Snakemake来作为胶水语言串起来。
对于WDL和Snakemake,学习上我个人觉得Snakemake上手更快。WDL目前不太能理解的是为啥需要传入所有的文件(例如使用bwa进行比对需要传入建立的所有索引文件)。WDL将所有需求文件以硬链接/软链接/复制(默认按此顺序进行尝试,可调整)的方式传入,然后再进行运行。而Snakemake对于文件的操作则比较容易理解。再另外,我感觉WDL对于需要设置默认参数的变量的写法有点麻烦,本来以为可以直接在变量后面跟“=”来写,后来发现不行(更新:我悟了,建议...
lohhla检测HLA区域LOH
LOH
杂合性缺失(英语:Loss of heterozygosity,缩写LoH)是指一种使某特定基因缺失的基因组变化。所有二倍体细胞(如人类体细胞)皆有两套基因组,分别来自两亲本的染色体对;每份基因组包含大约30亿个碱基。人们多数基因组上的位置都是一致的,但一小部分存在差异,这种差异通常是含有两种碱基中二选一(例如A或G),而这些位点被称为“单核苷酸多态性”,英文常简写为SNP。当来自亲本的基因组拷贝在这些多态性区域(即SNP)上有不同的碱基,则该区域具有杂合性。体细胞内的染色体大多成对,使得SNP位置有可能出现杂合现象。但是,某一亲本某区域的的拷贝有时可能丢失,以致于某一SNP位置只有一份拷贝而无法具有杂合性,此之谓“杂合性缺失”。由于某一亲本拷贝丢失的杂合性缺失也被称为半合子...
sambamba与varscan2的使用
现在的肿瘤方向分析流程我用的是
比对:BWA
排序:samtools
去重:gatk Markduplicates
校正:gatk BaseRecalibrator + gatk ApplyBQSR
变异检测:gatk Mutect2
尝试一下另外一条路线
比对:BWA
排序:sambamba
去重:sambamba
校正:不做
变异检测:varscan2
sambamba
用sambamba的原因主要是因为比samtools快。
直接下载编译好的版本,解压就能用
wget https://github.com/biod/sambamba/releases/download/v0.8.0/sambamba-0.8.0-linux-amd64-static....
HLA分型软件Optitype
HLA分型的相关软件,之前写过seq2HLA,以及HLA-HD。seq2HLA速度较快,HLA-HD速度较慢。而Optitype运行速度在上面两者之间。
Optitype的一个问题是只能进行HLA-A、HLA-B、HLA-C等三个class I基因。不过在一些文章中,Optitype的表现要比seq2HLA好。
Optitype的运行需要python2(我实测使用python3也能成功运行),RazerS,samtools,HDF5,CPLEX(由于CPLEX是个商用软件,建议使用GPLK代替)。
另外python packages需要numpy,pyomo,pytables,pandas,pysam,matplotlib,future等。python的package使用pip安...
爬取DECIPHER Genomics数据库
DECIPHER数据库收集了关于拷贝数变异的已知综合征及病例信息。本次爬取主要是收集里面每个基因的pLI、LOEUF、sHet、%HI等值,其他内容并不在目标中。
通过网页的Genes页面,可以看到总共有5424个基因信息。那么通过调用selenium,先将表格显示改为100,就只有55页,这时爬下55个网页即可。
使用selenium调用edge浏览器,关于调用edge,可参考此文章。本来在显示100行后,打算定位到Next按钮来遍历每一页的,但是尝试了几次都有bug,在爬到第六页时定位时定位到“…”按钮去了,看了半天也不知道为啥,因此直接点击对应的目录数字按钮算了。
# coding=utf-8
from msedge.selenium_tools import Edg...
共计 204 篇文章,26 页。