主页

qiime2,扩增子分析平台

Qiime2是一个把关于扩增子分析的多种工具集合在一起的一个分析平台。 功能包括了数据处理,聚类OTU,α和β分析还有可视化等等等等。也就是一个all in one的工具。 能使用conda或者docker安装。由于我个人不太推荐conda,所以我使用docker安装。 # 下载,大概2.5GB docker pull qiime2/core:2018.6 # 确认安装成功 docker run -t -i -v $(pwd):/data qiime2/core:2018.6 qiime2 # 启动,相当于把当前目录(pwd)挂载到/data docker run --rm -v $(pwd):/data --name=qiime -it qiime2/core:2018.6 # 然...

阅读更多

安装docker

WSL2只需要安装新版docker软件并在软件设置中勾选WSL即可,此篇作废 Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。 点击进入docker的官网。 以下是在ubuntu中全新安装docker的方式: # set up repository sudo apt-get update sudo apt-get install \ apt-transport-https \ ca-certificates \ curl \ software-properties-common curl -fsSL http...

阅读更多

统计fastq中每个读长的counts数

直接用awk命令 awk '{if(NR%4==2) print length($1)}' read.fastq | sort -n | uniq -c > reads_length.txt NR%4==2的意思是以每四行为一个组,统计每组的第二行(在fastq文件中就是碱基信息行)。 然后用R library(ggplot2) reads <- read.csv('reads_length.txt', sep=' ', header=FALSE) ggplot(reads, aes(x=reads$V2, y=reads$V1)) + geom_bar(stat='identity') + xlab('read length') + ylab('coun...

阅读更多

RNA-seq(4):Hisat2+FeatureCounts+DESeq2流程+作图!

这篇是Hisat2+FeatureCounts+DESeq2的流程。 更详细的流程请点击这里。 featureCounts是一个用来统计count数的软件,运行的速度飞快,比之前用的htseq-count快了好多好多。 照例先说一下怎么下载这个软件: wget https://jaist.dl.sourceforge.net/project/subread/subread-1.6.2/subread-1.6.2-Linux-x86_64.tar.gz tar -zxvf subread-1.6.2-Linux-x86_64.tar.gz cd subread-1.6.2-Linux-x86_64/bin ./featureCounts -h 然后来说这次的流程。 照旧用Hi...

阅读更多

RNA-seq(3):Hisat2+HTSeq+DESeq2流程

这篇是Hisat2+HTSeq+DESeq2的流程。 首先补充一个说明,stringtie提供了一个叫prepDE.py的脚本,可以用stringtie的结果输出DESeq2需要的矩阵。 在rna-seq的第一篇中已经说过怎么下载了。 使用的方法是,先创建一个列表,列表形式点击这里查看。 # -g表示输出基因结果,-t表示输出转录本结果 python prepDE.py \ -i sample_list.txt \ -g gene_results.csv \ -t transcript_results.csv 下面是利用htseq-count来统计Hisat2比对之后的结果: # 有多少个sample就写多少个 # -i 表示输出的是chrX.gtf中的哪个值 htseq...

阅读更多

RNA-seq(2):Hisat2+Stringtie+Ballgown流程

该来的还是会来的。 上一期说了,Hisat2+Stringtie+Ballgown这个流程,是文章27560171推荐的,比较快。但是因为Ballgown不是以reads数作为统计基础的,所以可能没有DESeq2这种准确。 上次下载的测试数据,是单独把chrX染色体弄出来的。 我把数据都分门别类放好了,要养成这样的习惯。 上面的是原始数据。 首先要做的是,把原始数据和索引文件用hisat2进行比对,来生成sam文件。然后用samtools转成bam文件和排序。 注意下面的sample要改成各个sample的名字。 # 这里-p表示线程数,-x后面跟的是索引文件的文件夹名,测试数据下载下来会有。 # 如果是完整的人类数据的话,对应的是上次下载的grch38_tran这些文件...

阅读更多

RNA-seq(1):所需软件和数据库

憋了很久的流程。 RNA-seq即转录组测序技术,就是把mRNA,smallRNA,and NONcoding RNA等或者其中一些用高通量测序技术把它们的序列测出来。反映出它们的表达水平。 RNA-seq主要是用来检测不同的时空或者不同的状态下的基因表达差异。 目前的流程相关文章有:27560171。 里面推荐的流程是Hisat2+Stringtie+Ballgown。 有人把很多的RNA-seq相关软件进行过对比28680106, 可能更好的流程是Hisat2+Htseq+DESeq2。 首先就是相关软件的安装: Hisat2 25751142 wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/his...

阅读更多

关于gatk4的一个事实!

笔记: 我刚刚才发现。。 gatk4内置了picard。 也就是说,根本就不用再单独装picard。 把picard命令的所有的picard直接换成gatk也可以跑通的。 目前根据gatk的best practise。 其实bwa+gatk就可以做一套完整的WXS的Variants Calling了。 当然,也许更多人喜欢用bwa+samtools+gatk。

阅读更多