qiime2,扩增子分析平台
Qiime2是一个把关于扩增子分析的多种工具集合在一起的一个分析平台。
功能包括了数据处理,聚类OTU,α和β分析还有可视化等等等等。也就是一个all in one的工具。
能使用conda或者docker安装。由于我个人不太推荐conda,所以我使用docker安装。
# 下载,大概2.5GB
docker pull qiime2/core:2018.6
# 确认安装成功
docker run -t -i -v $(pwd):/data qiime2/core:2018.6 qiime2
# 启动,相当于把当前目录(pwd)挂载到/data
docker run --rm -v $(pwd):/data --name=qiime -it qiime2/core:2018.6
# 然...
安装docker
WSL2只需要安装新版docker软件并在软件设置中勾选WSL即可,此篇作废
Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。
点击进入docker的官网。
以下是在ubuntu中全新安装docker的方式:
# set up repository
sudo apt-get update
sudo apt-get install \
apt-transport-https \
ca-certificates \
curl \
software-properties-common
curl -fsSL http...
统计fastq中每个读长的counts数
直接用awk命令
awk '{if(NR%4==2) print length($1)}' read.fastq | sort -n | uniq -c > reads_length.txt
NR%4==2的意思是以每四行为一个组,统计每组的第二行(在fastq文件中就是碱基信息行)。
然后用R
library(ggplot2)
reads <- read.csv('reads_length.txt', sep=' ', header=FALSE)
ggplot(reads, aes(x=reads$V2, y=reads$V1)) +
geom_bar(stat='identity') +
xlab('read length') +
ylab('coun...
RNA-seq(4):Hisat2+FeatureCounts+DESeq2流程+作图!
这篇是Hisat2+FeatureCounts+DESeq2的流程。
更详细的流程请点击这里。
featureCounts是一个用来统计count数的软件,运行的速度飞快,比之前用的htseq-count快了好多好多。
照例先说一下怎么下载这个软件:
wget https://jaist.dl.sourceforge.net/project/subread/subread-1.6.2/subread-1.6.2-Linux-x86_64.tar.gz
tar -zxvf subread-1.6.2-Linux-x86_64.tar.gz
cd subread-1.6.2-Linux-x86_64/bin
./featureCounts -h
然后来说这次的流程。
照旧用Hi...
RNA-seq(3):Hisat2+HTSeq+DESeq2流程
这篇是Hisat2+HTSeq+DESeq2的流程。
首先补充一个说明,stringtie提供了一个叫prepDE.py的脚本,可以用stringtie的结果输出DESeq2需要的矩阵。
在rna-seq的第一篇中已经说过怎么下载了。
使用的方法是,先创建一个列表,列表形式点击这里查看。
# -g表示输出基因结果,-t表示输出转录本结果
python prepDE.py \
-i sample_list.txt \
-g gene_results.csv \
-t transcript_results.csv
下面是利用htseq-count来统计Hisat2比对之后的结果:
# 有多少个sample就写多少个
# -i 表示输出的是chrX.gtf中的哪个值
htseq...
RNA-seq(2):Hisat2+Stringtie+Ballgown流程
该来的还是会来的。
上一期说了,Hisat2+Stringtie+Ballgown这个流程,是文章27560171推荐的,比较快。但是因为Ballgown不是以reads数作为统计基础的,所以可能没有DESeq2这种准确。
上次下载的测试数据,是单独把chrX染色体弄出来的。
我把数据都分门别类放好了,要养成这样的习惯。
上面的是原始数据。
首先要做的是,把原始数据和索引文件用hisat2进行比对,来生成sam文件。然后用samtools转成bam文件和排序。
注意下面的sample要改成各个sample的名字。
# 这里-p表示线程数,-x后面跟的是索引文件的文件夹名,测试数据下载下来会有。
# 如果是完整的人类数据的话,对应的是上次下载的grch38_tran这些文件...
RNA-seq(1):所需软件和数据库
憋了很久的流程。
RNA-seq即转录组测序技术,就是把mRNA,smallRNA,and NONcoding RNA等或者其中一些用高通量测序技术把它们的序列测出来。反映出它们的表达水平。
RNA-seq主要是用来检测不同的时空或者不同的状态下的基因表达差异。
目前的流程相关文章有:27560171。
里面推荐的流程是Hisat2+Stringtie+Ballgown。
有人把很多的RNA-seq相关软件进行过对比28680106,
可能更好的流程是Hisat2+Htseq+DESeq2。
首先就是相关软件的安装:
Hisat2
25751142
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/his...
关于gatk4的一个事实!
笔记:
我刚刚才发现。。
gatk4内置了picard。
也就是说,根本就不用再单独装picard。
把picard命令的所有的picard直接换成gatk也可以跑通的。
目前根据gatk的best practise。
其实bwa+gatk就可以做一套完整的WXS的Variants Calling了。
当然,也许更多人喜欢用bwa+samtools+gatk。
共计 204 篇文章,26 页。