主页 - 生物信息文件夹

Qiime2是一个把关于扩增子分析的多种工具集合在一起的一个分析平台。功能包括了数据处理，聚类OTU，α和β分析还有可视化等等等等。也就是一个all in one的工具。能使用conda或者docker安装。由于我个人不太推荐conda，所以我使用docker安装。 # 下载，大概2.5GB docker pull qiime2/core:2018.6 # 确认安装成功 docker run -t -i -v $(pwd):/data qiime2/core:2018.6 qiime2 # 启动，相当于把当前目录（pwd）挂载到/data docker run --rm -v $(pwd):/data --name=qiime -it qiime2/core:2018.6 # 然...

WSL2只需要安装新版docker软件并在软件设置中勾选WSL即可，此篇作废 Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何流行的 Linux 机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口。点击进入docker的官网。以下是在ubuntu中全新安装docker的方式： # set up repository sudo apt-get update sudo apt-get install \ apt-transport-https \ ca-certificates \ curl \ software-properties-common curl -fsSL http...

直接用awk命令 awk '{if(NR%4==2) print length($1)}' read.fastq | sort -n | uniq -c > reads_length.txt NR%4==2的意思是以每四行为一个组，统计每组的第二行（在fastq文件中就是碱基信息行）。然后用R library(ggplot2) reads <- read.csv('reads_length.txt', sep=' ', header=FALSE) ggplot(reads, aes(x=reads$V2, y=reads$V1)) + geom_bar(stat='identity') + xlab('read length') + ylab('coun...

这篇是Hisat2+FeatureCounts+DESeq2的流程。更详细的流程请点击这里。 featureCounts是一个用来统计count数的软件，运行的速度飞快，比之前用的htseq-count快了好多好多。照例先说一下怎么下载这个软件： wget https://jaist.dl.sourceforge.net/project/subread/subread-1.6.2/subread-1.6.2-Linux-x86_64.tar.gz tar -zxvf subread-1.6.2-Linux-x86_64.tar.gz cd subread-1.6.2-Linux-x86_64/bin ./featureCounts -h 然后来说这次的流程。照旧用Hi...

这篇是Hisat2+HTSeq+DESeq2的流程。首先补充一个说明，stringtie提供了一个叫prepDE.py的脚本，可以用stringtie的结果输出DESeq2需要的矩阵。在rna-seq的第一篇中已经说过怎么下载了。使用的方法是，先创建一个列表，列表形式点击这里查看。 # -g表示输出基因结果，-t表示输出转录本结果 python prepDE.py \ -i sample_list.txt \ -g gene_results.csv \ -t transcript_results.csv 下面是利用htseq-count来统计Hisat2比对之后的结果： # 有多少个sample就写多少个 # -i 表示输出的是chrX.gtf中的哪个值 htseq...

该来的还是会来的。上一期说了，Hisat2+Stringtie+Ballgown这个流程，是文章27560171推荐的，比较快。但是因为Ballgown不是以reads数作为统计基础的，所以可能没有DESeq2这种准确。上次下载的测试数据，是单独把chrX染色体弄出来的。我把数据都分门别类放好了，要养成这样的习惯。上面的是原始数据。首先要做的是，把原始数据和索引文件用hisat2进行比对，来生成sam文件。然后用samtools转成bam文件和排序。注意下面的sample要改成各个sample的名字。 # 这里-p表示线程数，-x后面跟的是索引文件的文件夹名，测试数据下载下来会有。 # 如果是完整的人类数据的话，对应的是上次下载的grch38_tran这些文件...

憋了很久的流程。 RNA-seq即转录组测序技术，就是把mRNA，smallRNA，and NONcoding RNA等或者其中一些用高通量测序技术把它们的序列测出来。反映出它们的表达水平。 RNA-seq主要是用来检测不同的时空或者不同的状态下的基因表达差异。目前的流程相关文章有：27560171。里面推荐的流程是Hisat2+Stringtie+Ballgown。有人把很多的RNA-seq相关软件进行过对比28680106，可能更好的流程是Hisat2+Htseq+DESeq2。首先就是相关软件的安装： Hisat2 25751142 wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/his...

笔记：我刚刚才发现。。 gatk4内置了picard。也就是说，根本就不用再单独装picard。把picard命令的所有的picard直接换成gatk也可以跑通的。目前根据gatk的best practise。其实bwa+gatk就可以做一套完整的WXS的Variants Calling了。当然，也许更多人喜欢用bwa+samtools+gatk。

主页

qiime2，扩增子分析平台

安装docker

统计fastq中每个读长的counts数

RNA-seq(4)：Hisat2+FeatureCounts+DESeq2流程+作图！

RNA-seq(3)：Hisat2+HTSeq+DESeq2流程

RNA-seq(2)：Hisat2+Stringtie+Ballgown流程

RNA-seq(1)：所需软件和数据库

关于gatk4的一个事实！