主页

ChIP-seq基本流程

这一篇文章将会说一下ChIP-seq的基本流程,以及我自己的一些理解(不一定是对的!),主要参考的是生信技能树jimmy的教程。 基本知识(个人理解) chip-seq的原理首先是把蛋白质和DNA交联(cross-linking),然后利用超声波打散成片段(sonication),再利用抗原抗体特异识别把目的蛋白的DNA片段沉淀下来再反交联得到DNA,最后就是送出测序。 一般的,还需要有阴性对照,可以用经过超声波打断但是没有进行免疫沉淀的总DNA作为对照,也可以用igG作为对照,因为igG理论上不会免疫沉淀(应该是这样?)。 然后得到了测序结果,比对到参考基因组,然后用阴性对照作为去除背景噪音的材料,就可以得到实验组的DNA的富集峰(就是那里测到特别多,我是这样理解的)。用软件...

阅读更多

质控、去接头、剪裁一体的软件fastp

虽然已经2018年了,可是fastqc还是挺好用的。不过由于fastqc只能用来看看质量,在去接头或者剪接序列时还要用别的软件,有点麻烦。现在有了一个all in one的选择。 fastp是由海普洛斯开发的自动化质控+过滤+校正+预处理软件。 下载软件 非常简单粗暴。 wget http://opengene.org/fastp/fastp chmod a+x ./fastp 命令同样简单 对于单端数据 fastp -i in.fq -o out.fq 对于双端数据 fastp -i in1.fq -I in2.fq -o out1.fq -O out2.fq 另外,都是支持输入和输出fq.gz的。 更多的特性,需要自己去学习了 fastp -h 最后放上他们的...

阅读更多

扩增子流程

这一篇是阶段性的总结。 下载数据 这次还是用mothur的测试数据。我把样本信息也弄好了。 wget https://raw.githubusercontent.com/pzweuj/practice/master/R/DADA2_workflow2/Rawdata/Rawdata.tar tar -xvf Rawdata.tar dada2 接下来走一套dada2的流程。 library(dada2) # loads DADA2 list.files("Filtdata") # setting a few variables we're going to use fnFs <- sort(list.files("Filtdata", pattern="_sub_R1_...

阅读更多

扩增子流程以及复现文章(2)

这一篇是画图啦。 读入数据 其中sample_info是记录了每个样本的状态之类信息的文件。 library("phyloseq") library("vegan") library("DESeq2") library("ggplot2") library("dendextend") library("tidyr") library("viridis") library("reshape") countdata <- read.table("DADA2/ASVs_counts.txt", header=T, row.names=1, check.names=F) taxdata <- as.matrix(read.table("DADA2/ASVs_taxonomy.t...

阅读更多

扩增子流程以及复现文章(1)

这一篇其实和之前的DADA2那个差不多,但是为了和后面的保持完整,所以再写一次。 这次使用的数据是一个位于太平洋底部约3公里的水下山脉,它是一个低温(~5-10°C)的热液喷发点。 该扩增子数据集是从山上收集的碎玄武岩中提取的DNA生成的,目的是开始研究深海岩石的微生物群落。 参考文献:26779122 使用的是Illumina MiSeq平台,测的是16S V4序列。 共有20个样品,其中4个是空白对照。 这里除了DADA2,还要使用一个叫BBTools的软件。 下载原始数据 curl -L -o dada2_amplicon_ex_workflow.tar.gz https://ndownloader.figshare.com/files/11342996 解压还有放好。...

阅读更多

对WGS/WES数据判断性别

首先要对原始数据进行比对。 这一步可以参阅bam文件的处理教程。 然后使用samtools,统计每条染色体的reads数。 如果之前有索引文件,就这样: samtools idxstats in.bam | awk '{print $1" "$3}' 如果没有,就这样: samtools view in.bam | awk '{print $3}' | uniq -c 用已知性别而且检测配置差不多的数据的XY染色体reads数比值来做个基准。 然后就可以按照这个基准来判断未知性别的数据了。

阅读更多