GATK4推荐的数据预处理(脚本)
这是整理过的脚本!
说一说我的目录结构:
|--~
|--Project # 存放项目
| |--MakePreBam # 每个项目单独一个文件夹
| |--Bam # 存放最终生成的bam文件
| |--Bin # 存放使用的脚本
| |--Temp # 存放中间文件,最终可以删掉
| |--Rawdata # 存放原始的fastq文件
|
|--Database # 数据库
|--Scripts # 脚本大杂烩,做啥都套模板就行了
|--...
用seq2HLA做HLA分型
最近在研究二代测序数据的HLA分型,找了一大堆分型软件。
很多安装过程和配置过程都很麻烦。
对比起来,这个是过程最简单的。
这是项目的页面seq2HLA
项目已经从bitbucket搬迁到了github了。
下载软件并解压
wget https://bitbucket.org/sebastian_boegel/seq2hla/get/seq2HLA_v2.2.tar.gz
tar -zxvf seq2HLA_v2.2.tar.gz
软件的运行需要bowtie,要先安装好并加载到环境变量中。
可以使用conda安装
conda install bowtie
也可以从官网安装。
可以参照软件自带的说明
python seq2HLA.py -h
如果数据是多条lane的...
下载NCBI的SRA数据
NCBI的SRA上有很多测序的数据,可以下载下来分析。不用纠结找不到数据了。
首先,得到自己需要的SRA编号。
比如这个SRR6784805。
这是一个外显子的数据。
下载ncbi提供的软件sra-toolkit。
下载地址在这:sratoolkit
ubuntu
wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.0/sratoolkit.2.9.0-ubuntu64.tar.gz
tar -zxvf sratoolkit.2.9.0-ubuntu64.tar.gz
解压就可以使用了。
或者直接用apt安装
sudo apt-get install sra-toolkit
又或者用conda安装
conda insta...
GATK推荐的找体细胞突变流程
GATK4推荐流程。
其实是Mutect2的使用教程。
我还没用过。。
放假前的最好一更啦。
#1 首先把原始数据处理成可以用 的bam
参考推荐的数据准备流程。
#2 如果是单肿瘤组织测序。
像这样。直接就从bam得到vcf了。需要参考基因组文件,还有要关注的区域如chr17plus.interval_list。-tumor后面是名字。
gatk Mutect2 \
-R ~/Documents/ref/hg38/Homo_sapiens_assembly38.fasta \
-I HG00190.bam \
-tumor HG00190 \
--disable-read-filter MateOnSameContigOrNoMappedMateReadFilter \
-L ...
已知PMID,得到参考文献的格式
最近太忙了,抽空写了个程序,可以批量从pmid得到参考文献。
pmidlist = open('pmid.txt', 'r')
output = open('results.txt', 'w')
def pmid2ref(pmid):
import requests
from bs4 import BeautifulSoup
html = requests.get('https://www.ncbi.nlm.nih.gov/pubmed/' + str(pmid) + '/')
soup = BeautifulSoup(html.text, 'lxml')
title = soup.title.string.split('- PubMed')[0]
info = so...
GATK推荐的germline call snp+indel流程
GATK4推荐流程。
其实还没完全搞懂。
不过把变异call出来是没问题的!
没有和其他软件对比过正确率。。。
#1 首先把原始数据处理成可以用 的bam
参考推荐的数据准备流程。
#2 同样的,配置好软件和环境
像这样。
sample=sample.pre.analysis.bam
gatk=/software/gatk-4.0.0.0/gatk
reference=/database/GATK/hg19/ucsc.hg19.fasta
omni=/database/GATK/hg19/1000G_omni2.5.hg19.vcf
indel=/database/GATK/hg19/1000G_phase1.indels.hg19.vcf
dbsnp=/database/G...
GATK推荐的数据预处理流程
GATK4的推荐流程哦。这个流程是从ubam文件或fastq文件得到可以用于找变异的bam文件。
以后GATK大概会把bwa和picard完全内嵌。
下面的命令其实还有很多参数的,不过一般来说用这些参数就够。
原始数据要用经过了质控之后的数据!
放两个用作测试学习的原始数据。
点这里下载!
#1 先把需要用到的软件还有数据库下载好
首先是软件。当然是要用最新的啦,跟上时代。
GATK4.0
picard2.17.4
bwa0.7.17
然后是数据库。
用的是GATK提供的hg19。
地址在这:点击进入
#2 把软件都加到环境中,或者在shell脚本中设定好
像这样。
reference=/database/hg19/ucsc.hg19.fasta
indel1=/d...
从TCGA中获得甲状腺癌的相关突变
很忙很累还更新的我。
TCGA是一个癌症相关的数据库。可以弄到很多癌症的基因数据样本。
点点看TCGA。
进去之后,点右边那个蓝色的Launch Data Portal
可以看到样本量还是挺多的。
我们可以点右边的那个人的甲状腺(Thyroid)。
就进入了一个统计界面。
可以看到截至目前的相关突变位点有11128个。
单击Mutations,再点击JSON就可以把所有的突变位点下载下来。
然后我用下面这个脚本,提取出了所有的位点。
inputfile = open('Thyroid_mutation.json', 'r')
outputfile = open('results.txt', 'w')
for line in inputfile:
if line.sta...
共计 204 篇文章,26 页。