主页

GATK4推荐的数据预处理(脚本)

这是整理过的脚本! 说一说我的目录结构: |--~ |--Project # 存放项目 | |--MakePreBam # 每个项目单独一个文件夹 | |--Bam # 存放最终生成的bam文件 | |--Bin # 存放使用的脚本 | |--Temp # 存放中间文件,最终可以删掉 | |--Rawdata # 存放原始的fastq文件 | |--Database # 数据库 |--Scripts # 脚本大杂烩,做啥都套模板就行了 |--...

阅读更多

用seq2HLA做HLA分型

最近在研究二代测序数据的HLA分型,找了一大堆分型软件。 很多安装过程和配置过程都很麻烦。 对比起来,这个是过程最简单的。 这是项目的页面seq2HLA 项目已经从bitbucket搬迁到了github了。 下载软件并解压 wget https://bitbucket.org/sebastian_boegel/seq2hla/get/seq2HLA_v2.2.tar.gz tar -zxvf seq2HLA_v2.2.tar.gz 软件的运行需要bowtie,要先安装好并加载到环境变量中。 可以使用conda安装 conda install bowtie 也可以从官网安装。 可以参照软件自带的说明 python seq2HLA.py -h 如果数据是多条lane的...

阅读更多

下载NCBI的SRA数据

NCBI的SRA上有很多测序的数据,可以下载下来分析。不用纠结找不到数据了。 首先,得到自己需要的SRA编号。 比如这个SRR6784805。 这是一个外显子的数据。 下载ncbi提供的软件sra-toolkit。 下载地址在这:sratoolkit ubuntu wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.0/sratoolkit.2.9.0-ubuntu64.tar.gz tar -zxvf sratoolkit.2.9.0-ubuntu64.tar.gz 解压就可以使用了。 或者直接用apt安装 sudo apt-get install sra-toolkit 又或者用conda安装 conda insta...

阅读更多

GATK推荐的找体细胞突变流程

GATK4推荐流程。 其实是Mutect2的使用教程。 我还没用过。。 放假前的最好一更啦。 #1 首先把原始数据处理成可以用 的bam 参考推荐的数据准备流程。 #2 如果是单肿瘤组织测序。 像这样。直接就从bam得到vcf了。需要参考基因组文件,还有要关注的区域如chr17plus.interval_list。-tumor后面是名字。 gatk Mutect2 \ -R ~/Documents/ref/hg38/Homo_sapiens_assembly38.fasta \ -I HG00190.bam \ -tumor HG00190 \ --disable-read-filter MateOnSameContigOrNoMappedMateReadFilter \ -L ...

阅读更多

已知PMID,得到参考文献的格式

最近太忙了,抽空写了个程序,可以批量从pmid得到参考文献。 pmidlist = open('pmid.txt', 'r') output = open('results.txt', 'w') def pmid2ref(pmid): import requests from bs4 import BeautifulSoup html = requests.get('https://www.ncbi.nlm.nih.gov/pubmed/' + str(pmid) + '/') soup = BeautifulSoup(html.text, 'lxml') title = soup.title.string.split('- PubMed')[0] info = so...

阅读更多

GATK推荐的germline call snp+indel流程

GATK4推荐流程。 其实还没完全搞懂。 不过把变异call出来是没问题的! 没有和其他软件对比过正确率。。。 #1 首先把原始数据处理成可以用 的bam 参考推荐的数据准备流程。 #2 同样的,配置好软件和环境 像这样。 sample=sample.pre.analysis.bam gatk=/software/gatk-4.0.0.0/gatk reference=/database/GATK/hg19/ucsc.hg19.fasta omni=/database/GATK/hg19/1000G_omni2.5.hg19.vcf indel=/database/GATK/hg19/1000G_phase1.indels.hg19.vcf dbsnp=/database/G...

阅读更多

GATK推荐的数据预处理流程

GATK4的推荐流程哦。这个流程是从ubam文件或fastq文件得到可以用于找变异的bam文件。 以后GATK大概会把bwa和picard完全内嵌。 下面的命令其实还有很多参数的,不过一般来说用这些参数就够。 原始数据要用经过了质控之后的数据! 放两个用作测试学习的原始数据。 点这里下载! #1 先把需要用到的软件还有数据库下载好 首先是软件。当然是要用最新的啦,跟上时代。 GATK4.0 picard2.17.4 bwa0.7.17 然后是数据库。 用的是GATK提供的hg19。 地址在这:点击进入 #2 把软件都加到环境中,或者在shell脚本中设定好 像这样。 reference=/database/hg19/ucsc.hg19.fasta indel1=/d...

阅读更多

从TCGA中获得甲状腺癌的相关突变

很忙很累还更新的我。 TCGA是一个癌症相关的数据库。可以弄到很多癌症的基因数据样本。 点点看TCGA。 进去之后,点右边那个蓝色的Launch Data Portal 可以看到样本量还是挺多的。 我们可以点右边的那个人的甲状腺(Thyroid)。 就进入了一个统计界面。 可以看到截至目前的相关突变位点有11128个。 单击Mutations,再点击JSON就可以把所有的突变位点下载下来。 然后我用下面这个脚本,提取出了所有的位点。 inputfile = open('Thyroid_mutation.json', 'r') outputfile = open('results.txt', 'w') for line in inputfile: if line.sta...

阅读更多