一些癌症相关panel
赛默飞会公布一些panel的bed文件,可以比较容易获取。
肺癌。
Oncomine_Lung_cfDNA.Hotspots.bed
结直肠癌的bed文件。
Oncomine_Colon_cfDNA.Hotspots.zip
泛癌的bed文件,这是一个52基因的panel,实际上应该还不能满足TMB的计算。
Oncomine_PANCAN_cfNA_v5.Hotspots.bed
对于几百个基因的大panel,还是能找到相关的基因列表的。
ion-ampliseq-cancer-panel-gene-list.pdf
血液肿瘤的panel。
oncomine-myeloid-research-assay-flyer.pdf
乳腺癌体细胞突变的bed。
Oncomine_Br...
sklearn ROC与AUC曲线
关于ROC与AUC曲线,这篇文章写的比较详细,看完基本有个大致的了解了。
这里写一写sklearn画这个曲线。
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_curve, auc
import pandas as pd
import matplotlib.pyplot as plt
# 导入训练组测试组
train = pd.read_table("train.txt", sep="\t", header=0, index_col=False)
test = pd.read_table("test.txt", sep="\t", header=0, index...
sklearn 鸢尾花
上次使用weka对鸢尾花数据集进行了一个预测,这次使用sklearn试一下。其实sklearn貌似内置了iris的数据,可以直接用,但是为了直观一点,还是自己去下载数据。然后为了方便之后带到其他情况中,分成两个数据来处理。
照旧,数据集在这里可以找到。
这里处理成一个比较方便的格式。
格式如下:
Class sepal_length sepal_width petal_length petal_width
Iris-setosa 5.1 3.5 1.4 0.2
Iris-setosa 4.9 3 1.4 0.2
Iris-setosa 5 3.6 1.4 0.2
Iris-setosa 5.4 3.9 1.7 0.4
Iris-setosa 4.6 3.4 1.4 0.3
Iris...
探针设计软件mrbait
以前曾经用过另外一款软件catch,但是catch是倾向于设计病毒或细菌探针的,发现了另外一款软件,mrbait,可以用来设计常规探针。
软件安装如下:
# 可以使用conda安装
conda install mrbait -c tylerkchafin -c bioconda -c conda-forge
# 也可以直接从源码安装
git clone https://github.com/tkchafin/mrbait.git
cd mrbait
python ./setup.py install
在使用上,mrbait适用于多种输入格式,有maf,vcf,gff,fasta等。一般我还是选择输入fasta文件进行探针的设计。
基础命令如下:
python3 mrbait....
随机森林
使用sklearn
from sklearn.ensemble import RandomForestClassifier
import pandas as pd
# 创建树
model = RandomForestClassifier(n_estimators=100, bootstrap=True, max_depth=4)
# 导入训练集
train = pd.read_table("train.txt", sep="\t", header=0, col_index=False)
# 处理,一般需要把文本处理为数值,这里我把良性处理为0,恶性处理为1
# 切片
ytrain = train["Class"]
xtrain = train.iloc[:, 1:]
# 训练...
才发现bedtools intersect -v是这样的
使用bedtools intersect -v 找B.bed未覆盖A.bed的位置。输出结果里面,理论上A的总长度应该等于B的总长度加上新生成的C的总长度,由于结果总是不对,去官方文档看了一下,发现原来-v参数不能做到我想要的操作。
bedtools intersect -a A.bed -b B.bed -v > C.bed
得到的结果,实质上是整个区域都没有overlap时,才会输出的。
那么应该怎么才能获得所有没有覆盖的位置呢,可以使用bedtools subtract。
bedtools subtract -a A.bed -b B.bed > C.bed
这才是我想要的。
ubuntu 新硬盘组raid
新硬盘组raid是怎么回事呢?
硬盘组raid相信大家都很熟悉,但是新硬盘怎么组raid呢,下面就让小编带大家一起了解吧。
首先我们要选择最适合自己的raid,以及raid后的结果,相关信息可以看群晖关于raid的介绍,比较清晰。
另外可以用raid计算器计算一下raid前后容量等。
比方说使用4块2T硬盘组raid5,最终得到的大小是6T。
ubuntu新硬盘怎么组raid,其实新硬盘组要这样组raid,使用mdadm。
首先用fdisk找到对应的硬盘,一般是/dev/sdx形式,记录下来,比如四快盘是/dev/sda、/dev/sdb、/dev/sdc、/dev/sdd。
sudo fdisk -l | grep sd
然后使用mdadm创建一个/dev/md0
s...
使用bam2raster输出类似IGV的截图
想使用命令行来操作IGV,然后输出截图。但是好像只有新版的igvtools能做到,由于igvtools依赖java 11,而服务器中java版本是java 8,为了避免影响环境变量因此放弃使用。
在找可使用的软件过程中,又想使用igvR这个包,然后又因为R版本问题装不上,最后发现了jvarkit里的一个工具bam2raster可以实现想要的效果。
软件安装
git clone "https://github.com/lindenb/jvarkit.git"
cd jvarkit
./gradlew bam2raster
最后bam2raster会安装在jvarkit/dist文件夹下。
使用
java -jar bam2raster.jar -o output.png -r ...
共计 204 篇文章,26 页。