主页

一些癌症相关panel

赛默飞会公布一些panel的bed文件,可以比较容易获取。 肺癌。 Oncomine_Lung_cfDNA.Hotspots.bed 结直肠癌的bed文件。 Oncomine_Colon_cfDNA.Hotspots.zip 泛癌的bed文件,这是一个52基因的panel,实际上应该还不能满足TMB的计算。 Oncomine_PANCAN_cfNA_v5.Hotspots.bed 对于几百个基因的大panel,还是能找到相关的基因列表的。 ion-ampliseq-cancer-panel-gene-list.pdf 血液肿瘤的panel。 oncomine-myeloid-research-assay-flyer.pdf 乳腺癌体细胞突变的bed。 Oncomine_Br...

阅读更多

sklearn ROC与AUC曲线

关于ROC与AUC曲线,这篇文章写的比较详细,看完基本有个大致的了解了。 这里写一写sklearn画这个曲线。 from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import roc_curve, auc import pandas as pd import matplotlib.pyplot as plt # 导入训练组测试组 train = pd.read_table("train.txt", sep="\t", header=0, index_col=False) test = pd.read_table("test.txt", sep="\t", header=0, index...

阅读更多

sklearn 鸢尾花

上次使用weka对鸢尾花数据集进行了一个预测,这次使用sklearn试一下。其实sklearn貌似内置了iris的数据,可以直接用,但是为了直观一点,还是自己去下载数据。然后为了方便之后带到其他情况中,分成两个数据来处理。 照旧,数据集在这里可以找到。 这里处理成一个比较方便的格式。 格式如下: Class sepal_length sepal_width petal_length petal_width Iris-setosa 5.1 3.5 1.4 0.2 Iris-setosa 4.9 3 1.4 0.2 Iris-setosa 5 3.6 1.4 0.2 Iris-setosa 5.4 3.9 1.7 0.4 Iris-setosa 4.6 3.4 1.4 0.3 Iris...

阅读更多

探针设计软件mrbait

以前曾经用过另外一款软件catch,但是catch是倾向于设计病毒或细菌探针的,发现了另外一款软件,mrbait,可以用来设计常规探针。 软件安装如下: # 可以使用conda安装 conda install mrbait -c tylerkchafin -c bioconda -c conda-forge # 也可以直接从源码安装 git clone https://github.com/tkchafin/mrbait.git cd mrbait python ./setup.py install 在使用上,mrbait适用于多种输入格式,有maf,vcf,gff,fasta等。一般我还是选择输入fasta文件进行探针的设计。 基础命令如下: python3 mrbait....

阅读更多

随机森林

使用sklearn from sklearn.ensemble import RandomForestClassifier import pandas as pd # 创建树 model = RandomForestClassifier(n_estimators=100, bootstrap=True, max_depth=4) # 导入训练集 train = pd.read_table("train.txt", sep="\t", header=0, col_index=False) # 处理,一般需要把文本处理为数值,这里我把良性处理为0,恶性处理为1 # 切片 ytrain = train["Class"] xtrain = train.iloc[:, 1:] # 训练...

阅读更多

才发现bedtools intersect -v是这样的

使用bedtools intersect -v 找B.bed未覆盖A.bed的位置。输出结果里面,理论上A的总长度应该等于B的总长度加上新生成的C的总长度,由于结果总是不对,去官方文档看了一下,发现原来-v参数不能做到我想要的操作。 bedtools intersect -a A.bed -b B.bed -v > C.bed 得到的结果,实质上是整个区域都没有overlap时,才会输出的。 那么应该怎么才能获得所有没有覆盖的位置呢,可以使用bedtools subtract。 bedtools subtract -a A.bed -b B.bed > C.bed 这才是我想要的。

阅读更多

ubuntu 新硬盘组raid

新硬盘组raid是怎么回事呢? 硬盘组raid相信大家都很熟悉,但是新硬盘怎么组raid呢,下面就让小编带大家一起了解吧。 首先我们要选择最适合自己的raid,以及raid后的结果,相关信息可以看群晖关于raid的介绍,比较清晰。 另外可以用raid计算器计算一下raid前后容量等。 比方说使用4块2T硬盘组raid5,最终得到的大小是6T。 ubuntu新硬盘怎么组raid,其实新硬盘组要这样组raid,使用mdadm。 首先用fdisk找到对应的硬盘,一般是/dev/sdx形式,记录下来,比如四快盘是/dev/sda、/dev/sdb、/dev/sdc、/dev/sdd。 sudo fdisk -l | grep sd 然后使用mdadm创建一个/dev/md0 s...

阅读更多

使用bam2raster输出类似IGV的截图

想使用命令行来操作IGV,然后输出截图。但是好像只有新版的igvtools能做到,由于igvtools依赖java 11,而服务器中java版本是java 8,为了避免影响环境变量因此放弃使用。 在找可使用的软件过程中,又想使用igvR这个包,然后又因为R版本问题装不上,最后发现了jvarkit里的一个工具bam2raster可以实现想要的效果。 软件安装 git clone "https://github.com/lindenb/jvarkit.git" cd jvarkit ./gradlew bam2raster 最后bam2raster会安装在jvarkit/dist文件夹下。 使用 java -jar bam2raster.jar -o output.png -r ...

阅读更多