ML 100 Days (2)
跟着大佬学习一下机器学习100-Days-Of-ML。
Day 2 简单线性回归模型
数据下载
相对来说我觉得这个坑比较小,但是还是有的。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 数据预处理
dataset = pd.read_csv("studentscores.csv")
X = dataset.iloc[ : , : 1].values
Y = dataset.iloc[ : , 1].values
print X
最重要的是下面这里,test_size在官方代码中设置的是1/4,但是如果是1/4,后面画图的时候会报错,这里设置成0.25就没有问题,不知道为什...
目前的配置与升级方向
总结
目前的电脑,实际上在2月份左右已经进行过一次重大升级,升级方向是从ATX变成了ITX,各种不适合在ITX的部件全换了,同时升级了20系显卡。事实上在未升级前已经能流畅运行所有PC游戏了,但是我换了个2K显示器,基本上就是导致这一切升级的前提。升级后2K分辨率下也是能流畅游戏,就是目前的光追游戏太少了。下一步的升级方向应该是升级CPU。理论上对个人的游戏体验提升还是会明显的,但是也是“可以升级,但是没必要”这样的魔咒束缚。想了想,工作赚钱就是为了获得更好的物质享受,只要想,那就去升级。
目前的配置
机箱:定制的ITX小机箱,电源上置,风道良好,可以装一个3.5一个2.5硬盘,支持长显卡
主板:微星B450 itx,小主板,在ITX主板中算是供电良好超频能力强的,需要吐槽的是这个...
ML 100 Days (1)
跟着大佬学习一下机器学习100-Days-Of-ML。虽然说是学习,但是目前只是把代码抄一遍走一次流程而已。
Day 1 数据预处理
数据下载
需要安装三个依赖的包
pip install numpy
pip install pandas
pip install scikit-learn
可以在安装时使用清华源提高下载速度,例如
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scikit-learn
问题还是有的,就是sklearn已经更新,有些地方已经不像以前那样写了。(逐步更新)
import numpy as np
import pandas as pd
# 导入
dataset = pd.read_...
画个散点图
本来是想做CNV分析的。然后得到了一个样本的表达矩阵之类的东西,需要按需求画个图,直接用ggplot2了。
library(ggplot2)
导入数据还有挑出需要的样本
data <- read.csv("xxx.txt", header=TRUE, sep="\t")
use_data <- data[, c(1,2)]
设定一下颜色,因为参考范围是Z检验的[-3, 3]
colors <- ifelse(use_data$sampleID>=3.0, "Up", ifelse(use_data$sampleID<=-3.0, "Down", "Normal"))
use_data$Type <- colors
最后直接出图,这个图不...
下载TCGA的数据
TCGA全称The Cancer Genome Atlas,是NIH旗下的癌症数据库。现在TCGA的数据都放在GDC里,要下载(open access的)还是挺简单的。
但是呢,open access的其实只有maf比较有用。。。
所以这里来下载maf。在repository选择maf和open access,可以得到132个样本。这时再把这132个样本全都加到购物车(hmmmmm)。然后点击购物车就可以下载了。
当然,132个样本直接下载下来可能会很麻烦,所以建议还是用官方下载工具下载。
安装下载器ubuntu版
mkdir gdc-download && cd gdc-download
wget https://gdc.cancer.gov/system/f...
找启动子
有时候,我们需要找一个基因的启动子序列。一个基因如果要表达,前面就必须有启动子。
可以通过EPD数据库来查询。
EPD数据库全称Eukaryotic Promoter Database,就是真核启动子数据库(硬核翻译)。目前收集的数据如下:
这里测试一个SEPT9基因。选择人类数据。找到七个,随便点进去一个看看。给出了某转录本上的位置以及序列。
其实有一个经典方法,就是在NCBI选择Gene然后搜索。然后看这里,基因方向和参考基因方向是同向还是反向的。比如说这里就是同向。一般的,启动子序列会在基因上游2000bp以内。所以这个时候就把上游2000bp的序列弄出来就好了。
在下面选择需要的参考基因后,点击GeneBank进入,然后手动修改这里,往上游走个2000bp...
只狼天下第一
最近没有更新,是因为忙着打机(诚实)。
终于把只狼的四个结局全肝完了。受苦受难终于结束了。
随便写写玩后感:
把物品还有重复SL之后得到的各种信息组合起来,推敲出很多背景故事。主线是救主子离开还有让主子斩断不死。暗线是外来神樱龙污染了源头(源之宫)的水,而本地神白蛇被赶到坠落峡谷底部。樱龙可以说是整个不死到虫附体的罪魁祸首。而各个配角的人生和性格都非常丰满。比方说佛雕师,从各种信息可以拼凑出他以前变成过修罗被一心斩断过手,然后一直在破庙中雕佛像来压制自己,但是最后苇名陷落所以让他直接变成了怨灵;比方说屑一郎是一个极度不自信的人,但为了守护苇名不惜牺牲自己来复活年轻的剑圣一心。另外一个记忆深刻的点是狮子猿,守护白莲是为了求偶,变成了虫附体头掉了都没有放弃。
游戏风格是宫崎老贼...
NIPT
NIPT即非侵入性产前检测,适用于检测21、18、13号染色体的三体综合征。实际上,NIPT的分析流程与CNV的分析流程相似。主要的分析流程是先得到唯一比对的reads,再提取每条染色体的reads来做一个Z检验得到Z值,因为Z值在[-3, 3]这个范围的统计学意义上是占了99%,因此认为超出这个范围时就是阳性。各种背景知识这篇意见稿说的很清楚了。
测试数据可以使用NCBI的PRJNA400134。总共有3405个样本,是优讯医学上传的,可以随便下几十个来测试一下,虽然我也不知道哪个是阳性样本。
比对
使用bwa aln模式进行比对单端数据。
bwa aln -n 0 -e 0 -k 0 -t 16 hg19.fa s1.fq.gz > s1.sai
bwa samse -n...
共计 204 篇文章,26 页。