服务器进入grub
前情提要:
服务器进入initramfs
在上次作死完之后,又换了一个问题,大概是因为系统引导区损坏了。
重启之后,进入了grub rescue界面。按照这篇文章的第一个方法,normal并不奏效,提示“ELF section outside core”。因此采取文章的第二种方法。
使用rufus建了一个ubuntu iso进去U盘里,bios里选择从usb启动,选择try ubuntu进去usb的系统里,用下面命令安装boot-repair-disk。
sudo add-apt-repository ppa:yannubuntu/boot-repair
sudo apt-get update
sudo apt-get install -y boot-repair
boot-re...
服务器进入initramfs
是这样的,服务器里的raid10阵列有一块一直识别不了,所以通过热拔插确定了是那一块之后(不要学习这个操作),重启时进入了initramfs。
搜索了一轮,基本上的解决方案大多下面这样:
使用fsck来自动检测
fsck -y /dev/md0
但是,这不适用于我们的情况。
最终我们的解决了这个问题,用的方法是,先把阵列停了
mdadm --stop /dev/md0
然后再运行回来,对数据没有影响
mdadm -A --force /dev/md0 /dev/sd[abcd]2
因为我们的阵列是sda、sdb、sdc、sdd四块盘的2号分区组成的,所以这样写。
另外,组回来后,其实只有两块盘active了,但是能开机进入系统了,这时就是另外一个问题了。
找外显子区域和内含子区域
以BRCA1为例,分别从三大数据库出发写几个低通量的方法。
一、NCBI
在NCBI中选择Gene,搜索BRCA1,然后点进需要的物种,先看方向,这里是反向的。然后点击下面的GeneBank,如图所示。
在FEATURES的mRNA这里,就可以看到每个外显子的区域。由于BRCA1的方向是反向的,所以最后面的一个才是一号外显子。外显子与外显子的中间区域就是内含子了。
这个方法的一个比较坑的地方是,不是每个基因都有这个信息。其次,还得自己从参考基因组位置里加回去这个转录本位置才是基因组上的位置。
二、ENSEMBL
使用的是ENSEMBL的biomart,biomart有R包,可以编写程序来高通量的做这个找外显子的事情。
首先选择好DataSet,然后在Filters里打...
DNA序列转成氨基酸序列
实际上是抄来的,然后加了点如果不满足3的倍数时候报Warning。
def translate(seq):
table = {
"ATA":"I", "ATC":"I", "ATT":"I", "ATG":"M",
"ACA":"T", "ACC":"T", "ACG":"T", "ACT":"T",
"AAC":"N", "AAT":"N", "AAA":"K", "AAG":"K",
"AGC":"S", "AGT":"S", "AGA":"R", "AGG":"R",
"CTA":"L", "CTC":"L", "CTG":"L", "CTT":"L",
"CCA":"P", "CCC":"P", "CCG":"P", "CCT":"P",
"C...
截断引物的需求
得到一个需求,截断fastq里的引物序列,为什么是截断而不是去除,目的是为了交付数据时不被同行得到引物同时读长看起来也没那么短。一开始想象中是很简单的,只要替换fastq中的引物序列就好了,但是后来发现有些目标区域其实也含有引物的序列,如果直接替换了会导致这些目标区域变成缺失之类的判读。
然后新增了一个要求,在截断的同时需要保留adapter。有一个做法是先除adapter,然后再5‘和3’截断10bp,再把adapter加回去。但是我觉得这样的难点在于adapter的质量值也得加回去,比较复杂。
所以,最终的写法是,先把序列和质量值的两行zip起来,然后搜索里面的adapter序列,再把adapter前去掉10bp,如果搜索不到adapter,就直接3‘去10bp。5’的10bp...
个人癌症报告生成器
Personal Cancer Genome Reporter (PCGR),作者是挪威奥斯陆大学癌症研究所的。感觉是进行了大量的工作,把各个数据库以及软件搭建了在一起,并且最终生成了一个阅读性极高的html报告。
软件安装
软件的安装极其简单,以目前的稳定版本为例,软件基于python3,首先需要安装toml包
pip install toml
下载软件
wget https://github.com/sigven/pcgr/archive/v0.8.1.tar.gz
tar -zxvf v0.8.1.tar.gz
然后,下载数据包,数据包里面有tcga,civic,vep等多个癌症相关或软件依赖的数据库,大小约15G。还有一个问题,就是数据包存放地址在google driv...
ML 100 Days (3)
跟着大佬学习一下机器学习100-Days-Of-ML。
话说我的惰性在这个学习流程上表露无遗,到现在才到第三天。
Day 3 多元线性回归
数据下载
这一节引入了一个新的概念叫虚拟变量,就是把一些分类性的东西变成虚变量,并且赋值,比如女变成0,男变成1。
数据预处理
导入数据
import pandas as pd
import numpy as np
dataset = pd.read_csv('50_Startups.csv')
X = dataset.iloc[ : , :-1].values
Y = dataset.iloc[ : , 4 ].values
将类别虚拟化
from sklearn.preprocessing import LabelEncoder,...
DECoN的安装,检测外显子缺失
DECoN是一款可以检测panel外显子缺失的R语言软件,使用的时候也是遇到一些问题,不过总体上还是挺好用的。DECoN可以在github下载。
爬坑1
软件依赖很多R包,理论上已经可以打包下载下来了,可能需要先来一下这一步
sh setup.sh
但是这一步我运行过后没有什么效果,运行的时候该报错还是报错,所以,建议是,把IdentifyFailures.R、ReadInBams.R、makeCNVcalls.R这三个脚本的第一行注释掉。然后运行的时候提示缺少什么R包再去手动安装。
source("https://bioconductor.org/biocLite.R")
biocLite("Biostrings")
biocLite("IRanges")
biocLite(...
共计 204 篇文章,26 页。