主页 - 生物信息文件夹

WSL全称Windows Subsystem for Linux。就是一个win10内建的linux子系统。我觉得在家分析的时候（没得服务器的时候），用虚拟机难免性能比较低，而且用WSL，基本达到了秒开秒关。还是比较爽快的。要开启WSL，首先要进到控制面板，选择程序，然后启用或关闭windows功能。找到适用于Linux的Windows子系统，勾上前面的勾，然后需要重启电脑。（话说巨硬这中文水平。。我怎么都觉得应该是适用于Windows的Linux子系统才对，好吧，再读两次我自己都懵了，语文不好语文不好）然后进入应用商店，搜索linux，就可以搜到适用的linux发行版。我装了ubuntu1804，是的，wsl是以应用的形式装在电脑里的。按照微软应用墓碑式杀后台的情况，这...

背景加权基因共表达网络分析(Weighted Gene Co-Expression Network Analysis, WGCNA)。该分析方法旨在寻找协同表达的基因模块(module)，在该方法中module被定义为一组具有类似表达趋势的基因集，如果这些基因在一个生理过程或不同组织中总是具有相类似的表达变化，就有理由认为它们在功能上是相关的，可以把它们定义为一个module。分析标准：样本最好在15个以上，样本分组差异不应太大。数据预处理采用RNA-seq数据，先过滤掉所有样本中均低表达的基因，再过滤掉所有样本中几乎没有差异的基因（最好不要只留差异基因）。按照一般做法，分析基因的表达丰度用TPM，分析差异基因用counts，WGCNA比较偏向于分析表达丰度，所以采用TPM...

利用GSE57820作为原始数据。如果是用未经校正的数据： library(ggfortify) library(factoextra) GSE57820 <- read.table("GSE57820_non_normalized.txt", header=T, sep="\t", row.names=1) samples <- seq(from=1, to=23, by=2) GSE57820 <- GSE57820[, samples] namelist <- list() for(i in colnames(GSE57820)){ j <- unlist(strsplit(i, "_")) k <- paste(j[2], j[...

2018年的最后一天。年中的时候从刚好从工作的一年的第一家公司离职，算是人生的第一份工作。主要的原因是我觉得太多事情需要自己去摸索，流程上不合理的地方很多。作为一个技术人员，提出的点也因为各种问题不能被采纳。上半年就是在公司和家的两点一线中度过。然后下半年，舒舒服服之后的第一天就和大学舍友去了外伶仃岛玩，印象深刻的是晚上世界杯法国打阿根廷，梅球王和年轻人98K。下半年基本就是家里蹲和去玩，国庆的时候和宿舍的兄弟老梁去越南玩，自己plan的行程，就算很烂也得走下去。把越南的河内和胡志明这两个最大的城市都逛完了。人多摩托车多，河粉挺好吃。刷了今年觉得不错的一部剧，《大江大河》，然后就准备去找工作了。今年个人年度歌是林忆莲的《再见悲哀》。

biomart是生物一个数据库。而biomaRt则是biomart的R语言接口。详细的参考指南点这里。一般的，这里介绍一下这个包的基因ID转换功能，虽然用clusterProfiler也能实现。首先来安装这个包： if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("biomaRt", version = "3.8") 载入包还有你的数据： library(biomaRt) gene <- read.table("genes.txt", header=TRUE) # 表示使用ensemble...

今天设置ubuntu的terminal，然后发现打不开了，解决方案就是回去恢复默认设置。但是问题是terminal都进不去，怎么恢复默认。第一步安装另外的terminal模拟器。这一步的目的是为了设置能从root进入图形界面。第二步在root用户下，修改以下，记得保存。 #设置密码 sudo passwd root vi /usr/share/lightdm/lightdm.conf.d/50-unity-greeter.conf # 增加两行 greeter-show-manual-login=true all-guest=false vi /etc/pam.d/gdm-autologin # 注释掉 auth required pam_succeed_if.so...

显然，fastq的明显特征有每个reads都是@开头，可以用这一点写个python脚本。另外，也可以根据4行一个reads这一点来统计。对于fastq文件： echo $(cat xxx.fastq|wc -l)/4|bc 对于fastq.gz文件: echo $(zcat xxx.fastq.gz|wc -l)/4|bc

久违的更新一下。如果想找人的全基因组或者外显子组的测序数据来做练习，大可用韩国人基因组计划的数据。官方主页在这里：KPGP 但是呢，貌似从官网这里没能找到下载的地址，可以在另外一个网页，opengenome下载。里面有各个样本的信息，还是做的不错的。页面分别提供两个FTP下载地址，就放在下面。 biodisk.org kobic

主页

在家里玩就用WSL

加权共表达网络分析WGCNA

PCA图

2018总结

R包biomaRt

root登录ubuntu的图形界面

用shell命令统计fastq的reads数

韩国人基因组计划KPGP