post-thumb

【2021NCI】signature讲座

该部分会议内容如下: 一、Teresa Przytycka 突变模式可以作为一种工具来研究环境、细胞过程和疾病之间的关联,其中包含: signature和分子通路之间的关联 突变过程和突变过程之间的关联 1. 突变过程和分子通路/突变过程的关联 研究的问题是吸烟和COVID-19易感。

Continue Reading
post-thumb

【2021NCI】signature讲座-Opening Session

该部分会议内容如下: somatic mutations in ageing and disease 1. 背景 对良性组织测序(non-malignant tissue)比较困难,这里使用的是laser capture microdissection,把组织切得更小,这样每次测序大概是200个样本,不需要任何预先对DNA进行扩增,这样可以获得很高质量的基因组。

Continue Reading
post-thumb

非线性规划

很多实际问题可以归结为线性规划问题,其目标函数和约束条件都是自变量的一次函数。但是存在另外一些应用也很广泛的问题,目标函数和(或)约束条件很难用线性函数表达,如果目标函数或约束条件中含有非线性函数,就称这种规划问题为非线性规划问题。 由于非线性函数的复杂性,解非线性规划问题要比解线性规划问题困难得多,而且也不能像线性规划有通用解法,目前还没有适用于解决各种问题的一般算法,各个方法都有自己特定的适用 …

Continue Reading
post-thumb

fit算法

NMF(非负矩阵分解) NMF in mutational signature 当得到大量样本时,根据k个分类,可以创建一个计数矩阵M,包含每个样本在每个分类的计数,该矩阵可以通过非负矩阵分解为两个矩阵,这两个矩阵一个代表signature的分类图谱,一个代表每个样本的signature数值。 而当我们只有一个样本时,则不能通过NMF分解来获得以上提到的两个矩阵,但是可以通过确定 …

Continue Reading
post-thumb

参加读书活动

步骤 安装网易mumu, 通过应用中心安装微信读书 安装python包:uiautomator 安装adb连接mumu 运行python脚本  安装网易mumu 网页mumu下载地址: http://mumu.

Continue Reading
post-thumb

生存分析

本文主要参考:Survival Analysis Part I: Basic concepts and first analyses 生存分析基本介绍 大多数的癌症研究中使用: Kaplan-Meier plots

Continue Reading
post-thumb

C index

 C index介绍 C index 是AUC的扩展,AUC是C index的特殊。 参考资料 已经猴年马月了,你还不知道C-index?!

Continue Reading
post-thumb

Multimodal deep learning

Multimodal data 首先我们应该明确什么是multimodal data? 事物发生或经历时,或者是研究问题包含了多模态。我们通过看、听、闻来体会世界时,就是一种多模态。 Modality refers to the way in which something happens or is experienced and a research problem is …

Continue Reading
post-thumb

如何去除文本注释

注释类型 首先我们应该明确注释是在什么样的文件中? 1.代码中的注释 2.文本中的注释 其次我们应该明确,我们需要去除的注释都是什么样子的? 1.注释行前有特定字符,比如R代码中的注释# 2.注释被包含在特定字符之间,比如Python代码中的 ```,以及SRIM软件输出结果开头的注释包含的两行=== 根据注释的类型不同,去除注释的方法也不同,接下来介绍一下如何去除注释。  特定字符的注释 使 …

Continue Reading
post-thumb

癌症预后

基本框架(按照从大到细) 预后标志物背景介绍 预后标志物的类型(分类标准有作用;存在性质等等),主要关注基因组预后标志物 泛癌、特定癌种的预后标志物,这部分聚焦于特定的例子 如何开发一个预后标志物,好的预后标志物应该包含哪些特征,预后标志物目前存在哪些问题 生物信息学在研究预后标志物中的作用,聚焦于分析手段

Continue Reading
post-thumb

CNV

一、 拷贝数变异的介绍 1.1 结构变异和拷贝数变异 结构变异(structure variation, SV)是指基因组上大片段碱基的缺失、插入、重复、倒位和易位。这部分变异的频率,和疾病或者表型的关系等等都不明确,另外还有一部分的变异也属于结构变异,比如异态性(heteromorphisms),脆性位点(fragile sites),marker染色体,等臂染色 …

Continue Reading
post-thumb

如何进行科研写作——【转载】

最近在修改文章,感觉自己的英文表达能力和学术写作能力太弱,刚巧看到施一公教授分享的公众号文章,觉得收获很大,记录一下。 如何写论文 1.要写好科研论文,必须先养成读英文文章的习惯,争取每天30-60分钟。刚开始可以选择以读英文报纸、英文新闻为主,逐渐转为读专业杂志。我会在近期专门写一篇博客文章介绍一套行之有效的增强读专业杂志能力的办法。 2.写科研论文,最重要的是逻辑。逻辑的形成来自对实验数据的总 …

Continue Reading
post-thumb

拷贝数变异机制

基本框架 拷贝数变异的博客框架: 介绍拷贝数变异的从属关系,和结构变异的关系;克隆性拷贝数变异和亚克隆拷贝数变异 拷贝数变异检测手段,拷贝数变异检测方法/算法(这个比较多,可以分多点讲) 结构变异的检测手段等等 引发拷贝数变异的机制 拷贝数变异的应用价值

Continue Reading
post-thumb

什么是鲁棒性(robustness)

通过搜索发现,鲁棒性是一个应用很广泛的词汇,我们主要关注它在计算机科学的算法和统计学中代表的含义。 维基百科上这样描述:稳健性(英语:Robustness)是指一个计算机系统在执行过程中处理错误,以及算法在遭遇输入、运算等异常时继续正常运行的能力。 Robustness is the capacity of a method to remain unaffected by small, …

Continue Reading
post-thumb

R包caret基本功能【1】——六种基本功能

介绍机器学习R包。 1. 数据分割 基于输出变量的分割 在建模之前,需要对样本数据进行分割分为训练集和测试集。在之前建模过程中,我发现我使用sample进行分割存在一定的问题,比如我分割出来的数据中response的占比在训练集和测试集中差别很大等等。caret包中可以解决这个问题,通过设置p值,同时确定训练集和测试集的占比,并各个因子水平下取占比(表述的有点问题)。 …

Continue Reading
post-thumb

R包mlr3基本功能【1】——R6类——需要修订

介绍机器学习R包mlr3,该包提供了分类、回归、生存分析以及其他的机器学习任务,包含超参的调节以及特征的选择,本地支持很多操作的并行化。 1. mlr3 Quickstart install.packages("mlr3") 对iris数据集的前120行训练一个决策树,并且对后30行进行最终的预测,最后判断预测模型的准确性。 library("mlr3") task …

Continue Reading
post-thumb

R包开发【2】——编写函数

R包功能的实现需要各种函数,函数应该如何编写?什么样的步骤可以被包括在函数里?函数需要哪些基本的功能?函数应该如何命名?函数可以通过调用函数并且给定参数来代替对代码的重复操作(当一个操作需要重复2次时),通过自定义的函数命名来使得功能易懂,并且方便后续的更新和更改,对功能进行更改只需要变更函数,而非在所有的代码中一一修改。 1. 基本步骤 写函数的基本步骤如下: 1.1 函数命名 命名要尽量 …

Continue Reading
post-thumb

R包开发【3】——R包开发细节

R包开发的各种细节。 1. 命名 尽量避免同时使用大小写字母 使用该包测试命名是否能用(???)。 library(available) available("doofus") 2. 依赖包 如果只是使用其他的包中的少量函数时,建议在DESCRIPTION文件中的Imports:中标注包的名称,并且在使用函数过程中使用pkg::fun()。如果需要重复使用函数,可以避 …

Continue Reading
post-thumb

R包开发【1】——基本流程

任何可以被自动化的,都应该让它自动化,给自己省时间,也可以方便任何人使用。devtools的目的是使得开发工具变得容易,囊括了多个包来支持开发的各个功能。 前言:R包开发书籍的基本内容 第二章 示例包 第三章 为包开发准备系统 第四章 包的基本结构,不同的状态下结构不同(?) 第五章 回顾核心的工作流程,介绍核心工具之间的联系:devtools和usethis,Rstudio

Continue Reading
post-thumb

检测拷贝数变异的工具及算法【2】-ABSOLUTE

背景介绍 1. 获取绝对拷贝数数值的难点 (1)采样过程中癌细胞混合了未知比例的正常细胞——肿瘤纯度; (2)由于染色体数量和结构异常导致的癌细胞的实际DNA含量(倍性)是未知的; (3)由于正在进行的亚克隆进化,癌细胞群可能是异质性的。 理论上,如果知道每个肿瘤细胞中DNA的含量,则可通过测得的相对拷贝数获得绝对拷贝数,或者通过单细胞测序技术解决。 2. 芯片原始原始数据格式.CEL 对于芯片数 …

Continue Reading
post-thumb

使用posterdown制作学术海报

引言 posterdown自动排版,通过调节参数满足个人制作海报的需要。 1. 介绍 目前posterdown支持3种风格的海报模板:posterdown_html、posterdown_betterland和posterdown_betterport。以posterdown_betterport为例进行阐述。 目前支持的三种模板风格 2. 创建海报 2.1 创建模板 直接通过新建R …

Continue Reading
post-thumb

计算机组成

引言 1. 计算机组成 计算机的组成部件可以分为三大类:中央处理单元(CPU)、主存储器和输入/输出子系统。 中央处理单元 用于数据的运算。在大多数体系结构中,它有3个组成部分:算术逻辑单元(ALU)、控制单元、寄存器组、快速存储定位。 算术逻辑单元 对数据进行逻辑、移位和算术运算。 寄存器 用来存放临时数据的高速独立的存储单元。 控制单元

Continue Reading
post-thumb

潜在语义分析(LSA)

引言 潜在语义分析(Latent sematic analysis, LSA)是一种无监督的学习方法。特点是通过矩阵分解来完成,使用的是非概率的话题分析模型,可以通过奇异值分解的方法进行矩阵因子分解,特点是分解的矩阵正交,非负矩阵分解是另一种矩阵的因子分解方法,特点是分解的矩阵非负。 1. 单词向量空间和话题向量空间 1.1 单词向量空间 给定一个含有 \( n \)个文本的集合\( …

Continue Reading
post-thumb

隐马尔可夫模型(HMM)

引言 1. 马尔可夫模型的基本概念 来对2段氨基酸序列x和y进行残基比对,认为存在3种比对关系的状态: M:残基能够比对上但不一定相等 X:序列x的残基比对到1个空位,或x上发生了1次插入 Y:序列y的残基比对到1个空位,或y上发生了1次插入 序列比对就是在上述3个状态中不断转换的过程: \( M(i,j) \) : \( x_i \)比对到\( y_j \)时,序列x从1到\( i \)和 …

Continue Reading
post-thumb

synapser

引言 一个提供批量下载Synapser数据的R包。 1. 登陆 synLogin("baomihai@sina.com","******") Welcome, baomihai@sina.com!NULL 参考 biostars-How to install gdc-client in Ubnutu

Continue Reading
post-thumb

处理字符串的两个R包:stringi和stringr

引言 stringr包是建立在stringi上的,stringi包使用ICU C库提供准确、快速的常见字符串操作,stringr提供了最重要和最常用的字符串处理函数。 stringr stringr包中所有的函数都以str_开头,第一个参数为字符串向量。对应的在base函数中也有功能一致的函数,记得对比两者之间的异同。 1. 找到自己需要的数据 tcga_mut <- …

Continue Reading
post-thumb

gdc-client

引言 之前一直用别的方法下载数据,这次使用了gdc-client命令行去下载GDC上TCGA driver gene mutation的一批数据。 步骤 1. 找到自己需要的数据 这是我本次要下载的数据 点击数据下载地址发现出现如下界面,其中id就是使用gdc-client下载的文件对应的id 对于Open access data,使用这两种方法下载 下载了MAC的Client版本 2. 安装 解 …

Continue Reading
post-thumb

R储存数据

引言 rds比RData省空间,为什么? 步骤 1. 找到自己需要的数据 tcga_mut <- read.csv2("/home/tzy/projects/CNX-method/data/TCGA/mc3.v0.2.8.PUBLIC.nonsilentGene.xena",sep = "\t") saveRDS(tcga_mut, file = …

Continue Reading
post-thumb

hugo增加TOC

引言 根据hugo-future-imperfect-slim主题中issue提到的TOC更改版本,改进后进行配置应用。 步骤 1. 更改 config.html 文件 在[params] 内容下加入以下参数: toc = true # 默认显示toc tocWords = 400 #超过400字显示toc 2.

Continue Reading
post-thumb

博客优化计划

引言 分为功能改进、美观改进。 1. 博客功能改进 个人博客归档(已完成) date的时间更换成自动化填充,每次手动填写很麻烦 搜索中文优化,目前速度较慢 更改归档页面时间0001

Continue Reading
post-thumb

hugo博客配置归档页面

引言 hugo没有自带的归档设置,需要手动添加。 操作步骤 在taozy_blog/layouts/_default/目录下创建 archives.html 文件 将taozy_blog/layouts/_default/目录下的 single.html 内容复制进 archives.html 文件(single.html的格式就是每篇博文的格式,也可以采用主题的contact.html的 …

Continue Reading
post-thumb

Excel数字长度超13位尾号变0

引言 小雨毕业填各种表格,发现数字很长的时候会直接用0替代超长位数的数字,检索之后,给她解决了这个小问题。 操作方法 设置数字格式,在自定义中输入@ 重新输入可以发现已经可以了 参考资料: Excel数字长度超13位尾号变0或E+,教你这招只用一个0就能搞定

Continue Reading
post-thumb

线程和进程

引言 看了一下廖雪峰的官方网站中对多线程和多进程的讲解,写的真是又简洁又明了,结合今天workshop中zk提到的并行计算,简单汇总写个学习笔记。 操作系统可以同时执行多任务,比如同时运行浏览器、QQ和word,CPU执行代码是按照顺序一条条的执行。 操作系统执行多任务是让CPU对多个任务轮流进行交替执行,比如让浏览器执行0.1秒,让word执行0.1秒。 不管是单核还是多核的CPU,都可以同时运 …

Continue Reading
post-thumb

p值

介绍 p值的含义 假设存在药物A和药物B,想知道两种药物的区别? 维基百科定义:p值是假设检验中假设零假设为真时观测到至少与实际观测样本相同极端的样本的概率(似乎很拗口)。 p值是介于0-1之间的数字,量化我们相信两种药物不同的信心,p值越接近0,越相信两者不同。当p的阈值为0.05意味着,假设两种药物之间没有差异,执行多次且相同的实验,那么只有5%的实验会得出错误决定,简单来说,p值是对 …

Continue Reading
post-thumb

使用CIBERSORTx网页版分析免疫浸润

前言

最近需要对TCGA和PCAWG的表达数据进行免疫浸润水平分析,使用了R包immunedeconv,其中TCGA已经有文献的supplement给出了不同免疫浸润工具进行分析的结果,PCAWG需要自己手动分析,其中CIBERSORT在immunedeconv包中运行需要两个文件:LM22.txtCIBERSORT.R,需要在官 …

Continue Reading
post-thumb

逻辑回归

引言 线性回归 假设数据包含 尺寸 和 重量 两组,根据这两组数据用 最小二乘法 拟合一条线后,我们可以做如下的事情: 计算r平方来确定两个变量是否相关 计算p值确定R平方是否具有统计显著性

Continue Reading
post-thumb

使用Latex写论文

前言

最近写文章的时候,发现修改时调整参考文献的引用,是一件非常麻烦的事情,于是找到了一种简便的方法进行调整,发现了用Latex写论文原来这么好用(据涛哥和翔哥说,word也可以自动调整引用文献顺序,而我一直不知道…)。

Continue Reading
post-thumb

Hugo+Github+阿里云域名搭建个人博客(附Netlify部署方法)

前言

最近师兄和涛哥都分享了这个流程:如何使用了R包blogdown搭建个人博客,但是我和轩哥在使用的过程中发现一个小问题,有一些主题似乎并不能很好的被blogdown安装的hugo来应用,几番求解无果,暂时将这个问题搁置,因为太喜欢这个theme不想放弃,所以找了一种不用blogdown的方法去搭建,终于取得成果。

Continue Reading