NA12878多种来源数据下载[参考Kamatani 2019 Genome Biology]
参考一篇做的比较全面的结构变异工具比较类文章中使用到的标准数据的获取和提取。
Continue Reading
生信工具开发——Java【1】helloworld
我的学习目的:模仿Picard写一个对BAM文件进行处理的生信工具。【思考了一下,感觉这个工具没必要写,就简单记录一下学的东西吧】
Continue Reading【临床系列】——名词解释
recurrence-free survival 从开始治疗到没有癌症迹象存在。 disease-specific survival 从检测或开始治疗到病人死亡之前的时间。
Continue Reading【2021NCI】signature讲座
该部分会议内容如下: 一、Teresa Przytycka 突变模式可以作为一种工具来研究环境、细胞过程和疾病之间的关联,其中包含: signature和分子通路之间的关联 突变过程和突变过程之间的关联 1. 突变过程和分子通路/突变过程的关联 研究的问题是吸烟和COVID-19易 …
Continue Reading【2021NCI】signature讲座
该部分会议内容如下: 【Steven Rozen】 Two signatures: one important for public health, one important for DNA damage and repair
Continue Reading【2021NCI】signature讲座-Opening Session
该部分会议内容如下: somatic mutations in ageing and disease 1. 背景 对良性组织测序(non-malignant tissue)比较困难,这里使用的是laser capture microdissection,把组织切得更小,这样每次测序大概是200个 …
Continue Reading非线性规划
很多实际问题可以归结为线性规划问题,其目标函数和约束条件都是自变量的一次函数。但是存在另外一些应用也很广泛的问题,目标函数和(或)约束条件很难用线性函数表达,如果目标函数或约束条件中含有非线性函数,就称这种规划问题为非线性规划问题。 由于非线性函数的复杂性,解非线性规划问题要比解线性规划问题困难得 …
Continue Readingfit算法
NMF(非负矩阵分解) NMF in mutational signature 当得到大量样本时,根据k个分类,可以创建一个计数矩阵M,包含每个样本在每个分类的计数,该矩阵可以通过非负矩阵分解为两个矩阵,这两个矩阵一个代表signature的分类图谱,一个代表每个样本的signature数值。 …
Continue Reading参加读书活动
步骤 安装网易mumu, 通过应用中心安装微信读书 安装python包:uiautomator 安装adb连接mumu 运行python脚本 安装网易mumu 网页mumu下载地址: http://mumu.
Continue Reading生存分析
本文主要参考:Survival Analysis Part I: Basic concepts and first analyses 生存分析基本介绍 大多数的癌症研究中使用: Kaplan-Meier plots
Continue ReadingMultimodal deep learning
Multimodal data 首先我们应该明确什么是multimodal data? 事物发生或经历时,或者是研究问题包含了多模态。我们通过看、听、闻来体会世界时,就是一种多模态。 Modality refers to the way in which something happens or …
Continue Reading如何去除文本注释
注释类型 首先我们应该明确注释是在什么样的文件中? 1.代码中的注释 2.文本中的注释 其次我们应该明确,我们需要去除的注释都是什么样子的? 1.注释行前有特定字符,比如R代码中的注释# 2.注释被包含在特定字符之间,比如Python代码中的 ```,以及SRIM软件输出结果开头的注释包含的两 …
Continue Reading癌症预后
基本框架(按照从大到细) 预后标志物背景介绍 预后标志物的类型(分类标准有作用;存在性质等等),主要关注基因组预后标志物 泛癌、特定癌种的预后标志物,这部分聚焦于特定的例子 如何开发一个预后标志物,好的预后标志物应该包含哪些特征,预后标志物目前存在哪些问题 生物信息学在研究预后标 …
Continue ReadingCNV
一、 拷贝数变异的介绍 1.1 结构变异和拷贝数变异 结构变异(structure variation, SV)是指基因组上大片段碱基的缺失、插入、重复、倒位和易位。这部分变异的频率,和疾病或者表型的关系等等都不明确,另外还有一部分的变异也属于结构变异,比如异态性(heteromorphisms), …
Continue Reading如何进行科研写作——【转载】
最近在修改文章,感觉自己的英文表达能力和学术写作能力太弱,刚巧看到施一公教授分享的公众号文章,觉得收获很大,记录一下。 如何写论文 1.要写好科研论文,必须先养成读英文文章的习惯,争取每天30-60分钟。刚开始可以选择以读英文报纸、英文新闻为主,逐渐转为读专业杂志。我会在近期专门写一篇博客文章介绍一 …
Continue Reading拷贝数变异机制
基本框架 拷贝数变异的博客框架: 介绍拷贝数变异的从属关系,和结构变异的关系;克隆性拷贝数变异和亚克隆拷贝数变异 拷贝数变异检测手段,拷贝数变异检测方法/算法(这个比较多,可以分多点讲) 结构变异的检测手段等等 引发拷贝数变异的机制 拷贝数变异的应用价值
Continue Reading什么是鲁棒性(robustness)
通过搜索发现,鲁棒性是一个应用很广泛的词汇,我们主要关注它在计算机科学的算法和统计学中代表的含义。 维基百科上这样描述:稳健性(英语:Robustness)是指一个计算机系统在执行过程中处理错误,以及算法在遭遇输入、运算等异常时继续正常运行的能力。 Robustness is the …
Continue ReadingR包caret基本功能【1】——六种基本功能
介绍机器学习R包。 1. 数据分割 基于输出变量的分割 在建模之前,需要对样本数据进行分割分为训练集和测试集。在之前建模过程中,我发现我使用sample进行分割存在一定的问题,比如我分割出来的数据中response的占比在训练集和测试集中差别很大等等。caret包中可以解决这个问题,通过设置p值,同 …
Continue ReadingR包mlr3基本功能【1】——R6类——需要修订
介绍机器学习R包mlr3,该包提供了分类、回归、生存分析以及其他的机器学习任务,包含超参的调节以及特征的选择,本地支持很多操作的并行化。 1. mlr3 Quickstart install.packages("mlr3") 对iris数据集的前120行训练一个决策树,并且对后30行 …
Continue ReadingR包开发【2】——编写函数
R包功能的实现需要各种函数,函数应该如何编写?什么样的步骤可以被包括在函数里?函数需要哪些基本的功能?函数应该如何命名?函数可以通过调用函数并且给定参数来代替对代码的重复操作(当一个操作需要重复2次时),通过自定义的函数命名来使得功能易懂,并且方便后续的更新和更改,对功能进行更改只需要变更函数,而非 …
Continue ReadingR包开发【3】——R包开发细节
R包开发的各种细节。 1. 命名 尽量避免同时使用大小写字母 使用该包测试命名是否能用(???)。 library(available) available("doofus") 2. 依赖包 如果只是使用其他的包中的少量函数时,建议在DESCRIPTION文件中 …
Continue ReadingR包开发【1】——基本流程
任何可以被自动化的,都应该让它自动化,给自己省时间,也可以方便任何人使用。devtools的目的是使得开发工具变得容易,囊括了多个包来支持开发的各个功能。 前言:R包开发书籍的基本内容 第二章 示例包 第三章 为包开发准备系统 第四章 包的基本结构,不同的状态下结构不同(?) …
Continue Reading检测拷贝数变异的工具及算法【2】-ABSOLUTE
背景介绍 1. 获取绝对拷贝数数值的难点 (1)采样过程中癌细胞混合了未知比例的正常细胞——肿瘤纯度; (2)由于染色体数量和结构异常导致的癌细胞的实际DNA含量(倍性)是未知的; (3)由于正在进行的亚克隆进化,癌细胞群可能是异质性的。 理论上,如果知道每个肿瘤细胞中DNA的含量,则可通过测得的相 …
Continue Reading检测拷贝数变异的工具及算法【1】-PCAWG consensus copy number
引言 PCAWG提供的拷贝数变异文件是综合6种不同的拷贝数变异提取工具的结果: ABSOLUTE ACEseq Battenberg CloneHD JaBbA
Continue Reading使用posterdown制作学术海报
引言 posterdown自动排版,通过调节参数满足个人制作海报的需要。 1. 介绍 目前posterdown支持3种风格的海报模板:posterdown_html、posterdown_betterland和posterdown_betterport。以posterdown_betterport为 …
Continue Reading计算机组成
引言 1. 计算机组成 计算机的组成部件可以分为三大类:中央处理单元(CPU)、主存储器和输入/输出子系统。 中央处理单元 用于数据的运算。在大多数体系结构中,它有3个组成部分:算术逻辑单元(ALU)、控制单元、寄存器组、快速存储定位。 算术逻辑单元 对数据进行逻辑、移位和算术运算。 …
Continue Reading潜在语义分析(LSA)
引言 潜在语义分析(Latent sematic analysis, LSA)是一种无监督的学习方法。特点是通过矩阵分解来完成,使用的是非概率的话题分析模型,可以通过奇异值分解的方法进行矩阵因子分解,特点是分解的矩阵正交,非负矩阵分解是另一种矩阵的因子分解方法,特点是分解的矩阵非负。 1. 单词向量 …
Continue Reading隐马尔可夫模型(HMM)
引言 1. 马尔可夫模型的基本概念 来对2段氨基酸序列x和y进行残基比对,认为存在3种比对关系的状态: M:残基能够比对上但不一定相等 X:序列x的残基比对到1个空位,或x上发生了1次插入 Y:序列y的残基比对到1个空位,或y上发生了1次插入 序列比对就是在上述3个状态中不断转换的过程: \( …
Continue ReadingR:批量读入文件并合并
引言 使用do.call批量读入文件并合并。 1. 基本处理步骤 source_dir <- "文件所在路径" file <- list.files( path = source_dir, pattern = "*.
Continue Readingsynapser
引言 一个提供批量下载Synapser数据的R包。 1. 登陆 synLogin("baomihai@sina.com","******") Welcome, baomihai@sina.com!NULL 参考 biostars-How to install …
Continue Reading处理字符串的两个R包:stringi和stringr
引言 stringr包是建立在stringi上的,stringi包使用ICU C库提供准确、快速的常见字符串操作,stringr提供了最重要和最常用的字符串处理函数。 stringr stringr包中所有的函数都以str_开头,第一个参数为字符串向量。对应的在base函数中也有功能一致的函数,记得 …
Continue Readinggdc-client
引言 之前一直用别的方法下载数据,这次使用了gdc-client命令行去下载GDC上TCGA driver gene mutation的一批数据。 步骤 1. 找到自己需要的数据 这是我本次要下载的数据 点击数据下载地址发现出现如下界面,其中id就是使用gdc-client下载的文件对应的id 对 …
Continue Readinghugo主题增加valine评论功能_test
步骤 1. 配置Leancloud 这部分详细参考:hugo博客添加评论系统Valine 2. 更改 comments.html 文件 将整体内容替换成如下代码: <!-- valine change from origin code--> {{- if .
Continue Readinghugo增加TOC
引言 根据hugo-future-imperfect-slim主题中issue提到的TOC更改版本,改进后进行配置应用。 步骤 1. 更改 config.html 文件 在[params] 内容下加入以下参数: toc = true # 默认显示toc tocWords = 400 #超过400 …
Continue Reading博客优化计划
引言 分为功能改进、美观改进。 1. 博客功能改进 个人博客归档(已完成) date的时间更换成自动化填充,每次手动填写很麻烦 搜索中文优化,目前速度较慢 更改归档页面时间0001
Continue Readinghugo博客配置归档页面
引言 hugo没有自带的归档设置,需要手动添加。 操作步骤 在taozy_blog/layouts/_default/目录下创建 archives.html 文件 将taozy_blog/layouts/_default/目录下的 single.html …
Continue ReadingERROR: Could not find a version that satisfies the requirement torch==1.5.1
引言 为了在集群上跑1000个模拟样本的SigprofilerExtractor工具,在集群上自己新建的环境里安装,解决安装bug,并成功使用。 解决bug思路 发现依赖torch1.5.1版本 通过pip install安装失败 使用whl安装发现没有对应python3.9的版本 …
Continue ReadingExcel数字长度超13位尾号变0
引言 小雨毕业填各种表格,发现数字很长的时候会直接用0替代超长位数的数字,检索之后,给她解决了这个小问题。 操作方法 设置数字格式,在自定义中输入@ 重新输入可以发现已经可以了 参考资料: Excel数字长度超13位尾号变0或E+,教你这招只用一个0就能搞定
Continue Reading线程和进程
引言 看了一下廖雪峰的官方网站中对多线程和多进程的讲解,写的真是又简洁又明了,结合今天workshop中zk提到的并行计算,简单汇总写个学习笔记。 操作系统可以同时执行多任务,比如同时运行浏览器、QQ和word,CPU执行代码是按照顺序一条条的执行。 操作系统执行多任务是让CPU对多个任务轮流进行交 …
Continue Readingp值
介绍 p值的含义 假设存在药物A和药物B,想知道两种药物的区别? 维基百科定义:p值是假设检验中假设零假设为真时观测到至少与实际观测样本相同极端的样本的概率(似乎很拗口)。 p值是介于0-1之间的数字,量化我们相信两种药物不同的信心,p值越接近0,越相信两者不同。当p的阈值为0.05意味着, …
Continue Reading使用CIBERSORTx网页版分析免疫浸润
前言
最近需要对TCGA和PCAWG的表达数据进行免疫浸润水平分析,使用了R包immunedeconv,其中TCGA已经有文献的supplement给出了不同免疫浸润工具进行分析的结果,PCAWG需要自己手动分析,其中CIBERSORT在immunedeconv包中运行需要两个文件:LM22.txt …
逻辑回归
引言 线性回归 假设数据包含 尺寸 和 重量 两组,根据这两组数据用 最小二乘法 拟合一条线后,我们可以做如下的事情: 计算r平方来确定两个变量是否相关 计算p值确定R平方是否具有统计显著性
Continue Reading使用Latex写论文
前言
最近写文章的时候,发现修改时调整参考文献的引用,是一件非常麻烦的事情,于是找到了一种简便的方法进行调整,发现了用Latex写论文原来这么好用(据涛哥和翔哥说,word也可以自动调整引用文献顺序,而我一直不知道…)。
Continue ReadingHugo+Github+阿里云域名搭建个人博客(附Netlify部署方法)
前言
最近师兄和涛哥都分享了这个流程:如何使用了R包blogdown搭建个人博客,但是我和轩哥在使用的过程中发现一个小问题,有一些主题似乎并不能很好的被blogdown安装的hugo来应用,几番求解无果,暂时将这个问题搁置,因为太喜欢这个theme不想放弃,所以找了一种不用blogdown的方法去搭 …
Continue ReadingElements That You Can Use To Create A New Post On This Template.
Heading example Here is example of hedings. You can use this heading by following markdownify rules.
Continue Reading