Showing items from 生信

检测拷贝数变异的工具及算法【2】-ABSOLUTE

背景介绍 1. 获取绝对拷贝数数值的难点 (1)采样过程中癌细胞混合了未知比例的正常细胞——肿瘤纯度; (2)由于染色体数量和结构异常导致的癌细胞的实际DNA含量(倍性)是未知的; (3)由于正在进行的亚克隆进化,癌细胞群可能是异质性的。 理论上,如果知道每个肿瘤细胞中DNA的含量,则可通过测得的相 …

Continue Reading

潜在语义分析(LSA)

引言 潜在语义分析(Latent sematic analysis, LSA)是一种无监督的学习方法。特点是通过矩阵分解来完成,使用的是非概率的话题分析模型,可以通过奇异值分解的方法进行矩阵因子分解,特点是分解的矩阵正交,非负矩阵分解是另一种矩阵的因子分解方法,特点是分解的矩阵非负。 1. 单词向量 …

Continue Reading

隐马尔可夫模型(HMM)

引言 1. 马尔可夫模型的基本概念 来对2段氨基酸序列x和y进行残基比对,认为存在3种比对关系的状态: M:残基能够比对上但不一定相等 X:序列x的残基比对到1个空位,或x上发生了1次插入 Y:序列y的残基比对到1个空位,或y上发生了1次插入 序列比对就是在上述3个状态中不断转换的过程: \( …

Continue Reading

synapser

引言 一个提供批量下载Synapser数据的R包。 1. 登陆 synLogin("baomihai@sina.com","******") Welcome, baomihai@sina.com!NULL 参考 biostars-How to install …

Continue Reading

gdc-client

引言 之前一直用别的方法下载数据,这次使用了gdc-client命令行去下载GDC上TCGA driver gene mutation的一批数据。 步骤 1. 找到自己需要的数据 这是我本次要下载的数据 点击数据下载地址发现出现如下界面,其中id就是使用gdc-client下载的文件对应的id 对 …

Continue Reading