导图社区 生物信息学
生物信息学基本内容的思维导图,主要内容有绪论、生物信息数据库与序列获取、序列比对与序列分析、基因组学与蛋白质组学等。
编辑于2022-10-23 20:48:19 宁夏回族自治区生物信息学
绪论
HGP(人类基因组计划)
1985年率先提出的,旨在阐明人类基因组30亿个碱基对的序列,发现所有人类基因并搞清其在染色体上的位置,破译人类全部遗传信息,使人类第一次在分子水平上全面地认识自我。 1990年正式启动,这一价值30亿美元的计划的目标是,为30亿个碱基对构成的人类基因组精确测序,从而最终弄清楚每种基因制造的蛋白质及其作用。 2000年6月26日是人类历史上值得纪念的一天。来自科技部和中国科学院的消息说,人类基因组的工作草图已经绘制完毕并于今天向全世界公布。
研究任务
人类基因组测序
研究内容
遗传图谱(连锁图谱)
物理图谱
序列图谱
基因图谱(转录图谱)
HGP遗传标记方法
第一代标记
经典的遗传标记(蛋白质和免疫学的标记)
70年代中后期,限制酶片段长度多态性(RFLP)
第二代标记
85年,“小卫星序列”
89年,“微卫星序列”
第三代标记
单核苷酸多态性标记(SNP)
意义
生命科学的“登月计划” 对生物学研究的贡献 人类疾病基因研究的贡献 对医学的贡献 对生物技术的贡献 对制药工业的贡献 HGP对社会经济的重要影响
生物信息数据库与序列获取
分析生物信息数据库
基因组数据库 核酸和蛋白质一级结构数据库 生物大分子(主要是蛋白质)三维空间结构数据库 上述3类数据库和文献资料为基础构建的二级数据库
一级数据库
数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释
一级核酸数据库
EMBL
Genbank
DDBJ
一级蛋白质序列数据库
SWISS-PORT
PIR
一级蛋白质结构数据库
PDB
二级数据库
对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立
人类基因组图谱库GDB
蛋白质结构分类数据库SCOP,CATH
蛋白质序列功能位点数据库Prosite
生物数据存储格式
FASTA sequence format
描述行 “>”分隔符 一般50-100个字符每行 没有标准的扩展名
说明3点: 序列文件的第一行是由大于符号(>)打头的任意文字说明,主要为标记序列用。 从第二行开始是序列本身,标准核苷酸符号或氨基酸单字母符号。通常核苷酸符号大小写均可,而氨基酸一般用大写字母。 文件中和每一行都不要超过80个字符(通常60个字符)。
FASTQ sequence format
与fasta格式类似 一条序列一般占用四行 序列和质量值各占一行
组成序列信息字符串的符号必须为标准的国际生物化学联合会 (IUB)/国际纯粹与应用化学联合会 (IUPAC) 氨基酸或核苷酸的符号符号的大小写同义,单个“连字符”表示一个空位 不清楚的核苷酸残基用N表示,不确定的氨基酸残基用X表示 标题行的名称是用户自定义的,可以是汉字,也可以是英文
GenBank格式
每个条目都是一份纯文本文件。每行左端或为空格或为识别字,识别字均为完整英文字,不用缩写。
1)头部包含关于整个序列的信息(描述字符),从 LOCUS行到ORIGIN行; 2)注释这一序列的特性(Feature Table ),为注释的核心部分; 3)序列本身(Sequence)。
所有的核苷酸数据库记录(EMBL/GenBank/DDBJ)都在最后一行以//结尾。
序列详细注释的EMBL格式
序列比对与序列分析
定义
相似性:是指两个序列之间的相关程度。比如说,A序列和B序列的相似性是85%。这是个量化的关系
序列相似不一定同源(相似可能是偶然的) 序列不相似不一定不同源(高级结构相似) 一般来说序列间的相似性越高的话,它们是同源序列的可能性就越大,所以经常可以通过序列的相似性来推测序列是否同源(统计学推断)。 根据经验法则,序列长度大于100(bp或aa)时,蛋白质序列相似性程度需大于25%,核酸序列相似性程度需大于70%,才能判断同源性。
同源性:是指两个序列具有共同的祖先,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为85%则是不科学的。
同源序列的两种形式代表了两个不同的进化事件。 用于分子进化分析的序列必须是直系同源的,才能真实反映进化过程。
直系同源:在物种形成、分化过程中,由共同祖先基因衍生而来的同源基因(或蛋白)。直系同源物存在于不同物种间
旁系同源:在同一物种内,由于基因复制而产生的同源基因(或蛋白)
比对(联配):将两条或多条(核苷酸或氨基酸)序列排列在一起,通过一定的算法找出序列之间最大相似性匹配的过程
双序列比对
全局比对:对两条核苷酸或氨基酸序列的全长进行比对
局部比对:对两条核苷酸或氨基酸序列的一部分进行比对
局部比对通常比全局比对更有意义 因为它能发现序列中的保守区域
多序列比对:3条或3条以上的序列进行比对
一致度:如果两个序列(蛋白质或核酸)长度相同,那么他们的一致度定义为他们对应位置上相同的残基数目占总长度的百分比
相似度:如果两个序列(蛋白质或核酸)长度相同,那么他们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分比
目的
阐明序列之间的同源性关系,以及从已知序列预测新序列的结构和功能。多序列比对还可以确定一群分子之间共享的结构域(domain)或模体(motif)。
序列比对的用途
基因预测
分析基因或蛋白质的功能
分析物种进化
检测突变、插入或缺失
序列延长
序列定位
基因表达谱分析
利用BLAST方法分析miRNA
分析RNA或DNA的二级结构
序列对位排列分析的基本原理
记分矩阵
记分矩阵中含有两条序列对位排列时具体使用的分值 长度一定时,分数越高,两条序列匹配越好
PAM矩阵(如PAM30、PAM70)
PAM比对的所有aa都用上了
亲缘关系较近时用PAM,关系较远时使用BLOSUM 最常用的是:BLOSUM-62
PAM1数据来源于实验,而PAM250则是PAM1自乘250次得到,用于表征远缘序列。
BLOSUM矩阵(如BLOSUM62、BLOSUM80)
根据比对的保守区块中aa的变化构建的(局部比对),所以更适合发现蛋白质的保守区块。
BLOSUM所有数据均来源于直接实验观察的结果,比如BLOSUM62源于60%左右同一性的基因家族成员之间的比对。BLOSUM80就是80%同一性。
序列对库对位排列分析
用待分析序列对数据库进行相似性分析
重复许多次的两两序列对位排列分析
从数据库中找出所有同源序列
序列比对算法
序列
就是字符串(string)s=abcdefghijklmnopqrstuvwxyz 通常用s i代表序列的第i个字符,比如 s4=d 通常用 s ’ 表示s 的子序列
方法
打点法(应用局限,相同片段) 全局比对的解决方案-(Needleman-Wunsch算法) 局部比对的解决方案-(Smith-Waterman算法) 多序列比对算法-ClustalW BLAST算法
动态规划算法
分类
全局动态规划算法
Needleman-Wunsch算法
用于发现两条序列的全局水平上的相似性
局部动态规划算法
Smith-Waterman算法
用于发现两条序列在局部水平上的相似性
步骤
计算得分矩阵
使用迭代方法计算出两序列的相似分值,存于一个得分矩阵中。(两种算法计算方法相同)
寻找最优的比对序列
根据第一步计算获得的得分矩阵,从最佳路径的终点根据上面的得分矩阵元素计算公式,利用回溯法寻找得到的路径就是一条最优路径,该路径代表了两条序列的最有比对结果。
在全局动态规划序列比对算法中,最佳路径的终点在最后一行最后一列的位置
在局部动态规划序列比对算法中,最佳路径的重点是在元素值最大的位置
特点
比对非常精确
运行时间长,不适合数据量庞大的序列数据库搜索
BLAST算法
采用短片段匹配算法和一种有效的统计模型来找出目标序列和数据库之间的最佳局部比对效果。基本思想是通过产生数量更少但质量更好的增强点来提高效率
步骤
编译一个由查询序列生成的长度固定的字段编译列表
在数据库中扫描获得与编译列表中的字段匹配的序列记录
以编译列表中的字段对为中心向两端延伸以寻找超过阈值分数S是的高分值片段对
特点
是一种近似算法,特点是速度快且比较精确,因此是一种常用的比对算法
动态规划算法适用于较少量序列之间的比对,而BLAST算法适用于从一组大量序列中搜索与查询相似的序列
应用
评价实验结果,为实验提供新思路指导进一步的实验设计(鉴定一条序列的身份,预测其功能) 寻找和鉴定新基因的重要手段 蛋白质结构预测和分子设计的基础(同源建模) 研究生物进化和种属分类的基本方法(系统发生分析) 比较基因组分析
BLAST
blastn用核苷酸序列检索核苷酸数据库
blastp用蛋白质序列检索蛋白质数据库
blastx将核苷酸序列通过6 种阅读框翻译成不同的蛋白质序列检索蛋白质数据库
tblastn用蛋白质序列检索核苷酸数据库(数据库中的序列被翻译出不同的蛋白质序列)
tblastx将核苷酸序列通过6 种阅读框翻译成不同的蛋白 质序列检索核苷酸数据库,数据库中的序列也被 翻译出不同的蛋白质序列,共进行36次数据库搜索
基本步骤
1. 选择一个BLAST搜索类型 2. 输入你要查询的序列 3. 选择要搜索的数据库 4. 选择可选参数
蛋白质
nr:非冗余GenBank编码序列+ RefSeq + PDB + SwissProt + PIR + PRF refseq:NCBI的蛋白质参考序列 swissprot:swissprot最近发布的蛋白质序列 pat:专利序列 pdb:pdb的蛋白质三维结构数据库 env_nr:非冗余的环境采样编码序列
核酸
nr :所有GenBank + EMBL + DDBJ + PDB refseq_mrna:NCBI的mRNA参考序列。 refseq_genomic: NCBI的基因组参考序列。 est :GenBank + EMBL + DDBJ的EST序列。 est_others:人类和小鼠以外的EST序列。 gss:基因组调查序列。 Htgs:高通量基因组测序序列。 pat :核酸专利序列。 Pdb:来自pdb的蛋白质三维结构序列数据 alu_repeats:Alu重复序列。 dbsts: GenBank+EMBL+DDBJ+PDB的STS序列。 chromosome:完整的基因组和染色体序列。 wgs:Whole Genome Shotgun,全基因组鸟枪法测序片段。 env_nt:环境采样序列。
期望值(E值)
一次搜索中(特定的数据库、打分矩阵及相关参数),期望发生的比对得分等于或大于某一分数的随机比对数目。
从一次BLAST实践来讲,如果我们将E值调低,则BLAST返回的搜索结果就会变少(假阳性减少,但假阴性增加);反之,将E值调高,则返回的搜索结果就会增多(假阴性减少,但假阳性增加)。 BLAST默认E值为10,也有文献建议通常情况下将E值设为1是一个比较好的平衡点。 (我们将在BLAST结果判读中继续讨论E值的含义)
多序列比对
目的意义
判断多个序列之间的亲缘关系
通过序列保守性判断功能域或者功能位点
算法
动态规划算法
渐进式算法
迭代算法
统计概率算法
核酸序列的基本分析内容
1、核酸序列的检索 2、核酸序列的比对 3、分子质量、碱基组成、碱基分布 4、序列转换 5、限制性酶切分析 6、搜索开放阅读框(ORF) 7、引物设计 8、载体序列的识别与去除
基因组学与蛋白质组学
组学
生物学中对各类研究对象(一般为生物分子)的集合所进行的系统性研究,例如,基因组学、蛋白质组学,和代谢物组学等,而这些研究对象的集合被称为组
基因组学
基因组学的基本研究方法和原理
基因组的DE NOVO组装 基因组的特征分析 真核生物基因组基因预测 比较基因组分析
基因组学是对生物体所有基因进行集体表征、定量研究及不同基因组比较研究的一门交叉生物学学科。 基因组学主要研究基因组的结构、功能、进化、定位和编辑等,以及它们对生物体的影响。
基因组特征分析
重复序列分析 串联重复序列(小卫星和微卫星序列)和散在重复序列(转座子序列) 推荐软件:RepeatMasker
SSR分析 也被称为微卫星序列,MISA软件可用于识别
非编码RNA分析 tRNAscan-SE 进行tRNA分析 RNAmmer 进行rRNA分析 Rfam 进行ncRNA分析
微生物次级代谢基因簇分析 次级代谢途径中生物合成酶的基因在染色体上成簇排列 推荐软件:antiSMASH
比较基因组分析
基因家族扩张收缩分析-CAFE
一般会使用OrthoMCL进行同源基因识别,然后选择直系同源基因进行物种树构建,最后使用CAFE对聚类结果进行基因家族的扩张和收缩分析
基因组共线性分析-MCSCANX
多基因组比较分析-MAUVE
Mauve可用于构建多个小型基因组的比对,可以解释进化关系,也能够快速有效分析基因组之间有无大片段序列重排现象,及基因组间共线性是否良好,以及是否存在局部共线区(LCBs),这些分析都为比较基因组学的研究和全基因组进化动力学的研究提供了基础
表观基因组学-甲基化
基本概念
在不影响DNA序列的情况下改变基因组的修饰,这种改变不仅可以影响个体的发育,而且还可以遗传下去。这种在基因组的水平上研究表观遗传修饰的领域被称为表观基因组学
技术途径
大规模并行测序技术为表观基因组学领域奠定了基础
表观基因组分析的关键方法
亚硝酸盐测序
胞嘧啶修饰是哺乳动物基因组的一个特点 全基因组水平的5-甲基-胞嘧啶修饰(5mC,又称DNA甲基化)及其氧化衍生物图谱绘制通常使用基于富集和转化的方法结合大规模并行测序来实现
染色质免疫沉淀测序(ChIP-Seq)
H3K27AC: 组蛋白H3上的第27位赖氨酸残基发生乙酰化,与较高的转录激活有关,因此被定义为活性增强子信号, H3K27ac在TSS(转录起始位点)的近端远端都有发现。 H3K27me3: 是组蛋白H3上的27位赖氨酸发生三甲基化,这种三甲基化通过形成异染色质区域下调附近基因。
全基因组水平的组蛋白修饰通常使用染色质免疫沉淀偶联大规模并行测序(ChIP-seq)来实现
测定开放染色质
基因组3D构象捕获
基因组
蛋白质编码基因注释
基于证据的注释 从头开始(ab initio)的基因预测 重新(de novo)基因预测
蛋白质编码基因特征
组成特征
高GC含量、密码子组成、六核苷酸组成和碱基出现
信号特征
核糖体结合位点、内含子供体和受体剪接位点、密码子、CpG岛等
RNA基因注释
RNA基因指不编码蛋白质的基因,又称非编码基因(ncRNA) Rfam数据库是最全面的RNA家族序列和比对信息数据库之一 多种算法交叉预测能有效获取ncRNA注释信息,常用软件:CPC\CPAT\CNCI
蛋白质组学
蛋白质组
PROTEins + genOME, 基因组表达的所有蛋白质 一个动态的概念,指的是不同细胞在不同时相表达不同的蛋白质
蛋白质组研究的基本单位
肽段
蛋白质组研究基本原理和方法
虚拟酶解
离子化
样品分子离子化后,根据不同离子间质核比(m/z)的差异来分离并确定分子量
质谱仪
进样装置、离子化源、质量分析器、离子检测器和数据分析系统组成
质量分析仪
飞行时间ToF 四级杆 离子阱 串联质谱法(串联MS)
质量计算
肽指纹图谱
搜库
定义
研究蛋白质组结构和功能的领域称为蛋白质组学
本质
在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平,翻译后的修饰,蛋白与蛋白相互作用等,由此获得蛋白质水平上的关于疾病发生,细胞代谢等过程的整体而全面的认识。是系统地研究生物学规律和机制的成熟并且有效的工具
研究内容
分析全部蛋白质组所有成分以及它们的数量;确定各种组分所在的空间位置、修饰方法、互作机制、生物活性和特定功能等
了解某种特定的细胞、组织或器官制造的蛋白质种类; 明确各种蛋白质分子是如何形成类似于电路的网络的; 描绘蛋白质的精确三维结构,揭示其结构上的关键部位,如与药物结合并且决定其活性的部位
核心内容
蛋白质组研究体系的建立、完善 与重要的生物学问题有关的功能蛋白质组研究
目的
从整体的角度分析细胞内动态变化的蛋白质组成成份、表达水平与修饰状态,了解蛋白质之间的相互作用与联系,揭示蛋白质功能与细胞生命活动规律
蛋白质组主要研究技术
双向电泳(鉴定技术) 质谱技术(定性/定量) 蛋白质芯片(高通量策略) 酵母双杂交(功能验证)
双向凝胶电泳
样品制备
包括蛋白质的溶解、变性及还原,从而去除非蛋白质杂质等
第一向等电聚焦
根据蛋白质电荷差异进行分离
第二向SDS-PAGE
以蛋白质分子量差异为基础
蛋白质的检测
用考马斯亮蓝、银染、铜染等方法
图谱数字化分析
图象扫描、确定每个蛋白质点的等电点和分子量,寻找差异蛋白
保存要求
液氮或者 -80℃ 保存 足量干冰运输,避免反复冻融
凝胶的图像处理分析和胶内酶切
凝胶图像的扫描 图像加工 斑点检测和定量 凝胶配比 数据分析 数据呈递和解释 2-DE数据库的建立
TMT 多肽体外标记技术
该技术采用了同位素标签,通过与肽段特异氨基酸位点相连实现不同来源的肽段标记,然后进行串联质谱分析,监测碎裂下来的标签实现肽段定量
一次实验可灵活比较最多16种(6标、10标)不同样本中蛋白质的相对含量
iTRAO
采用不同标签对不同来源的蛋白进行标记并利用质谱检测的标签强度对含量进行相对定量。不同的是标签的类型及数量。
iTRAQ最多只有10标,也就是说采用iTRAQ策略的蛋白质组学研究,一次最多只能上机10个样本
Label-free 蛋白质非标记定量技术
通过液质联用技术对蛋白质酶解肽段进行质谱分析,无需使用昂贵的稳定同位素标签做内部标准,只需分析大规模鉴定蛋白质时所产生的质谱数据,比较不同样品中相应肽段的信号强度,从而对肽段对应的蛋白质进行相对定量
DIA 数据非依赖采集
相比于传统label free的最大的优势在于高效测定复杂样品中相对低丰度的蛋白分子,极大地提高了定量分析的可信度
流程
送样
生物分子进化分析及分子网络分析
分子进化
研究目的
分子发生到系统发生:从物种的分子特性出发,从而了解物种之间的生物系统发生关系 分子进化到系统进化:从分子的演变模式出发,了解生物系统如何发生和进化
可行性
普适性
由4种核酸组成
分子水平的进化表现为:DNA序列的演化、氨基酸序列演化、蛋白质结构及功能的演化
可比较性
比较不同物种的有关DNA序列
建立DNA序列的演化模型、氨基酸序列的演化模型
蛋白质结构的演化模型
基因组包含丰富的编码信息
与形态、性状包含的信息相比,基因组序列、蛋白质序列包含更多、更复杂的信息结构
模式
DNA突变:替代,插入,缺失,倒位
核苷酸替代:转换 & 颠换
嘌呤和嘧啶相互替换称为颠换 嘌呤或嘧啶自己替换称为置换
置换发生的概率比颠换高
基因复制:多基因家族的产生以及伪基因的产生
单个基因复制 – 重组或者逆转录 染色体片断复制 基因组复制
特点
生物大分子进化速率的相对恒定性
分子进化速率 不同物种同源大分子的分子进化速率大体相同 分子进化速率远远比表型进化速率稳定
生物大分子进化的保守性
功能上重要的大分子或大分子的局部在进化速率上明显低于那些在功能上不重要的大分子或者大分子局部
作用
从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系 —— tree of life
物种分类
大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析
功能预测
进化速率分析
一些知识点
分子钟:物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系
至少某些生物大分子(如珠蛋白)的进化速率在相当长的地质时间内的相对稳定、均匀; 许多不同物种的多种同源大分子在相当长时间内的平均进化速率近似恒定
分子钟假说
分子钟假说认为DNA或蛋白质序列的进化速率随时间或进化谱系保持恒定。 化石数据是被用来校定分子钟的,即将序列间的距离转换成绝对地质时间和置换率。
中性与近中性理论(中性学说)
进化 = 遗传 + 变异 按照中性理论,我们今天观察到的遗传变异——无论是种内多态性还是中间分歧,均不取决于自然选择所驱动的有利突变的固定,而是取决于那些事实上没有适应效应(即中性的)突变的随机固定
分子系统发生树是基于不同物种里某一个基因或蛋白质序列之间的关系构建的。
一个分子树表达出来的各物种之间的关系就可能与物种树完全不同。
系统发生树
系统发生:(种系发生、系统发育)是指生物形成或进化的历史。系统发生研究的结果往往以系统发生树表示,用它描述物种之间的进化关系
种类
有根树,无根树
基因或生物体的系统发育关系常常用有根或无根的树形结构来表示
基因树,物种树
当一个系统发育树由来自各个物种的一个同源基因构建时,称为基因树
物种树是展示各物种进化关系的遗传发育树
期望树,现实树
一个用无限长的序列或每一分支的替代数的期望值构建的树称为期望树,建立在实际替代数基础上的树称为现实树,由所观察到的序列数据构建的树称为重建树
拓扑距离
两个不同的树之间的拓扑距离通常可以用序列分割的方法来测量
构建方法
距离法
适用于序列较高相似性时,包括UPGMA,LS,NJ
最大简约法(MP)
适用于序列相似性很高时
最大似然法(ML)
任何序列相关集合
贝叶斯法
任何序列相关集合
构建步骤
选择适合的分子序列 多序列比对 选择合适的建树方法 对进化树进行评估,主要采用Bootstrapping法
实现以上算法的软件分析包 MEGA、CLUSTAL和PHYLIP软件
结构
树系的末端代表现代生存得物种,称为顶结,也称为外结或顶端
树内的分支点叫内结
两结相连部分称为分枝或枝,也可称之为节或连接
达到并终止于顶结的枝叫周枝,未到达顶结的其他枝称为内枝
系统发育树的枝长表示进化距离的差异
分子网络分析
分子生物网络:是指生命系统中形态与功能上特化的细胞集团之间,以及各种生物大分子在组合上相互关联的结构形式
分子生物网络相互联系并跨越生命系统各层次,使生命运动呈现组织性、确定性、稳定性、协调性的功能
分子生物网络是生命系统细胞与细胞内、外环境之间进行物质、能量、信息转换的渠道
分子生物网络分析
基于复杂网络的技术研究分子生物网络的结构形式,分析各组分之间的调控关系、以及物质、能力、信息转换的渠道等
分子生物网络的分类
转录调控网络
转录后调控网络
蛋白互补网络
代谢网络
信号转导网络
表观遗传调控网络
基因转录调控网络
描述转录因子及其调控的基因之间的关系
有向图
正调控
负调控
转录后调控研究方法及数据库
网络的基本概念
网络定义 有向网络与无向网络 加权网络与等权网络 二分网络 网络中的路径与距离
网络定义:通常可以用图G=(V,E)表示网络
其中, V 是网络的节点集合,每个节点(Node)代表一个生物分子,或者一个环境刺激 E 是边(Edge)的集合,每条边代表节点之间的相互关系。 当V中的两个节点v1与v2之间存在一条属于E的边e1时,称边e1连接v1与v2,或者称v1连接于v2,也称作v2是v1的邻居
有向/无向网络定义
根据网络中的边是否具有方向性或者说连接一条边的两个节点是否存在顺序,网络可以分为有向网络与无向网络,边存在方向性,为有向网络,否则为无向网络。 生物分子网络的方向性取决于其所代表的关系。 如调控关系中转录因子与被调控基因之间是存在顺序关系的,因此转录调控网络是有向网络,而基因表达相关网络中的边代表的是两个基因在多个实验条件下的表达高相关性,因此是无向的
加权/无权网络定义
网络中的边在网络中具有不同意义或在某个属性上有不同的价值是网络中普遍存在的一种现象。 比如交通网中,连接两个城市(节点)的道路(边)一般具有不同的长度,而在互联网中两台直接相连的计算设备间通讯的速度也不尽相同。 权值是网络作用关系,包括节点或节点间的量化
如果网络中的每条边都赋予相应的数字,这个网络就称为加权网络,赋予的数字称为边的权重。 如果网络中各边之间没有区别,可以认为各边的权重相等,称为等权网络或无权网络。 权重可以用来描述节点间的距离、相关程度、稳定程度、容量等等各种信息,具体所代表的意义依赖于网络和边本身所代表的意义(生物学意义)
二分网络定义
如果网络中的节点可分为两个互不相交的集合,而所有的边都建立在来自不同集合的节点之间,则称这样的网络为二分网络
蛋白质互补网络
信号转导网络
网络拓扑属性
连通度(Degree计算) 聚类系数(Cluster分析) 介数 紧密度 拓扑系数 直径 平均距离 分布函数和连通度函数
连通度是描述单一节点的最基本的拓扑性质。节点v的连通度是指网络中直接与v相连的边的数目。 对于有向网络往往还要区分边的方向,由节点v发出的边的数目称为节点v的出度,指向节点v的边数则称为节点v的入度
网络数据结构
在计算机中,存储网络的数据结构有很多形式,其中最常用的是: 连接矩阵表示法和边列表表示法 为了完整系统地展示和分析基因间的共表达关系,可以构建基因表达相关网络。 利用基因表达谱计算表达相关矩阵选定阈值,获取显著相关的基因对构建基因表达相关网络
转录调控网络中的节点包括转录因子和受控基因,如果受控基因的产物也是转录因子,往往会将受控基因及其产物视为同一个节点。 由此,基因调控网络是一个有向网络,每条边由转录因子指向受控基因。 从重构的方式来看,基因调控网络包括基于原始数据的网络和基于表达数据的网络
系统发育树构建步骤
用于构建进化树的序列必须是同源序列
选择合适的分子序列
多序列比对
选择合适的建树方法
最大简约法MP):对所有可能的拓扑结构进行计算,找出所需替代数最小的那个拓扑结构,作为最优树。
序列比对
写出所有可能的树
分析信息位点
将每棵树的信息位点上的字符替换树相加,寻找最小替换的树
距离法:距离法又称距离矩阵法,首先通过各个序列之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。
非加权分组平均法(UPGMA)
首先通过两两比对,计算出遗传距离;然后对遗传距离进行合并,重新计算出遗传距离,并将其作为进化树的分枝长度;最后根据分枝长度绘制进化树。UPGMA主要适用于在基因替代速率恒定时,尤其是用基因频率数据来构建分子系统发育树时。该方法是建立在沿着树的所有分支的突变率相等的假设之上的,因此在不同分支间进化速率有较大差异或有同源序列的平行进化时常得出错误的拓扑结构。
邻接法(NJ)
邻接法(N)也是一种利用距离进行分子系统发育分析的方法,它由 Saitou和Ni在1987年首先提出。在构建系统发育树时,由于该方法取消了非加权分组平均法关于分子钟速率相等的假设,所以该方法在进化分支上允许发生趋异的次数可以不同,该方法通过确定距离最近(或相邻)的成对分类单元来使系统树的总长度尽可能达到最小。与非加权分组平均法相比,邻接法在算法上相对复杂,它跟踪的是树上的节点而不是分类单元。
最小进化法
最小二乘法
最小二乘法的基本思想是将成对距离矩阵作为给定数据,通过匹配那些尽可能近的距离来估计一棵树上的枝长,即对给定的和预测的距离差数的平方和最小化。预测距离是沿连接两个物种的通路的枝长总和计算的。距离差数平方和的最小值是树与距离相拟合的测度,它可以用作树的分值。
最大似然法(ML):最大似然法(ML) 最早应用于对基因频率数据的分析上。其原理为选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树。
选择一个进化模型
对于每个位置,生成所有可能的树结构
基于进化模型,计算这些树的似然性并对它们求和以获得每个OTU簇的列似然性。
通过乘以每个位置的可能性来计算树似然性
选择具有最大可能性的树
贝叶斯法
建立进化树
进化树评估
评估进化树的可靠性——自展法(bootstrapping method)
从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列
重复上面的过程,得到多组新的序列
对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性
建树方法比较
建树方法比较
最大简约法主要适用于序列相似性很高的情况
距离法在序列具有比较高的相似性时适用
最大似然法和贝叶斯法可用于任何相关的数据序列集合
距离法最快,其次时最大简约法和贝叶斯法,最后时最大似然法
蛋白质功能与结构分析
蛋白质结构组织层次
蛋白质结构特征
一级结构
是指多肽链的氨基酸残基的排列顺序,它是由氨基酸个体通过肽键共价连接而成。
二级结构
是指多肽链主链原子借助于氢键沿以为方向排列成具有周期性的结构构象,是多肽链局部的空间结构,主要有α螺旋、β折叠、β转角、无规卷曲等形式
超二级结构、结构域
是介于蛋白质二级结构与三级结构之间的空间结构
超二级结构是指相邻的二级结构单元组合在一起,彼此相互作用,排列形成规则的、在空间结构上能够辨认的二级结构组合体
结构域实在超二级结构的基础上形成的三级结构的局部折叠区,它是相对独立的紧密球状实体
三级结构
是指整条多肽链的三维结构,包括骨架和侧链在内的所有原子的空间排列。三级结构是在二级结构的基础上进一步盘绕、折叠,通过氨基酸侧链之间的疏水相互作用、氢键、范德瓦尔斯力和静电作用形成并维持的。
四级结构
是指亚基和亚基之间通过疏水作用等次级键结合成为有序排列的特定的空间结构。亚基通常由一条多肽链组成。构成四级结构的每条肽链称为一个亚基,亚基单独存在时没有生物学功能。
蛋白质结构的测定与理论预测
测定方法
X射线晶体衍射图谱法
核磁共振法
电子显微镜二维晶体三维重构
蛋白质结构比对
目的和意义
探索蛋白质进化及同源关系,特别是结构相似序列不相似的弱同源
改进序列比对的精度
对蛋白质结构预测提供帮助
为蛋白质结构分类提供依据
为一些以结构为基础的蛋白质供能注释方法提供帮助
基本原理
对两个蛋白质结构定义结构相似的部分
通过多次迭代策略来调整共同子结构,直到找出优化的结构比对,即找到两个蛋白质空间上最大的重叠部分
蛋白质结构预测
理论基础
蛋白质的高级结构主要由蛋白质一级结构决定
三级结构预测
同源建模法
基于蛋白质序列和结构的进化关系,即两个蛋白质如果有足够的序列相似性,则它们具有相似的空间结构
步骤
模板的选择
通常是通过BLAST对蛋白质结构数据库PDB的同源性搜索来实现
一般情况,序列和候选模板蛋白质具有30%以上的序列同一性是,候选模板较为合理
一些情况下,序列相似性较高,模板的同一性要求也可降低至25%左右
可选择最佳的一个模板(单模板同源建模),也可选择同一性排名前3~5名的蛋白质共同作为模板(多模板同源建模)
待测序列与模板序列的比对
模型的建立
模型的评估和循环精修
折叠识别法(穿线法)
蛋白质空间结构比序列更保守,即两个序列相似性很低的蛋白质有也可能存在很高的结构相似性
步骤
建立蛋白质结构模板数据库
设计合适的打分函数来衡量待测序列与模板数据库中结构的相容性
对打分函数得到的结果进行统计显著性分析
对结构模板数据库中通过计算得到的具有统计显著性的蛋白质结构排序,折叠式别方法一般会给出多个可能具有结构相似性的蛋白质结构模板
从头计算法
蛋白质的天然构象对应其能量最低的构想,通过构造合适的能量函数及优化方法,可以实现从蛋白质序列直接预测其三维结构
影响因素
能量立场的准确性 全局最低态的搜索
缺点
只能折叠小蛋白 计算时间长 预测精度较差 折叠beata-proteim是困难的
综合法
同时使用多种方法
二级结构预测
二级结构预测就是预测一个蛋白质序列中每个氨基酸所处的二级结构元件,及α螺旋,β折叠或无规卷曲
基本原理是通过对结构已经测定的蛋白质的序列及其二级结构对应关系的统计分析,学习和归纳出一些预测规则,用于待测蛋白质的二级结构预测。
Linux操作系统与R语言基础
Linux操作系统
核心思想
一切皆目录
特点
完全免费,自由和开放源代码 应用领域广(手机、路由器、平板电脑、超级计算机、个人计算机等) 多用户、多任务 安全性及可靠性好 具有优秀的开发工具 缺乏娱乐性
Vim编辑器使用
插入模式:i 复制/粘贴: ctrl / shift + insert 退出模式: esc 操作输入: shift +: 退出保存: wg 退出: q 命令模式下: set number 命令模式下:/字符串
任务
在hello.py里面写入print(“hello world”),保存并退出 执行python hello.py
Linux文件与目录管理
Linux命令基本格式: 命令一般有两部分组成: 命令名称+命令参数 命令和参数之间用空格隔开 有些命令必须要跟参数,有些不需要
$mkdir yourname #以自己的名字创建文件夹 $cp –r /home/tutorial/00.incipient_data/data_for_gene_prediction_and_RNA-seq/example.fastq ./ #拷贝data_for_gene_prediction_and_RNA-seq文件夹中的example.fastq文件到当前文件夹中 $cd ~ #进入自己的目录进行练习 $cd - #进入上一次目录[历史目录] $ls -lh #查看当前目录下的文件 $cat -n 5 #输出当前文前5行内容
文件压缩相关:tar、unrar、gzip、bzip2 系统权限相关:chgrp、chmod、chown 系统维护相关: mount、uname、fdisk 用户管理相关: useradd、passwd、su、logout
file 文件名或目录——显示文件或目录的类型
locate 字符串——查找绝对路径中包含指定字符串的文件(可用于定位程序命令和文件) # 新系统执行 yum install mlocate & updatedb
which 命令——确定程序的具体位置
find 路径 匹配表达式——查找文件所在的目录
匹配表达式: -name:指明要查找的文件名,支持通配符“*”和“?”。 -user username:查找文件的拥有者为username的文件。 -group grpname:查找文件的所属组为grpname的文件。
grep [参数] 要查找的字符串 文件名——查找文件中包含有指定字符串的行
参数选项: -num:输出匹配行前后各num行的内容。 -b:显示匹配查找条件的行距离文件开头有多少字节。 -c:显示文件中包含有指定字符串的行的个数,但不显示内容。
实用linux命令
备份有两种策略:完全备份和增量备份
tar [参数] 文件或目录名
参数选项: -c:创建一个新的文档。 -r:用于将文件附加到已存在的文档后面。 -u:仅仅添加比文档文件更新的文件,如原文档中不存在旧的文件,则追加它到文档中, 如存在则更新它。 -x:从文档文件中恢复被备份的文件。 -t:用于列出一个文档文件中的被备份出的文件名。 -z:用zip命令压缩或用unzip解压。 -f:使用档案文件或设备,这个选项通常是必选的。 -v:列出处理过程中的详细信息。 -C directory:把当前目录切换到directory。
R语言基础
数据类型与运算
常量
常量是指直接写在程序中的值 R语言基本的数据类型有数值型, 逻辑型(TRUE, FALSE),文本(字符串)。 支持缺失值,有专门的复数类型。
变量
变量是程序语言中用来保存输入的值或者计算得到的值 在R中,变量可以保存所有的数据类型, 比如标量、向量、矩阵、数据框、函数等。
R数据类型
从存储角度划分R数据对象
数值型、字符串型、逻辑型、复数型、raw型和缺省值
从结构角度划分R对象
向量、矩阵、数组、数据框、列表、因子
向量(vector):有相同基本类型元素组成的序列,相当于一维数组。 矩阵(matrix):将数据用行和列排列的长方形二维数据,其单元必须是相同的数据类型。 数组(array):既可以看作是有多个下标的且类型相同的元素的集合,也可以看做是向量和矩阵的推广,一维数组是向量,二维数组是矩阵。 因子(factor):分类型数据经常要把数据分成不同的水平或因子(factor),如性别包含男和女两个因子。 列表(list):向量、矩阵和数组的元素必须是同一类型的数据。如果一个数据对象需要含有不同的数据类型,则可以采用列表。 数据框(data frame):是一种矩阵形式的数据,但数据框中各列可以是不同类型的数据
R数据重塑
melt() :宽格式数据转化成长格式。 cast() :长格式数据转化成宽格式