导图社区 生物信息学
这是一篇关于生物信息学的思维导图,主要包含生物信息学,生物信息数据库及其应用,序列比对原理,基因识别与基因组分析等。
编辑于2022-03-22 11:34:00生物信息学
生物信息学
生物信息学是计算机与信息科学技术运用到生物科学,尤其是分子生物学研究中的交叉学科
生物信息数据库及其应用
生物信息学的主要应用
数据库建设
数据库整合和数据挖掘
序列比对
基因序列注释
比较基因组学
基因和蛋白质的表达分析
生物芯片大规模功能表达谱的分析
蛋白质结构的预测
蛋白质与蛋白质相互作用
生物系统模拟
代谢网络建模分析
计算进化生物学
生物多样性研究
合成生物学
数据库类型
flat file format
将多个记录以特殊约定的分隔符进行区分,而每一个记录内的众多字段,也通过特定的分隔符进行区分。不包含隐藏的计算机指令,纯文本文件构成。想要在平面文件格式的数据库中检索某一类信息,计算机必须通读整个文件
主要优势在于其的通用性,还能被很多工具处理
XML
一个XML文件代表一个嵌套的信息树。书中的每一个节点能包含像一串子节点或者一些属性这样的数据。主节点用tags划分
数据库检索
Entrez
NCBI开发并维护
要求布尔操作符AND以大写形式输入
NOT和OR不做要求,但最好都大写输入
专门的检索工具
Omictools
社区型生物信息平台,可进行评价,可提交新的数据库后软件
DATO
规模最大的生物信息学数据库在线查询平台,整合了期刊质量,引用数量,访问情况等信息
一级数据库Primary Databases
档案数据库,库中的主要内容是来源于实验室操作所得到的原始数据结果,包含一些基本的说明
Genbank
EMBL
DDBJ
PDB
二级数据库Derivative Databases
在一级数据库的信息基础上进行了计算加工处理并增加了许多人为的注释而构成的
RefSeq
Uniprot下属的KnowledgeBase数据库(包含Swiss-Prot和TrEMBL
核酸数据库
三大数据库
Genbank
Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的
EMBL
由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,查询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。
DDBJ
日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。使用其主页上提供的SRS工具进行数据检索和序列分析。
Ensembl
收入了各种动物的基因组,特别是离人类比较近的脊椎动物的基因组
蛋白质数据库
蛋白质序列数据库
Uniprot
SwissProt:来源于实验的有详细注释的序列
TrEMBL:自动注释序列
PIR
蛋白质序列数据库(iProClass)
蛋白质序列分类数据库(PIRSF)
PRF
已发表在杂志上的蛋白质序列 修饰位点、S-S键等
PDBSTR
蛋白质序列和二级结构 α碳结构
Prosite
蛋白质家族 结构域
蛋白质结构数据库
PDB
Pfam
蛋白质结构域家族
Cath
CATH这个数据库的名字C、A、T、H 是数据库中四种结构分类层次的首字母。 CLASS:全α型,全β型,α +β型,低二级结构型; Architecture:按照螺旋和折叠所形成的超二级结构排列方式分类; Topology:根据二级结构的形状和二级结构间的联系进行分类; Homologous superfamily:通过序列比较以及结构比较确定同源性分类;
蛋白质结构分类数据库
SCOP2
Class:是基于二级结构成分分类; Fold:主要考虑结构的空间几何关系; Superfamily:基于远源的蛋白质进化关系分类; Family:基于近源的蛋白质进化关系分类
蛋白质结构分类数据库
PDIdb
DNA-蛋白质复合体的X 射线衍射结构及分类
蛋白质互作数据库
BioGRID
DIP
STRING
IntAct
专用数据库
代谢数据库
KEGG
各种代谢、遗传等路径图 可检索参于各种路径的基因
MetaboLights
代谢组学数据库 可检索特定物种的代谢物质
启动子数据库
PlantProm(plant promoter database)
植物启动子数据库(水稻、拟南芥) 部分收集数据的转录起始位点(TSS)通过实验确定,其他的有全长cDNA序列支持 包括部分顺式作用元件(cis-element)信息 可以完整下载
序列比对原理
一些定义
同源(Homologs):指遗传上来自于某一共同祖先DNA序列的基因
直系同源(Orthologs): 不同物种内的同源序列,他们来自于物种形成时的共同祖先基因。
旁系同源(Paralogs ): 同一物种内由于基因复制、分离产生的同源序列。
相似性(similarity):两序列间直接的数量关系,如部分相同、相似的百分比
同一性(identity):两序列在同一位点和核苷酸或氨基酸残基完全相同的序列比例
同源性(homology):来自共同祖先经趋异进化而形成的不同序列。一种序列相关性的定性描述.序列可以是同源或者不同源,不能介于两者之间.
序列比对(sequence alignmen):运用某种特定的数学模型或算法,找出两个或多个序列之间的最大匹配碱基或残基数,比对的结果反映了算法在多大程度上提供序列之间的相似性关系及它们的生物学特征。
双序列比对
全局比对:考虑序列的全局相似性
局部比对:考虑序列片段之间的相似性
多序列比对
多序列比对:就是对多条序列插入空位,使得插入空位后的全局比对结果具有相同的长度,并且比对结果中不能出现一列全为空位
fasta
第一行大于号“>”开头,后面紧跟注释信息,第二行之后是纯序列
序列比对的用途
基因预测
分析基因或蛋白质的功能
分析物种进化
检测突变、插入或缺失
序列延长
序列定位
基因表达谱分析
利用BLAST方法分析miRNA
分析RNA或DNA的二级结构
序列对位排列分析的基本原理
嘌呤和嘧啶相互替换称为颠换 嘌呤或嘧啶自己替换称为置换
置换发生的概率比颠换高
记分矩阵(scoring matrix)
记分矩阵中含有两条序列对位排列时具体使用的分值 长度一定时,分数越高,两条序列匹配越好
PAM矩阵(如PAM30、PAM70)
PAM比对的所有aa都用上了
PAM1数据来源于实验,而PAM250则是PAM1自乘250次得到,用于表征远缘序列。
BLOSUM矩阵(如BLOSUM62、BLOSUM80)
根据比对的保守区块中aa的变化构建的(局部比对),所以更适合发现蛋白质的保守区块。
BLOSUM所有数据均来源于直接实验观察的结果,比如BLOSUM62源于60%左右同一性的基因家族成员之间的比对。BLOSUM80就是80%同一性。
空位(间隔)罚分(gap penalty):每插入一个空位救在总分值中减去一定的分值。
空位开放(gap opening)
空位延伸(gap extension)
序列对库对位排列分析
用待分析序列对数据库进行相似性分析
重复许多次的两两序列对位排列分析
从数据库中找出所有同源序列
Alignment score 和E (expect) value
(bits) Score: 分值越大,两个比较序列相似程度越高
E value: 期望得到的、完全由机会造成的、相当于或大于目 前分值的alignment 次数
Blast中E的阈值为10。1e -66 = 1 ×10-66E 值越小越好
序列比对算法
dotplot算法
流程
构建点阵矩阵
将两条序列的碱基(或残基)分别沿x轴和y轴排列,依次比较两条序列的每个碱基(或残基),如果两个碱基(或残基)相同则在矩阵中填充点,这样就形成一个点阵矩阵
获得相似性片段
在点阵矩阵中,将位于对角线方向上相邻的点连接起来,这些直线所对应的矩阵区域就是这两条序列的相似性片段。
算法特点:获得的相似性片段实际上是相同片段,而且该算法不能提供相似片段在统计学意义上的相似性
动态规划算法

分类
全局动态规划算法
Needleman-Wunsch算法
用于发现两条序列的全局水平上的相似性
局部动态规划算法
Smith-Waterman算法
用于发现两条序列在局部水平上的相似性
步骤
计算得分矩阵
使用迭代方法计算出两序列的相似分值,存于一个得分矩阵中。(两种算法计算方法相同)
寻找最优的比对序列
根据第一步计算获得的得分矩阵,从最佳路径的终点根据上面的得分矩阵元素计算公式,利用回溯法寻找得到的路径就是一条最优路径,该路径代表了两条序列的最有比对结果。
在全局动态规划序列比对算法中,最佳路径的终点在最后一行最后一列的位置
在局部动态规划序列比对算法中,最佳路径的重点是在元素值最大的位置
特点
比对非常精确
运行时间长,不适合数据量庞大的序列数据库搜索
blast算法
采用短片段匹配算法和一种有效的统计模型来找出目标序列和数据库之间的最佳局部比对效果。基本思想是通过产生数量更少但质量更好的增强点来提高速度
步骤
编译一个由查询序列生成的长度固定的字段编译列表
在数据库中扫描获得与编译列表中的字段匹配的序列记录
以编译列表中的字段对为中心向两端延伸以寻找超过阈值分数S是的高分值片段对
特点
是一种近似算法,特点是速度快且比较精确,因此是一种常用的比对算法
动态规划算法适用于较少量序列之间的比对,而BLAST算法适用于从一组大量序列中搜索与查询相似的序列
BLAST
blastn用核苷酸序列检索核苷酸数据库
blastp用蛋白质序列检索蛋白质数据库
blastx将核苷酸序列通过6 种阅读框翻译成不同的蛋白质序列检索蛋白质数据库
tblastn用蛋白质序列检索核苷酸数据库(数据库中的序列被翻译出不同的蛋白质序列)
tblastx将核苷酸序列通过6 种阅读框翻译成不同的蛋白 质序列检索核苷酸数据库,数据库中的序列也被 翻译出不同的蛋白质序列,共进行36次数据库搜索
PSI-BLAST
位点特异性迭代blast
用于寻找远缘相关的蛋白质序列,对于蛋白质的相似序列的寻找比常规blast更敏感
比对步骤
①用blastp在目标数据库中进行比对搜索
②从第一步获得的结果构建多序列比对,根据多序列比对构建一个位点特异性矩阵PSSM
③用第二步获得的PSSM矩阵再一次搜索目标数据库
④位点特异性反复比对后用缺失比对的参数检验每个匹配的统计显著性
⑤反复致性②~④,一般重复5次,当新的结果不再出现或者程序明确指出不会再有新的结果出现,可以停止比对循环
PHI-BLAST
模式识别BLAST
能找到与查询序列相似的符合某种模式的蛋白质序列
例如,有一个人类视黄醇结合蛋白rbp4,到数据库中寻找符合模式GXW[YF][EA][IVLM]的相似蛋白质序列
MEGABLAST
快速的局部核酸序列比对工具,适用于基因预测、发现、和分析单核苷酸多肽性等方面的工作
MEGABLATA可以有效地识别相似性比较高的序列,对于相似性达到95%以上的序列比对搜索结果,是一种比blastn更为快速而准确的比对工具
例如,党Word size值设到16或以上时,MEGABLAST比blastn快10倍,可以接受成批序列的数据库搜索任务
Primer-BLAST
设计PCR引物
分析引物特异性
多序列比对
目的意义
判断多个序列之间的亲缘关系
通过序列保守性判断功能域或者功能位点
算法
动态规划算法
渐进式算法
迭代算法
统计概率算法
工具
ClustalX/W工具
采用渐进式多序列比对算法
ClustalX具有图形界面,ClustalW是文本界面
使用步骤
加载要比对的序列文件
多序列比对
比对结果输出
T-Coffee工具
一种核酸或氨基酸的多序列比对工具,但更适合蛋白质序列比对
过程通常分为 生成基本信息库、扩展库、生成指导树、渐进式比对
与Clustal相比,增加了序列位置等信息,使用更方便
比Clustal准确率和敏感性更高,但速度较慢。在对相似性较高的相关序列比对中,T-Coffee选择快速模式可以比Clustal速度更快
MultAlin
启发式聚类
MAFFT
非常快速
基于快速傅里叶变换
基因识别与基因组分析
基因预测和基因结构分析
基因预测:是指基因结构预测,主要是预测DNA序列种编码蛋白质的区域,还包括启动子、剪切位点等区域的预测
生物信息学中的重要内容之一
预测编码蛋白质的基因( Protein coding gene
预测非编码 RNA 基因( Non coding RNA gene
基因预测的基本分析内容
排除重复序列 http://www.repeatmasker.org/
确定基因的结构
开放阅读框( open reading frame, ORF
基因的调控区-启动子
基因预测的基本方法
序列相似性搜索 (Extrinsic Approaches
根据模式序列预测基因 Ab initio Approaches)
目前还没有一个基因预测工具可以完全正确地预测一个基因组中的所有基因 不同的基因预测软件分析结果有差异 综合多个基因预测软件的分析结果 分析工具需要能识别基因的不同结构 exon, poly A, promoter 重复序列
利用比较基因组预测基因(Comparative Genomics Approaches
结合模式法和同源序列法
亲缘关系相近生物的基因序列具有保守性
基因预测存在主要问题
假阳性( False Positive ):多预测了假的编码区即在非编码区预测出基
假阴性( False Negative ):漏掉了真实的编码区即将基因预测为非编码区
过界预测( Over Prediction ):由于基因边界很难准确定位,预测经常会超过实际边界
片段化( Fragmentation ):内含子太大的基因,在预测时容易断裂成两个或多个基因
融合化( Fusion ):距离过近的两个或多个基因,在预测时容易被融合成一个很大的基因
基因精细结构分析
转录起始位点
NNPP
启动子位点
Promoter 2.0 Prediction Server
转录因子结合位点
JASPAR
PROSCAN
非编码RNA 基因预测
miRNA 靶基因预测
miRDB
miRecords:主要预测动物 miRNA 靶基因
TargetRNA2:只能预测细菌 sRNA 靶基因
WMD3:主要用于预测植物 miRNA 靶基因
基因表达调控
DNA和染色体水平:基因丢失、基因修饰、基因重排、基因扩增、染色体结构变化。
转录水平调控:转录起始、延伸、终止均有影响.原核生物借助于操纵子,真核生物通过顺式作用元件和反式作用因子相互作用进行调控。
转录后水平调控:主要指真核生物原初转录产物经过加工成为成熟的mRNA,包括加帽、加尾、甲基化修饰等。
翻译水平调控:对mRNA稳定性的调控、反义RNA对翻译水平的调控等。
翻译后水平调控:蛋白质的剪切、化学修饰(磷酸化、乙酰化、糖基化等)、转运等。
mRNA降解的调控。
分子进化与系统发育
两个显著特点
生物大分子进化速率的相对恒定性
以核酸和蛋白质一级结构分子序列中的核苷酸或氨基酸的替换数作为进化改变量,进化时间以年为单位,生物大分子随时间的改变(即分子进化速率)几乎是恒定的
生物大分子进化的保守性
是指功能上重要的大分子或大分子的局部在进化速率上明显低于那些功能上不重要大分子或大分子局部
分子进化的两个基本假设条件
DNA、RNA 或蛋白质序列包含了物种的所有进化史信息。
分子钟理论:一个特定基因或蛋白质的进化变异速度在不同物种中是基本恒定的。
所谓变异速度是指一定时间内不同碱基或氨基酸突变的个数。这个进化变异速度被认为是恒定的,跟物种没有关系。
直系同源(Orthologs): 不同物种内的同源序列,他们来自于物种形成时的共同祖先基因。来自于不同物种的由垂直家系,也就是物种形成,进化而来的基因,并且典型的保留与原始基因相同的功能。
旁系同源(Paralogs ): 同一物种内由于基因复制、分离产生的同源序列。可能会进化出新的但与原功能相关的功能来。
异同源(Xenologs)是指通过水平基因转移,来源于共生或病毒侵染所产生的相似基因。异同源的产生不是垂直进化而来的,也不是平行复制产生的,而是由于原核生物与真核生物的接触,比如病毒感染,在跨度巨大的物种间跳跃转移产生的。
分子进化中性学说
分子进化的中性学说认为多数或绝大多数突变都是中性或近中性的,即无所谓有利或不利,自然选择对它们不起作用,因此对于这些中性突变不会发生自然选择与适者生存的情况。生物的进化主要是中性突变在自然群体中进行随机的“遗传漂变”的结果,而与选择无关,这些突变全靠一代又一代的随机漂变而被保存或趋于消失,从而形成分子水平上的进化性变化或种内变异。
基因组计划与分子进化
人类基因组计划(HGP)由美国科学家于1985年率先提出,1990年正式启动。
美国、英国、法国、德国、日本和中国科学家共同参与
子主题
物种树是基于每个物种或群体整体的进化关系,也就是基于整个基因组构建的。
系统发育树
用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树
有根树
使用一个或多个无可争议的同源物中作为“外群”(outgroup),这个外群要足够近,以提供足够的信息,但又不能太近,以致不能和树中的种类相混
无根树
把有根树去掉根即成为无根树
“无根”是指树系中代表时间上最早的部位(最早的共同祖先)不能确定,只反映分类单元之间的距离而不设计谁是谁的祖先的问题
结构
树系的末端代表现代生存得物种,称为顶结(terminal node),也称为外结(extermal node)或顶端(tip)
树内的分支点叫内结(internal node)
两结相连部分称为分枝或枝(branches),也可称之为节(segments)或连接(link)
达到并终止于顶结的枝叫周枝(peripheral branch),未到达顶结的其他枝称为内枝(interior branch)
系统发育树的枝长表示进化距离的差异
分子系统发生树是基于不同物种里某一个基因或蛋白质序列之间的关系构建的。
一个分子树表达出来的各物种之间的关系就可能与物种树完全不同。
系统发育树构建步骤
用于构建进化树的序列必须是同源序列
选择合适的分子序列
多序列比对
选择合适的建树方法
最大简约法(maximum parsimony, MP):对所有可能的拓扑结构进行计算,找出所需替代数最小的那个拓扑结构,作为最优树。
序列比对
写出所有可能的树
分析信息位点
将每棵树的信息位点上的字符替换树相加,寻找最小替换的树
距离法(distance):距离法又称距离矩阵法,首先通过各个序列之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。
非加权分组平均法(UPGMA)
首先通过两两比对,计算出遗传距离;然后对遗传距离进行合并,重新计算出遗传距离,并将其作为进化树的分枝长度;最后根据分枝长度绘制进化树。UPGMA主要适用于在基因替代速率恒定时,尤其是用基因频率数据来构建分子系统发育树时。该方法是建立在沿着树的所有分支的突变率相等的假设之上的,因此在不同分支间进化速率有较大差异或有同源序列的平行进化时常得出错误的拓扑结构。
邻接法(Neighbor-joining, NJ)
邻接法( neighbor joining method,N)也是一种利用距离进行分子系统发育分析的方法,它由 Saitou和Ni在1987年首先提出。在构建系统发育树时,由于该方法取消了非加权分组平均法关于分子钟速率相等的假设,所以该方法在进化分支上允许发生趋异的次数可以不同,该方法通过确定距离最近(或相邻)的成对分类单元来使系统树的总长度尽可能达到最小。与非加权分组平均法相比,邻接法在算法上相对复杂,它跟踪的是树上的节点而不是分类单元。
最小进化法(minimum evolution)
最小二乘法
最小二乘法的基本思想是将成对距离矩阵作为给定数据,通过匹配那些尽可能近的距离来估计一棵树上的枝长,即对给定的和预测的距离差数的平方和最小化。预测距离是沿连接两个物种的通路的枝长总和计算的。距离差数平方和的最小值是树与距离相拟合的测度,它可以用作树的分值。
最大似然法(maximum likelihood, ML):最大似然法(ML) 最早应用于对基因频率数据的分析上。其原理为选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树。
选择一个进化模型
对于每个位置,生成所有可能的树结构
基于进化模型,计算这些树的似然性并对它们求和以获得每个OTU簇的列似然性。
通过乘以每个位置的可能性来计算树似然性
选择具有最大可能性的树
贝叶斯法 (Bayesian inference)
建立进化树
进化树评估
评估进化树的可靠性——自展法(bootstrapping method)
从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列
重复上面的过程,得到多组新的序列
对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性
建树方法比较
建树方法比较
最大简约法主要适用于序列相似性很高的情况
距离法在序列具有比较高的相似性时适用
最大似然法和贝叶斯法可用于任何相关的数据序列集合
距离法最快,其次时最大简约法和贝叶斯法,最后时最大似然法
分子进化分析软件
PHYLIP 免费的集成进化分析工具 PAUP 商业软件,集成的进化分析工具 MEGA 免费的图形化集成进化分析工具,最新版包括了ML PHYML 最快的ML建树工具 PAML ML建树工具 Tree-puzzle 较快的ML建树工具 MrBayes 基于贝叶斯方法的建树工具
蛋白质功能与结构分析
蛋白质结构组织层次
蛋白质结构特征
一级结构
是指多肽链的氨基酸残基的排列顺序,它是由氨基酸个体通过肽键共价连接而成。
二级结构
是指多肽链主链原子借助于氢键沿以为方向排列成具有周期性的结构构象,是多肽链局部的空间结构,主要有α螺旋、β折叠、β转角、无规卷曲等形式
超二级结构、结构域
是介于蛋白质二级结构与三级结构之间的空间结构
超二级结构是指相邻的二级结构单元组合在一起,彼此相互作用,排列形成规则的、在空间结构上能够辨认的二级结构组合体
结构域实在超二级结构的基础上形成的三级结构的局部折叠区,它是相对独立的紧密球状实体
三级结构
是指整条多肽链的三维结构,包括骨架和侧链在内的所有原子的空间排列。三级结构是在二级结构的基础上进一步盘绕、折叠,通过氨基酸侧链之间的疏水相互作用、氢键、范德瓦尔斯力和静电作用形成并维持的。
四级结构
是指亚基和亚基之间通过疏水作用等次级键结合成为有序排列的特定的空间结构。亚基通常由一条多肽链组成。构成四级结构的每条肽链称为一个亚基,亚基单独存在时没有生物学功能。
蛋白质结构分类系统
SCOP2
课本64页
CATH
子主题
蛋白质结构的测定与理论预测
测定方法
X射线晶体衍射图谱法
核磁共振法
电子显微镜二维晶体三维重构
蛋白质结构比对
目的和意义
探索蛋白质进化及同源关系,特别是结构相似序列不相似的弱同源
改进序列比对的精度
对蛋白质结构预测提供帮助
为蛋白质结构分类提供依据
为一些以结构为基础的蛋白质供能注释方法提供帮助
基本原理
对两个蛋白质结构定义结构相似的部分
通过多次迭代策略来调整共同子结构,直到找出优化的结构比对,即找到两个蛋白质空间上最大的重叠部分
常用结构比对方法
CE
分子内距离比较方法,采用最优路径扩张的策略
DALI
分子内距离比较方法
TM-align
类似于分子间距离比较方法的动态规划
STRUCTURAL
采用分子间距离的方法
SSM
分子间距离
蛋白质结构预测
理论基础
蛋白质的高级结构主要由蛋白质一级结构决定
三级结构预测
同源建模法
基于蛋白质序列和结构的进化关系,即两个蛋白质如果有足够的序列相似性,则它们具有相似的空间结构
步骤
模板的选择
通常是通过BLAST对蛋白质结构数据库PDB的同源性搜索来实现
一般情况,序列和候选模板蛋白质具有30%以上的序列同一性是,候选模板较为合理
一些情况下,序列相似性较高,模板的同一性要求也可降低至25%左右
可选择最佳的一个模板(单模板同源建模),也可选择同一性排名前3~5名的蛋白质共同作为模板(多模板同源建模)
待测序列与模板序列的比对
模型的建立
模型的评估和循环精修
折叠识别法(穿线法)
蛋白质空间结构比序列更保守,即两个序列相似性很低的蛋白质有也可能存在很高的结构相似性
步骤
建立蛋白质结构模板数据库
设计合适的打分函数来衡量待测序列与模板数据库中结构的相容性
对打分函数得到的结果进行统计显著性分析
对结构模板数据库中通过计算得到的具有统计显著性的蛋白质结构排序,折叠式别方法一般会给出多个可能具有结构相似性的蛋白质结构模板
从头计算法
蛋白质的天然构象对应其能量最低的构想,通过构造合适的能量函数及优化方法,可以实现从蛋白质序列直接预测其三维结构
综合法
同时使用多种方法
二级结构预测
二级结构预测就是预测一个蛋白质序列中每个氨基酸所处的二级结构元件,及α螺旋,β折叠或无规卷曲
基本原理是通过对结构已经测定的蛋白质的序列及其二级结构对应关系的统计分析,学习和归纳出一些预测规则,用于待测蛋白质的二级结构预测。
选择何种方法
实际应用中,往往需要尝试多种方法,从中选择较为合适的
在PDB数据库中找到与待测蛋白质序列同一性≥30%的模板
是
全自动同源建模法
完成
否
折叠识别法
获得的模板质量高于“hign”
是
完成
否
待测蛋白质序列长度<200氨基酸
是
从头计算法
完成
否
综合法
完成
常用网址
Swiss-Model
同源建模
Fugue
折叠识别
QUARK
从头计算法
I-TASSER
综合法
PSIPRED
二级结构预测
蛋白质对接
利用计算机预测蛋白质的相互作用
蛋白质对接只能是在已知两个蛋白质有相互作用的前提下,用来预测它们在空间上是如何相互作用,而不能预测两个蛋白质是否有相互作用
分类
刚性对接
是指在计算过程中,参与对接的分子构象不发生变化,仅改变分子的空间位置与姿态
计算量相对较小,适合处理多数蛋白质结合的问题
半柔性对接
是指对接过程中仅指定的片段构象允许发生一定程度的变化,如某些氨基酸的骨架和侧链允许任意活动
兼顾计算量与模型的预测能力,是应用比较广泛的对接方法
柔性对接
是指在对接过程中允许整个研究体系的构象发生自由变化,由于变量随着体系的原子数呈几何级数增长,因此柔性对接的方法的计算量非常大
对接及分析软件
ZDOCK
刚性对接软件
GRAMMX
刚性对接软件
HADDOCK
半柔性对接软件
PDBePISA
在线的交互式分子相互作用探测分析工具
蛋白质折叠与疾病
80页
蛋白质折叠机制的理论模型
框架模型
疏水塌缩模型
扩散-碰撞-黏合机制
成核-凝聚-生长模型
拼版模型
分子伴侣
是一种能引导蛋白质正确折叠的蛋白质,它能够结合和稳定另一种蛋白质的不稳定构象,并能通过有控制的结合和释放,促进新生多肽链的折叠、多聚体的装配或降解及细胞器蛋白的跨膜运输。当蛋白质折叠时,它们能保护蛋白质分子免受其他因素的干扰
蛋白质组学
一个基因组、一种生物或一种细胞、组织所表达的全套蛋白质
蛋白质的大规模分离鉴定技术
蛋白质二维电泳-质谱技术
一维色谱-质谱技术
一维SDS-PAGE电泳(色谱)-质谱技术
二维色谱-质谱技术
液相色谱分离蛋白质和多肽的方法优点
速度快,一般几个小时可完成全部分离过程,而2-DE需要1~2d
由于在溶液状态下,样品处理方便、快速,避免了2-DE从胶上回收样品的繁复操作,分析过程易于自动化和与质谱联接
对各种蛋白质均适用,包括疏水性、酸性、碱性、分子质量大于100kDa、小于10kDa的蛋白质等
蛋白质分选
出线粒体和植物叶绿体能合成少量蛋白质外,绝大多数蛋白质均在细胞质基质中的核糖体上开始合成,然后运至细胞的特定部位,这一过程称蛋白质分选,也被称为蛋白质定向转运
SignalP
一个基于网络的亚细胞定位信号预测程序
TargetP
进行真核生物蛋白质亚细胞定位预测的程序
PSORT
最先采用了决策树的方法进行预测
蛋白质相互作用
利用实验鉴定蛋白质互作
X射线晶体衍射
核磁共振技术
可以精确地显示互作原子或残基之间的结构关系
酵母双杂交
只能检测出哪些蛋白质之间发生了互作,无法描述细节
亲和层析-质谱
能检测出参与形成复合物的多个蛋白质组分,但只能止步于组分鉴定阶段
荧光免疫
可以对蛋白质的细胞定位进行确定
蛋白质互作的预测
基于基因组信息的方法
邻接基因
基因/结构域融合事件
系统发育谱
镜像树
基于进化关系的方法
突变关联
保守的蛋白质相互作用
进化速率关联
基于蛋白质序列的从头预测的方法
基于蛋白质三维结构信息的方法
真核生物基因组的注释
蛋白质编码基因的注释
蛋白质编码基因的注释策略
基于证据的基因注释
根据已有的实验数据、表达序列标签和蛋白质序列进行蛋白质编码基因的注释
方法
顺式比对
反式比对
从头开始(db initio)的基因预测
只根据基因组的DNA序列对蛋白质编码基因进行预测
重新(de novo)基因预测
通过玉其他物种的基因组进行比较,从而预测一个新基因组种的蛋白质编码基因
蛋白质编码基因注释的整合信息
人工整合
将已有的预测结果提交给专家手工完成,高质量
自动整合
通过计算的方法自动整合
蛋白质编码基因的功能注释
序列相似性分析基于“同源=功能相似”的假设
将功能未知的基因与数据库中已知功能基因进行序列相似性比对,通过设立同源性指标寻找具有同源关系的已知基因,从而确定预测基因的功能
常用的数据库主要包括:NCBI的NT、NR、Uniprot、KEGG、KOG、InterPro等
RNA基因的注释
课本90页
重复序列的注释
假基因的注释
转录组学
转录本测定
EST
基因芯片
RNA-seq
比较
通量 最低RNA含量 参考基因组 定量精确度 灵敏度 动态范围
基因芯片 较高 约1ug 必需 约90% 10^-3 依赖于荧光信号 >10^5
RNA-seq 高 约1ng 非必需 约90% 10^-6 依赖于测序深度 10^3~10^4
利用RNA-seq解决生物学问题
差异表达分析
可变剪切
共表达网络
转录调控网络
功能分析
差异表达分析
聚类分析
富集分析
共表达网络
拓展分析
非编码RNA
134页
当前最常用的miRNA权威数据库是miRBase
子主题
生物网络建模与数据挖掘
系统生物学
是研究一个生物系统中所有组成成分的构成,以及在特定条件下这些组分间的相互关系的学科
生物还原论
为了研究生物系统某一方面的功能,只需寻找并鉴定出此功能直接相关的基因或蛋白质即可
生物综合论
研究基因和各种生物大分子是怎样通过网络调控方式形成一个生物系统的
系统生物学的基本工作框架
系统结构鉴定
系统结构鉴定首先是对选定的某一生物系统的所有组分进行了解和确定,描绘出该系统的结构,包括基因相互作用网络和代谢途径,以及细胞内和细胞间的作用机制,以此构造出一个初步的系统模型。 多细胞有机体机构的识别不仅需要鉴定基因调控网络、代谢网络的结构,还需要在细胞水平精确理解整个生物的物理结构。 这一步可以达到两个目的:描述统治系统行为的相互作用;精确预测给定扰动下系统的行为
系统行为分析
系统控制
系统设计
子主题
系统生物学基本技术与方法
测量技术
全面测量
系统生物学测量
定量的高通量测量技术
系统生物学实验方法
系统结构的鉴定
网络结构的鉴定
自下而上的方法
自上而下的方法
基因表达调控网络
基于DBRF方法从稳态基因表达数据推测基因网络
基于差异表达调控识别方法推测基因调节网络
从基因表达水平的差异推测可能的基因网络。首先通过野生型和突变型基因表达的差异,推测直接和间接的基因调控关系,然后去除间接调控关系
去除间接关系
找出它们之间是否有一条以上途径
检查这些途径的调控影响作用是否一样
假如影响作用一样,剪除冗余途径
网络模型
海胆cis-基因调控网络
反式逻辑定义蛋白质相互作用因子与它们控制的基因(或网络中其他转录因子)的相互作用。
顺式逻辑定义通过其状态(東缚或无東缚因子)产生特殊基因表达时空模式的启动子序列之间的精确关系。
这两类网络均有输入和输出,输入可能是来自信号转导途径,输出(核RNA浓度)表示许多转录后调控水平(RNA加工、RNA可变剪接、蛋白质加工和蛋白质化学修饰等)。
代谢网络
信号转导途径
细菌化学趋向
化学趋向响应的生理学相对来说较好表征。细菌在化学梯度下通过偏向随机行走、向前游动和随机再定位的变化而移动。为了游动,细菌逆时针转动其鞭毛马达。当它移动时,细菌感觉的是化学梯度的吸引或排斥,增加吸引或减少排斥导致沿确定方向的持续游动
蛋白质-蛋白质相互作用网络
基本概念及性质
网络是一个图,是节点和连接节点的边的集合。节点可以是分子、基因或蛋白质,边是分子相互作用、遗传相互作用或其他的两个元素之间的关系
网络分类
正规网络结构
随机(指数)网络
节点连接是随机设定的,但大部分节点的连接数目会大致相同,即节点的分布方式遵循泊松分布,有一个特征性的“平均数”。连接数目比平均数高许多或低许多的节点都极少,随着连接数的增大,其概率呈指数式迅速递减。故随机网络亦称指数网络。
无标度网络
无标度网络是1998年 Barabasi等在研究WWW网络结构时意外发现的:WWW网络基本是由少数高联通性的页面连接组成的,80%以上页面的连接数不到4个,而占节点总数不到1/10000的极少数节点,却和1000个以上的节点连接。
网络的连接分布不见随机网络具有的“平均数”特征,而是遵循了“幂次定律”分布,即:任何节点与其他k个节点相连接的概率正比于(下图),于是他们把这种网络称为“无标度网络”。
无标度网络是不均匀的,大多数节点只有一个或两个连接,但少数节点有大量连接,从而保证系统是全部连通的。
这种高联通度的节点(蛋白质)称为Hub,它作为网络中的枢组,在生物的进化与维系相互作用网络的稳定性等方面有着不可替代的作用,这些蛋白质往往参与重要的生物活动,并发挥关键的生物学功能
基于相互作用网络的功能分析
网络模体
网络模体时网络中不同位置重复出现的节点组合的特殊拓扑结构
同一类模体组成的更加复杂的结构成为网络主题
虚拟细胞
定义
虚拟细胞亦称为人工细胞( artificial cell)或电子细胞( e-cell),它是在实验数据及理论的基础上,结合生命科学、计算机科学、数学等学科的原理和技术,对细胞的结构和功能进行分析和整合,构建的一种对细胞内外部生命活动现象及过程进行模拟和预测的虚拟系统,以期探索细胞生命活动的潜在规律
四部分组成
控制界面
计算机存储、分析和控制系统
数学计算系统
反应界面
两种虚拟细胞
E-CELL
一种原核细胞能量代谢的模型,世界上第一个虚拟细胞模型
Virtual Cell
一种真核细胞钙转运的模型
生物学网络的构建、分析和可视化
生物学网络的作用
研究不同分子之间的结构相似性关系
药物-靶点之间的靶向关系
不同基因之间的共表达关系
不同类型RNA之间的调控关系
网络软件Cytoscape
主要用于分子互作网络可视化和复杂网络分析
需要在Java运行环境的支持下使用
优势
操作丰富
支持大量插件
支持多种格式的导入与导出
能良好支持生物数据专用的文件格式(如SBML)
基本网络操作
节点和连线的操作
在可视化区域右键点击唤出快捷菜单,实现节点和连线的创建(Add)。在可视化区域中可实现节点的移动(左键拖动),节点和连线的删除或剪切( Delete键或Ctrl+X),视图的放大缩小(鼠标滚轮)
节点和连线的样式改变
在可视化区域右键点击唤出快捷菜单,对选中节点和连线的样式进行单独设置。在控制面板的 Style栏中实现网络全局、映射调整和对选中节点和连线的样式进行单独设置
网络分析
在菜单栏中选择 NetworkAnalyzer,运行网络分析,在数据栏生成新的列展示网络节点和连线的具体属性,计算节点的度与连线的加权
子网络的构建
选择感兴趣的节点,使用菜单栏或工具栏的选项构建子网络,选择相应层级的邻接节点构建多层子网络。
文件操作
导入网络文件
通过菜单栏或工具栏导入文件,选择文件位置,选择数据格式和属性,导人网络视图。在导入网络的过程中,可以通过对话框与 Cytoscape交互,调整输入数据的分隔格式。 Cytoscape对不同文件的格式有良好的适应性,可以导入用各种符号分隔的数据表。
导入表格
通过菜单栏或工具栏导入表格文件,这些表格文件多为网络节点或连线的属性注释。选择文件位置,选择数据格式和属性,导入数据栏,用于后续操作。同样,也可以用与导入网络过程中类似的对话框与 Cytoscape交互,调整输入数据的分隔格式。
导出网络图像
将所需导出的网络视图调整为适当大小,确保不超出可视化区域边缘。利用菜单栏或工具栏导出图像,选择文件导出位置和图像格式(支持JPEG、PDF、PNG等格式)。
Cytoscape实现互作网络可视化
统计学习与推理
第二节 统计模型与参数推断
参数估计量的评选标准
无偏性
参数估计量的期望值与参数真值是相等的,这种性质称为无偏性,具有无偏性的股力量成为无偏估计量
有效性
相合性
用估计量估计参数设计一个样本的问题,如果样本通量越大,估计值越接近真值,那么这种估计量是相合估计量
充分性与完备性
充分性指估计量充分利用样本中每一变量的信息,完备性指估计量是充分的、唯一的无偏估计量
最小二乘估计
是参数估计常用的方法之一,其基本思想是保证由新估参数得到的理论值与观察值均差的平方和最小。
最大似然估计
首先建立包括有该参数估计量的似然函数,然后根据实验数据求出似然函数达到极值时的参数估计量或估计值
比较
最大似然法要求已知总体的分布才能获得估计量,估计结果大多具有无偏性、有效性和相合性等优良的估计量性质,但其估计的方差是有偏的,在样本容量小时不能很好地反应总体变异
矩估计和最小二乘法对分布没有严格的要求,矩估计局限在与矩有关的估计量且有时不具优良的估计量性质,最小二乘法在估计线性回归模型参数时因其灵活方便多被采用
聚类分析、主成分分析和Fisher判别
聚类分析
定义
时数理统计中研究“物以类聚”的一种多元统计方法,即将一批样品或变量按照他们在性质上的亲疏程度进行分类。根据分类对象的不同,它可分为Q型和R型两大类,Q型式对样本进行分类处理,R型是对变量进行分类处理。
分类方法
一类方法是事先不用确定分多少类,在样品距离的基础上定义类与类之间的距离,首先将n个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,将此过程一直继续到所有样品归为一类为止,这种聚类方法称为系统聚类或层次聚类。
另一类方法是事先要确定分多少类(K均值聚类),或将样品初步分类(动态聚类或快速聚类),然后根据分类函数尽可能小的原则,对已分类别进行调整,直到分类合理为止。
还有不打乱样本秩序条件下的有序样本的最优分割法、基于模糊数学的模糊聚类等
描述样品亲疏程度测度
距离测度
明氏距离
马氏距离
兰氏距离
相似性测度
夹角余弦
相关系数
主成分分析(PCA)
定义
把多个指标化为少数几个综合指标的一种统计分析方法。
原理
主成分分析采取一种降维的方法,找出几个综合因子来代表原来众多的变量,使这些综合因子尽可能地反映原来变量的信息量,从而达到简化的目的。其中,每一个综合因子是原来变量的线性组合,而且彼此之间互不相关;第一主成分是所有线性组合中方差最大者;第二主成分是与第一主成分不相关的所有线性组合中方差次大者,依此类推
Fisher
贝叶斯推理
隐马尔可夫模型(hidden MarKov model,HMM)
基于HMM的基因识别程序
VEIL
HMMgene
Gene-Mark
hmm
GENSCAN
Geneie
动态神经网络(ANN)
人工神经网络是一种模仿动物神经网络行为特征,及逆行分布式并行信息处理的算法数学模型
依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的
人工神经网络具有自学习和自适应的能力,可通过预先提供的一批相互对应的输入-输出数据分析两者之间潜在的规律,最终根据这些规律,用新的输入数据来推算输出结果,这种学习根系的过程被称为“训练”
分类
动态神经网络
含有延迟或反馈环节的神经网络称为动态神经网络
可以处理与时间有关的对象
静态神经网络
只能用于处理文字识别、空间曲线的逼近等与事件无关的问题
向量机分类(support vector classify,SVC)
合成生物学
定义
合成生物学是指按照一定的规律和已有的知识,①设计和建造新的生物零件、装置和系统;②重新设计已有的天然生物系统为人类的特殊目的服务
主要特点
工程化
对生物系统的标准化、解构和抽提
标准化
标准化包括建立生物功能的定义、建立识别生物部件的方法及标准生物部件的注册登记、构建具有统一接口(如统一的酶切位点等)的生物部件库等
解构
解构指将复杂系统分解成简单的要素,在统一框架下分别设计
抽提
抽提则包括建立装置和模块的层次,允许不同层次间的分离和有限的信息交换、开发重设计和简化的装置与模块等
具有一定功能的DNA序列组成最简单的生物部件(part),不同功能的生物部件按照一定的逻辑和物理连接组成复杂的生物装置( device),不同功能的 device协同运作组成更加复杂的生物系统( system)含有多种不同功能 system的生物体彼此通讯、互相协调组成更复杂的多细胞生物系统
1)生物部件(part):基因线路中最简单、最基本的标准化模块称为生物部件。Part是指具有特定功能的核苷酸、蛋白质或者DNA序列,能够通过标准化组装方法与其他Part组装成具有更复杂功能的模块。Part按照其功能可以划分为终止子、蛋白质编码基因、报告基因、信号传递组件、引物组件、标记组件(tag)、蛋白发生组件、转化器、启动子等类别。常用的转录调控Part主要有 Laci-plac、clI及TetR-Ptet对等
2)生物装置( device):有了上述标准化的Part,就可以利用转录激活因子、转录抑制子、转录后机制(如DNA修饰)和 Riboregulator等构建稍徵复杂些的生物装置/设备
3)生物系统( system):为了得到更加复杂的调控行为,可将装置按照串联、反馈或前馈等形式进行连接,组成更加复杂的级联线路或者调控网络,即所谓的生物系统。为了推动合成生物学的发展,来自美国麻省理工学院(MIT)、哈佛大学、加利福尼亚大学旧金山分校(UCSF)等的专家学者联合成立了一个非营利性的“生物积块基金委员会”( The BioBricks Foundation,BBF),大力推动各种标准化生物零件库的构建和共享。
具有标准的4种酶切位点的人工构建的生物零件称为生物积块( biobrick)。每一个 biobrick都有详细的注释包括该片段的示意图、碱基顺序(不包括前缀和后缀)、片段功能的阐述,以及其他使用者提供的使用经验等.
只要按照标准化的操作,即可以保证连接后的 biobrick仍然具有相同的4个标准酶切位点,可以用同样的方法与其他标准片段连接。如此循环往复,即可以由简单到复杂,逐层构建更加复杂的基因线路
研究内容
生物分子的合成与模块化
蛋白质的人工合成与模块化
核酸分子的人工合成
生物底盘的简化与模块化
基因线路的设计与构建
合成代谢网络
多细胞系统研究
数学模拟和功能预测
高通量测序技术与数据处理
Sanger测序法(双脱氧测序法)
先将基因组DNA片段化,然后克隆到质粒载体上,再转化大肠杆菌。对于每个测序反应,挑出单克隆并纯化质粒DNA。每个循环测序反应产生以dNTP终止的荧光标记的产物梯度,在测序仪中进行高分辨率的电泳分离。当不同分子质量的荧光标记片段通过检测器时,四通道发射光谱就构成了测序轨迹。
高通量微阵列芯片测序
在第二代测序技术中,片段化的基因组DNA两侧连上接头( adaptor),随后运用不同的步骤来产生几百万个空间固定的PCR克隆阵列。每个克隆由单个文库片段的多个拷贝组成,之后进行引物杂交和酶延伸反应。由于所有的克隆都在同一平面上,这些反应就能够大规模平行进行。同样地,每个延伸所搀入的荧光标记的成像检测也能同时进行,以获取测序数据。延伸和成像的持续反复构成了相邻的测序阅读片段。
通过有序或者无序的阵列配置可以实现大规模的并行化, 以提供高程度的信息密度 不采用电泳, 设备易于微型化。相对于第1代测序技术, 样本和试剂的消耗量得以降低
优点
具备并行处理大量读长的能力
高准确、高通量、高灵敏度和低成本
问题
读长短,导致基因测序组装不完全
不易测长距离”单倍体型”
不易测由多种复杂 quasi-species混合的样品
测序覆盖度受GC组分影响
无法覆盖高度重复区或对重复程度进行定量(e.g.三联核苷酸重复)
低估了mRNA可变剪切的复杂性
SNP检测率受GC组分影响。
不能直接检测碱基修饰
应用
全基因组测序与重测序
转录组测序
非编码RNA测序
表观组学测序和染色质免疫共沉淀测序
DNA甲基化测序
单分子测序技术及纳米测序技术
Linux
优点
经济,内核是完全免费的
性能稳定,能执行多用户、多任务、多线程操作每一个进程的内存占用相对于Windows来说更合理,即使处理很大规模的数据也不容易出现死机的情况
兼容性很好,几乎与现今的所有主流UNIX实现交互式的兼容,也支持大多数的文件系统,如FAT和NTFC等
其强大的命令行终端与方便的图形界面相结合,在可视化的条件下还可以很便捷德使用命令行实现批量的任务
建树方法比较未完成,需要补充
第五章 真核生物基因组的注释 还没写