机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科;专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能;是人工智能核心,是使计算机具有智能的根本途径。 常见算法包括:决策树算法、朴素贝叶斯算法、支持向量机算法、随机森林算法、人工神经网络算法、Boosting与Bagging算法、关联规则算法、EM(期望最大化)算法、深度学习等。
在自然语言处理的很多应用中,输入和输出都可以是不定长序列。当输入和输出都是不定长序列时,我们可以使用编码器—解码器(encoder-decoder)或者seq2seq模型。序列到序列模型,简称seq2seq模型。这两个模型本质上都用到了两个循环神经网络,分别叫做编码器和解码器。编码器用来分析输入序列,解码器用来生成输出序列。两个循环神经网络是共同训练的。
CNN的主要workflow是:第一步是卷积操作,将输入的图像数据转换为适合其它神经网络处理的抽象特征;其次是用池化(pooling)去除噪声,减少映射计算量。这最多包括两层,分别称为Subsampling和Pooling;第三步则是把这些抽象特征用于全链接卷积神经网络(FCN);最后进入分类器,进行识别操作。
结构可以分为3层:
1、卷积层(Convolutional Layer): 主要作用是提取特征。 2、池化层(Max Pooling Layer):主要作用是下采样,不会损坏识别结果。 3、全连接层(Fully Connected Layer):主要作用是分类。
Convolutional Neural Network(卷积神经网络)
1、准备输入; 2、初始化权重; 3、推导key、query、value; 4、计算输入1的注意力的分; 5、计算softmax; 6、将分数与值相乘; 7、将权重与输出值相加,得到输出1;8、对于输入2和输入3,重复步骤4-7。
一个self-attention模块接收n个输入,然后返回n个输出。写一个self-attention步骤如下:
AF 2 采用深度神经网络算法,从具有进化渊源的蛋白质分子群提取氨基酸残基间多序列比对信息(multiple sequence alignment, MSA)和残基对的特征(pair representation)作为初始的输入,经过两个主要模块,最终得到蛋白质的三维结构。第一个模块包括 48 个重复的 Evoformer 单元,通过这种类似于 Transformer 的结构,能够实现 MSA 与 pair representation 之间的信息交互,更好地提取空间及进化信息,输出 MSA 表示及残基对表示。第二个模块包括 8 个重复的结构单元,将氨基酸主链抽象为“残基气体”的形式,通过 IPA(Invariant Point Attention)网络,不断更新 Evoformer 中的输出 MSA 表示,并构建出蛋白质的三维结构。最后通过分子动力学模拟的简单优化,得到最终预测的蛋白质三维结构。
AlphaFold 2利用蛋白质的信息构建了一个不同氨基酸之间距离的图表。然后通过注意力机制操纵这些图,计算每个氨基酸与另一个氨基酸的关系。
AlphaFold2 没有借鉴 AlphaFold 使用的神经网络类似 ResNet 的残差卷积网络,而是采用最近 AI 研究中兴起的 Transformer 架构。通过多序列比对,把蛋白质的结构和生物信息整合到了深度学习算法中。即并没有采用往常简化了的原子间距或者接触图,而是直接训练蛋白质结构的原子坐标,并使用机器学习方法,对几乎所有的蛋白质都预测出了正确的拓扑学的结构。
基本技术:一个图形网络,以及一种称为注意力机制的变量处理方法
百度百科:AlphaFold2,英国人工智能,DeepMind开发的第二代深度学习神经网络。2020年11月30日,该人工智能程序在蛋白质结构预测大赛CASP 14中,对大部分蛋白质结构的预测与真实结构只差一个原子的宽度,达到了人类利用冷冻电镜等复杂仪器观察预测的水平,这是蛋白质结构预测史无前例的巨大进步。对这一重大成果,生物领域的科学家反应强烈。
解决问题的方法:将AlphaFold中所有的卷积神经网络,都替换成Attention。
出现的问题:这种从局部进行预测的方式,很有可能会忽略蛋白质结构信息的长距离依赖性。
工作原理:通过预测蛋白质中每对氨基酸之间的距离分布,以及连接它们的化学键之间的角度,将所有氨基酸对的测量结果汇总成2D的距离直方图,然后让卷积神经网络对这些图片进行学习,从而构建出蛋白质的3D结构。