导图社区 人工智能结构原理及其应用
介绍人工智能的相关结构和原理,并对人工智能在银行、自动驾驶等方面的应用进行了介绍。
编辑于2020-10-12 16:08:04人工智能结构原理及其应用
基础知识
崭新的计算机时代
企业事务几乎计算机化
有大量移动终端用户
AI(人工智能)和loT(物联网)时代
何为人工智能
AI推荐酒
试饮后输入感受
分析得知人员口味敏感度
AI推荐下次试饮
再次分析,只需试饮几种,并将口味组合,进而准确推荐
人工智能趣事
最早出现在1956年的达特茅斯会议
早期定义
收集许多新闻,进行数据库检索,然后对未来进行预测并判断
通用人工智能AGI
还不存在,离完成甚早
需要的技术
识别物种和人
对周围距离和状况的把握
自然交流沟通
理解对方感受
针对提问正确回答
对事物的判断
强AI和弱AI(AGI和特殊型AI)
AGI
自我获取多种解决方案的能力
对超越设想的问题的解决能力
自主理解/自主行为
是AI技术诞生以来人们的梦想
实现难度大,能采取措施少
特殊型AI
个别领域的智能性行为
超越人能力的AI已经部分得到实际应用
象棋/围棋
自动驾驶
医疗诊断
大脑是如何进行识别和判断的?
左脑和右脑
作用不同
左脑逻辑思考
右脑感性知觉
AI研究中考虑方法
使用计算机创造与人脑本身相同的东西
通过计算机实现和人类同等"思考和逻辑"及"感性和知觉"功能
神经细胞和突触
神经细胞(神经元)
信息处理和向其他神经元传递信息
突触
神经元之间的连接元件
数字识别方法(以前的方法)
模式匹配
if...then形式规则
机器学习和大数据
计算机通过解析数据(大数据)进行学习
神经网络取得进步是由于大数据的积累
特征向量
是计算机对事务进行分析并提取出的特征,在计算机内部为向量值(多个数字的组合)
人类是从经验中抽取特征
和人一样学习的机器学习
人工智能(AI)的核心
机器学习
神经网络
深度学习
基于使用了"深度学习"构造的"神经网络"(数学模型)的"机器学习"
神经网络的冲击
谷歌的猫
标志人工智能第三次热潮
谷歌研究团队"Google X Labs"
神经网络学习了几千张图后,发现了猫的存在,理解了猫的特征
游戏AI计算机-DQN
玩视频游戏的计算机
没有提前学习游戏规则和得分方法
自主学习游戏规则和获得高分的技巧
图像识别竞赛中深度学习取得决定性胜利
斯坦福大学开发的图像数据库"图像网"相关国际大赛
先计算机识别图片,再让它猜测图像拍摄了什么
多伦多大学的杰弗里.辛顿带领的"超级远景"错误率为17%
AlphaGo完胜围棋实力选手
四胜一负
无碰撞汽车
美国拉斯维加斯"2016年国际消费类电子产品展览会"
丰田、日本电报电话公司开发
自主行驶和自主学习
汽车自主地进行判断、行驶
行驶路线都是任意的,而不是预先确定的
支持未来汽车的基础设施
和周围环境进行交互
周围街道摄像头交互
前面的车辆共享信息
人工智能原理
机器学习的方法
监督学习
标注正确答案
大量读入标签数据
理解正确答案的"特征向量"
无监督学习
没有附带正确答案标签的数据进行学习
从统计学上提取共性、联系和相关性
用于开发导出相关性函数系统的一种学习方法
分类问题和回归问题
分类问题
辨别后进行区分
回归问题
"无监督学习"有效地解决回归问题
"无监督学习"是基于输出解不能确定的数据进行的学习
导出统计函数
为了计算预测值
分析数据,发现特征并计算出函数
回归问题常用于
观测数据
统计数字
连续变化的数值(股价信息)
强化学习
是监督学习和无监督学习相结合的机器学习方法
AlphaGo的强化学习
学习棋手以往的棋局
计算机之间对局(约3000万个招式)
利用学习内容与职业围棋手对局
经验和报酬
机器人学习自行车
赚取距离获得积分报酬
走的顺利、节省时间也能得到报酬
为获得更多报酬而学习
优点
算法调试实现自动化
减少了工程师的工作量
神经网络原理
单一学习理论
人脑内部所有信息处理都是通过相同模式识别
计算机应用
计算机模拟人脑使用"神经网络"数学模型
同时模拟脑神经的识别模式
感知器
最简单感知器
输入层
输出层
针对同一输入,输出不恒定
深度学习
思考性模型
感性模型
输入层
输出层
中间层
输出层考虑中间层结果再输出
"深度神经网络"(DNN)
增加中间层的神经数目
增加中间层数
使用DNN的机器学习为"深度学习"
并行计算的负荷巨大
CNN和RNN
卷积神经网络(CNN)
处理照片图像的识别和分析
卷积
图像压缩/解压缩、无线电通信的专业术语
识别特征向量出色
静止图像的分析出色
将素材惊喜地分解、解析,逐渐扩展到更大范围进行处理
小范围内解析时,图像周围关系强,分离部分关系弱
递归神经网络(RNN)
时间序列重要的信息场合出现推移数值等识别和分析
时间序列信息
前后关系重要的信息
CNN用于声纹,RNN适用于对话
反向传播(Back Propagation)
从后向前回溯的学习方法
同时运用于RNN和CNN
认知系统与A聊天机器人
IBM Watson是什么
计算机首次超越人类
国际象棋比赛
Deep Blue于1997年5月首次胜利
IBM Watson为IBM开发
智力测试超越人类
在智力测试节目"Jeopardy !"测试
必须理解人类的自然语言
活跃于医疗领域的Watson
根据所闻问题和查询要求,找到合适答案,并将答案返回给客户
及时处理医院病人的相关数据,据此推导出最佳答案和相关预测
助力癌症和白血病治疗的Watson
缩短有效新药的研制时间
查询癌症相关论文,根据患者症状诊断,推测出疾病名称和治疗方法
何为认知系统
第三代计算机
认知系统时代
系统通过自主学习能给出回答的技术
结构化数据
按照计算机可以理解和读取来设计的
非结构化数据
人能够读懂,但计算机无法理解
认知系统必须支持对"非结构化"数据的读取和理解能力
沃森的实体是什么?
没有专门的数据库
专用解决方案(Offering)
为了某特定领域使用而定义设计的框架
产品(Product)
Watson Explorer
沃森浏览器
Watson Analytics
云端分析工具
使用自然语言查询,后台与数据库连接
应用程序(Application)
作为应用软件或WebService发布的程序
Platform(平台)
Watson Developer Cloud
面向开发人员
Watson Zone on Bluemix
提供IBM通用开发工具群
IBM沃森日文版的六大功能
自然语言分类(Natural Language Classifier)
对话(Dialog)
文档转换(Document Conversion)
搜索和排名(Retrieve and Rank)
语音识别(Speech to Text)
语音合成(Text to Speech)
沃森的导入实例(1)-呼叫中心
瑞穗银行呼叫中心导入沃森
人工智能和机器人-银行接待
在等候区让客户玩智力测试或抽签游戏,安抚客户,保险产品的营销
能高准确度地应对客户提出的问题
未来客户接待
通过人脸识别识别客户
引导客户到专门接待室,内容迅速、实时地传送给相关工作人员
机器人意见作为第二意见供参考
沃森的导入实例(2)-销售支持
沃森自主地进行自我纠正,下次更正确回答
沃森回答间题的原理(6个日文版API)
使用"NLC"和"DLG"
自然语言处理后,之间对话
使用"NLC"和"R&R"
自然语言处理后,采用检索引擎查询数据库
使用"STT"和"TTS"
声音的文本转换和文本的声音变换
IBM沃森日文版解决方案包
背景
使用成本高
从量课金制
按照数据交易量进行收费
具有功能
AI聊天机器人
hitTO
AI-Q
邮件回复支持
technomark Cloud+
沃森联动的Pepper接待和客户引导
e-Reception Manager for Guide
聊天机器人中AI导入关键
面向公司内部使用
回答员工问题,提高效率
AI聊天机器人提供
语言输入问题
自动回答问题,进行最适对应
语料库
集合了文字和发声并数据库化的资料
回答结果的反馈
根据反馈讲正确答案和AI建立关联
沃森的导入实例(3)-邮件回复支持
沃森自动插入准确的语句
除了接线员回答,机器学习(追加咨询模式)
从推文或邮件分析性格、情感和文章语调
从推特分析个性
"语调分析器"(Tone Analyzer)
解析文章语调
分析出"愤怒"、"真诚"等表达倾向
实际应用中的人工智能
呼叫中心和客户接待中的应用
日本大型银行使用人工智能和机器人
由沃森和机器人进行客户接待
在银行接待处,人脸识别判断客户是谁
倾听客户需求,引导给Pepper
Pepper受理客户详细询问,给予回答,将消息发送至客户手机上
人与机器人协同工作
解决人员短期问题
人工智能聊天机器人
Facebook M成为顾问
LINE客户连接(LINE Customer Connect)
驱动聊天机器人来实现利用"LINE"的客户支持的服务
通过导入该服务,企业可以使用LINE响应来自其Web网站或LINE账户的咨询
应用于FAQ
通过积累无法满足的问题,并通过机器学习或人工更新FAQ来提高解决问题的比列
开始活跃于医疗现场的人工智能
检查MRI图像并发现异常
在专业医生监督下接受诊断以发现异常
最终诊断为专业医生
可快速诊断
帮助医生发现被医生忽视的异常情况
从庞大的数据中提取答案
癌症基因分析
接待处,对患者最优科室进行精确搜索
尽早得到准确诊疗
减少医生的误诊和疏漏
由机器人进行问诊
披头士风格作曲人工智能
人承担编曲和作词
人工智能作曲
将14000首乐谱导入学习
选择45首披头士乐器学习风格
交互式地选取其中最好部分进行编曲、混音,完成作曲
理解情感的人工智能
Pepper的两个情感生成器
情感识别器
读取对方情绪
分析声音的语调
分析脸部表情
情感生成器
让机器人拥有人一样的情感
情感矩阵
类似分泌激素、情感种类和生理反应
情感地图
类似随激素增减发生"兴奋"、"好斗"等情感模型化
可视化赛道上的摩托车的情感(本田)
看到行驶视频,同时摩托车的情感在动荡
希望汽车与驾驶员进行情感交流
与摩托车交流的未来(川崎)
发布概念电影
未来摩托车与骑手进行沟通,并共同成长
进行沟通,将交通事故防患于未然
求职人工智能
为适合自己的学习课程提供建议
合适度越高,获得学分的概率越高
发现自己没有注意到的能力
对潜在性格进行诊断
推荐符合用户求职意向的求职信息
基于价值观的匹配方式
以便求职者与企业之间高度匹配
婚介服务
攔写小说或新闻的人工智能
"星新一"风格的小小说
还不具有创作小说能力
写格式化的新闻报道
美国联合通讯社
采用"WordSmith"撰写人工智能
日本经济新闻社
全自动人工智能决算摘要
写小说很困难的原因
需回答的问题
是固定格式还是非固定格式?
需要多大程度的创作?
机器学习机制重要的是"报酬"
报酬是明确的
写小说没法踩点得分
小说评价较为主观
另一种方式说明
根据人思考的故事进行重构,就为人创造的
从大数据中发现才是人工智能的成果
其他应用实例
AI监视网络并检测异常
病毒特点
病毒被激活时,传统系统从构造模式发现文件或可执行代码进书阻止
但使用WMI和PowerShell等软件机械能收集,通常不会被注意到
AI检测原理
AI能监视网络所有终端,并学习每个终端的通常操作和动作
学习了通常操作,把这个状态作为正常状态
一旦操作不同的操作或动作,将发出警告以引起注意
AI品酒师后续发展
在时尚和酒类等领域应用
推荐完全适合用户的西服、鞋子、协调搭配的组合等
在美国申请专利
读取微表情的AI系统
Affectiva公司
Affdex是面部表情识别的人工智能
拥有世界最大的情感数据库和通过深度学习获得情感的人工智能
机制
计算机测定情感
视觉感受器(摄像头)跟踪人脸的关键点和动作
分析脸部细微的动作
将复杂的情绪和数据进行关联
确定重要的人脸标志(鼻头、眼眉、嘴巴等)
根据颜色、纹理、光线灰度等分类
识别和跟踪个人脸部几十个准确部位的位置,捕捉肌肉细微运动
作为数据反映到数据库中
分析信息,将对应内容如何关联的信息积累起来
通过观看广告或上课的情绪、表情,用于
医疗、护理、咨询等
机器人的情感分析上
AI计算的最新技术
MicrosoftCognitive Services (Microsoft Azure)
语言
语言理解智能服务 (LUIS)
教会应用程序理解用户发出的命令
文本分析API (Text Analytics API)
评估情感和主题以了解用户的需求
Web语言模型API (Web Language Model API)
利用以Web上的数据为目标的预测语言模型的功能
必应拼写检查API (Bing Spell Check API)
检测并更正应用程序中的拼写错误
文本翻译API (Translator Text API)
通过简单的调用即可轻松进行自动文本翻译
可视
通过返回图像、情感识别等见解,自动进行内容审查,是使个性化的图像处理算法
人脸API (Face API)
检测、分析、组织和标记照片中的人脸
情感API (Emotion API)
通过情绪识别实现个性化用户体验
计算机影像API (Computer Vision API)
从图像中提取对决策有用的信息
内容审查器 (Content Moderator)
自动对图像、文字和视频进行审查
语音
处理应用程序中的音频语言
必应语音API (Bing Speech API)
将语音转换为文本,再转换回语音,并理解用户的意图
说话人识别API (Speaker Recognition API)
使用语音识别并对单个说话人进行身份验证
语音翻译API (Translator Speech API)
通过简单的REST API调用即可轻松实现实时语音翻译
自定义语音服务 (Custom Speech Service)
在如客户端的说话风格、周围噪声、词汇等语音识别难以进行响应时,提高准确性
搜索
深化与BingSearchAPI的联动,使应用程序、网页和其他功能的使用更加便利
必应搜索API (Bing Search API)
搜索Web文档、图像、视频、新闻并获得全面结果的搜索API
必应自动推荐API (Bing Autosuggest API)
为应用程序提供用于搜索的智能自动建议选项
知识
建立复杂信息和数据间的映射关系,以便可以执行诸如合理建议和语义搜索等任务
推荐API (Recommendations API)
预测和推荐客户想要的物品
学术知识API (Academic Knowledge AP1)
使用Microsoft Academic Graph中丰富的教育相关内容
具体体验图像、动画解析技术
微软的计算机影像API
解析预先准备的样本图像
还可以解析任意图像
检测图像中的文字,并转换成为文本
谷歌的云视觉API(Cloud Vision API)
基于云的图像分析
其余功能与微软一样
深度学习和GPU
NVIDIA公司从"视觉计算公司"变革为"AI计算公司"
CPU和GPU的作用
计算机基本处理交给"CPU"
诸如3D,CG等演算处理留给"GPU"处理
活跃于AI计算的GPU
深度学习方法,演算处理量巨大
处理需要"矩阵运算",GPU矩阵运算强
GPU较CPU加速10倍以上
应用于自动驾驶和机器人中的AI计算
几乎实时处理摄像头和传感器的信息,并掌握周围的情况
AI板"DRIVE PX2"
面向自动巡航(高速公路上自动行驶)
面向点到点自动驾驶(特定地方间自动行驶)
面向完全自动控制
嵌入式AI板"JETSON TX1"
仿人机器人
自动扫地机
搬运机器人
轻松实现深度学习框架
只要使用深度学习的库,可以将深度学习嵌入系统
谷歌
TensorFlow
日本公司
Chainer
美国大学研究中心
Caffe
Theano
Torch
Minerva
GPU桥接库
cuBLAS
cuDNN
依靠使用CP∪的A高速化技术卷土重来的Intel公司
对CPU引入多核技术,进行调优
CPU+FPGA的性能
FPGA
现场可编程门阵列 (Field-Programmable Gate Array)
大幅缩短开发周期
可维护性好
可扩展性高
所有处理数据保存在片内存储器中,并执行临时计算
通过组合加速深度学习等神经网络计算
测试
CPU+FPGA
每秒513张,功耗294W
CPU
每秒51张,功耗130W