导图社区 无障碍与信息技术
这是一篇关于无障碍与信息技术的思维导图,主要内容有书本信息、信息无障碍、国内实践成果、无障碍媒体转换与交互、检测技术等。
编辑于2022-12-17 20:41:59 浙江省媒体可及性(accessibility)技术可以为感官功能缺损的用户提供可供替代的技术支持和信息获取方式,从而实现用户信息获取和传播的无障碍。传统的媒体可及性研究将视角集中于计算机硬件的技术实现上,对于无障碍内容、用户使用和可及性技术的影响方面缺乏关注,使研究范式以“技术”为中心。网络技术的兴起和广泛应用,使用户的能动性被激发,技术不再是阻隔残障者与健常人信息获取和使用的屏障,数字技术与多媒体互换技术为无障碍传播的实现提供了有利的技术条件。本研究正是对新媒体可及性技术及其传播无障碍实现方面的多维度研究。本书将分为三大部分(共七章),从新媒体的可及性技术实现、视听障碍用户新媒体技术的使用和评价、基于新媒体可及性技术的用户传播行为及影响三个方面,对基于新媒体技术的无障碍传播问题进行研究。
库存管理实际上涉及所有与运筹学有关的基本理论,在理想的情况下,学生至少应该掌握了最优化理论、随机过程及动态规划.
以用户为中心的系统设计(User-Centered Systems Design)包含对用户需求的关注,对活动、任务以及需求的分析,早期的测试和评估,以及迭代式设计。比其他方法有更加广泛的关注点,但是它实际上更加强调用户,而不是关注于征集需求和说明的规范化方法,不是一个线性死板的设计过程,而是一个更加灵活、迭代式的设计方法。
社区模板帮助中心,点此进入>>
媒体可及性(accessibility)技术可以为感官功能缺损的用户提供可供替代的技术支持和信息获取方式,从而实现用户信息获取和传播的无障碍。传统的媒体可及性研究将视角集中于计算机硬件的技术实现上,对于无障碍内容、用户使用和可及性技术的影响方面缺乏关注,使研究范式以“技术”为中心。网络技术的兴起和广泛应用,使用户的能动性被激发,技术不再是阻隔残障者与健常人信息获取和使用的屏障,数字技术与多媒体互换技术为无障碍传播的实现提供了有利的技术条件。本研究正是对新媒体可及性技术及其传播无障碍实现方面的多维度研究。本书将分为三大部分(共七章),从新媒体的可及性技术实现、视听障碍用户新媒体技术的使用和评价、基于新媒体可及性技术的用户传播行为及影响三个方面,对基于新媒体技术的无障碍传播问题进行研究。
库存管理实际上涉及所有与运筹学有关的基本理论,在理想的情况下,学生至少应该掌握了最优化理论、随机过程及动态规划.
以用户为中心的系统设计(User-Centered Systems Design)包含对用户需求的关注,对活动、任务以及需求的分析,早期的测试和评估,以及迭代式设计。比其他方法有更加广泛的关注点,但是它实际上更加强调用户,而不是关注于征集需求和说明的规范化方法,不是一个线性死板的设计过程,而是一个更加灵活、迭代式的设计方法。
无障碍与信息技术
书本信息
国家无障碍战略研究与应用丛书(第一辑)
作者:卜佳俊、戴连君、唐李真
信息无障碍
无障碍起源于词汇accessibility,最早是指为各类残疾人提供可访问的产品、设备、服务、环境
有关研究表明,人们通过视觉和听觉获得信息占从外界获得的信息的90%以上。互联网的信息大多以视觉方式呈现,部分信息是听觉呈现,给视障听障人群带来很大障碍。全球74亿人口中约有15%具有不同类别不同程度的残障
信息无障碍
信息无障碍是指任何人(无论是健全人还是残疾人,无论是年轻人还是老年人)在任何情况下都能平等地、方便地理解、交互和利用信息
目的:缩小全社会不同阶层、不同地区、不同年龄、不同健康状况的人群在信息理解、信息交互、信息利用方面的数字鸿沟,使其更加方便地参与社会生活
基础:信息获取渠道多元化的表示,使用现有的感官做替补来弥补某些感官的缺失,利用替补的感官来获取信息
eg视觉受阻者访问网页,可以借助读屏软件,将网页中不可看见文字信息转换成可以接收的声音信息来获取网页信息
实施
技术标准:建设和监管工作开展的基本依据
美国:W3C的WCAG
日本:电信机器可访问性的JISX8341指南
德国、加拿大、韩国:WCAG基础上的本土化标准
政策法规:为贯彻落实提供根本保障
1990《美国劳工康复法案》条例508
1998西班牙《计算机无障碍法规》,瑞典《计算机无障碍指南》
2000 日本《东京宣言》,首次提出“跨越数字鸿沟”的概念
2003 日内瓦召开的信息社会世界高峰会议《原则宣言》:教育、知识、信息和通信是人类进步、努力和福祉的核心
2006 联合国《残疾人权利公约》
对社会发展的影响
信息无障碍是弱势人群的基本发展权,缺乏信息或信息不对称,会导致弱者更弱
弱势人群的共同特点是他们的声音小,需求容易被忽视,需要社会各界高度关注支持
带来新的经济增长点和巨大的市场机会
对此领域的研发市场
研发后直接应用市场
应用后带来的增值应用市场
信息无障碍的建设和普及,将推动在线就业和教育的发展,大大提高残疾人参与社会、创造经济社会价值的机会。残疾人在信息无障碍的良好环境中可以获得许多有价值的信息,同时可以受到良好的教育,这样他们不仅能自食其力,而且可以利用学到的知识和技术为社会创造一定的价值
研究机构
标准化组织
国际标准组织/国际电工委员会(ISO/IEC)联合技术委员会
2004年ISO/IEC JTC1通过决议成立信息无障碍特别工作组(SWG-A, Special Working Group on Accessibility),旨在整合残障人士和老年人使用信息通信产品和服务时的需求,并收集公布已有的与信息五障碍相关的标准
任务组1负责用户需求,任务组2负责标准及差异分析
参与工作组的有JTC1 SC7/28/29/35/36/37、W3C/WAI、ITU-T SG16及ISO多个国家成员体
2009年,ISO/IEC JTC1出版发行了ISO/IEC TR 29138:2009《信息技术——针对残疾人信息无障碍需求的一般考虑》(Information technology一Accessibility considerations for people with disabilities)
明确了残疾人在获取、利用信息时的需求,列举了与信息无障碍相关的标准或规范,并为用户需求和标准条款建立映射的思路和方法
2014年,IEC、ISO、ITU联合发布了ISO/IEC Guide71: 2014
该指南是一项应用于老年人和残疾人需求的、对于产品和服务类的指南,为提高无障碍意识、关注有需求的群体提供了解决方案
万维网联盟 W3C (World Wide Web Consortium)
自建立以来一直致力于全球网页标准制定与规范,是公认的国际范围内最有影响力的标准化组织
全世界的40个国家内建立了数百个组织,截至2017年4月1日共有461名成员
宗旨是通过定义各类标准来促进行业成员间的兼容性,并制定国际范围内的协议,以使得各个供应商实施能够兼容的原则和组件。W3C致力于让全世界所有用户,包括所有具有一定文化教育背景的健全人和残疾人,都能够使用网页获取信息
1997年推出网页无障碍组织WAI (Web Accessibility Initiative)
包括一些工作组和兴趣组,分别负责指导方针、技术报告、教育材料和其他涉及WEB访问的几个不同组成部分的文件,包括WEB内容、WEB浏览器和媒体播放器、创作工具和评估工具。
1995年5月,WAI制定并发布了网页内容无障碍指南1.0版 (Web Con-tent Accessibility Guidelines 1.0,WCAG 1.0)
WCAG是国际社会最有影响力且最著名的网页无障碍技术标准之一
2018年6月,WCAG2.1发布,成为最新的网页内容无障碍指南。目前国际上使用的无障碍网页设计方案大部分都是依照WCAG制定的
2005年7月,WAI发布了创作工具无障碍指南 (Authoring Tool Accessi-bility Guidelines 1.0,ATAG 1.0)
提供用于制作网页内容(静态网页、动态网页应用等)的软件和服务。文档说明了如何在web上创作无障碍的内容使得残障人士能够利用,并给出了具体的创作建议
2015年9月,ATAG 2.0发布,取代1.0版本
移动辅助功能小组(Mobile Accessibility Task Force, Mobile A11Y TF)
a Task Force of the Accessibility Guidelines Working Group (AG WG)
用于制定和规范移动开发的无障碍性,同时也根据移动端Web和应用的特性,不断地扩充WCAG和ATAG等标准
欧洲电信标准协会 ETSI (European Telecommunications Standards Institute)
成立于1998年,是非营利性的电信行业标准化组织,在全球范围内负责信息和通信技术相关的标准
2001年出台了无障碍环境下服务标准(service accessibility etsi)
2005年出台了儿童使用准则技术和部署的1CT产品和服务 (Guidelines for the design and deployment of ICT products and services used by children)
2013年出台了对ICT产品和服务在欧洲公共采购的无障碍要求 (Accessibility requirements for public procurement of ICT products and services in Europe V1.0.0)
国际企业
国际商业机器公司 IBM
IBM最早成立了全球信息无障碍研究中心(IBM Accessibility Research Center),致力于扩大网站的用户访问范围,使残疾用户、年老感官障碍(听力或视力下降)的用户也可访问网站
自1914年以来,开发了一大批助残产品,早期的有声打字机和盲文打印机等终端产品,目前的产品主要针对互联网应用
在信息无障碍上研发了多种服务与产品。其中,辅助性服务包括数据内容检查、自动辅助测试等;在辅助手段上支持T硬件、软件和网络应用产品,使他们能够被更多的人使用。其宗旨是加速信息无障碍化发展,提高使用者经验
微软 Microsoft
研发了Microsoft Active Accessibility技术,用于改善辅助功能在Windows系统上的应用程序中的工作方式,增强用户的可访问性
还出台了标准MSAA(Microsoft Active Aecessibility),用于规范基于Windows的信息无障碍产品的提供标准,指定符合的无障碍要求
谷歌 Google
从产品的早期设计到最终发布,将无障碍作为一项核心考虑因素
为了评估、监测和改善其产品的无障碍发展状况,Google还组建了核心无障碍团队,在团队内协调开展有关无障碍方向上的工作并对外提供相应的咨询答疑
Google的产品及运营团队都会进行相关的无障碍培训以保证在设计产品的时候能够从无障碍角度出发,给用户提供最便利的操作方式与服务
研发了一系列辅助工具
针对视障用户的文字转语音软件TalkBack和导航软件WalkyyTalky
苹果 Apple
一开始就在无障碍中投入了相当大的精力
VoiceOver,专门针对视障人士开发的用于Apple设备上的语音辅助工具
Made for iPhone助听器,方便调整音频
手势控制
语音文字切换
apple做的更多是对于用户的操作辅助,更好地操作体验以及信息获取
国内研究机构
我国信息无障碍起步较晚,从2003年“大连通信残疾人信息无障碍论坛”开始才进入公众视野
国内最早研究信息无障碍的团队大多是一些高校和科研部门,他们往往基于实验室对相关产品开发的需求,对信息无障碍进行初步的研究和探索。这些团队最初也只是基于特定产品需求进行相关研究,虽然不是成熟的信息无障碍研究团队,但也为国内的信息无障碍研究打开了一扇门
中国盲文出版社信息无障碍中心
成立于2005年,前身是专为开发盲用软件而成立的研发小组
中心成立以来,在盲用软件研发、盲用信息化产品推广、盲用信息化服务标准方面做了许多基础性和开创性的工作
研发的阳光软件标准版,个人用户已覆盖包括香港、澳门、台湾在内的中国全境,同时在日本、新加坡、马来西亚以及欧洲和美国也拥有为数不少的用户;专业版,拥有包括特教学校、残疾人培训中心在内的众多机构用户
2011年,随着中国盲文图书馆新馆落成,信息无障碍中心不断被赋予新的职能。目前,中心已拥有软件研发、盲用信息化产品推广、盲人电脑培训、口述影像、呼叫中心等多个业务模块
中国残疾人信息和无障碍技术研究中心
立于2009年1月,由浙江大学与中国残联共同创办。在过去十年的合作中,双方不仅实现了各自事业的跨越式发展,也给全世界的残疾人提供了无障碍环境建设、信息服务等方面的多种方案,形成了许多突破性的标志成果
组织实施了中国残联系统的第一个国家科技支撑计划项目,建成了实用方便的中国残疾人人口基础数据库系统等
积极参与国家科技部、国家发改委等在残疾人信息和无障碍技术领域的项目,开展了大量卓有成效的工作,成为中国残疾人事业的积极推动者
中国信息无障碍产品联盟 CAPA
成立于2013年11月,由深圳市信息无障碍研究会、阿里巴巴、腾讯、百度、微软(中国)共同发起的合作型民间机构
目前,国内重视信息无障碍并进行具体技术实践的企业主要有:IBM(中国)、腾讯、阿里巴巴、搜狗、百度等,这些企业在各自的产品线上大力发展信息无障碍技术
2011年初,阿里巴巴技术团队自发组织成立了信息无障碍小组,后来成立常态化项目组,陆续开发了语音验证码引擎、盲人用户专用的旺旺、无障碍APP等功能应用,极大方便了视障人士网购
2013年,腾讯倡导发起“中国信息无障碍产品联盟”,其主要工作包括与工信部电信研究院(现改名中国信息通信研究院)、中国互联网协会等合作推动宏观政策的发展,提供专业的信息无障碍测试、咨询、优化服务,参与行业标准制定及升级,开展倡导性活动等
2016年,在百度公益基金会的发起和推动下,百度公司将信息无障碍写进公司内部技术规范体系
W3C中国与腾讯、华为、浙江大学等国内企业和科研院所开展深入合作,有效促进一系列新兴Web标准在国内的推广、普及和应用。2014年至2018年间,浙江大学先后完成WCAG2.0、ATAG2.0、WCAG2.1等国际标准授权翻译,W3C中国下设信息无障碍社区组,着重技术交流与讨论
研究工作
国外信息无障碍的理念自20世纪90年代开始就已引起关注,2001年Kurniawan进行了全球范围内的第一次针对网站无障碍的研究。本次研究使用了自动评价工具来比较部分商业网站的无障碍水平,研究范围涉及老龄化、健康和政府机构等领域的网站
自此之后,国际上对于网站无障碍的研究如雨后春笋涌现
此时,对网站无障碍的研究几乎都集中在对网站的无障碍检测、评判及比较上
2002年Andrew Potter对于阿拉巴马州政府网站的检测
2004年Eleanor T Loiacono等对美国联邦政府、企业网站和部分非营利组织首页的无障碍检测
2005年英国内阁发出的关于欧盟点子网站的无障碍研究报告
2007年Hyun J检测了韩国39个政府网站的首页,以判断其无障碍水平
在2001年至2007年间,学界通常使用如Bobby或LIFT等检测工具对网站进行无障碍检测,通过WCAG1.0评判网站的无障碍级别
事实上,此时的检测结果通常并不乐观,绝大多数政府网站、非营利机构或教育网站都远远达不到网站无障碍的要求
从2007年起,由于检测相关的研究已经逐渐完善,而检测结果的问题却越发突出,引起了研究热点的转变,学界集中探究在无障碍发展过程中,网页创作的无障碍水平变化和创作者的无障碍知识水平
2008年前后,学界渐渐意识到只是制定标准依旧不够,需要从技术规定和更新上来改善网站无障碍
全球范围内学界开始了对信息无障碍软硬件的集中研究,这期间进行了对系统构建、设计和实施的研究,开发了许多数字化信息交互工具。涉及网站设计、语音技术和辅助技术等的研究逐渐成为无障碍领域的热门主题
在全球范围内,特别是美国,开始了针对不同类别残疾人进行的软硬件开发
2010年后,对政府网站的无障碍检测结果表明,政府网站的无障碍问题开始显著减少。此时,信息无障碍的软硬件已逐渐形成了一定规模,关于信息无障碍的标准化工作慢慢成为研究热点
信息无障碍建设已经从最初的研究设计正式进入到实施推广状态
信息无障碍标准的研究从技术标准、设计标准和检测方法标准等切入,逐渐更新了一系列标准,如ATAG 2.0等
2012年以来,全球进入到了移动信息网络时代,信息无障碍的研究热点也随之转移到移动设备上
国内
历史
早期的研究主要围绕残疾人和网络无障碍展开
2004-2007年,信息无障碍的关注点发生了转移,此时对信息无障碍的研究主要是关于信息无障碍用户,其中与图书馆密切相关的读者服务,承接了与数字图书馆相关的信息无障碍研究。由于图书馆与读者服务密切相关,对公共图书馆服务的研究也成为研究重点
2005年,信息无障碍的研究群体开始由残疾人扩大到弱势群体的范围,因为不仅仅是残疾人,还有包括儿童、老年人等在内的弱势群体也存在信息障碍,他们的利益也需要得到保障,信息无障碍的意义提升到了一个更高的层次
2008-2010年,信息无障碍的研究热点从用户转向了无障碍设计和技术实现,此时与信息无障碍相关的技术大量涌现,如网站设计、语音技术、辅助技术等
2011-2013年,信息无障碍标准化的系列研究成为重点研究对象,主要包括技术标准和设计标准方面。对信息无障碍标准的研究有助于全面开展信息无障碍建设,从此信息无障碍的建设进入推广阶段
理论研究
我国在信息无障碍领域的基础理论研究方面取得了初步成效
2004年首届“中国信息无障碍论坛”在北京召开后,信息无障碍的概念开始在国内普及,之后信息无障碍的研究工作及成果也在迅速增长
2008年我国正式将信息无障碍建设研究作为构建和谐社会的重要内容,工业和信息化部发布了《信息无障碍身体机能差异人群网站设计无障碍技术要求》(YD/T1761一2008),将我国信息无障碍网站的建设以行业标准的方式正式确定下来
无障碍技术和实现
1989年,清华大学创建的康复工程研究中心研究发明了给视力残疾人使用的语音电脑、点显器等无障碍产品
2001年,中国盲文出版社开发了一套专门针对视力残疾人者操作电脑的软件产品,因其所具有的特殊意义而取名为“阳光”。经过几年的努力,“阳光”软件已被广泛应用于视力残疾人的各个领域
2007年,科大讯飞联合中国盲文出版社研发了针对视力残疾人的阅读终端产品“阳光听书郎”,可以帮助视力残疾人朋友“看”电子书籍
2010年,基于讯飞开放平台上面向盲人的争渡软件,实现了通过语音操作电脑,帮助实现读屏功能,在国内视力残疾人上网中广泛使用;讯飞与香港失明人协进会NVDA开发的粤语版读屏软件,也已经成为粤语区视力残疾人朋友必备软件
2015年,讯飞推出“听见”产品,能够将老师教学演讲内容完整地转成文字,并在课堂上实时展示出来,辅助学生更好地理解教学内容
2015年,锤子科技SmartisanOS发布“面向老年人的远程协助功能”,这是一个符合中国老年人的用户特性、使他们能顺畅使用智能手机的操作系统,系统自带远程协助功能。除了可以操控对方屏幕之外,还可以通过荧光笔的方式为老人画出应该点击的地方,相比简单的远程控制,这样更容易让老人学会各项功能的使用和设置
2016年,在线支付无障碍问题得到突破性解决。因读屏的方式存在被第三方软件劫持的可能性,针对移动端键盘支持读屏与保障数据安全之间存在矛盾的问题,手机QQ、支付宝通过创新解决方案,重新优化密码键盘读屏功能,专门开发上线了业内首个密码键盘读屏功能,让视障用户能够顺利输入支付密码,实现了手机支付中无障碍服务和安全的兼顾
标准体系建设
工业和信息化部(原信息产业部)于2006年将信息无障碍纳入“阳光绿色工程”计划,启动了信息无障碍的标准研究工作
中国电信通信研究院还提出了信息无障碍标准体系框架,在这个框架的指导下,展开无障碍网站开发核心技术标准的研究工作
信息无障碍标准体系框架
面向身体机能差异人群
基础环境差异人群
语言文化差异人群
行为习惯差异人群
2007年以来制定并发布了涉及电信网及互联网的技术、设施、服务、产品等方面的信息无障碍技术标准15项
国内实践成果
法律法规
《中华人民共和国宪法》
明确规定国家尊重和保障人权,同时对残疾人劳动、生活、教育、医疗、社会保险、社会救济等方面作出具体规定
2008年修订的《中华人民共和国残疾人保障法》
正式提出将信息交流无障碍作为残疾人的重要权益之一,为信息交流无障碍地推进提供了法律依据
“国家采取措施,为残疾人信息交流无障碍创造条件;各级人民政府和有关部门应当采取措施,为残疾人获取公共信息提供便利;国家和社会研制、开发适合残疾人使用的信息交流技术和产品;公共服务机构和公共场所应当创造条件,为残疾人提供语音和文字提示、手语、盲文等信息交流服务,并提供优先服务和辅助性服务”
中国已形成了以《宪法》为核心,以《残疾人保障法》为基本法律,以一系列相关行政法规、地方性法规为支撑的保障残疾人权益、发展残疾人事业的法律法规体系
《无障碍环境建设条例》
2012年6月13日国务院第208次常务会议通过,自2012年8月1日起施行
我国第一部关于无障碍环境建设的行政法规
条例涉及市政建设、公共交通、信息交流、社区服务等诸多领域
“国家鼓励、支持采用无障碍通用设计的技术和产品,推进残疾人专用的无障碍技术和产品的开发、应用和推广;县级以上人民政府应当将无障碍信息交流建设纳入信息化建设规划,并采取措施推进信息交流无障碍建设;残疾人组织的网站应当达到无障碍网站设计标准,设区的市级以上人民政府网站、政府公益活动网站,应当逐步达到无障碍网站设计标准”
《中国残疾人事业“十二五”发展纲要(2011一2015年)》
针对信息无障碍环境建设进一步明确内容“将信息无障碍纳入信息化相关规划。各级政府和有关部门采取无障碍方式发布政务信息”
《国家人权行动计划(2012一2015)》
明确2012一2015年促进和保障人权的目标和任务,以及加强信息无障碍建设
《关于加强网站无障碍服务能力建设的指导意见》
2016年3月,中国残联、中央网信办联合印发
《“十三五”加快残疾人小康进程规划纲要》
2016年8月3日,国务院印发
纲要要求加强政府和公共服务机构网站无障碍改造,推进电信业务经营者、电子商务企业等为残疾人提供信息无障碍服务
《残疾人事业信息化建设“十三五”实施方案》
中国残联、国家发展改革委、工信部、国家统计局、国家互联网办公室联合印发
明确推动信息无障碍技术标准与评价体系建设,加强技术培训与应用示范,在中国残联、地方残联选择试点领域,逐步开展集约化网站建设示范
加强网络新媒体的运用,丰富面向残疾人的服务方式。加强网站无障碍服务能力建设,做好残联系统无障碍应用示范,积极推进政府网站的信息无障碍服务
相关政策及标准规范
《中共中央国务院关于促进残疾人事业发展的意见》
2008年3月28出台
明确要求“积极推进信息和交流无障碍,公共机构要提供语音、文字提示、盲文、手语等无障碍服务,影视作品和节目要加配字幕,网络、电子信息和通信产品要方便残疾人使用”
《关于加快推进残疾人社会保障体系和服务体系建设指导意见》
2010年3月10日,国务院办公厅同意并转发中国残联等部门和单位
明确提出要推进信息和交流无障碍建设,提高全社会无障碍意识
有关部门要将信息交流无障碍纳人信息化建设规划,制定信息无障碍技术标准,推进互联网和手机、电脑等信息无障碍实用技术和产品研发
政府政务信息公开要采取信息无障碍措施,公共服务机构要提供语音、文字提示、盲文、手语等无障碍服务
图书和声像资源数字化建设要实现信息无障碍
工信部在2006年将信息无障碍纳入了“阳光绿色工程”计划,启动了信息无障碍的标准研究工作,2007年以来制定并发布了涉及电信网及互联网的技术、设施、服务、产品等方面的信息无障碍技术标准15项
《信息无障碍身体机能差异人群网站设计无障碍技术要求》(YD/T1761一2008)
2008年工信部发布,该标准参考W3C的WCAG2.0制定
为我国开展互联网无障碍建设提供了技术依据
2012年发布了更新版标准,即《网站设计无障碍技术要求》(YD/T1761一2012),该标准是目前国内开展网站无障碍建设的主要技术依据
《信息无障碍一—网站设计无障碍评级测试方法》(YD/T1822一2012)
2012年,工信部发布
该标准为《网站设计无障碍技术要求》的配套测试规范,规定了不同等级的网站无障碍技术进行检验测试的具体方法,其中包括对网页的可感知性、可操作性、可理解性和兼容性等方面的无障碍技术要求的检验测试方法
《中华人民共和国国家标准:网页内容可访问性指南(GB/T29799一2013)》
2013年,全国信息技术标准化技术委员会提出
该标准在参考国际标准化组织W3C制定的WCAG2.0的同时体现中国特色及用户的切实需求,规定了网站内容可访问性的设计要求,包括网页内容、人机界面、导航信息以及其他方面的要求
《读屏软件技术要求GB/T36353一2018》
2018年,全国信息技术标准化技术委员会提出
规定了读屏软件的基本功能、快捷键和兼容性,适用于键盘操作环境下(如PC机、笔记本电脑等)读屏软件的开发、应用和维护
实践团队
中国残疾人联合会
成立于1988年3月,它是国家法律确认、国务院批准的由残疾人及其亲友和残疾人工作者组成的人民团体,是全国各类残疾人的统一组织
最高权力机构是全国代表大会,常设执行机构是执行理事会,下设办事机构承办中国残联日常工作
按照国家行政区划设立中国残联各级地方组织,社区居民委员会、村民委员会、残疾人集中的企业事业单位,建立残疾人协会或残疾人小组
宗旨:弘扬人道主义思想,发展残疾人事业,促进残疾人平等、充分参与社会生活,共享社会物质文化成果
代表、服务、管理三种职能
代表残疾人共同利益,维护残疾人合法权益
团结帮助残疾人,为残疾人服务
履行法律赋予的职责,承担政府委托的任务,管理和发展残疾人事业
成果
积极参与《无障碍网站设计标准》制定工作
推进盲人电脑培训,举办全国盲人电脑师资培训班,有效推动了地方培训工作;举办“微软杯”“腾讯杯”以及中学生盲人电脑技能大赛
建立了网上盲人有声数字图书馆
成立盲人信息无障碍技术研发与检测基地,开发了“邦邦听图”验证码识别系统
与兰州大学合作建立信息无障碍联合实验室,研究推动盲文信息处理技术;推进各地公共图书馆建立盲人阅览室
隶属机构
中国听力语言康复研究中心
原名中国聋儿康复研究中心,成立于1983年
我国唯一一所国家级听力语言康复机构,是全国听力语言康复工作的技术资源中心和行业管理机构,同时也是世界卫生组织等国际机构的国家合作中心
目前已成为医、教、研为一体的听觉言语康复机构,面向全国、面向基层,为听觉言语障碍者服务
该研究中心已拥有一批由老中青各类专业人员组成的医、教、研专家队伍,具有康复医学、康复听力学、康复教育、康复评定、康复研究及康复管理的业务能力
中国盲文出版社
历史可追溯到1953年,中国唯一一家为国内盲人出版制作盲人文化产品并提供综合性服务的公益性文化出版机构,是中国盲人文化资源中心
已形成全方位、多形态的盲人文化产品和服务体系
主要出版盲文读物、有声读物、大字版读物、汉文图书、电子出版物和无障碍影视等盲人文化产品
提供盲用信息化产品和盲人用品用具服务
开展文化产品公益性销售、资源支持、辅助技术研发、盲人文化研究和海内外盲人文化交流等综合性文化服务
14个部门
盲文编译部
负责盲文教材和社会读物的选题、编辑、翻译、录入、校对工作
盲文印制部
负责盲文教材和社会读物的制版、印刷、装订工作
有声读物部
负责盲人有声教材和社会读物的选题、录制出版工作
大字本事业部
负责出版低视力盲人大字本教材和社会读物,出版面向残疾人的文化教育类图书和面向社会的康复医学、社会科学和文学艺术类图书
盲人教具学具事业部
(北京恒继技贸公司)负责盲人教具学具研制、开发、生产、推广和咨询服务工作
音像出版部
负责制作出版以服务残疾人和残疾人事业为主体的音像制品,为中国残联系统和社会各界提供各类音像服务
出版部、公益文化部、读者服务部、材料供应部、综合办公室、总编室、人力资源部、财务部
信息无障碍中心
负责中国盲文出版社的网站管理和技术支持,还完成了许多卓有成效的信息无障碍工作
在2001年底,中国盲文出版社开始研发“中国盲文计算机系统”,该系统包括阳光专业版和标准版系列软件
中国残疾人信息和无障碍技术研究中心
2009年,中国残联与浙江大学共同创办,一个跨学科、开放型的研究型机构
中国残联与系统外单位合作成立的第一家技术研究中心,利用双方资源,研究社会发展和变革中的残疾人信息无障碍和残疾人事业信息化中的技术问题,探索符合国情的创新的残疾人信息无障碍技术,为推进残疾人事业信息化建设和残疾人信息无障碍技术的研究,以及相关战略规划的制定提供技术保障与服务
主要工作包括理论研究、技术研发、应用普及、标准制定、人才培养等
典型项目
科技部国家科技支撑计划“中国残疾人信息无障碍关键技术支撑体系及示范应用”
“残疾人康复服务关键技术研发及应用示范”
国家发改委“残疾人人口基础数据库建设”
研发国内首套智能终端无障得基础软件,国内首套无障得网络直播系统并对央视春晚进行无障碍网上直播,国内首个国家级视力残疾人专门图书馆中国育人数字图书馆,国内首个残疾人服务类大型公益门户“中国残疾人服务网”,牵头制定国内首个网站访问无障碍国家标淮,研发首个适用于国内标准的网站访问无障碍合规性检测系统,推动网站访问无障碍首次列人政府网站绩效考核指标体系等
代表性研究课题
网页内容提取
提取网页中的有用信息,帮助残障人士更方便地获取网页中的有用信息,减少广告等其他信息对残障人士获取信息的干扰
传统网页内容抽取技术一般基于网页模板,这类方法的缺点是需要为不同模板的网页开发不同的提取程序,代价高昂,而且提取程序会因模板更新而失效
在该领域,研究中心已经研发了模板无关的新闻提取方法,相关研究成果发表于数据挖掘顶级会议SIGKDD,并应用于“网络搜音机”中
基于“大数据”和多信息源的网页图片语义标注
是指利用自动图片标注技术,为网页图片加上语义标注,它可以帮助视力残疾人获取网页图片内容
自动图片标注是多媒体信息检索领域的基本问题,也是一个热门话题。由于存在着长期以来难以解决的“语义鸿沟”问题,目前尚无有效的方法可以直接从普通图片中获取高层语义信息
研究中心计划利用互联网“大数据”提供的支撑,充分利用网页图片的多种相关信息,探索一般图片语义标注方法,提升视力残疾人网页图片信息无障碍访问
通过互联网搜索和网页图片数据网站爬取等途径,获取海量标注图片数据,研究高效的图片标注方法,构建海量图片数据库:研究多信息源去噪算法提升待标注网页图片的描述信息质量
研究基于“大数据”的图片标注算法,为一般网页图片提供语义标注
盲用智能移动终端技术
主要指视力残疾人通过读屏软件获取信息
研究盲用移动终端无障碍交互关键技术
在盲用阅读资源服务平台和盲用移动终端无障碍交互技术的基础上,为广大盲人提供盲用移动终端的阅读服务和技术服务
无障碍发展研究院
2016年,中国残联与清华大学成立
旨在开展无障碍的国情研究与政策咨询、无障碍人居环境、无障碍技术开发、无障碍技术与标准体系、无障碍人文理念的传播与人才培养五方面研究
上海信息无障碍应用联合实验室
由上海市政府发起,联合上海市残联、上海市经济和信息化委员会、东方网等成立的实验室
旨在推进分享上海市在信息无障碍方面的成果,促进与发展信息无障碍应用的技术交流与合作,实验室主要成员来自从事信息无障碍应用研究的政府单位、事业单位、社会团体、研究院、企业的相关管理人员或专家等
研究方向主要与无障碍辅助工具条相关
独特之处在于工具条采用拟物化设计,特别适合色盲与色弱人群
工作内容
网站无障碍检测平台
网站语音服务
网站首页无障碍改造
网站辅助浏览工具
全网站无障碍改造
深圳信息无障碍研究会
成立于2005年,社会团体法人,中国较早专注于信息无障碍领域的专业机构
发起成立了信息无障碍产品联盟(CAPA),并担任秘书处单位
成员
成员单位:腾讯、阿里巴巴、百度、微软(中国)等知名公司
支持单位:W3C、中国信息通信研究院、中国互联网协会等
顾问单位:中国残疾人联合会等
技术咨询单位:中国残疾人信息和无障碍技术研究中心、IBM大中华区信息无障碍中心等
行动内容包括但不限于:开展信息无障碍论坛沙龙等活动,协助互联网公司将信息无障碍融入产品开发及维护流程,倡导更多互联网公司及从业人员关注信息无障碍,参与相关标准的制定及优化,推动相关政策出台等
国内互联网公司
百度
2007年,百度公司便推出百度盲道:一个为方便视力残疾人上网阅读信息、参与社区互动、听歌、访问互联网上其他相关网站的特殊入口
2013年,北京保益互动科技发展有限公司的盲人开发团队的负责人曹军致信百度CEO李彦宏,希望得到百度的资金和技术支持,开发一款盲人读屏软件。在百度团队的帮助下,曹军的公司成功研发出了帮助盲人使用手机的读屏软件
2016年初,在百度公益基金会的发起推动下,百度建立了相应的信息无障碍协调部门
针对三款视力残疾人使用频率较高的APP百度地图、百度输人法和百度贴吧的核心功能进行了无障碍优化工作,后续的版本也会持续开展无障碍工作
2015年6月6日,百度公司正式公布联合清华大学针对盲人群体共同研发百度盲人搜索
这款利用双手操作的机器通过特殊的移动设备将触觉与互联网相连接,利用触摸、语音等输入方式,帮助盲人获取互联网信息
四大主要功能
内容输入
盲人搜索的底部是输入区,移动手指即可输入,输入内容将实时以盲文形式显示在上方的搜索区,盲人可随时通过触摸检索输入的正误
也具备语音输入的方式,盲人可直接说出所想,并开展实时互动
内容输出
云端服务会进行智能分析与处理,从大量数据当中筛选出最符合用户需求的信息并且转换成最合适的形式在设备的显示区进行展示,可以通过触摸进行阅读
图像搜索
当搜索结果同时包含某个具体的物体时,百度的智能云端系统会自动挖掘到该物体的图形文件,并将图片智能转换为触点图形显示在百度盲人搜索终端,并配合相关的语音讲解,使盲人了解该物体详细介绍内容
生活服务
盲人出行指导、附近的盲人设施引导。在特殊环境下,设备在蓝牙或无线网络的辅助下,实时显示环境的推送内容
2015年9月8日,百度公益联合百度研究院、IDL深度学习实验室、盲人开发团队推出DuLight
实际上是一套人工智能操作系统,对于盲人使用者而言,在家只需手机端安装,即刻将百度的计算机视觉和语音等技术变成身边触手可及的生活助理
除了原有的独立手机端应用,DuLight加入了轻量级的新型硬件,成功完成向全系列盲人个人助理操作系统的转变
DuLightI的硬件端形态很像蓝牙耳机,用户佩戴之后就可以用语音的方式对DuLight发出指令
获取外界信息的方式除了接受用户发出的语音指令以外,更多的是通过内置摄像头捕捉用户第一视角的视觉信息,并通过用摄像头捕捉到的信息进行图像识别,随后通过图像语义理解对核心信息进行分析和讲解,通过一段时间的使用之后,设备还能智能推演出用户下一步可能进行的行为
还实现了盲人友好性语音的交互命令与对话,根据用户需求和语言命令执行对应的功能,为用户提供可调节的语音播报速度
触摸式硬件功能识别的工业设计也使得硬件外观的纹理设计更加合理,便于盲人通过触摸调整取景角度
阿里
2011年初,阿里巴巴集团成立信息无障碍小组
根据视力障碍人群对天猫、淘宝反馈的有关信息无障碍的具体问题,通过改进产品,从无障碍测试流程接入到研发流程,从而让视力残疾人获得更好的用户体验
开发了天猫内置辅助语音识别技术
从2011到2017年,信息无障碍小组成立了常态化项目组,陆续开发了语音验证码引擎、盲人用户专用的旺旺、无障碍app等,极大方便了视障人士网购
为残疾人卖家提供了多种免费服务,每年可以为每个残疾人卖家节省开店推广和管理费用约1w
支付宝、高德地图无障碍地图
腾讯
一:实现产品无障碍,提升视障用户的互联网体验
2009年,腾讯启动无障碍改造计划
从hummer版开始,QQ采用了新的无障碍实现形式,主动和永德、阳光等国内主流的读屏软件开展长期合作,通过提供拦截函数和API的方式实现无障碍
安全中心在验证码问题上取得重大突破,创新性地提出了QQ号白名单免验证方案,巧妙地解决了验证码不能提供等价文字替代方案的问题,简化了视障人士的操作流程
QQ邮箱、QQ空间分别推出了盲人专用版,通过完善焦点管理及代码书写对基础版本进行无障碍改造,使之与读屏软件适配并在此基础上完善体验效果
2011年初,QQ空间推出QQ农场读屏版
到目前为止,公司已经有20多个产品加入公司无障碍产品同盟,QQ、QQ空间、QQ邮箱、腾讯网、腾讯微博和QQ输入法等产品有明显改善并获得广泛赞誉
2012年6月,“腾讯无障碍产品同盟会”成立
盟会以产品为单位自愿加入,倡议在产品设计上,遵循一系列无障碍规范,满足无障碍体验
腾讯无障碍团队的技术骨干发起了“互联网通用无障碍解决方案”项目,通过一个客户端脚本智能分析提炼出当前界面的一些主要功能,并预留出一定的用户配置接口,当用户在浏览器端引用这个脚本后,进行简单配置就可以使页面无障碍化
经过不断摸索,“page-access-helper”(网页无障碍助手)发布。这个智能优化方案,可以帮助志愿者快速对已有的网站进行无障碍化改造
腾讯志愿者无障碍分会还在公司内部开展“Action in Dark”等模拟盲人的互联网体验活动,让公司员工真切地感受残障用户的体验,了解产品无障碍化的重要性
2013年8月,腾讯新闻改版,在信息无障碍方面首次将W3CWAI-ARIA规范中的landmark进行商用尝试
腾讯公司委托工业和信息化部电信传输研究所进行起草《互联网公司将“信息无障碍”融入产品开发和维护流程的指南》和《移动端互联网产品的信息无障碍技术标准》两个标准,在公司内部规范产品的无障碍化
二:鼓励视障人士编程,开拓就业新途径
2011年12月,“腾讯公益杯第二届全国盲人计算机技能大赛”决赛在北京举行
2014年1月,为更好地推动产品的无障碍化,腾讯公益慈善基金会通过资助、引入技术和流程支持、引入产品接入测试等全方位的帮扶方式,协助招募并建设“视障信息无障碍工程师”团队,为国内的T产品提供专业的信息无障碍测试服务
截至2018年有四名成员
三:促进行业协作,共同营造无障碍互联网环境
完善自身产品无障碍化的同时,不断加强与同行业的交流协作,共同推进国内互联网的无障碍进程
大型综合类应用示范
2008年北京残疾人奥运会
2010年上海世博会与上海市政府门户网站
2010年广州亚运会、亚残会
国家科技支撑计划项目
中国残疾人信息无障碍关键技术支撑体系及示范应用
十一五期间,一个核心服务支撑平台、两类关键技术、三类服务示范
面向盲人的文化资源整合与文化服务关键技术及应用示范
2014年正式启动,中国盲文出版社、浙江大学、中科院计算所等单位共同承担该课题任务
残疾人康复服务支撑平台及关键技术研发
十二五期间建立,2014年12月平台正式上线
无障碍媒体转换与交互
类似无障碍媒体转换与交互的方法,不仅可以帮助视力残疾人理解图像/视频信息,也可以用于帮助听力残疾人理解音频信息,语言障碍人群理解文字信息等。因此无障碍媒体转换与交互是信息无障碍最主要的技术支撑
处理流程
1.对受限通道的高维异构媒体数据进行主题表达,便于后续处理
无障碍媒体表达手段
大多数传统的图像处理方法是建立在数字信息处理和概率统计基础之上的,与人类的视觉处理存在较大差别,难以实现具有生物认知水平的图像处理和识别任务
随着神经科学与脑科学研究的不断发展,人类对生物视觉系统的研究和对大脑视觉的理解越来越深入,从初级视觉皮层到高级视觉区域,从初级视觉感知到高级知觉组织等,都取得了重要的研究成果。这些都为计算机模拟生物视觉提供了重要参考价值
感受野
视觉系统信息处理的基本结构和功能单元,是视网膜上可引起或调制视觉细胞响应的区域。它们被视网膜上相应区域的光感受细胞所激活,对时空信息进行处理
Hubeld&wiesel指出:在人眼视觉系统中,从视网膜到大脑皮层存在一系列细胞,以“感受野”模式描述
稀疏编码(sparse coding, SC)
神经生理研究已表明,在初级视觉皮层下细胞的感受野具有显著的方向敏感性,单个神经元仅对处于其感受野中的刺激做出反应,即单个神经元仅对某一频段的信息呈现较强的反应,如特定方向的边缘、线段、条纹等图像特征,其空间感受野被描述为具有局部性、方向性和带通特性的信号编码滤波器。而每个神经元对这些刺激的表达则采用了稀疏编码原则,将图像在边缘、端点、条纹等方面的特性以稀疏编码的形式进行描述
优点
编码方案存储能力大,具有联想记忆能力,并且计算简便
使自然信号的结构更加清晰
编码方案既符合生物进化普遍的能量最小经济策略,又满足电生理实验的结论
从数学的角度来说,稀疏编码是一种多维数据描述方法,数据经稀疏编码后仅有少数分量同时处于明显激活状态,这大致等价于编码后的分量呈现超高斯分布
从神经生理学角度而言,稀疏编码是一种新陈代谢能量较少的信息处理策略
对作用于输入刺激的单个神经元来说,稀疏编码指该神经元响应的分布具有稀疏特性
而对作用于同一刺激的神经元群来说,稀疏编码则指对于该刺激,并不是所有的神经元都被激活,而仅仅只有极少数的神经元被激活
一个神经元群中的神经元在大部分时间并不处于激活状态,很自然地,单个神经元响应的概率分布将在0附近有一个峰,而尾部扁平
从信息论的角度看,在具有相同均值和方差的概率分布中,正态分布具有最大的熵,稀疏分布的熵则少很多
非正态性也是衡量稀疏性的标准之一
只需要很少的一些系数就可以近似地逼近原信号
稀疏编码算法是一种无监督的学习算法,可以找到一组基集合来获取数据中的高阶语义信息
关联技术
属于人脸自动标注这个比较大的主题,包括基于模型的和基于检索的人脸标注,人脸名字关联技术
一般地,基于模型的人脸自动标注被认为是对人脸识别问题的扩展,在收集到的已经标注好的人脸数据集上训练一些传统的分类器
基于检索的人脸标注
这些算法利用一些从搜索引擎中收集到的弱标记的名字一人脸数据来给图像中的人脸匹配最优的名字
两个重要挑战
怎样高效地从大规模的人脸图像数据库中检索到相似的人脸图像
solve: 使用全局的和局部的特征来表示人脸
怎样发现数据中的噪音和不完整的图像,以及人脸标注中的弱标记信息
solve: 弱标注正规化局部坐标编码技术
无监督人脸一姓名关联技术
在很多需要大量的标注训练集的应用中非常有用,例如:人脸图像检索、人脸自动标注等。同时,它在很多网站系统中也是非常重要的技术,比如社交网站(FaceBook)、照片分享服务(iPhoto)
这看起来像一个传统的分类/人脸图像标注问题,在标题中每一个名字是一个类别标签,我们需要确定每一个人脸归属于哪一个标签。但是,人脸一姓名关联技术从本质上是与标准的监督性分类问题不一样的
没有训练数据,收集的图像-标题对可能包含多个人脸和多个名字,然而没有明确的人脸名字关联信息→本质是一个无监督学习问题
人脸一姓名的关联是非确定的。并不是所有的在主题中出现的名字在图像中都有相关的人脸,当然也不是图像中的所有人脸都能在主题中找到相关的名字
solve: FACD算法
两个步骤:线下预处理和线上人脸匹配。为大规模的名字和人脸数据建立了一个倒排索引的结构,然后根据倒排索引结构进行线上人脸名字匹配
在图上采用了通勤距离来匹配人脸与名字,这样的方法比传统的方法在效率上有很大的提升
为了进一步地提升计算速度,我们提出了基于定位点的通勤距离(ACD),在大规模的数据集上速度进一步提高了。AD的这些优点使得它很适合大规模的在线人脸名字关联系统
2.对于表达后的数据,需要进行一定的语义分析理解,获取多媒体语义,从而可以转换为其他通道信息
无障碍媒体语义理解手段
人脸一姓名关联技术
在互联网上有大量被标题文字环绕的图片,其中很大部分的图片(尤其是一些新闻事件)包含了人脸而且图片周围的标题文字中包含了名字信息。我们发现在这些图像一标题对中,在图像中的人物的名字很有可能出现在周围的标题文字中,这个发现激发了研究者对图像中的人脸与标题中的名字的隐含关联的研究兴趣
随机游走与通勤距离计算
在图上的随机游走是由有限的马可夫链表示的序列节点构成
基于通勤距离的只能匹配理解算法
对于每一个项目构建一个统一的无向图,图中的节点代表人脸(包括请求人脸和候选人脸)和名字。候选人脸由项目中名字通过离线阶段建立的索引中检索得到
快速通勤距离算法(Anchor-based Commute Disatance, ACD)
(1) 构建定位点图
(2) 通过对矩阵进行特征分解,然后计算通勤距离
ACD更适合实时系统
3.需要对所要转换的信息量进行控制,以便于满足不同信息通道传输速率限制
智能分析处理手段
技术背景
从开始简单的读屏软件,到后来对整个网站以及其中的图片进行图片描述信息的获取,包括对视频进行文字描述等技术,大大拓宽了特殊人群获取信息的渠道,这也同样导致了信息冗余的情况
利用文档规约、智能摘要等技术,可以帮助特殊人群缓解这个问题。通过该技术,可以对长文本内容进行整合和摘要,在保证一定准确性的前提下,可以更快地获取到自己想要的信息,或者可以先进行简要的了解,来进行对信息的选择
其实在日常已经被广泛地应用。eg.在搜索引擎根据用户查询的关键字进行搜索,在搜索内容下方会把涉及的文档内容以摘要的形式进行展示,用户可以通过简介来快速判断该搜索是否包含所需要的信息,方便用户更快速地寻找到需要的信息
传统的摘要技术
抽象式文档摘要
主要是对信息进行融合、句子压缩以及句子重组等自然语言的处理过程产生结果摘要,但是通过抽象式文档摘要得到的融合信息并不会令人非常满意,容易出现语义或者语法之间的问题
抽取式文档摘要
通过一个排序模型从已有的文档中选择部分重要词汇进行输出,这样能在保证词序的同时,提取出关键词,更容易保证摘要的语义完整性
更常用
一个相同的缺点
它们都是以句子为单位进行排序然后输出,排序最靠前的几个句子往往具有相似的信息重复,因此在进行信息提取的时候往往会造成大量冗余、重复的信息
传统的文档摘要技术
基于句子抽取的文档摘要技术
这些方法大部分需要给原文档的句子或者段落赋予一个用于排序的分数,然后用得分最高的句子或者段落组成结果摘要。基于特征的排序分数通常跟各种特征有关,比如词频、句长、话题以及单词在句子中的位置等
排序方法
基于特征的排序方法
早在20世纪50年代,就有研究者利用词频特征来计算每个句子的排序分数。他们认为单词在文档中出现的频率代表了它的重要性,并进而影响它所在句子的重要性
首先根据词频对单词进行排序,计算句子的重要性并排序,最后取重要性序列的前几个句子,即最重要的几个句子,组成结果摘要
句子的位置也可以作为排序的一个重要特征
eg新闻文档一般都是总起句开头,所以第一个句子的重要性就特别高
一个典型的算法是首先提取原文档的每个单词,并去除停止词。统计所有单词在文档中出现的词频后,采用权重词频向量(the weighted term frequency vectors)表示原文档的句子。然后计算每个句子向量和整个文档向量的相似度,并根据相似度对所有句子进行排序。最后取相似度序列的前几个句子,即与原文档最相似的句子,组成结果摘要
基于词汇链的排序方法
研究者需要先根据一连串相关的名词、动词等词汇关系确定一条词汇链
在相关研究者工作中,认为动词在句子中扮演了特别重要的角色,因此利用语义角色解析为每个动词标注了标签,然后结合WordNet工具发掘相同语义角色中的词汇间语义关系。这些关系在后续的配对语义相似度计算中发挥重要作用,并最后用于语义相似矩阵的构建中
在相关学者工作中,词汇间的关系则是通过对文本进行句法分析后得到的树形模型来表示的
基于图的排序方法
句子的排序分数会基于图结构进行传播
类似PageRank和HITS等排序算法都有被应用到图结构中句子分数的传播,而图结构则往往是通过句子之间的语义相似度构建的
句子之间添加一条边,并将相似度的值设为后续图传播时的边的权重。然后利用PageRank在图中为每个句子赋值,并视其为表示句子重要度的排序分数。最后取重要度最高的几个句子,即最重要的句子,组成结果摘要。相关学者工作首先将原文档的句子聚类成几个话题,并将聚类得到的话题和原文档句子分别当作HITS算法中的hubs和authorities。然后根据HITS算法得到authorities的得分,作为原文档句子的排序分数。最后,排在最前面的句子将被选择成为摘要
这些方法都遵循一个初衷,即一个句子的排序分数能够影响图结构中在它邻近的句子的排序分数
研究者还发现将关于同一话题的多个文档整合起来有助于提高基于这几类排序分数计算方法的单文档摘要质量
基于机器学习的方法
从20世纪90年代逐渐开始出现,不需要计算句子排序分数
在抽取式文档摘要方法中,基于机器学习的方法有基于分类(classification-based)的方法、基于聚类(clustering-based)的方法和基于模型(model-based)的方法等
相关研究者工作针对特定的输人查询项来完成文档摘要的提取
基本思想:根据每个句子与查询项之间的相似度,选择与查询项最相似的句子作为摘要
可以用分类方法根据与查询项是否相似将句子分为两类。研究者将无训练方法和贝叶斯分类方法设为基准比较方法,并利用EM分类(the classification EM algorithm,CEM)算法完成最大似然分类
也有研究工作在最大距离相关的基础上,引入了一个全新的信息中心评价方法
不同于通常根据与人工摘要的匹配度评价摘要质量的方法,研究者提出了根据摘要在信息检索(Information Retrieval,IR)任务中的表现来评价它的质量
首先利用Xmeans将原文档句子聚类成若干个话题(topic),然后从每个话题中选取一个最重要的句子组成结果摘要
受到潜在语义索引模型(latent semantic indexing,LSI)的启发,相关研究者提出采用奇异值分解(singular value decomposition,SVD)选择摘要句子
首先将文档表示成一个词句矩阵,其中每个元素表示每个单词在相应的句子中的词频,每一列表示一个句子
然后对词句矩阵进行奇异值分解分别得到奇异值矩阵和右奇异向量矩阵,其中右奇异向量矩阵的每一行表示原文档句子在奇异向量空间的表达
最后选择右奇异向量矩阵前几列中最大元素值对应的那个原文档句子作为摘要句子。即选择了那些在奇异向量空间中,在最大奇异值对应的维度上具有最大值(区别度)的句子
相关学者工作对由原文档的句子向量构成的语义相似矩阵采用对称非负矩阵分解(symmetric-non-negative matrix factorization,SNMF),从而对句子进行聚类并从每个类中选择一个摘要句子
为了提高文档摘要的质量,研究者们还提出了其他的方法,例如将句子聚类成话题,并提高话题的表达方式以及利用时间序列文本
然而,无论是基于排序的方法还是基于机器学习的方法,所有以上这些文档摘要方法虽然都以得到覆盖原文中心思想的文档摘要为目标,却极少有方法从数据重构的角度考虑抽取式文档摘要
基于最佳重构的摘要技术
首先用线性重构模型来对文档和摘要之间的关系进行建模。线性重构模型旨在用摘要句子的线性组合近似模拟原文档
已有的研究成果从心理因素和生理因素两个方面表明,人类大脑的表达方式是基于部件组合(parts-based representation)的。受到这一成果的启发,我们认为文档摘要也应该符合这一原理,因此在DSDR框架下进一步通过引入非负参数约束得到非负线性重构模型,保证摘要句子在通过线性组合近似模拟原文档的过程中没有冗余信息的叠加
无论是线性重构还是非负线性重构都无法表现出句子空间的非线性流形结构,因此线性函数无法得到最优的结果摘要。我们提出了基于流形自适应性核函数空间(the manifold adaptive kernel space)中的图拉普拉斯(graph Laplacian)非线性重构
从数据重构的角度提出了一个全新的无监督文档摘要框架
首先,提出了线性重构模型,并通过一个贪婪优化方法快速有效地得到文档摘要
接着,提出了非负线性重构模型,并通过相应的迭代优化方法得到全局最优的结果
最后,针对原文档句子空间的非线性特性,我们基于流形自适应核空间提出了非线性重构模型
并不仅限于这里提到的三种重构模型,它同样适用于其他任何类型的数据重构模型。鉴于DSDR框架是无监督的以及和文档语言的不相关性,它可以轻松地扩展应用到非英文文档甚至混合语言文档中
通过选择出那些能够在核空间中重构出原文档的句子,能得到比传统方法更好的文档摘要
一个高质量的文档摘要的两个条件
被选择作为摘要的句子要能够覆盖所有原文档句子的主要信息从而可以作为原文档的简单介绍
覆盖的过程称为“重构”
这些摘要句子的重构应该要准确从而保证结果摘要包含最少的冗余信息
即最小化重构误差
图例
基于数据重构的文档摘要 (Document Summarization based on Data Reconstruction, DSDR)
通过最小化重构误差获得文档摘要
去掉停止词后,我们将文档分割成独立的句子并将每一个原文档句子表示成有权重的词频向量。所有的原文档句子一起形成待选句子集合
给定一个文档(或文档集合),DSDR框架通过最小化重构误差,旨在找到最优的句子子集来近似表达整个原文档(或文档集合)
无障碍网络视频实时字幕
字幕协同录入
实时字幕的来源
速录人员根据电视直播,使用专门的速录设备将字幕录人到字幕文件中。为了保证效率和质量,一般是一人负责录入,一人负责审核,一人负责句子切割和保存
字幕文本监测
文字视频直播要求速录人员录入字幕之后,经过短时间延时网络马上看到新的字幕,在这么短的时间内,经过字幕备份、字幕处理、字幕推送、字幕获取和字幕缓冲5个步骤,因此对实时性要求非常高,需要对字幕文本进行实时的监控和内容备份
监控文件变化
定期循环扫描模式
是指监控软件间隔一定的周期扫描被监控的目录和文件,同时记录文件的属性(如文件的大小、最后修改时间等),通过对比前后两次的扫描结果,判断哪些文件或目录更改了
这种方法不适合对字幕文本的监测,因为网络文字视频直播对字幕实时性要求很高,从录人到显示,间隔不能太长
事件触发模式
是指在文件创建、更新、删除时,引起操作系统触发事件,通知监控软件发生了变化以及发生了什么变化
这种方法的实时性很高,在文件更改的瞬间就会通知到字幕监控端,可以满足我们对在线字幕直播实时性的要求
实时字幕处理
是在字幕监控模块在监控到字幕文本的变化后,触发实时字幕处理模块去获取最新的字幕内容,对其进行分行处理之后,对每行字幕内容添加实时信息,生成实时字幕,并用特定的数据交换格式传输字幕(例如轻量级的JSON格式传输实时字幕)
生成JSON格式的实时字幕,并将其序列化之后,传送到字幕服务器
实时字幕
字幕内容
实时字幕处理最基本的处理对象
速录人员在录入字幕时,为了便于字幕的分割和获取,要求速录人员录入每条字幕时,通过审核之后,需要回车换行保存。当字幕监控模块监控到文本变化时,字幕处理模块从文件中获取一定行数的字幕内容
字幕序号
用来确定字幕播放的先后顺序
时间戳和时间偏移
时间戳是电视直播时字幕的时间戳时间偏移是电视直播与网络直播之间的延时,根据这个延时,用户在观看网络文字视频直播时,可以进行微调
实时字幕推送
为了确保字幕可以安全、快速、准确地写入字幕服务器,字幕系统在推送时采用了WCF(Windows Communication Foundation)的数据通信方案
是微软提出的一个面向服务的分布式分层架构,它整合了平台下所有与分布式系统有关的技术,为开发各种不同环境下的分布式系统提供了一个统一、高效的方法。使得开发者能够建立一个跨平台的安全、可信赖、事务性的解决方案且能与已有系统兼容协作
核心是一些由终结点组成的集合,可以为客户端提供有用的服务
一个终结点是网络上能将消息送达的一个资源
客户端按照与服务之间的契约(Contract)来格式化消息,并将消息发送给端点来访问端点的功能
字幕服务器
负责存储实时字幕,向全国各地的用户提供在线的实时字幕
在提供实时字幕的功能外,需要考虑好负载均衡和缓存优化这两个性能上的问题
分类
本地字幕服务器
可以采取直接写人的策略
远程字幕服务器
对于分布式网络,如何做到字幕客户端与字幕服务器的通信尽可能简单化、易操作性、易扩展性是非常重要的
实时字幕系统采用Nginx(engine x)作为字幕服务器
一款轻量级的Web服务器、反向代理服务器及电子邮件(IMAP/POP3)代理服务器,并在一个BSD-like协议下发行
有多种负载均衡方案和缓存优化策略
都是为了提升字幕服务器的性能
特点:占有内存少,并发能力强
eg中国大陆使用Nginx网站用户有:百度、京东、新浪、网易、腾讯、淘宝等
4.随着信息数据的海量增长,如何处理大规模多媒体信息数据
规约与快速计算手段
在如今海量数据与高维数据的压力下,无障碍获取信息的实时性问题已愈发重要
健全人在获取图形图像以及文字信息时,可以通过视觉通道大范围反馈快速提取重要信息以及自己感兴趣的信息。而对于视觉通道受阻的盲人来说,只能通过收听逐字逐句的文字信息,并需要集中精力处理收到的文字信息以提取自己想要的内容。由于文字要在能清楚辨析的条件下播放的速度是有限的,盲人获取信息的速度就会被文字播放的速度制约,加之信息获取应用的场景往往具有实时性、大规模等要求
现在主流信息处理挖掘算法大部分依赖底层数据相关性图结构的支持,计算过程也需要图算法的帮助,但传统图计算的时间和空间复杂度都较高。因此、图算法的运行必须非常高效,才有更多的应用与拓展空间
图算法技术
无论是个性化推荐技术还是搜索技术,基于图算法的技术已经被广泛地研究与应用
相比传统基于相似度排序等手段,该方法有着本质的提升:充满逻辑又简单易用,把实际问题建模成抽象的图算法,然后再利用严谨的数学推导与演算进行问题的求解
将数据库中大量的独立数据样本以图结构关联起来,用节点来表示数据,用边的权重来表示数据之间的关联关系逻辑
类别关系、链接关系、相似度关系、跳转关系
链接分析方法
PageRank技术
HITS算法
该算法定义了Hub和Authority两种网页页面属性。HITS算法的核心思想是优质的Hub页面会相应地指向优质的Authority页面,反过来,优质的Authority页面则会更容易地被优质Hub页面所指向
流形排序(MR)算法
其核心思想是根据大量数据所表达出来的内在几何结构(通常称之为流形结构)来排序、传播节点的分数
核心问题是怎样构建图结构,不同于网页链接结构,一般的数据集(例如文本、图片等)并不存在图结构
线性相邻传播算法(LNP)
图的传播算法除了可以用于排序问题外,也能用于分类问题
该算法采用近邻关系来构建图结构,并根据近邻点的label估计当前点的label值;算法在框架上属于高斯分布马尔科夫随机场问题,而且采用更加广义的超图结构描述节点之间的关系
LNP算法在文本分类、图像分割、物体识别等问题上都产生了很好的效果
流形学习
相当部分的流形学习与图算法密切相关,而近几年来流形学习的火热研究也反过来推动了图算法的研究与探索
许多流形学习研究都在考虑这样一个问题:虽然数据维度很高,但是实际上数据是分布在一个原始空间的低维次流形(Submanifold)中。所以相当一部分流形学习研究学者致力于寻找存在于数据内部的流形结构
eg.局部线性嵌入法,该算法认为局部区域数据上的点可以通过线性拟合重构得到,并且原始空间与子空间共享着相同的重构权重,算法以此来推导出能保持数据局部特性的降维表达
涉及图算法的信息获取关键技术
图结构设计与建模
对于很多以图算法为基础的方法,如降维、聚类、分类等,其图结构的好坏往往是算法最后是否能取得好的效果的主要因素
在HITS和PageRank算法中,所使用的图结构是已经存在的网页链接结构,但大部分图算法都需要根据实际数据重新设计特殊图结构来对数据进行建模
k近邻图(kNN)
kNN是一种局部特征图,即对于每一个点,只找到最接近的k个点并与之相连
二分图模型
往往用于对两种类型的点建模,其特点是不同类点之间有边,即有关联,而同类点间没有边
锚点图
是对局部图(如kNN图)的一种近似表达,但相似关系不是通过最近邻进行传递,而是通过相似锚点来进行传递,这使得图的构建与使用更加灵活与快捷
基于图的特征表达与关联
是一类重要的技术,尤其在高维数据的降维表达研究方向尤为突出
基于图的降维技术与传统的无监督降维技术相比,图算法具有天然的优势——除了数据的原始表达之外,图算法还含有强烈关联性或相似性的图信息,我们可以在算法的设计目标中加入图信息的约束条件,使得降维得到的表达并不是无目的性的,而是为之后的分类、聚类等问题服务
与有监督的降维技术如LDA相比,又具有快速、灵活的特点,图结构的构建往往并不依赖于昂贵的人工标注。甚至在某些应用场景下,我们并不需要知道数据的原始表达,只需要根据实际问题构建起对象之间的关系图即可
eg.社交网络应用中的社交关系图,我们很难用一个统一的原始表达去描述一个用户,但一旦知道了社交网络中的好友关系,就可以构建出一张用户关系图,基于图的降维算法就可以将用户用向量表达描述出来,这样逆向生成数据表达的方法对于传统的方法来说是很难实现的
大规模图算法
由于图算法所解决的问题往往和大规模应用相关,如网页质量排序、图像检索等,效率问题就成为一个十分重要的因素
Haveliwala提出了PageRank的快速计算方法
提出采用块状结构来加快计算时间,以及减少对内存使用的依赖,可以在单机上处理上千万的网页数据
Xu Bin等研究了流形排序算法的加速技术
该算法主要是针对原始算法在计算全局最优解时需要求解大矩阵的逆这一耗时步骤,通过采用构建锚点图以及设计邻接矩阵的低秩表达形式,并且利用了矩阵求逆的性质来加速求逆运算
在图片分割(ImageSegmentation)问题上也有人研究用图算法来实现,用局部图模型(Grid图,kNN图)来表达图片的内容,并通过贪婪算法来判定图像区域块之间的边缘,算法的运行效率与图结构的边数量成线性关系,计算效率较高
多元信息融合
除了表达一类数据之间的关系,图算法更擅长于表达多类数据之间的关系;而事实上,很多应用问题,尤其在复杂的网络应用环境下,多元信息的存在是一种普遍现象
Guan Ziyu等研究将用户、文档、标签等多元信息融合在一起,提出了基于图排序模型的标签推荐算法
作者将标签推荐的问题转换成“查询与排序”的间题,将用户、文档都当作查询输人,然后排序相关的标签作为推荐的输出
EMR快速计算技术
流形排序(Manifold Ranking,MR)
是一个著名的基于图的排序模型。它针对大规模数据共同揭示的内在几何结构来对数据样本进行排序
被广泛应用于多种数据类型,例如文本、图像、视频等,并展现出优秀的效果和可行性
与传统方法中绝对的成对相似度不同,由于考虑了底层结构,MR给每个数据样本点分配了一个相关排序分数。这个得分被定义为流形中的相似度衡量标准,对于捕获语义相关度是非常有意义的,与其他算法相比极大地提升了图像检索效果
缺点:计算复杂度非常高,无法在现有的框架中有效地处理一个新样本数据的查询请求
快速流形排序(EMR)
可扩展的图的构建
高效的计算,特别是对于新样本数据的检索
规约技术
如今数据量呈现爆炸式增长的趋势,传统的算法在如此海量的数据之前会面临标注困难、类别多、维度高、规模大等一系列挑战。在实际应用中,大量的未标注数据很容易获得,但已标注的样本却难以得到。一方面是因为对样本进行标注时费时费力,并且不同的人对样本的标注习惯往往不同,容易存在歧义
为了处理大规模数据,半监督学习、主动学习、数据降维(特征选择和特征抽取)、联合聚类、在线学习等技术被提出,并得到了蓬勃发展,极大地丰富了机器学习领域的研究内容。每年都有大量的论文发表在机器学习领域的著名国际会议(ICML、NIPS等)和期刊上
半监督学习
这种学习方法同时利用标注样本和未标注样本,最大程度提高了算法的效果
主动学习
从另外一个角度解决样本标注困难,和半监督学习互为补充
旨在从数据中选择出最具信息量的样本,然后对这些样本进行标注,从而以最小的标注代价得到效果最好的(分类或回归)模型
关键在于如何衡量未标注样本的信息量。根据不同的衡量标准,我们可以将主动学习算法分为不确定抽样、典型抽样、委员会选择、方差降低等类别。在统计学中,主动学习被称为最优化实验设计
5.针对不同用户的个性化需求与不同信息资源提供方的要求
信息推荐技术
基于协同过滤的推荐方法
只关注用户和资源之间的交互信息,把资源看成一个没有内容的节点
基于内容的方法
把用户理解成一系列有权重的关键词,把资源也理解成一个关键词序列,这样我们可以通过比较两个序列来做推荐
由于每个用户关注的主题可能只有少数几个主题,而对其他主题涉及不多,所以我们用户和资源的关键词序列都按照主题进行构建,这样不但推荐更有针对性,而且推荐的效率更高,能够实现在线推荐
eg盲人数字图书馆
基于网络社区的推荐方法
把多种来自社区的信息基于图的方法进行建模,最终给出更好的推荐效果
eg聋兴论坛
数据挖掘
三层数据仓库结构
底层:数据仓库服务器
它是一个关系数据库系统,由操作数据库和外部数据源提取数据
网间连接程序由下面的DBMS支持,允许客户程序产生SQL代码,在服务器上执行
eg. ODBC(开放数据库连接)和微软的OLE-DB(数据库开放链接和嵌入)、JDBC(Java数据库连接)
中间层:OLAP服务器
关系OLAP(ROLAP)模型,即扩充的关系DBMS,它将多维数据上的操作映射为标准的关系操作
多维OLAP(MOLAP)模型,即特殊的服务器,它直接实现多维数据和操作
在构建好的残疾人多维数据立方上进行OLAP操作
上卷:通过沿着概念分层向上攀升或者通过维归约,在数据立方上进行聚集
下卷:下钻是上卷的逆操作,它由比较简单的数据到更详细的数据,可以通过沿着维度的概念分层向下或引入新的维来实现
切片和切块:切片操作在给定的数据立方的一个维度上进行选择,产生1个子数据立方
顶层:客户
包括分析工具和数据挖掘工具(例如,趋势分析、预测等)
版权保护技术
版权保护策略方案主要基于文本加密技术和Javascript脚本技术
服务器的密钥生成
文本加密
客户端浏览器的Javascript脚本防护
Javascript的脚本解密
用户通过Browser请求资源,服务器首先对用户请求检测其客户端各类信息,当验证通过后,则动态生成一个随机的动态密钥,并对请求的资源进行文本加密,然后将密文和密钥经过转换传输给客户端浏览器。客户端浏览器加载相应的密文及脚本,并运行脚本同时实施脚本防护和密文解密,从而使用户能够访问文本但不能下载文本
检测技术
网站无障碍检测系统
是基于众包技术的检测系统,旨在借助群体的力量对网站进行无障碍检测
四个模块
网页爬取与抽样
对于需要无障碍检测的网站,系统采取增量爬虫的技术对网站进行指定深度的爬取
由于一个网站通常含有大量的网页,对于需要人工辅助检测的网页来说,如果所有网站都检测一遍,将耗费大量的人力,因此,我们需要对网站进行抽样,使抽样出来的网页所包含检测点的无障碍情况能反映整个网站的无障碍情况
合规性检测
系统采用自动检测和人工检测相结合的方式对网站进行无障碍检测
机器能自动识别的检测点如“非文本链接”:系统将对爬虫爬取的全部网页进行自动检测
需要人工检测的检测点如“验证码”:系统将会提取抽样后的网页交给志愿者进行检测
残障人士体验
需要有一部分残障人士的实际体验,通过他们提供的评估结果,更准确地评估网站无障碍检测点的实际结果
检测结果生成
将网站的最终结果统计分析,生成报
抽样技术
利用抽样对大规模网站抽取关键网页进行检测,减少检测所需人工成本
抽样三个步骤
(1)确定抽样大小
(2)采用抽样方法选择检测页面
(3)样本评估
高质量的抽样的特征
抽样选取的网页应具有代表性
可以大大降低成本,但是也使得评估结果严重依赖于所选的页面
抽样不足可能导致评估结果中存在较大的偏差,但是过度抽样会带来很高的评估代价
抽样网页集合所反映的网站无障碍水平应和全部网页所反映的网站无障碍水平尽可能接近
最近的研究表明,评估结果不完全可信,因为网站的底层结构是未知的
抽样质量也受到诸多因素的影响,如抽样大小、网站大小、选择的页面、无障碍指标等
传统的抽样算法
关键网页抽样
是信息无障碍领域最早使用的抽样技术之一,它最早由W3C/WAI组织和UWEM提出
首先需要人工主观定义网站中的关键网页
可以是用户经常登录和浏览的页面集合
也可以是包含某些特定检测条目的页面集合,如包含图片验证码、视频的网页
该技术简单易操作性,使它在信息无障碍领域初期得到了广泛应用,但是该技术具有太强的主观性,而且效果不稳定,因为该技术过度依赖于人工定义的关键性网页,没有考虑到不同网站可能具有不同特性
随机抽样
使网站的所有网页都能够被等概率地包含在样本中,被称为“等概率”抽样技术
从统计学意义上非常完美,但是在信息无障碍领域,利用该技术选取出的网页集合一般不能很好地反映网站的无障碍水平。因为包含无障碍检测条目的网页不是随机分布在每个页面中的
该技术需要提前爬取和存储该网站的所有网页,然后再从中随机选择一定数量的网页。当网页数量非常大的时候,该技术会带来巨大的I/O和存储开销
随机游走抽样
为了降低随机抽样的开销,Henzinger等在2000年提出了基于随机游走的近似随机抽样算法
类似于传统的网络拓扑,依据网页之间的超链接关系,可以将网站中的所有网页看成一个有向图,图中的有向边表示网页间超链接的指向关系
第一步从网站主面开始,每一步以d的概率跳到网页外部链接所指向的某个网页,以1-d的概率返回到已经访问过的网页,第二步从访问过的网页集合中随机选择一定数量的网页作为抽样样本,这样所有被访问过的网页能够以相同的概率被包含到样本中
欧盟互联网信息无障碍(EIA06)项目采用了基于随机游走的网络爬虫对网页进行抽样
都依赖于一个假设:检测点(checkpoint)在所有网页中是随机分布的。但事实上,这个假设并不成立,对于诸如“错误原因提示”和“输入提示”等检测条目,检测点通常位于带搜索框、注册、登人等组件的网页,并不是每个网页都有此类条目的检测点,如果对网站进行随机抽样,抽样样本网页很有可能无法覆盖到这些检测点,造成无障碍检测结果误差
基于聚类的抽样
为了解决无障碍检测条目非均匀分布在每个页面而造成漏检的情况,研究者提出了一系列基于聚类的抽样技术,又称分层抽样技术
(1)根据一些标准对页面进行分组
(2)对于每个聚类,随机选择页面,直到样本的大小达到要求
基于自动检测结果聚类的抽样
根据自动检测结果进行聚类后再抽样可以将相似的网页聚在一类中,从而使特殊的网页,如包含图片验证码的网页可以聚在一个类中,进而解决漏检的问题
该技术假设网站无障碍检测条目中自动检测条目的分布和人工检测条目分布是一致的,虽然假设并没得到证实
但是该技术需要下载和保存网站中每个网页的内容,并对它们进行自动化检测和存储检测结果。这样会和随机抽样技术一样带来巨大的/和存储开销
基于URL聚类的抽样
为了解决上述问题,Zhang等在2015年提出
利用聚类方法把相似结构的网页聚类到一起
因为目前很多网站发布网页大部分都是基于模板的,同一模板发布的网页不仅结构相似,URL也很相似。同时同一模板发布的网页具有的无障碍检测条目和结果也很相似
最常见的是基于DOM树的聚类方法,但DOM树相似度度量的复杂程度太大,网页数量达到一定程度计算量太大
步骤
获取网站所有网页URL集合
将每个URL根据“/”划分成不同的条目
根据MDL技术贪心选取模板URL条目
根据模板条目,将具有同一模板条目的URL聚在一类
最后从每个类中按比例抽取一定数目的网页作为样本集合
基于WAQM的抽样
已有的研究表明,在无障碍检测中,一个抽样技术的好坏很大程度依赖于所选择的无障碍衡量标准;有些数据表明在抽样比率很大时,有的抽样算法仍然会造成20%的抽样误差,这说明了该抽样算法和这个衡量标准不匹配,即使选择了很大的样本,带来的抽样误差依然很大
最佳抽样方法OPS-WAQM
Zhang等针对目前最流行的WAQM的无障碍度量标准提出
提出了一种近似求解优化问题的贪心算法来近似地确定每一层的最优抽样数,并在每一层随机抽样,通过选择不同页面深度层次的最优样本值来最小化抽样误差
基于主动学习的抽样
Zhang等在2017年提出了一种基于半监督的网站无障碍检测技术,称为主动预测
该方法将网站的无障碍评估转换为一个预测问题,通过建立每个检测点的学习模型来进行评估,从而避免了人工检查中昂贵的成本
利用主动学习技术来选择最具信息量的页面来训练模型
主动学习
学习引擎
在标记样例集合上进行循环训练,当达到一定精度后输出
该过程类似于传统监督学习中的分类器训练过程,因此也被称为分类器
抽样引擎
是主动学习算法不同于其他学习算法的部分。其任务是在未标记样例集合上使用不同的抽样算法选择样例,将其交由人类标注者进行标记,并将标记后的样例加入已标记样例集,以供分类器进行循环训练
在最少标记代价下获得能最大程度提高分类器的泛化性能的标记样例集
迭代过程
在标记样例集上训练分类器
使用分类器对无标记样例进行分类判断
根据分类结果,使用抽样引擎选择部分无标记样例交由标注者进行标记
将标记后的样例加人标记样例集用于分类器的下一次训练
终止条件:标记代价或者分类器的泛化精度达到一定标准
分类:成员查询综合、基于流的主动学习和基于池的主动学习
正文提取技术
利用正文提取实现网页中的检测点定位,以便确定所需检测条目
网页的模板在不断变化,因此提出基于视觉的网页内容提取方法作为基于模板方法的补充
提出基于视觉特征思想,采用机器学习和规则定义相结合的方法,对网页内容进行分块划分,过滤广告等噪音信息,提取出其中的正文部分
在视觉上,一张网页的页面可以划分为若干个内容块,同一个内容块内包含相近的内容
分块前准备
网页中的HTML标签存在不规范的现象,因此首先需要对待处理的网页标签进行标准化处理,添加、补全遗漏或不完整的标签
构造DOM树,将网页中的标签按照嵌套关系整理成一棵树状结构,同时保留树中每个节点的视觉属性特征,以便后续处理
网页分块
首先根据对DOM树各种容器标签的数量进行统计,根据数量大小,判断页面采用何种容器标签
其次考察最底层容器的标签节点,将DOM树中最底层节点下所有的文本节点合并,并统计该块的信息含量,同时考虑该块的视觉特征,把该块中大多数文本的视觉属性作为该块的视觉属性
对内容块取舍
根据块的空间特征和内容特征,计算网页块的重要性程度
空间特征
包括块的位置和大小等
4个参数:块中心的横坐标、纵坐标、宽度和高度
内容特征
包括文字长度、链接数量、图片数量等
通过对现有人工标注后的网页的学习,设定这两类特征中各属性的阈值,选择出各块中重要性程度最高的块,作为网页正文内容
众包分配技术
基于众包技术,充分利用广大志愿者,选取任务分配给他们,帮助提高检测质量
eg.亚马逊众包任务平台AMT(Amazon Me-chanical Turk)
2006年,Jeff Howe在美国《连线》杂志刊登的文章中提出了众包的概念,即利用互联网将相关的工作任务分配给互联网上的志愿者,发现创新点或解决问题
众包思想打破了以往完全依赖机器的复杂计算力来解决问题的方式,利用群体智慧的高效性,充分发挥人类本身的认知推理能力,实现机器即使通过复杂计算也无法达到的工作效果
众包系统的模块
任务的发起者
提出一系列亟待解决的任务,并向广大志愿者发起解决方案的征集
需要审核任务的完成质量并据此给予志愿者一定的报酬(或者免费)
任务的工作者
由具备完成能力的志愿者组成,他们将参与到具体的任务中并提供解决方案
任务控制模块
包含具体的任务相关管理和维护机制,包括任务分配、任务质量控制、奖励机制等
面向无障碍检测的众包
在用户体验检测中,Liu等提出了一个基于众包平台下的网站用户体验检测。在AMT和CrowdFlower两大众包平台中,对一个研究所的网站进行了检测,检测结果证明了众包平台对用户体验检测的价值和实用性
Michael等也提出了一个众包工具CrowdStudy,并利用该工具进行网站用户体验检测
中国残疾人信息和无障碍技术研究中心研发了一套基于众包思想的网站无障碍检测系统
机器自动检测
人工检测
将检测任务分发给参与检测的志愿者
志愿者在完成检测后,根据少数服从多数原则确定最终检测结果,如果碰到棘手的检测问题,志愿者之间存在争议,则由专家进行仲裁
检测任务的发布者会给予志愿者一定的报酬
无障碍检测的任务分配
Giorgio等研究提出,无障碍检测是一项具有技术性的任务,参与的检测者必须有一定的技能和经验,检测结果才能有所保障
EDBA
Li等提出的基于众包网站无障碍检测的任务分配策略Evaluator-Decision-Based-Assignment
基于检测志愿者的历史数据,分析检测志愿者完成任务产生的代价因素,包括错误率、放弃率、超时率等,建立志愿者对每类检测任务的综合代价模型: c=αE+βG+γT(α+β+γ=1, 0≤α, β, γ≤1, E/G/T为错误率/放弃率/超时率)
任务分配策略
决策复核技术
根据志愿者返回的结果,选取有限数量的任务请专家复核,从而帮助确定所有任务的最终结果
由于无障碍检测任务复杂,决策需要考虑不同工作者的专业知识
黄金集合策略 GSS
通过黄金准确率来估计工作者的专业知识程度
k个代表任务(黄金任务)组成系统一个任务集(黄金集),任务是针对不同难度的检查点进行选择的,已知道结果
基于时间的黄金集合策略 T-GSS
增加时间考虑:时间长短,是因为误触,还是因为经验多
度量学习技术
基于体验人员的主观反馈,利用度量学习手段,学习出不同检测指标的影响权重,帮助制定评价体系
精确、定量的衡量方式是网站无障碍评估中必不可少的环节,因为它将提供网站无障碍可访问性级别
近年来,量化无障碍度量指标的发展越来越受到关注,许多广泛应用的度量指标则针对不同的用途而制定,如WAB、UWEM等。基于相关的标准,如Web内容可访问性指南(WCAG),将量化指标综合成为一个值,并利用它代表一个网站的可访问性级别
量化度量步骤
(1)着重于对潜在障碍的检查,同时提取和报告不同的网页特性
(2)将这些细化的报告以不同检查点权重汇总
现有的研究表明,为不同检查点找到合适的权重是一个具有挑战性的问题
在先前研究中,WAB和WAQM都是从WCAG优先级水平得出检查点权重。但Petrie等的调查表明WCAG优先级与用户对障碍严重程度评分之间的相关性并不显著
现有的研究如Freire和Petrie等强调用户体验在网站可访问性评估中的重要性
对中国45个政府网站的残疾人用户体验数据进行分析,发现使用现有指标的网站排名与基于用户体验的排名之间存在较为明显的失配情况
网络可达性体验度量标准(WAEM)
通过将度量标准与部分用户体验偏序(PUEXO)进行调整,可以更好地将评估结果与残疾人的体验相匹配,即任意2个网站得分的偏序关系尽可能与用户体验的偏序关系一致
要求体验者只需提供他们认为是精确的PUEXO,不用对难以衡量的网站给出模糊的排序结果
研发了一个机器学习模型来从PUEXO推导出最佳的检查点权重
发展趋势
新环境新需求
各政府部门网站逐步改进,使视觉障碍以及听觉障碍等特殊人群可以无障碍地获取政府网站所有信息和服务。主流媒体也参加了相应的无障碍网站建设,提供了网页信息的语音在线阅读和高对比度服务
随着智能手机的普及,按键越来越少,反而不利于残疾人士操作
这些语音识别软件对非母语或多种语言混合的语句识别率并不高,尤其汉语识别中,相对复杂的口音和噪声环境,包括全国各地的口音和方言、远讲、噪声、混响等让语音识别更加困难
在智能手机等移动终端上,语音转文字确实极大地提升了这些小屏设备的输入效率,但并不是所有场合都适合使用语音输入
语音识别技术还不能做到100%识别人的语音
目前,我国互联网产品的信息无障碍还停留在行业自律的阶段。很多互联网产品并没有提供信息无障碍的相关功能,甚至不少企业完全忽视这一功能。现有信息无障碍的网站大都是政府性质的,而更多实用的、贴近人们生活的网站却并没有提供这一功能
对于移动端,虽然iOS和Android先后出了相应的无障碍开发规范,用于指导程序员如何开发出让残障人士使用的移动应用,但是因为法律法规没有制定相应的规定,所以无法强制技术公司和商业实体把信息无障碍技术应用到实际的APP中
未来研究方向
老龄化问题
老年人因年龄的增加,视力和听力逐渐下降,他们想获取外界的消息就会变得越来越困难,有些甚至戴上老花镜都很吃力。他们需要信息无障碍技术来帮助他们更加方便地获取外界的信息。
新生儿数量
国内孩子三四岁就到了学习各种知识的年龄,有些孩子甚至更早。此时一般家庭的常态会变为,父母每天早出晚归地工作,没时间照顾小孩;老人因老龄化问题推迟了退休的年龄或者学历不高,而孩子还不能独立地进行阅读和获取知识。于是孩子只能交给相应的早教中心,但是如果大多数的孩子都被送入早教中心,幼师则不可能照顾到每个孩子
为了孩子更加健康、安全地接受更加科学的教育,他们需要用信息无障碍技术研发的产品
残障人数
据不完全的统计,有5000万左右的残疾人存在着交流的障碍,不能很好地去了解到周围的信息,有些也不能很好地向外界传递他们所想表达的意思
他们的内心不能很好地被外界所理解,他们会更加自卑,也可能会产生心理疾病,甚至会影响他们的正常生活
学习难、就业难等问题也随之而来。单纯靠外界的少量资金帮助是无法真正地带领他们走出生活困境的,他们需要与他人无障碍地交流
新技术与新应用
大数据
指无法在一定时间范围内用常规软件工具进行捕提、管理、分析和处理的数据集合
数据不断完善的前提下,信息无障碍技术的规范可以通过大数据的分析更加完善
通过大数据的分析,完善信息无障碍规范,从而使信息无障碍网站能更加贴合用户的实际,使用户体验越来越好
人工智能
语音识别和语义识别在无障碍信息交流上有着非常广泛的应用前景。
方言是语音识别技术的一个难关,现在也有了一定的突破
eg“极致计算”
基于大数据平台的计算能力,并且由平台能力和算法共同决定
采取了整体建模的方法,使模型的单元可以采用声韵母、音素、音节,甚至可以相互混合
未来在短时间内即可实现声音的个性化识别
虚拟现实技术
当虚拟现实技术发展到一定程度的时候,虚拟的影像就能直接映入大脑中,使大脑直接接收这个信息,不再需要用眼睛看,用耳朵听,一切信息都会通过虚拟技术直接把信息传递到大脑中
盲人或许可以通过未来的人工智能机器人的眼睛看世界
聋人也不必通过自己读唇语等方式来获取外界的信息