导图社区 第二章文本处理技术
关于文本处理技术思维导图,包含文本的常用格式、文本的获取、文本的可视化,介绍详细,知识全面,希望可以对大家有所帮助!
编辑于2024-09-27 09:52:04文本处理技术
文本的常用格式
TXT格式
适用于存储和处理纯文本数据
只包含基本的字符和换行符,没有任何有关文字颜色、字体、大小等格式化信息
可以使用任何文本编辑器打开和编辑
DOCX格式
适用于创建和编辑各种类型的文档
可以存储文本、图像、表格、图表、公式等格式化信息
可以用不同的程序打开DOCX格式文件
PDF格式
是一种专门用于阅读和打印的文档格式,以独立于操作系统、应用程序和硬件的方式存储文档
一般是不支持编辑和修改的,支持多种压缩算法和丰富的交互性和多媒体元素
CAJ格式
专门用于存储和传播学术期刊文章、论文和研究报告等文献格式,包含文本、图像、图表、参考文献等元素,可以满足学术文献的丰富性和多样性需求
CAJ全文浏览器支持NK、KDH和PDF等格式文件阅读
既可以配合网上原文的阅读,也可以阅读下载后的中国期刊网全文
RTF格式
是一种跨平台的文本格式
可以在不同的操作系统和软件之间共享,适用于共享和传输文本内容和样式,具有广泛的兼容性和可编辑性
支持各种字体、颜色、大小、样式等文本属性,可以包含图像和其他媒体
HTML格式
是一种用于创建网页的标记语言,是构建Web页面的核心语言之一
使用标签来描述和组织文档的结构和内容,以及定义文档的外观和行为
支持各种字体、颜色、大小、样式等文本属性,可以包含图像和其他媒体
PDG格式
是超星数字图片的格式,作为一种专用技术产生的格式,该类型的文档一般用超星阅读器阅读
支持下载图书离线阅读,也支持其他图书资料导入阅读
文本的获取
键盘输入
通过计算机的键盘、移动设备的软键盘输入字符和命令的一种方式,使用五笔输入法、微软拼音输入法等
优点:不需要附加其他录入设备,用户可以迅速、准确地输入文本
缺点:费时费力
手写输入
在手写设备或屏幕上通过专用手写笔或手指书写的一种输入方式
优点:输入者不用掌握汉字输入法,只要会写字即可,符合人们用笔写字的习惯,适用于需要书写或绘制的场景
语音输入
缺点:输入速度慢,只适合少量文本的输入,其准确性受个人书写风格、设备敏感性和手写识别算法的影响
是在专业软件支撑的基础上,将输入计算机或移动设备的声音转换成文字的一种输入方法
优点:输入者将语音转换成文本自然、方便,不需要学习汉字输入法,输入速度快
缺点:语音识别率受话筒质量、输入者的普通话水平、背景噪音等因素的影响
讯飞输入法、讯飞随声译、微信语音识别文字、讯飞语记、讯飞听见、录音转文字助手
讯飞输入法 是科大讯飞推出的一款语音输入软件,其除了支持普通话外,也可以支持湖南话、粤语、宁夏话、云面话、东北话、甘肃话、安徽话等多种方言,还可以支持藏语、维吾尔语等少数民族语言及英语、韩语、日语等多种外国语言的语输入。 讯飞随声译 目前支持中→英、英→中、中→日、日→中、中→韩等翻译模式,同时出现文字和语音,实现无障碍交流。 微信语音识别文字 微信聊天中的语音有时需要转换为文字,此时可以长按语音,选择“转文字”,普通话发音越标准,识别率越高,除了普通话外,还能识别英语。 讯飞语记 是一款科大讯飞股份有限公司出品的专注于语音输入的综合类云笔记,支持实时语音听写、会议录音转写、拍照识别、图文编排、智能任务提醒等功能,是写文章、写日记、采访、会议记录、课堂笔记、记事的App。支持iOS、Android、Web 端等多端登录,所有资料云端同步,永久保存,随时随地轻松查阅。此外,还可以一键收藏文章、图片、链接等内容,以及语音朗读各类读物,更有多种发音供人任意挑选。 讯飞听见 是一款在线录音转文字、语音转文字、录音整理、语音翻译软件,是安徽听见科技有限公司旗下产品,其依托科大讯飞的语音识别、翻译等核心技术,提供智慧办公服务。 录音转文字助手(微信小程序) 可以转换15MB以下的录音文件,支持.mp3、.m4a、.wma、.ac3、.wav等常用音频格式,此外还支持普通话录音,自动转换成文字。转化结果准确率较高,此外还能讲中文翻译成英文。
OCR识别输入
是将图像中的文字识别出来,并转换为文本格式的文件,同时可对识别不正确的文本进行编辑和修改
优点:省时省力
缺点:必须有原文稿,还要人工进行核对编辑
计算机常用的文字识别软件:Quicker、迅捷OCR文字识别、WPS Office、QQ、掌上识别王、汉王OCR
移动设备文字识别:白描、传图识字全能王、图片文字识别微信小程序
网络下载
百度
免费、公开的文献资料
①基于网页的搜索引擎,在搜索框中输入关键词,单击“百度一下”的按钮,会自动弹出相关的网站和资料
②支持对Office文档、PDF文档等进行全文搜索,加上“filetype:pdf”
③在“百度”左上方选择“搜索设置”中的“高级搜索”
CNKI
有价值的学术文献
单击“主题”栏右边的“高级检索”按钮,打开CNKI“高级检索”页面
文本的可视化
思维导图
概念
又称脑图、心智图,是英国著名心理学家托尼·巴赞在20世纪60年代研究大脑的潜能和记忆规律时发明的表达发散性思维的有效、实用的图形思维工具。
思维导图是以中心主题为起点,通过分支和关联线将相关的想法和信息连接在一起,形成一 个非线性的图形结构。
思维导图是一种促进思维激发和思维整理的非线性的可视化思维工具。
常用的思维导图软件
MindMaster
亿图脑图,具有操作界面简洁、稳定性高、自定义功能强大等特点,提供了丰富的模板、布局、剪贴画、符号等
支持多平台(客户端支持Windows、MacOS、Linux,移动端支持Android、iPhone、iPad,在线端支持Web在线使用),文件云端同步,随时查看,支持导出多种格式
百度脑图
是一款在线思维导图编辑器,除具备基本功能外,还支持XMind文件导入和导出,也能导出PNG、SVG图像文件
具备分享功能,编辑后可在线分享给其他人浏览。http://naotu.baidu.com/
WPS
提供了直接制作脑图的便利,让用户无须切换软件就能继续创作。
WPS的脑图不仅可以直接选择多款节点样式、节点背景及结构,还能免费使用多款精美的主题。除了插入图片、标签、任务、备注及链接,还可插入序号图标、完成进度图标等多种精美图标。
WPS脑图支持导出为图片、文档、PPI、PDF、SVG等常见的格式,让用户在分享和保存时不受限于格式。此外,用户使用微信、QQ、钉钉、手机号等任意方式登录WPS后,在设置中开启云端同步存储。脑图文件不仅能支持多设备同步查看,也极大降低丢失风险。
Freemind
界面非常简洁,操作友好、方便,一键单击“折叠/展开”功能使它的操作和导航非常便捷,极大提高了思维导图的编辑效率。
此软件完全免费,供任何用户使用。
XMind
注重软件的可扩展、跨平台、稳定性等性能。
特点可用“国产而国际化发展;商业化而兼有开源版本;功能丰富且美观”来概括。
其基础版免费,增强版则需要付费使用。
iMindMap
不仅有思维导图的便利性,也有手绘风格的其优点是界面友好,容易使用,功能丰富,是全球首个提供3D视图的思维导图软件,用户可以从各个角度观看自己的思维导图。其缺点是用户只能在短时期内免费 使用。
幕布
既能写笔记和创作,又能整理思维和管理任务,没有任何限制,可以制作各种各样的思维导图。幕布不仅可以纯键盘输入,还可以输入复杂的公式。
原则
简洁明确、生动直观、色彩区分、横屏有序、格式得当
词云
概念:将词语按照一定的顺序和规律进行排列,如按照频度递减或者字母顺序排列,并以文字的大小表示词语的重要性
制作软件:BDP个人版、易词元、WordArt、WordItOut
应用:①在外语学习中具有重要作用 使教师在教学中更有针对性的指导学生学习词汇。 ②在阅读中的应用,有助于教师了解学生的学习兴趣和需求,以更好的调整教学策略和教学内容。 ③在教学中的应用,提高教学效率。