导图社区 UiBot Mage 功能与使用说明
整理了UiBotMage平台的官方文档中的部分内容,并添加了自己的理解,希望可以使读者更快地理解UiBot Mage各种功能的使用。
编辑于2022-05-02 11:04:10UiBot Mage说明整理
预训练AI能力
图片理解
通用文字识别
识别图片中所有文字。
通用表格识别
识别图片中的表外文字和表内文字,并按照单元格的排列顺序,输出表格内容。
文字表格混合:支持一张图片中既有文字,又有表格,可以分开输出识别结果。
一图多表:支持识别一张图片中的多个表格。
复杂场景:能够处理单元格合并、框线形变、无框表格等复杂场景。
多种格式:支持jpeg, jpg, png, pdf, bmp, tiff格式等文档。
通用多票据识别
票据是为什么用途花了多少钱的证明
识别普通发票、专用发票、电子发票、销货清单、卷式发票、出租车票、火车票、动车票、飞机行程单、定额发票、购车发票等全票种发票,并返回核心字段值。
种类丰富
增值税专用发票
机动车销售统一发票
货物运输业增值税专用发票
增值税电子普通发票
增值税普通发票(卷票)
增值税电子普通发票(通行费)
二手车销售统一发票
通用机打发票
通用定额发票
旅客运输普票
公路客运发票
船运客票
出租车发票
停车费发票
过路过桥费发票
汽车通行费
医疗费收据
教育费收据
行程单
火车票
增值税销货清单
商户小票
自动分类:模型能够自动识别是哪种票据。
票据混贴:支持一张图片上存在多个不同类型的票据,模型会把每张票据切分出来,分别返回对应的识别结果。
Mage中可选三个引擎:合合信息,探智立方、北京文通
通用卡证识别
卡证是证明某种权利、资格、身份的证明
种类
识别银行卡
身份证
社保卡
驾驶证
行驶证
户口本
护照
结婚证
房产证
不动产证
营业执照
开户许可证
组织机构代码证
车辆合格证
车辆登记证
基本存款账户信息
自动识别哪种卡证
支持双面识别
Mage中可选三个引擎:合合信息,探智立方、北京文通
验证码识别
识别由数字和字母组成的验证码。
Mage内的引擎
标准版
英文、数字
计算题
滑块拼图
超级鹰
英文、数字
汉字
计算题
点击两个相同的动物或物体
坐标选择
复杂计算题、选择题四选一、问答题、点击相同的字、物品、动物等返回多个坐标的识别;
印章识别
识别印章的位置、颜色、内容。
一图多章:能够识别一张图片上的多个印章,在印章项目遮挡的情况下也能正确检测印章。
印章颜色:在审批流程中,需要核实印章是复印出来的还是新加盖的,通常需要看印章是黑白还是彩色的。印章识别能够准确返回印章颜色。
版面分析
检测和分析图片中的内容,将文档分割成不同的版面区域,并返回每个区域的类型、位置、内容、以及置信度。
序号 类型名称 key 1 文档标题 article_title 2 层级标题 paragraph_heading 3 段落 paragraph 4 表格标题 table_title 5 全框表格 full_line_table 6 缺线表格 wireless_table 7 表格注释 table_annotation 8 图片标题 picture_title 9 图片 picture 10 图片注释 picture_annotation 11 页面注释 page_annotation 12 页眉 page_header 13 页脚 page_footer 14 列表 list 15 印章 seal 16 二维码 qr_code 17 签名 handwritten_signature 18 Logo logo 19 其他 other
条码识别
使用指南详情中没有说明,但是可以Mage中找到并使用。
检测并识别图像中的二维码,返回内容包括二维码的位置和二维码中的内容
文本理解
文档抽取
提取文档中的关键信息并返回。
智能提取:文档抽取的结果不完全来自原始文档,模型对不同的字段有不同的处理方式。如模型对归属地的抽取结果进行了地址结构化,招标公告中的业务类型来自于分类模型。
多种格式:支持.jpeg、.jpg、.png、.bmp、.tiff、.pdf、.txt格式。(图片、PDF、文本)
引擎
标准版
合合信息
探智立方
可识别文档类型
招标公告
序号 字段名 key 1 业务类型 business_type 2 项目名称 project_name 3 发布日期 publish_time 4 招标人 tenderee 5 资金来源 funding_source 6 归属地 project_location 7 招标范围 project_scope 8 工期 project_schedule 9 建设规模 construct_scale 10 投资额 investment 11 企业资质 enterprise_qualification 12 人员资质 personnel_qualification 13 业绩资格 performance_qualification 14 企业信用等级要求 enterprise_credit_rating 15 接受联合体 joint_bid 16 投标截止日期 bid_deadline
红头文件
序号 字段名 key 1 文件版头 header 2 发文字号 issue_number 3 文件标题 title 4 主送机关 main_delivery_agency 5 附件 attachment 6 发文机关 issue_agency 7 行文时间 write_time 8 发放范围 issue_scope 9 签发人 signer 10 签发人职务 signer_position 11 主题词 keywords 12 抄送机关 copy_delivery_agency 13 印制机关 print_agency 14 印发时间 print_time 15 份数 copies 16 发送机关 send_agency 17 报送机关 report_agency 18 分送机关 distribute_agency 19 密级 secret_level 20 紧急程度 emergency_level 21 同号文件顺序号 sequence_number
简历
序号 字段名 key 1 姓名 name 2 电话 phone 3 邮箱 email 4 籍贯 native_place 5 专业 major 6 学历 education 7 毕业院校 graduate_school 8 个人技能 personal_skills 9 工作经历 work_experience
合同
序号 字段名 key 1 标的类型 type_of_goods 2 项目编号 project_number 3 项目名称 project_name 4 合同编号 contract_number 5 合同名称 contract_name 6 甲方 party_a 7 乙方 party_b 8 签订日期 signing_date 9 合同总价-大写 contract_sum_in_words 10 合同总价-小写 contract_sum_in_nums 11 币种 currency 12 交货日期 delivery_date 13 交货地点 delivery_place 14 账号-乙方 account_of_party_b 15 开户名-乙方 account_name_of_party_b 16 开户行-乙方 account_bank_of_party_b 17 付款条款 payment_terms
英文发票
序号 字段名 key 1 发票号码 invoice_number 2 发行人名称 vendor_name 3 发行人地址 vendor_address 4 发票开具日期 invoice_issued_date 5 发票到期日 invoice_due_date 6 付款条件 payment_terms 7 产品明细 description 8 数量明细 quantity 9 单价明细 unit_price 10 总额明细 subtotal 11 货币类型 currency 12 税额合计 tax_amount 13 应付总额 total_amount_due
结果主要情况
原文抽取
抽取结果来自于测试文档的原文
支持点击列表中的字段内容后,更新文档预览视图并高亮对应的标注区域
非原文抽取
抽取结果来自于模型对于测试文档的理解,可能使用了分类模型、归一化处理等
在文档预览区没有标注,点击列表中的字段内容后,文档预览视图不会更新
未抽取到
抽取结果为「无」
模型没有在测试文档中抽取到当前字段
标准地址
使用指南详情中没有说明,但是可以Mage中找到并使用。
提取地址中的省、市、区、街道信息并返回。
定制化AI能力
图片理解
自定义模版
上传一组版面样式相对固定的图片文件,通过配置规则的方式,依赖位置关系抽取到业务需要的字段值。
如何使用
1||| 创建模型
编辑模型名称
选择引擎
标准版
合合信息
探智立方
确定,保存
2||| 点击模型的「配置」,进入配置界面
我的模版
字段类型
预设词表
正则表达式
正则表达式好像需要被()包裹,不然结果不如预期
设置好的正则,要更改字段类型为对应正则规则,才有效。
3||| 新建模版
编辑模版名称
点击模版列表中模版右侧的「开始配置」
字段
数据
版本
4||| 新建字段
设置字段名称、类型
把所有需要的字段都尽量一次性创建好
5||| 上传数据(图片)
上传一组布局相同的图片。
从官方示例来看,4张训练(也作为评测),1张测试就勉强够了。因为本质上这个不是由深度学习那样,需要神经网络从大量数据中寻找规律,而是官方进行OCR文本块识别后,开发者编辑规则,基于文本定位的信息抽取。
6||| 标注
1. 上传完图片之后,点击数据列表中每张数据(图片)后的「标注」
2. 标注关键词
1. 将鼠标置于图片上,移动到要标注的字段值的区域,点击后滑动框选字段值。
2. 滑动框选后,系统会自动弹出标注弹窗,在这个弹窗里修改标注结果(OCR识别错误的时候修改,没错不用修改)、选择字段
3. 确认,保存标注内容
4. 注意:一个字段是可以被标注多次的。
5. 标注完所有字段后,系统会提示把这个图片加入到评测集,点击打开,用来一会儿评估模型的效果。
数据质量中的百分比,指的是OCR识别结果和手动修改结果是否一致的百分比。
6. 点「下一个」,继续标完所有数据。标完的数据会显示为已标注的状态。 虽然标注有点花时间,但标完一次之后,以后不管模型做了什么修改,你都可以用这次标注的数据评测准确率。(比每次修改模型之后,肉眼去看效果有没有提升方便得多。)
7. 全部标注完之后,回到数据列表,所有数据的状态都变成了已标注,也都被加入到了评测集。
7||| 新建版本
点击「新建版本」,命名,可以用数字来命名。
版本列表中,点击某版本右侧的「配置规则」。
8||| 进行版本规则配置
字段配置
设置每个字段的规则
规则可以有多个
起始关键词
用什么关键词作为锚点
多个字段可以用用一个关键词作为锚点
截止关键词
在匹配区域内,如果识别到了截止关键词,就不继续识别文本了,直接停掉,返回截止关键词之前的所有文本。
匹配方向
找到锚点后,往什么方向继续识别文字,作为识别结果,识别出的结果就可以被配置为想要找的字段的值。
匹配方向、字段值区域框定的范围内包含或接触部分的文本块,都会被识别。(所以没必要让字段值非得包裹着目标文本块) 如果关键词本身是一个文本块的部分,那么(似乎,大概率)这个文本块的其余部分也会被作为识别结果(如果关键词是一个文本块的完成内容,这个文本块不会被作为识别结果)
一键匹配多值
往指定方向一直识别到图片末尾,每个文本块作为一个结果输出
如果只需要关键词指定方向的第一个文本块的内容,就不要打开。
如果字段值区域包含其他值,但是值不符合字段类型,那么也不用担心,不会被作为结果返回。
结果后处理
拼接
一键匹配多值,并且拼接只选某个结果,就可以在多个字段使用同一个起始关键词的情况下,根据出现顺序选择想要的那个字段。
0好像什么也不是,1是第一个匹配到的结果,依次类推
一键匹配多值但是不拼接的话,每个文本块就作为一个结果返回。
字段值区域
表格内文本块有重复字,且字要作为关键字的话,可能就找到锚点不对
点击开始测试(或点击「可视化结果),查看准确率(通过规则识别出来的文本,和之前人工标注的文本的差别)
如果有字段识别错误
设置正则表达式,进行处理。
字段类型,正则表达式,添加正则
正则名称、描述、表达式,确定
编辑子字段,设置字段类型为刚才设置的正则
重新测试
可视化结果
可以看到当前已编辑规则的字段的抽取结果和该训练图片人工标注结果的比较。
JSON结果
9||| 评测
之前标注的都是测试集,现在要用评测集来测试模型的泛化能力。
版本列表中,点击某版本右侧的「评测」。会将规则应用到评测集中的图片,比较规则抽取结果和人工标注结果。
等待评测完成,查看评测报表。
10||| 上线
版本列表中,点击某版本右侧的「发布」。
然后进行自定义模版的识别测试。
这里就需要人工检查图片和识别结果了。
信息抽取与自定义模版使用区分
信息抽取
从非结构化的长文本中抽取字段
通过上下文模糊匹配抽取字段
自定义模版
从半结构化的票据(特别是票据中有表格)中抽取字段
需要根据上、下位置关系定位字段值
抽取的字段值跟定位关键词的位置关系,在不同的文档中有轻微偏移
文本理解
信息抽取
上传一组文本内容相对固定的文本文件,通过配置规则或训练模型的方式,依赖上下文语义信息抽取到业务需要的字段值。
概念
字段
就可以理解为要抽取的变量
资源
自定义词汇表
词表名称
词表值
词表值的多种说法
预设词表
预设词表和自定义词表用法相同,不同在于预设词表是由平台提供的预置好的实体,用于处理最常见的实体。
货币
识别一段文本中的描述货币(通常由货币值和货币单位共同组成)的词汇
可以识别包含人民币在内的多国货币。归一化后的格式为货币值+基础货币单位,例如,123.12元。
人物名称
识别一段文本中的描述人物姓名的词汇。例如,“黄飞鸿”、“周某”等。
仅支持中文姓名。利用自研的深度学习模型进行智能识别。识别结果不做归一化处理。
公司名称
识别一段文本中描述公司全称或简称的词汇。例如,“巨景四川分公司”。
利用自研的深度学习模型进行智能识别。识别结果不做归一化处理。
日期
识别一段文本中描述日期的词汇。例如,“农历十五”、“公历2018年8月5号”等。
归一化后的格式默认为yyyy年mm月dd日。系统不会自动补全“年”、“月”、“日”中的缺失部分。阴历和阳历将归一化成农历和公历。
时间
识别一段文本中描述日期的词汇。例如,“下午3点”、“3点58分23秒”。
归一化后的格式默认为hh时mm分ss 秒。系统不会自动补全“时”、“分”、“秒”中的缺失部分。
地点
识别一段文本中诸如“省份”、“城市”、“小区”、“代表地点的建筑物”等的代表一个地点的词汇。
直接输出将文本中的原词,不做归一化处理。
性别
识别一段文本中描述性别的词汇。如:“男”、“男性”。
归一化后的格式为男、女。
民族
识别一段文本中描述民族的词汇。例如,“汉族”、“蒙古族”。
仅支持目前中国已确认的56个民族。
手机号
识别一段文本的手机号,目前仅支持对国内11位手机号的识别和提取。
归一化结果为11位数字的手机号。
邮箱
对电子邮箱地址的提取。
由“登录名@主机名.域名”组成的邮箱,如“test@laiye.com”。
身份证号
对国内身份证号的提取,包括15 位、18 位身份证号。
归一化结果为用15位或18位数字组成的身份证号。
数字
识别文本中的数字,包含整数、小数、百分数
归一化结果为不带符号(除负号之外)的数字。
整数
识别文本中的整数,整数:自然数、0、自然数的负数
直接将文本中的原词输出,不做归一化处理。
小数
识别文本中的小数,包含负号
直接将文本中的原词输出,不做归一化处理。
百分数
识别文本中的百分数,包含负号
归一化结果为不带百分号的数字。
汉字
对一段文本中的汉字进行提取,直到第一个非汉字出现,例如:“股价涨了1”提取成“股价涨了”。
直接将文本中的原词输出,不做归一化处理。
正则表达式
除了学习通用的正则表达式以外,注意以下规则
区分/不区分大小写:匹配时是否对英文字母大小写敏感。
单行模式:匹配任意字符的符号.是否会匹配换行符。如果不匹配换行符,则意味着符号.匹配的字符范围包含换行符,即[\r\n]。
多行模式:^和$分别匹配开始和结束位置。多行模式下,扩展了匹配的范围,分别增加行首(字符串开始或前一行\n之后的位置)和行尾(\n之前的位置)。
全局匹配:一个正则表达式可以匹配文本的多处片段。主要匹配到的都输出。
匹配顺序:默认是从左到右。匹配的顺序也可以从右往左,但通常这主要适用于阿拉伯文。
Mage 信息抽取的默认规定
默认不区分大小写。
默认单行模式,即<*>可以匹配任意字符,包括[\r\n]。
默认非多行模式。 <*>是最后一个匹配规则时,会匹配到字符串结尾。需要多行模式时,建议在行末加上特殊字符比如#,并在模板中增加对#的匹配规则;
默认全局模式: 匹配多处, 多处都会输出, 有匹配的开始位置。
默认从左到右匹配模式。
可能是这样:考虑到文本是通过节点收尾相连的,所以正则表达式能在对应节点起到作用就可以了,不用非得把正则写的考虑那么多情况。
模版
模版的语法
[]
严格匹配
匹配的内容可以是预先在资源中定义好的“词表”、“正则表达式”,也可以是需要匹配的短语。
如果是匹配的内容是“资源”,会将匹配到的结果进行归一化(例如,不论匹配到“复古蓝调红”、“复古红”等“多种说法”的哪一个,都返回“烈焰蓝金666”)。
多个需要匹配的内容可以用|(半角竖线)进行分割。
<>
模糊匹配
模糊匹配是与严格匹配相对应的概念。严格匹配要求待匹配的文本与指定的匹配内容必须完全一致。模糊匹配则只要两者语义接近即可。例如,严格匹配不会认为“新闻发布会”和“记者招待会”会匹配上;但模糊匹配可以。
尖括号内可以指定的内容包括资源中的自定义词表和开发者输入的「短语」。
尖括号内不可以指定资源中的正则表达式
多个需要匹配的内容可以用|(半角竖线)进行分割。
尖括号里的引用资源不会进行归一化。
*
任意长度的文本片段
\
转义,模板中需要匹配{,},[,],<,>,|,{,},*时,使用“\”转义
版本
版本是模版的集合,实现对不同模版集合的整体效果评测
一个信息抽取模型下最多创建5个版本。
基础操作
创建信息抽取模型
新建模型,输入名称,选择引擎版本,确认。
点击「配置」,进入模型配置界面
版本
字段
资源
数据
创建字段
点击「字段」,「新建字段」
输入字段名称,备注
字段名称不能重复,不能超过20个字,可包含汉字、字母、数字、_、-
变更持股数量最大数量占公司总股本比例
变更持股数量最大数量
变更持股方式
拟定时间
人名
职位
已持有股份占公司总股本比例
已持有股份数量
也可以批量添加字段
创建自定义词表
词表就是一类有固定若干个值的描述概括
点击「资源」,添加自定义词表
输入词表的名称、描述
创建正则表达式
点击「资源」,添加正则
输入正则的名称、描述
官方的正则提示
1. 正则表达式会抽取匹配到括号内规则的内容,如果表达式里没有括号,什么都不输出。
2. 如果正则表达式内有多个括号,抽取匹配到第一个括号的内容。
3. 如果括号在文本里被匹配到多次,输出为不同的条目。
编辑正则的查找、替换规则
正则规则中,()表示捕获分组,()会把每个分组里的匹配的值保存起来,输出值的顺序以左括号出现的顺序为准。
例如正则表达式"(\d(\d(\d)))",替换规则为"文字$1-$2-$3xx",用测试文本"123"去测试,输出"文字123-23-3xx"。
$0就是匹配结果本身
似乎Mage内的正则不支持先发断言,可以将原本作为先发断言的文本用括号包裹,然后替换式不包括它即可。
似乎后发断言使用的也和通用正则规则不一样,也无法在替换中让$占位符起到相应作用了,$占位符只要有一个(不需要数字),就会将前方所有表达式输出,无法起到替换占位符应有的作用。
可以和先发断言一样,使用括号进行匹配,然后替换
创建版本
版本 → 新建版本
配置模版
人工
版本列表中点击版本的「详情」,新建模版
输入模版名称,描述
按需选择匹配规则,作为模版节点,会按照从上到下的规则进行匹配。
正则
选择设置好的正则表达式
选择输出目标字段
自定义词表
选择设置好的自定义词表
选择输出目标字段
勾选模糊匹配,采用基于语义相似度的近义匹配;未勾选将采用严格匹配。
文本
输入需要匹配的文本。
选择是否输出到某个字段。
勾选模糊匹配,采用基于语义相似度的近义匹配;未勾选将采用严格匹配。
任意文本
代表严格匹配一段任意长度、任意内容的文本,对应“模版”语法中的<*>
输入需要匹配的文本的长度。可以为空。
选择是否输出到某个字段。
预设词表
代表严格匹配或模糊匹配一段由词表描述的文本。
选择需要匹配的预设词表。
选择是否输出到某个字段。
注意,一个模版中的所有规则的节点是首尾相连的
如果正则涉及到了一些文本,那么这些文本就不能在「文本」中再写一遍。会导致重复。
可以把不同的待抽取字段放到不同的模版中来抽取,不一定非得要一个完美的规则能包含所有情况。
保存模版
机器辅助人工
发布版本
进行信息抽取测试
其他操作
模型设置
可以修改模型名称
配置冲突检测策略
2个模板要输出的字段位置相同
不允许文本重复抽取字段
2个模板匹配到的片段有交叉
不允许文本重复匹配模板
当两个模版检测到冲突时
当2个模板匹配的片段不一样长时,保留片段长的模板。
当2个模板匹配的片段一样长时,选择匹配信息位置靠前的模板。
当2个模板匹配到的片段一模一样,选输出字段多的;输出字段一样的,选模板含匹配规则节点多的;如果模板节点一样多,不解冲突。
默认换行结束匹配
如果文本中含有换行符\n,抽取前模型会先通过\n来切分文本,然后再进行匹配。 也就是说,如果需要抽取的内容中有换行符,请不要勾选默认换行结束匹配。
上传数据
模型配置,数据,所有数据,上传数据
上传文件要求
目前平台仅支持上传3万字以内、编码为utf-8的txt文件。
一个信息抽取模型最多支持上传200份数据。
上传失败提示和原因
【上传失败,内容超限】文件内容不能超过3万字。
【上传失败,编码错误】文档的编码不为utf-8。
【上传失败,替换失败】不支持未标注的文件替换已标注的文件。如果需要替换,请先删除已标注文件,再次上传。
【上传失败,数量超限】一个信息抽取模型下最多只能上传200条数据。
【上传失败,网络错误】由于网络问题导致上传失败。
配置数据集
模型配置,数据,所有数据,数据集,新建数据集
数据数据集名称,类型
类型:训练集和评测集
数据集列表中,点击「添加数据」
系统推荐
随机生成自定大小的数据集
手动添加
注意:状态为未标注的数据不会出现在添加数据弹窗中。
训练
采用机器辅助人工方式由系统推荐生成模板时,系统将利用当前版本关联的训练集来训练模型,生成推荐模板。训练将产生一组类型为“可覆盖”的模版,将整体覆盖“训练前”当前版本中所有“可覆盖”类型模版。
版本,版本列表,训练
选择训练集
选择要抽取的字段
确定。
等待训练完成,完成后,版本会回到「未发布」状态
点击版本列表,详情,查看此次训练产生的模版
评测
版本列表,评测,选择评测集,确定,等待。
评测完成后,会更新版本的上次评测准确率和评测结果,版本将回到未发布状态。点击版本操作中的下载评测结果,下载此次评测的结果。
模型导出
在模型列表,更多,导出
全量导出:导出当前模型下所有资源,包括字段、资源、数据、版本。
不导出数据和数据集:导出当前模型下除数据和数据集以外的所有资源,包括字段、资源、版本。
模型导入
新建模型,导入
模型数据包:Mage平台导出的以.extractor结尾的文件
全量导入需要在有互联网的环境
官方示例中的评测集,有很多担任多岗位的例子,没想好怎么处理最方便、可靠。其他的人工规则编辑步骤,差不多会了。
文本分类
可以按照一定的规则将一段文本分到指定的类别。
创建分类并上传每个分类的相似说法,自动生成AI模型。输入新的文本可以返回匹配到的分类和置信度。
基础版
基础版模型会使用用户预先定义关键词对测试文本进行严格匹配,实现文本分类。基础版适用于文本中有显著的关键词来对文本进行归类,有如下特点
开发者需要预先设定所有需要辨别的分类。
每个分类可以有多个特征,特征之间是「或」的关系。
每个特征可以由若干个关键词组成的关键词组来定义,关键词之间是「且」的关系。
模型用每个分类下的所有关键词组进行严格匹配,一旦匹配成功,后续的关键词组(特征)将会被跳过,即一个分类下最多只会返回一组关键词组。
智能版
智能版提供预训练模型,模型从用户上传的样本中学习规律,进行分类。智能版适用于分类需求比较复杂、不好归纳的场景,有如下特点
开发者需要预先设定所有需要辨别的分类,至少创建两个类别才可进行训练。
需要开发者提供一些训练数据来训练一个语义理解模型。
模型的分类结果,会为测试文本和每个类别的匹配度打一个与之对应的分数,这个分数称为置信度。
可以将分类错误的测试文本加入训练集,持续优化模型的效果。
智能版如何优化模型效果?
1. 提供优质训练样本,避免同一个样本在多个分类的训练样本中同时出现。
2. 单个训练样本不建议超过1000字。
3. 所有类别的训练样本的数量尽量均衡,避免数量差异过大。
4. 实际使用中,将分类错误的样本加入训练集,重新训练模型。
文本匹配
使用指南详情中没有说明,但是可以Mage中找到并使用。不过从官方的简单说明中,看不明白什么用处。
上传语料集构建语料库,自动生成AI模型。输入新的文本,可以返回与输入文本语义最接近的前N个语料库中的文本。
解决方案
合同比对
比对电子版合同和实际签署纸质合同扫描件,快速定位差异,提升法务人员工作效率。
特点
多种文档:pdf、doc/docx、图片(jpeg、jpg、png、bmp、tiff)。
全文比对:支持不同页数的文档进行内容比对。
操作简单:通过不同颜色的标注文档的变化,支持结果快速定位,点击差异可快速定位差异发生位置。
智能干预:提供智能干预模型,根据语义信息合并差异、去除空格等冗余信息,还提供忽略标点符号设置供用户自行选择。
概念
比对任务
一次文档的匹配
参考文档
任务中作为参照物的文档
比对文档
任务中需要寻找差异的文档
新增
基于参考文档内容,比对文档中新增的内容。
可视化结果中绿色标注
删除
基于参考文档内容,比对文档中删除的内容。
可视化结果中红色标注
修改
基于参考文档内容,比对文档中发生修改的内容。
可视化结果中橙色标注
文档理解
从文档提取关键信息,适用于处理结构化或半结构化的单页文档,例如送货单、非标准化票据等。
单页抽取模型
单页抽取模型,也可以称之为来也提供的自训练平台,适用于处理结构化或半结构化的单页文档,例如送货单、非标准化票据等。创建一个单页抽取模型可以:
标注少量数据,系统就可以训练出一个可用的模型
将效果不好的数据加入再次训练后,可明显提升同类型数据的效果
和「自定义模版识别」的区别
自定义模板功能可以通过配置规则,抽取到这些模板中的数据。但是当数据种类多、结构复杂时,会增加实施人员配置模板的时间和难度,基于关键词和相对位置的规则无法满足部分真实的项目需求。
自定义模板和单页抽取模型都适用于处理单页、固定版式的结构化或半结构化文档,但是自定义模板是基于关键词和相对位置的规则抽取,单页抽取模型是基于小样本进行机器学习。
特点
简单易用:提供数据管理->标注->训练->评测->上线->优化的工作流程引导
模型轻量:以OCR识别的结果作为输入,充分利用视觉和语义信息建模,在低成本(标注数据少、资源占用少)的情况下完成文档信息抽取任务。
使用过程
创建模型
可选引擎
标准版
合合信息
探智立方
语言种类
中文
英文
模型配置界面包括
字段
数据
版本
新建字段
每一种希望模型从文件中提取的内容,就创建一个字段
字段名不得超过100个字
字段类型可以选择字符串、数组,如果内容会出现在文档的多个位置,选择数组类型
注意
字段创建后修改字段名称,会导致已经训练的版本失效
修改字段类型“数组”为“字符串”时,可能会导致部分标注数据丢失
上传数据
标注数据,构建数据集
点击数据列表中某条数据的「标注」
如果模型有已发布的版本,数据上传后会使用已发布版本进行抽取,为用户提供预标注
标注页面提供划词、框选2种标注方法,选中字段值区域后,系统会自动弹出标注弹窗,可以在这个弹窗里修改标注结果、选择字段,最后点击确认,保存标注内容。
如果字段类型为数组,可以标注多个值
如果字段类型为字符串,第二次标注结果将会覆盖上次标注结果
如果一个字段在文档中没有出现,请将该字段标记为没有出现
标注完一条数据的所有字段后,数据的状态才会变成已标注
标注完所有字段后,将当前数据加入到训练集或评测集。
新建版本
训练模型
系统将利用训练集中的数据来训练模型。训练集中应该包含业务场景中的真实且具有代表性的数据,每种版式10张左右,不是数据越多,模型效果越好。
训练可能需要一段时间,训练集的数据越多训练耗时越长。可以通过将鼠标移动到正在训练的版本状态上查看训练剩余时间。
验证(评测)模型
如果在开始训练前,已经配置了评测集的数据,系统会自动发起一次评测。
如果需要回退模型,则创建新版本进行训练。对版本重新发起训练会直接覆盖以前的训练结果,导致历史记录无法找回。
验证(评测)
系统将利用评测集中的数据来对模型进行评测。请注意,评测集中应该包含与训练集同分布的数据。
评测需要一段时间,评测集的数据越多评测耗时越长。可以通过将鼠标移动到版本的状态上查看评测剩余时间。
等待评测完成后,点击版本的上次评测F1值,可以下载本次评测报告。
评测报告有结果概览、字段抽取统计、全部抽取结果、文档抽取详情4个sheet,可以从不同维度查看模型的效果。
重新评测会直接覆盖上次评测结果。如果需要对比模型效果、保留每次评测的记录,则复制新版本进行评测。
发布版本
多页抽取模型
多页抽取模型,适用于处理非结构化的多页文档,例如合同、招标公告、简历等。创建一个多页抽取模型可以:
评测(预训练AI能力中文档抽取功能)文档抽取中提供的预训练模型在真实业务数据上的效果
根据业务需求定义校验规则,实现文档的自动审核
和「自定义模版识别」的区别
自定义模板处理的是单页、固定版式的结构化或半结构化文档,文档理解可以处理多页、没有固定版式的非结构化文档。
特点
简单易用:每个步骤都配有引导,无代码完成『数据管理->标注->评测->校验配置->上线』的全流程
配置灵活:支持预置、代码2种方式配置校验规则,用户可以根据业务需求配置个性化校验逻辑。
使用方法
创建模型
可选引擎
标准版
合合信息
探智立方
预训练文档抽取模型
招标公告
红头文件
简历
合同
语言种类
中文
英文
模型配置界面包括
字段
数据
版本
新建字段
创建希望模型从文件中提取的字段
如果选择了预训练模型,模型将会自动创建预训练模型支持的所有字段。
字段名不得超过20个字
字段类型可以选择字符串、数组,字段创建后类型不支持修改
谨慎删除字段来源为模型创建的字段,因为预训练模型将会通过字段名返回结果;如果不小心删除了模型创建的字段【项目名称】,可以新建一个名称相同的字段【项目名称】
上传数据
上传相关业务数据到数据管理,数据上传后将自动进行OCR识别,识别完成后才能进行标注。
数据管理中的数据可以用于预训练模型的评测、校验规则的配置
如果想试用但是没有合适的文档,可以通过文档抽取->文档抽取测试->获取测试样本获取预训练模型的测试样本
标注数据,构建评测集
点击数据列表中某条数据的「标注」
如果模型是预训练模型,数据上传后会提供预标注
标注页面提供划词、框选2种标注方法,选中字段值区域后,系统会自动弹出标注弹窗,可以在这个弹窗里修改标注结果、选择字段,最后点击确认,保存标注内容。
如果字段类型为数组,可以标注多个值
如果字段类型为字符串,第二次标注结果将会覆盖上次标注结果
如果一个字段在文档中没有出现,请将该字段标记为没有出现
标注完一条数据的所有字段后,数据的状态才会变成已标注
标注完所有字段后,将当前数据加入到评测集。
新建版本
评测模型
配置校验规则
在版本列表中,点击某版本的「校验」
校验规则配置页内容
识别结果:展示文档的OCR识别结果
规则配置:配置校验规则
测试结果:展示校验规则测试结果
此处预览的文档来自于模型「数据」分页,且数据状态为已标注/未标注的数据
创建预置规则
勾选字段「是否必填」,将会自动生成一条校验规则
创建自定义规则
点击「添加规则」,输入规则名称,选择参与校验的字段,点击下一步
在校验内容里按照注释引导编写校验代码,点击确定提交
校验代码使用JavaScript编程语言
测试校验规则
点击「开始测试」,模型将会以规则配置页面的字段测试结果为输入,去测试校验规则是否通过。
校验规则的输入测试内容可以随便改,来方便测试。不用担心影响原有数据标注。
发布版本
考试
1. 测试
基于固定格式的登机牌样本,考生需要使用Mage的定制化AI能力【自定义模板识别】抓取登机牌中的6类信息: (1) 航班号、(2) 舱等级、(3) 姓名、(4) 登机时间、(5) 目的地、(6) 登机口。 ***在评分结果出来前考生请勿删除或下线已发布的Mage模型***
举例
姓名=张三
舱等级=商务(*不要包含“舱”)
登机口=B50
目的地=北京(*不要包含“/PEK”)
登机时间=21:00PM
航班号=MU521
训练样本
本题共提供5个训练样本+预期识别结果。
答题步骤
下载Creator流程模板"IDP_test1.zip"。将流程包放到本地 C:\IDP Certification\ 文件夹,直接解压缩在该文件夹,根据下图提示将文件在Creator中打开,会生成一套RPA流程,该流程会辅助Mage自动将识别出来的信息以txt形式存放在 C:\Output\ 目录下。
在Mage中配置登机牌识别模型。Mage地址:https://mage.uibot.com.cn/center,账号为考试网站登录账号。若您还未学会用Mage,请至https://mage.uibot.com.cn/help/zh-CN/学习。(图5-图8) 图5-考生需要将模型引擎定义为“合合信息”。 图6-考生需要将模型命名固定为“登机牌”。
模型每个字段命名分别固定为“登机口”,“目的地”,“登机时间”,“姓名”,“舱等级”,“航班号”。
接下来就需要考生自行配置Mage模板并完成发布
Mage模型发布完成后,考生需要在Creator中调用Mage。注意,Creator中除考生修改部分外,其他内容不需要改动。 (图9-图18)
2. 测试
题目: 基于上市公司年报的公司简介,需要考生用Mage预训练AI能力【通用表格识别】先将PDF文件中的公司简介以表格形式识别出来,考生需要再通过Creator做简单的数据后处理获取如下信息: (1)公司的中文名称、(2) 股票代码、(3) 法人代表、(4) 办公地址、(5)公司网址、(6) 电话 ***在评分结果出来前考生请勿删除或下线已发布的Mage模型***
字段
公司的中文名称=厦门艾德生物医药科技股份有限公司
股票代码=300685
法人代表=LI-MOU ZHENG
办公地址=厦门市海沧区鼎山路39号
公司网址=http://www.amoydx.com
电话=0592-6806830
本题不需要考生在Mage中配置模板,只需要用Mage【通用表格识别】即可将表格内容完整识别出来
本题考点在于考生需要根据提示在Creator 中将Mage表格内容输出到指定的dirResult字典内
步骤1. 取得 Mage 返回的 jsonRet
3. 测试
题目: 企业中80%的数据都是非结构化数据且可能是表格和文字夹杂的,Mage的预训练AI能力【通用文字识别】和定制化AI能力【信息抽取】相结合可以将非结构化文本中的关键信息抽取出来,且考生需要在Creator中做些简单的数据后处理,使得信息按照如下预期识别结果输出。本题需要在表格和文字夹杂的文件中获取“经营信息”中的如下信息: (1)经营性收入(元) 、(2) 税后净利润(元) 、(3) 上年同期税后净利润(元) 、(4) 硕士人数、(5) 博士人数 ***在评分结果出来前考生请勿删除或下线已发布的Mage模型***
1. 要先调用Mage的预训练AI能力【通用文字识别】将“经营信息”文本提取出来,如下 经营信息 公司去年经营性收入30万元,处于较好态势。另外,税后净利润为5万元,较之前同比增长12%。公司拥有博士30多人,硕士60人。
2. 再用考生自行配置的Mage定制化AI能力【信息抽取】模型抽取关键信息,且考生需要做些简单的数据后处理,使得信息按照如下预期识别结果 经营性收入=300000(没有千分位) 税后净利润=50000(没有千分位) 上年同期税后净利润=44643(四舍五入,没有千分位) 硕士人数=60 博士人数=30
经营性收入直接取
税后净利润直接取
去年同期税后净利润
结合同比来算
硕士人数直接取
博士人数直接取
4. 测试
5. 测试
6. 测试