壹沓AI观察:文档智能开放平台表格抽取综合评测

译文 收藏 评论
举报 2020-12-21

继上期“Google加入文档智能化战局,Document AI离企业还有多远?”,壹沓科技为行业用户了解当前市场可公开获得的文档智能工具在复杂应用场景下的识别与表单分析实际能力,我们评测比较了七家行业领先中外企业的AI开放平台中的OCR及表格识别、表单识别功能。

此次壹沓评测使用了目前在线开放的七家OCR及表格表单识别接口,包括Google云新推出的Document AI,微软Azure云平台的Form Recognizer,百度AI智能通用表格类OCR,阿里达摩院的表格类OCR,腾讯云表格类OCR,合合表格类OCR和薪火表格类OCR。评测目标是对文字识别准确度,表格抽取完整度,表格结构准确度和键值对抽取完整度以及准确度(目前只有Document AI和Form Recognizer有提取键值对的功能),通过三项实际场景表单样本进行测试评价。‍‍‍‍‍

此次壹沓AI团队测评结论可以简单归结为三句话:

文字识别尚可信赖,表格分割不够智能,键值抽取十分局限。


测评详情

我们分别从服务可获得性,业务规模,专项能力等维度从上百家OCR及相关服务提供商中选择出以下7家AI文档智能识别开放平台:

  1. Google推出的Document AI,工具分为general和specialized,general包括Document OCR,Document Splitter和Form Parser,specialized主要是针对domain-specific的文档,例如收据,发票,W2表格(美国国税局使用的纳税表格)我们分别测试了Document OCR和Form Parser,前者是针对文档的内容与结构识别,后者的功能是提取表单中的键值对。

  2. Microsoft推出的Form Recognizer(表单识别)可以识别和提取表单文档中的键值对和表数据。它的输出包含原始文件中的关系的结构化数据。Form Recognizer有内置的预训练过的模型可以直接调用,其中有针对发票等表单的特定模型。同时Form Recognizer也支持无监督学习使模型无需手动数据标记或密集编码即可了解布局和现场数据。用户也可以使用手动标记的数据进行监督学习。用标签数据训练的模型可以表现更好,并且可以处理更复杂的文档。

  3. 百度AI开放平台提供的OCR接口多达十个大类,总共几十个针对不同场景的OCR识别,例如,针对汽车场景,教育场景,财务票据等专门定制OCR。此外,百度OCR支持多种语言的高精度整图文字检测和识别服务,包括各类印刷和手写文档、网络图片、表格、数字、二维码等。

  4. 腾讯云OCR支持20种语言识别,适用于印刷文档识别、网络图片识别、广告图文字识别、街景店招牌识别、菜单识别、视频标题识别、头像文字识别等场景;支持自动识别语言类型,可返回文本框坐标信息,对于倾斜文本支持自动旋转纠正。

  5. 阿里达摩院是阿里巴巴全球研究院,成立于2017年,读光是一款由阿里巴巴集团达摩院团队打造的OCR云产品,具有完备的图像文字定位、文字识别和文字理解的技术体系。读光OCR孵化于阿里巴巴集团内部,为阿里巴巴集团各个BU和业务方提供高性能、高稳定性的文字识别服务,服务的日均访问量高达上亿次。

  6. 合合信息成立于2006年,专注于模式识别OCR(光学字符识别)技术,在OCR、人工智能、手写识别、图像处理及自动图像增强等领域精耕十多年,旗下C端产品名片全能王、扫描全能王等共累计用户超10亿。合合的AI开放平台专注于图像文字处理,提供基础OCR,证件OCR,票据OCR等服务。

  7. 薪火科技成立于2014年1月17日,是专注于人工智能行业解决方案、软件开发等领域的知名高科技公司。薪火的核心技术OCR识别,人脸识别等图像识别算法。薪火的表格OCR对表格、文档、合同等形式的图片进行识别,生成保留内容格式的word文档,节省大量人工录入时间。准确率超过99%,技术实力处于国内领先水平。

测评样本介绍我们使用了三份样本来进行测试,分别是大学学生成绩单(中文和对照的英文),医院血液检验报告单和海关进口货物报关单,分别代表了教育、医疗、物流三大行业场景。(如下图所示)

大学学生成绩单样本特点:文本是扫描件印刷体,文本清晰;无表格线且结构复杂;行与行之间不对齐,内容紧密;列距紧密。

(大学成绩单样本)

医院血检报告单的样本特点:图片是照片的形式,并不完全整齐;无表格线;表格结构较简单,列距较成绩单样本宽很多。

(医院血液检验报告单样本)

海关货物报关单的样本特点:文本是扫描件印刷体;表格线清晰;表格是行业规范模板。

(海关货物报关单样本)

一、大学学生成绩单样本测试结果

1. Google Document AI实验结果表明谷歌的文字识别准确度非常高(由于网页框架限制只截取部分结果),文档抽取完整度也是最高的,但是对于表格结构识别较差,即使是有表格线的文本结构也无法识别出表格结构。尤其是在识别中文表格时,完全无法识别结构,如图所示,每一块区域识别成一段文本。英文的表格识别要稍好一些,但依然存在这类问题,识别结果没有体现出字段之间的逻辑关系。

(Document OCR区域结构识别结果)

(Document OCR文字识别结果(部分))

(Document OCR英文成绩单区域结构识别结果)


Google Form Parser目前还无法识别中文。对于英文文字能全面识别,但是表格数据没有定位到所有键值对。下图分别是英文成绩单key value识别结果。图中红框是提取错误的地方,Date of Enrollment没有单独抽出来,而是跟在了female后面。

(Form Parser英文成绩单键值对提取结果)

2.Microsoft Azure Form RecognizerForm Recognizer在英文表单的表现是所有公司里最好的,无论是文字识别准确度,表格结构还是键值对提取都是最好。但是目前Form Recognizer还无法识别中文。

(图中是识别英文成绩单的键值对返回结果)

表格结构是按照cell来返回,基本没有错行的情况,但对于无表格线分隔的数据会有几个字段连在一起的情况。(如下图所示)

(Form Recognizer英文成绩单表格识别结果(部分))

3. 百度表格类OCR百度表格OCR识别的结果分为,header,body和footer三个部分,下图是识别英文成绩单的body部分,结构非常混乱。中文识别的结构性更弱,除了header部分,其余基本不能抽出合理的表格。

(百度表格类OCR英文成绩单body部分识别结果)

下图是识别的表头,最大的问题是和body部分无法对应。正确的表头应该是‘course,credit,score,GPA’的格式。

(百度表格类OCR英文成绩单header部分识别结果)

Footer的识别效果比前两者好一些,但也有少量文字识别错误

4. 阿里达摩院表格类OCR阿里达摩院的表格识别整体来说是七家公司里表现最不合格的,对于中文成绩单,文字识别和结构识别都完全错误,可能在字符分割部分算法的鲁棒性不足,结果如下图所示。

(阿里达摩院表格类OCR中文成绩单识别结果)

5. 腾讯云表格类OCR腾讯云的文字识别准确度达到OCR服务水准,但获得的表格结构比较混乱,下图是界面输出的部分识别结果,表格结构有错行错列的问题占比不小。

(腾讯云表格类OCR中文成绩单识别结果(部分))

6. 合合表格类OCR合合的表格OCR可以将文字和表格分开,表格结构基本可以体现出来,没有出现错行错列的问题,但是对于无表格线表格的列切分还存在局部问题,会导致缺少文字。整体文字识别准确度较高,抽取完整度比较高。下图是中文成绩单的识别可视化部分结果,右边一列由于切割线错误导致少了一部分文字。

(合合表格类OCR中文成绩单识别结果(部分))

7. 薪火表格类OCR薪火OCR的优势在于识别准确度很高,基本没有错误,不太需要人工核对,但是对于复杂表格的抽取能力比合合还有相当距离,抽取的表格占比较少,大多数都只是按行返回文字。下图是中文成绩单的识别结果,只识别出图中一个表格,并且最左边一列出现错误。

(薪火表格类OCR中文成绩单识别结果(部分))

二、医院血液检验报告单

1.Google Document AIDocument OCR依然是文字识别准确度很高,箭头也可以识别出来,但是结构识别要比国内同行距离很大。

(Document OCR医院报告单区域结构识别结果)

(Document OCR医院报告单区域结构识别结果)

2. 百度表格类OCR百度OCR对于更简单的无表格线表格识别依然表现不佳,返回的结果是所有的文字都在一个单元格里。

(百度表格类OCR医院报告单识别结果)

3. 阿里达摩院表格类OCR和百度OCR一样,对于结构较简单的医院检查单,依然无法识别结构,返回的直接是一个单元格包含所有内容。

(阿里达摩院表格类OCR医院报告单识别结果)

4. 腾讯云表格类OCR对于医院血检报告单这种列与列之间空间较大的无表格线简单表格,腾讯OCR识别的准确度较高,但对于提示指标偏离正常区间的剪头符号也无法识别,部分结构有错行合并的情况。腾讯OCR返回的结果实际上是JSON,与阿里OCR类似,返回的是每个字段的位置坐标,但是在网页端显示的可视化结果里,表前和表后并不是按照位置顺序排列。


(腾讯表格类OCR医院报告单识别结果)


5. 合合表格类OCR医院检查单的结果要好于成绩单的结果,但依然存在个别问题,例如‘提示’和’参考范围’合并到一列,文字识别有少于遗漏,箭头被识别成数字1。


(合合表格类OCR医院报告单识别结果)

6. 薪火表格类OCR对于简单表格的识别比成绩单要完整很多,但还是存在大量文本识别遗漏的问题。

(薪火表格类OCR医院报告单识别结果)

三、海关货品报关单

1. Google Document AI谷歌的对于带表格线的表格识别依然不理想,从下图中可以看出完全没有分割出表格的单元格,中间整个表格(橙色区域部分)被识别成一个整体,键值对抽取也因此效果极其有限。单纯的OCR文字识别准确度和之前两份一样依然很高,但对于印章重叠部分有识别错误,当然其他几家公司的产品对于色彩重叠的字符识别也都有同样的问题。

(Document OCR海关货物报关单区域结构识别结果)

(Document OCR海关货物报关单文字识别结果)

2. 百度表格类OCR百度在识别有表格线中文表单要好于Document AI,但也有部分结构错误,例如下图中,件数和毛重应该是分开的两个单元格,结果中识别在一个单元格里,对于有表格线但并存在局部单元格分栏的表格,百度的表格切割会出现问题。此外还有一些识别遗漏的问题,并且被印章重叠的部分识别错误。

(百度表格类OCR海关货物报关单识别结果)

  3. 阿里达摩院表格类OCR对于有表格线的文档,阿里达摩院OCR识别结果比无表格线样本好很多,返回的JSON文件中按照表格排序,每个表格中按照字段顺序排列,并标注字段位置。但对于货品条目处省略的列分割线,也无法正确理解此类特殊结构。

(阿里达摩院表格类OCR海关货物报关单识别结果)

 4.腾讯云表格类OCR对于有表格线的识别,腾讯OCR要优于百度OCR和阿里OCR,由于网页端限制,结果截屏有限,但从图中我们依然可依然看出腾讯OCR对于件数,毛重的识别是准确分开的,基本还原了原始表格的结构。


(腾讯表格类OCR海关货物报关单识别结果(部分))

5. 合合表格类OCR对于有表格线的识别,合合返回结果非常好,文字准确率和结构准确率都很高,但依然还有部分问题,就是对于表格下半部分缺少列分隔线的分列识别。表格下半部分实际上是一个只有行表格线没有列表格线的表格,但是合合没有识别出隐含的列表格线,这也是目前表格识别都不够智能的地方。

(合合表格类OCR海关货物报关单识别结果(部分))

6. 薪火表格类OCR薪火对于表格线文档识别也非常高,结构上比合合稍差的一点是,对于货品描述合合是按照原表格结构换行的,但是薪火合成了一个长字符串,加大了后续用户的切割难度。对于印章重叠的部分,薪火的准确度比合合高一点,但也没有准确识别出‘如实申报’以及货品信息。

(薪火表格类OCR海关货物报关单识别结果)


测评结果汇总

以下三张表是七家公司OCR三个实验样本结果整合,其中文字识别准确度是针对识别到的文字准确度(OCR正确文字个数/原文总字数)。表格完整度指识别结果覆盖表格面积的百分比,表格结构准确度指准确识别表格划分的单元格内容占比。


整体测评总结

  1. 中英文OCR识别准确度较好的是谷歌,薪火与合合,英文文本的识别准确度整体要高于中文文本。对表格内文字识别而言,表格样本结构的复杂性和文字密集程度会很大影响文字识别的结果,但识别简单的表格例如检验报告单文字OCR准确度很高。此外印章也会影响颜色重叠部分的识别准确度,尽管人类可以通过观察识别印章下面的文字,但对于机器来说目前还有难度。整体来说对于结构简单的表格文档各家平台的准确度都可以满足一般文字提取的要求。

  2. 英文表格结构抽取能力最强的是Azure Form Recognizer,对英语成绩单表格几乎全部识别准确,其次是合合,存在分列不完全的问题,而其他平台几乎不能正确切分无格线的英文表格。对于中文表格,合合整体上识别得最好。腾讯,阿里对于简单的表格或者是表格线清晰的表格识别相对准确,但是对于复杂表格的识别能力较弱。百度对于无表格线的文本识别比例较低,基本无法识别出分隔结构。目前,即便是识别准确度最好的AI平台,也并不能完整准确地提取出表格结构,如上文所述的大多会忽视隐藏的表格线。现实生活中的表格大多数是半结构化文档,目前表格类OCR对于这类文档的理解能力还不能直接满足用户使用场景的细致需求。

  3. 由于目前提供文档键值对提取接口的平台还只有谷歌云和微软Azure,在英文表单中谷歌和微软对于表格头尾部分有键值对强特征(如冒号,划线等)的部分可以达到90%以上的抽取准确度,但对于表格内非常见表格项的各科科目和成绩分数的配对完全无能为力。

  4. 综上所述,目前各个平台对清晰图片的文字OCR准确度已经能够达到可信赖的程度,如果针对个别特殊符号以及印章遮挡部分进行完善优化,就可以达到完全识别的状态。而对于文档表格和表单抽取智能化和通用性还远远不能达到实用的状态,目前仅能对表格线完整,分隔规则的表格可高精度结构化抽取。

  5. 所以各个平台都针对特定应用场景的推出识别模型以支撑最常见的应用需求,例如税务票据、身份证件、营业证照、名片等特定场景和格式的文档识别。然而,企业及各类机构所面对的文档智能化的场景远远大于特定的有限类特定格式,如何让人工智能可以象人类员工一样高精度地识别各类表单成为行业智能化普及进程中的关键一环。


壹沓科技与人工智能同行们正就多场景、通用化的中英文表单自动识别和键值抽取任务投入大量的研发资源,并在一些关键问题如字符遮挡、表格键值对齐不一致、连续文本键值抽取中已经取得不小进展。我们坚信——通过有效结合图像处理、计算机视觉、OCR、NLP及知识图谱等AI技术,在不远的将来一定能够使得文档智能化在各行各业完整落地,实现高效算力对重复劳动的全面取代。


关于壹沓科技

壹沓科技成立于2016年11月,聚焦于前沿技术在企业数字化中的应用,公司核心业务包括壹沓数字机器人产品-Cube Robot和壹沓品牌方程服务-Formula DBM,已经为多个行业数百家企业及政府提供服务。

我们在自然语言处理-NLP、图像文字识别-OCR、知识图谱-KG、大数据挖掘-Data Mining、机器人流程自动化-RPA和业务流程重构及管理-BPR&BPM等领域具备完整的自主研发能力,已获得软件知识产权数十个。

总部位于上海 ,在北京、深圳设有分公司,已获得高新技术企业、双软及专精特新企业等专业认证 。核心团队来自于多家知名上市公司,在企业服务及互联网从业超过10年,拥有大数据、云服务及人工智能领域的丰富经验。

戳“阅读原文”了解更多精彩内容!

本文系作者授权数英发表,内容为作者独立观点,不代表数英立场。
转载请在文章开头和结尾显眼处标注:作者、出处和链接。不按规范转载侵权必究。
本文系作者授权数英发表,内容为作者独立观点,不代表数英立场。
未经授权严禁转载,授权事宜请联系作者本人,侵权必究。
本内容为作者独立观点,不代表数英立场。
本文禁止转载,侵权必究。
本文系数英原创,未经允许不得转载。
授权事宜请至数英微信公众号(ID: digitaling) 后台授权,侵权必究。

    评论

    文明发言,无意义评论将很快被删除,异常行为可能被禁言
    DIGITALING
    登录后参与评论

    评论

    文明发言,无意义评论将很快被删除,异常行为可能被禁言
    800

    推荐评论

    暂无评论哦,快来评论一下吧!

    全部评论(0条)