壹沓AI观察: Google加入文档智能化战局,Document AI离企业还有多远?
Google Cloud于2020年12月5号在全球上线了Document AI(DocAI)平台,这是一个用于文档自动化处理的人工智能云服务,可以对文档中的数据进行提取、分类和增强,以挖掘有价值的内容数据,驱动业务流程全自动运行。许多从复杂文档中手动提取数据并对其进行处理操作的企业都可以从中受益。将文档转换为结构化数据可提高决策速度并释放可衡量的业务价值,从而改善客户体验。Google Document AI允许使用统一的API访问所有解析器和工具,启用了端到端文档解决方案,并允许轻松创建和自定义文档处理工作流。Google宣称其平台可帮助客户将成本降低60%,并将文档处理的准确性提高250%。
至此,AI领域巨头Microsoft、百度、阿里、Google均已先后进 Document AI领域,代表着文档智能化已经成为AI企业场景落地的主战场。
然而,壹沓科技以多年的企业服务经验判断:智能化一旦进入到复杂的企业现实生产环境,故事就不再那么美好了,无论在基础的文档字符识别、字段抽取、格式转换,还是面向自动化业务流转的关键数据操作与分发,乃至企业决策信息的汇聚和报告,真正实用的文档智能化道路艰险且漫长……
文档智能化的前世今生
对于大多数企业而言,文档处理一直是繁琐且繁重的的任务。在传统企业中,发票,表单等文档中包含许多重要信息。企业必须提取该信息并将其它在到后台的应用程序(例如公司的快递单号系统,发票系统,会计系统等)中,以便可以有组织地对其处理。在特定的行业例如运输,这些行业日常需要面对海量文档,表单,并且对其读取,分析数据然后进行分类。在大多数情况下,以上仍然是手动的。人工提取,处理,分类这些信息既耗时费力且精度低,而且可复用性也不高,因此,随着AI成为新的现实并且自动化接管了许多任务,文档智能技术(Document Intelligence)应运而生。
传统文档智能聚焦文档的生成和分发
传统的文档智能主要是指对于网页、数字文档或扫描文档所包含的文本以及丰富的排版格式等信息,通过人工智能技术进行理解、分类、提取以及信息归纳的过程。在过去的30年中,文档智能的发展大致经历了三个阶段。90年代初期,研究人员大多使用基于启发式规则的方法进行文档的理解与分析,通过人工观察文档的布局信息,总结归纳一些处理规则,对固定布局信息的文档进行处理。人工建立规则处理表格虽然能够带来一定程度的性能提升,但由于定制规则和可学习的样本数量不足,其通用性往往不尽如人意,针对不同类别文档的分析迁移成本较高。此外,传统基于规则的方法往往需要较大的人力成本。因此研究人员开始采用基于统计学习的方法。随着机器学习模型和深度学习预训练模型的发展和进步,基于多种目标特征抽取模块的预训练模型(文本特征抽取模块,布局特征抽取模块,视觉特征抽取模块等等模块的两种或者多种进行融合组成的模型)成为了文档智能的主流方法。模型利用基于深度神经网络的自学习技术,通过大规模无标注数据学习基础模型,之后再通过迁移学习技术仅需少量标注数据即可达到人工处理文档的水平。
传统的文档处理软件解决了印刷品不易修改、删除和共享等问题,其主要作用是编辑和重用文档。随着智能文档技术的发展,包含文字的文档已经不能满足人们日益丰富的需求,智能文档的提出给文档的展现和存储提供了新的思路,智能文档可以将图形、电子表格、声音、音频等信息与文本同时存储到文件系统中, 同时将数据划分成多个数据流,把这些数据流分别存储到文件的不同部分,从而实现将不同格式的信息相融合。智能文档技术是新兴技术,智能文档集普通文档的特征与智能数据处理能力于一身,能为使用者构建一个更灵活,更具柔性,更人性化的工作平台。
1997年,Buchner在智能文档的基础上构造了HotDoc,实现了文档系统与应用程序的结合。HotDoc由多个对象组成,每个对象都将由设计者完成设计,用户可将对象任意插入并排列到文档中,从而通过多个对象的组合而完成。HotDoc文档主要用于电子文件传输。
2003年Office 2003发布的时候,Microsoft 正式提出了Smart Document概念。Smart Document是一种新的基于具有基础 XML结构和自定义任务窗格的应用程序,如Word,Excel等,这种解决方案是当用户将鼠标移动到文档的不同位置时,在任务窗格中提供帮助文本、图形图像、 相关数据或文档处理工具(例如按钮、下拉列表等)等相关的信息。
2004年,Adobe 公司则是将通过将纸质文档的优点与安全、计算、错误检查和数据验证等领域功能强大的业务逻辑相结合,从而简化了相关的关键业务的信息交流,其主要是将PDF与XML结合从而创造了Adobe Intelligent Document Platform(智能文档平台)为用户提供了安全共享的企业数据解决方案,其中的Adobe LiveCycle Designer可以让用户根据需求定制个性化的表单并将表单域与业务逻辑绑定后保存为PDF文档, 通过Adobe Document Service(文档服务),将企业的业务流程整合到智能文档中使现有企业流程自动化,但其缺陷是用户定义的业务流程就只能通过Adobe Intelligent Document Platform才能完成。
AI文档智能决胜计算机认知和自动化处理
目前AI文档智能往往要结合NLP和CV模型来分析、理解文档的内容和布局,抽取关键信息,通过智能化的处理,转换为业务所需的其他信息形态,乃至自动对接相关业务流程。从2012年起,各种深度学习模型在计算机视觉(CV)和自然语言处理(NLP)在其领域内的比赛大放异彩,谷歌,微软,亚马逊等企业尝试用CV和NLP相结合的模型以实现文档智能。文档AI模型旨在自动分类,提取和结构化业务文档中的信息,从而加快自动化文档处理工作流程。
计算机视觉领域从2012年起,随着Hinton课题组的卷积神经网络AlexNet在ImageNet图像识别比赛一举夺得冠军,这是史上第一次有模型在 ImageNet 数据集表现如此出色, 机器识别错误率已经和人眼识别差别不大。2014年,蒙特利尔大学提出生成对抗网络(GAN):拥有两个相互竞争的神经网络可以使机器学习得更快。一个网络尝试模仿真实数据生成假的数据,而另一个网络则试图将假数据区分出来。随着时间的推移,两个网络都会得到训练,生成对抗网络(GAN)被认为是计算机视觉领域的重大突破。计算机视觉技术发展带来的各种各种应用如文本识别、目标检测、图像分类、场景文字识别等。文本识别又为Document AI奠定了基础。
而在自然语言处理(NLP)领域,以BERT为代表的预训练模型及新型特征抽取器Transformer的快速发展和普及让NLP领域在这两年发生了天翻地覆的变化。从Bert的应用来看,已经在包含对话系统、机器阅读理解、搜索、文本分类等几乎大多数NLP应用领域快速应用,并在部分应用领域取得了突破性的效果提升。Bert预训练模型结合布局特征抽取、视觉特征抽取慢等等模型去实现AI文档的功能。
从计算机视觉角度或自然语言处理角度或两者结合的角度来看,文档AI的方法通常基于深度神经网络。在神经网络模型中,最早用于PDF文档表检测的方法是基于卷积神经网络(CNN)的。之后,又有学者利用了更高级的Faster R-CNN模型或Mask R-CNN模型来进一步提高文档布局分析的准确性。最近,又有学者提出了图卷积网络(Graph Convolutional Networks)结合文本的信息和视觉的信息用于抽取商业文档中的信息。
2020年3月,微软亚洲研究院提出LayoutLM模型,这是一种用于文档图像理解任务的简单而有效的文本和布局预训练方法。受BERT模型的启发,引入预训练模型,同时利用文本的布局的局部不变性,可有效地将未标注文档的信息迁移到下游任务中。Layout模型在三个下游任务,表单理解,票据理解,文档图像分类,都取得了显著的准确率提升。
图表 1:LayoutLM 模型构架
2020年10月,商汤科技提出智能文档SOTA模型DocStruct。该模型在微软LayoutLM模型基础上进一步提升。DocStruct模型提取并融合了三种模态的特征(语义模态,布局模态,视觉模态) 并预测文本片段之间的层次关系,比LayoutLM多提取了一个模态(视觉模态)。DocStruct在FUNSD数据集上展示出了惊人的结果。
图表 2:DocStruct 三模态特征抽取
Document AI的基本任务和相关技术
现有较为先进的 Document AI 模型,如 LayOut, LayoutLM 和 DocStruct 等,主要用于处理票据内容的结构化自动识别。最为前沿的数据集是微软研究院发布的 DocBank,其是根据 arxiv 网站大量的论文pdf文档与其 latex代码之间的对应关系而自动化构建出的 Document AI 训练数据,但其仅对论文中的区域进行识别,如识别摘要,简介,标题,表格等内容。从自然语言处理的角度来看,DocBank 数据集的优势是可用于任何序列标注模型,同时还可以轻松转换为基于图像的标注,以支持计算机视觉中的物体检测模型。通过这种方式,可以使用 DocBank 公平地比较来自不同模态的模型,并且进一步研究多模态方法,提高文档布局分析的准确性。
模型实现需要利用的相关技术:
光学字符识别(OCR)
光学字符识别(Optical Character Recognition, OCR)可以让计算机读取图片中的文字和文字的位置信息。在使用OCR进行初步处理之后,计算机可以提取表单页面中的潜在结构,文本和文本的坐标。
传统OCR基于数字图像处理和传统机器学习等方法对图像进行处理和特征提取。常用的二值化处理有利于增强简单场景的文本信息,但对于复杂背景二值化的收效甚微。传统方法上采用HoG对图像进行特征提取,然而HoG对于图像模糊、扭曲等问题鲁棒性很差,对于复杂场景泛化能力不佳。由于深度学习的飞速发展,现在普遍使用基于CNN的神经网络作为特征提取手段。得益于CNN强大的学习能力,配合大量的数据可以增强特征提取的鲁棒性,面临模糊、扭曲、畸变、复杂背景和光线不清等图像问题均可以表现良好的鲁棒性。多模态特征提取。
2.1. 语义特征提取
在一个文档中,往往有语义信息、布局信息、视觉信息。语义特征可以通过现有NLP预训练模型Bert、ELMO、GPT相关的模型来抽取语义特征。许多自然语言处理任务已经证明了预训练模型提取文本特征的能力非常出色。Bert预训练模式是其中最成功的。BERT模式是一个双向语言模型,它可以通过目标文字的左侧和右侧的上下文从语料库中提供深层次的双向表示。更重要的是,独立于预训练步骤中的大型语料库,这些模型的输出可以轻松地用于下游任务。在输入之前会添加一个特殊标签[CLS],并且可以使用相应的输出进行微调。
2.2 布局特征提取
OCR或人工的初步处理可以提供布局信息。布局信息显示了文本片段的大小和相对位置,这有助于区分具有相同语义内容的不同文本片段。
2.3 视觉特征提取
视觉信息是从原始页面裁剪的图像部分,带有片段的矩形闭合。直观地来说,视觉信息还提供了有价值的信号来预测键值关系。比如,粗体或者斜体的文字更加有可能是表头或者是键(key)。可以用CNN、RNN、Transformer等特征提取器来提取像素图,再用RNN 模型来处理文本的序列。
在此方面的研究上,无论是大规模数据集构建还是物理布局和逻辑关系的联合抽取模型,相关文献目前都还是鲜有出现,亟需得到更多的关注和深入的研究。
文档智能化技术——任重道远
基础信息抽取面临的挑战
如何很好的按照文档内容本身的层次化结构进行数据解析,进而针对其层级结构来归纳整理知识图谱 schema 是当下面临的新的巨大挑战。行业文档的格式多样,有 pdf,word,txt 等多种格式,pdf 格式中又分为标准 pdf,可搜索 pdf 和扫描版 pdf,word 文档的版本也是不尽相同。文档内部的格式更是千变万化,比如有单栏的,双栏的,横版的,竖版的(较少),标题明显的,标题不明显的,有些段落如标题是有价值的,有些段落如附注是相对价值小的等等。除此之外,还面临其中嵌入大量的表格、图片等信息的识别混淆等各类问题。
在知识图谱 schema 给定的前提下,从特定类型文档中进行特定信息的抽取,比如抽商业合同的款项。由于文档格式和行业表述的多样性以及文档内的交叉引用,使得从文档中直接抽取此类信息变得十分困难。抽取一些信息可能需要文档级的语义理解能力和逻辑推理能力,才能很好的进行此类信息抽取。
深度学习技术本身的局限
在具有深层神经网络的AI领域,这些方法中的大多数都面临局限性:
高精度的模型往往依赖于大量人工标记的训练样本,而目前利用大规模的无标签样本训练后得到的预训练模型,在特定领域落地还需要较高水平的AI专家帮助进行场景数据的微调(Fine tuning),无论在数据收集、数据标注、还是模型训练的过程中还大量存在不确定性和不可解释性,严重影响了企业大规模应用的积极性。
大多数的现有模型通常利用预训练的CV模型或NLP模型,大多数模型没有考虑对文本和布局信息进行联合训练。少部分模型比如DocStruct融合了(语义信息,布局信息,视觉信息)进行联合训练。融合多模态的模型往往能获得更好的预测效果。探索如何自监督的文本预训练和布局预训练会对AI Document有帮助。
多模态的特征融合。多模态的融合可能存在以下两方面的困难。
不同特征的维度可能是不同的。比如说,布局特征是8维的,远远小于语义特征和视觉特征的维度。不同特征含义是不同的。来自不同形式的特征具有不同的含义。不同特征对最终预测的贡献不均。语义特征和布局特征应该是最可靠的特征,并且布局特征还可以区分内容相同的片段。因此,不应以相同的方式对待多模态特征,而必须考虑它们的差异。
壹沓科技在文档智能化领域崭露头角
壹沓科技通过多年以来在大数据文本挖掘技术方面的积累,构建自有知识产权的认知智能平台和机器人自动化平台,在帮助企业实际落地文档智能化处理领域拥有丰富的经验,以NLP、OCR、CV等多项AI技术整合有效解决方案,在物流行业信息化、政府部门数据挖掘、品牌大数据挖掘等方面已服务于千百家国内机构。
同时,在智能化文档处理的尖端技术研究上,壹沓的AI团队在面向OCR识别的NLP增强,通用表单键值对识别,多模板文档结构化,关键业务字段高精度校核等任务上均有独到的成果。
最近壹沓AI团队还测评比较了Google、微软、百度、阿里、合合、薪火在文档智能化领域公开的产品,涉及通用OCR、表格识别和表单智能识别,从产品特点和实用性都进行了测试和评价。
初步结论:针对较复杂的文档数据无论从OCR识别还是表单键值提取各个平台都无法达到业务自动化可信赖的精准度,目前还需要对具体场景的大量标注工作和机器学习训练调试才可能投入生产使用。
测评报告详情将发布在下一期《壹沓AI观察》,敬请关注!
文章参考:
[1] Jurgen Buchner, Thomas FehnL Thomas Kunstmann HotDoc:a flexible framework for spatial composition[J], IEEE Computer Society, 1997, 9(7)1:92-100.
[2] 温金超.智能文档关键技术研究【D】.北京:北京机械工业学院,2008.
[3] dobe智能文档【EB/OL】,http://www.chinese-s.adobe.eom/entemfise/intdoc.html(2006.2.25page shot).
[4] Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2017). Imagenet classification with deep convolutional neural networks. Communications of the ACM, 60(6), 84-90.
[5] Liu, X., Gao, F., Zhang, Q., & Zhao, H. (2019). Graph convolution for multimodal information extraction from visually rich documents. arXiv preprint arXiv:1903.11279.
[6] https://arxiv.org/abs/1912.13318.
关于壹沓科技
壹沓科技成立于2016年11月,聚焦于前沿技术在企业数字化中的应用,公司核心业务包括壹沓数字机器人产品-Cube Robot和壹沓品牌方程服务-Formula DBM,已经为多个行业数百家企业及政府提供服务。
我们在自然语言处理-NLP、图像文字识别-OCR、知识图谱-KG、大数据挖掘-Data Mining、机器人流程自动化-RPA和业务流程重构及管理-BPR&BPM等领域具备完整的自主研发能力,已获得软件知识产权数十个。
总部位于上海 ,在北京、深圳设有分公司, 已获得高新技术企业、双软及专精特新企业等专业认证 。核心团队来自于多家知名上市公司,在企业服务及互联网从业超过10年,拥有大数据、云服务及人工智能领域的丰富经验。
转载请在文章开头和结尾显眼处标注:作者、出处和链接。不按规范转载侵权必究。
未经授权严禁转载,授权事宜请联系作者本人,侵权必究。
本文禁止转载,侵权必究。
授权事宜请至数英微信公众号(ID: digitaling) 后台授权,侵权必究。
评论
评论
推荐评论
暂无评论哦,快来评论一下吧!
全部评论(0条)