壹沓AI观察:CKG如何让人工智能拥有常识

译文 收藏 评论
举报 2020-11-06


        壹沓科技的愿景就是让人工智能技术广泛落地实际商业应用场景,从枯燥繁复的信息处理工作中解放人类员工。面向各行各业的具体流程,AI文本处理需要在遍历文档的同时能够理解每个关键字段的概念含义,才可能象人一样,从中准确获取所需信息。例如:从纷繁芜杂的物流行业货运托付流程表单中,经常存在表头简称、非对齐项、实际填表中的同格值填写、冗余备注项矛盾等各类具体问题,人类员工可以凭借工作经验和常识准确推断各项非规则的信息项,确保业务流程执行,而目前的OCR及智能表单识别AI对此类问题往往无能为力。

       如何有效构建和应用知识图谱来增强文档挖掘过程,并且让AI具备人类信息处理常识已经成为行业重要命题。壹沓科技AI部门在人工智能研究过程中发现目前中文互联网目前尚无常识性知识图谱的专题文章,希望通过本文能够首次整体性地描绘常识知识图谱技术的发展脉络。

       知识图谱(Knowledge Graph,KG)是一种揭示实体之间关系的语义网络,其建立发端于海量信息的获取,是对人类知识的归纳和总结。自Google在2012年提出知识图谱的概念以后,知识图谱技术快速发展,除了伴随谷歌大脑产生的百科全书式的通用知识图谱(Encyclopedia Knowledge Graph,EKG),更多为领域知识图谱(Domin Knowledge Graph),例如阿里巴巴的商品知识图谱,其数据来源于淘宝、天猫等多个市场,以商品、标准产品、标准品牌等为核心,利用实体识别、语义推理等技术,整合关联多领域信息三元组,形成巨大的商品知识网。为此,阿里的商品搜索引擎帮助品牌商透视全局数据,帮助消费者准确定位商品。

       又如美团大脑的餐饮娱乐知识图谱,包含了遍布全球超过3000多万商户及1.4亿的店菜,用于帮助更好的在餐饮领域帮助用户满足需求,提供更加智能的生活服务。

何为常识图谱?

  • 随着人工智能应用不断深入更多场合,传统的知识图谱已不能完全满足诉求,例如在自然语言理解领域,需要将特定单词映射到概念空间得到其含义,例如在“The engineer is eating an apple”中,基于传统知识图谱的工具会将“engineer”和“apple”结合,将apple认定为IT公司,但如果知识图谱中接入上下文信息,将apple映射到概念空间后,结合“eating”场景下对“apple“进行理解推理,则会得到apple代表水果。为此,需要使机器能够真正理解人类常识并进行思考,赋予机器人性化。为此,出现了常识知识图谱(Commonsense Knowledge Graph,CKG),也可称为常识性知识图谱。微软亚洲研究院在通用知识图谱Probase的基础上提出了常识知识图谱Concept Graph的研究路线,并针对常识知识图谱提出了概念化模型,使其能够支持例如文本标注、命名图识别、会话推荐等应用

  • 图灵奖得主“人工智能之父”马文·明斯基就曾一针见血地指出“问题就在于常识性知识对于人类而言是如此显而易见,以至于我们从未考虑过要去记录它们”。常识知识图谱是已存在普遍社会共识的集合体,常识作为普遍接受的认知,具有明显、常见等特点,这使得基于常识的知识从未有过详细统一且格式化的记录,这也造成了如今CKG构建的困难和数据的短缺。

        壹沓科技从成立以来,对知识图谱的积累和应用高度重视,对常识知识图谱的应用探索也一直在持续进行,我们已经通过海量大数据文本挖掘积累的千万级别词条的通用分类标签关系图谱和高精度的互联网媒体传播内容的情感极性词库,同时面向物流、电商行业的领域知识图谱也伴随项目落地得到全面的梳理和构建。

       我们关注在文本挖掘和文本推理应用中结合通用知识图谱和常识知识图谱的最新研究成果,乐于分享相关技巧和认知,并坚信基于大规模知识图谱的人工智能算法能够大大推进行业应用落地时的“冷启动”和“零学习”的诉求满足。

  • 传统知识图谱,例如亚马逊的产品知识图谱,医学知识图谱等,更加注重于事实及显性知识,具有确定性、模式简单等特点,其实体格式化、确定性高,关系单一、严谨且具有事实性。基于领域工作的严谨性和确定性,使得传统知识图谱具有高置信度和高准确度的特点。例如微软的Probase,每条知识被表示为一个SPO三元组(Subject-Predicate-Object)。传统知识图谱的构建已经形成了规范化的构建途径,大都采用自底向上的构建方式,且需要多种智能信息处理技术的支持,通过信息抽取、知识融合等,形成高质量的知识库。



  • 而CKG注重于上下文、多模态数据以及实体之间的语义关系,其实体多为自由化格式的文本,且在构建阶段不易发现,其之间的关系多为语言关系,且具有不同的等级。这也为CKG带来了概率特征,例如自行车的实体节点,其属性可设置为“两个轮胎”;对象的常识为“自行车比汽车慢”;常识序列可为“骑自行车”、“推自行车”等。


  • 不仅于此,CKG概念网中实体的关系更是呈现多样、复杂的特点,例如厨房和汽车的概念网,其边的概念存在有”useFor”、”typeOf”、”MadeOf”等关系,大大超越通用知识图谱的“isA”,“hasA”,“partOf”典型关系,且其权重的类型可为距离、频率、顺序等,汽车在事实、社会和物理子集中的常识知识网更是预示着CKG构建的复杂性。


  • 实体及关系的定义呈现出多样化、个性化等特点,这给CKG的构建和维护带来了极大的代价,例如流行的FB15K-237常识图谱实体节点的平均度数是通用图谱的10倍以上。

  • CKG的构建和维护需要昂贵的代价,但同时这也预示着CKG技术还有很大的发展潜力,随着研究人员的努力,常识知识图谱已在不少领域取得重大进展。

常识图谱推动AI发展

  • 壹沓发现,通过CKG来提高机器对自然语言的理解渐成AI行业最新发展热点,通过将深度学习在CKG沿着实体关系的多条路径上进行研究,未来的机器在一定程度上能够理解常识并推理文字内在的含义,对于行业应用所需的高度自动化的流程处理具有重要意义。

  • 尽管CKG的构建十分困难,但并未阻挡研究者的热情,Luminoso的ConceptNet常识知识图谱起源于麻省理工的实验室,发展至今,吸收来自大量其他众包资源、专家创造的资源和有目的的知识,已包括10种主要语言3400万条知识关系,已经可以帮助机器初步理解人类语言并进行推理。(下图为在ConceptNet上对“自行车”的查询结果展示)

  • 为了能拓宽常识知识图在对抗性概念方面的应用,AllenAI的研究者最近也推出了Atomic2020,其包含日常生活相关实体和时间概念的推理知识,用于补充在当前语言模型的常识性知识编码。Atomic2020包含了23种常识关系类型,例如物理和日常事件的常识方面,最大的两个关系为“对象使用“和”阻碍“类型,例如爆米花桶,可以用来装爆米花或放东西。而对于阻碍关系,通过收集目标的阻碍,可以用来推理反事实的任务,例如某人对猫过敏,则该人在养猫时的愿望就会受阻,这将迫使该人在未来采取相应的行动(例如养别的宠物)。Atomic2020收集了超过13万关于对象使用和10万的阻碍事件。另外还从ConceptNet中提取常识性元组以扩充常识元组。Atomic2020在知识图谱检索的质量评测对比中在精度指标上获得了最好的性能。

  • 在国内机构中,腾讯AI实验室率先提出了基于CKG的故事补全技术,利用常识知识图谱提出一个整合叙述线索、情感演变的神经网络模型,用来补全故事的结尾。模型通过给定的长度固定的故事,在两个给定的候选答案中,利用常识知识图谱,使得选定的结尾与给定故事合理可信并一致。腾讯在公开数据集上取得了先进的性能,并证明了引入常识对于机器所带来的显著性能提升。

  • 顶会ACL2020上,清华大学联合微软发表了基于CKG的概念流引导对话生成系统ConceptFlow,为了让开放对话看起来更加自然随和,利用常识知识图谱对会话流建模。模型通过将会话与常识知识图谱结合,利用潜在的会话信息遍历知识图中的相关路径,并以图注意力为导向,通过图神经网络学习,利用会话话语、常识关系寻找更遥远但仍有意义的概念,来引导生成器生成更多信息和更相关的对话回答。与GPT2的标准模型相比,生成的对话更符合人类的习惯并且对上下文话题核心的响应也更加清晰。

  • 知识推理运用于知识发现、冲突与异常检测,是知识精细化工作和决策分析的主要实现方式。目前的知识推理已经广泛应用在各行各业如企业投资风险研究、信贷风控、智能投顾、挖掘政府人员的人际关系、农作物价格预测和动态属性生成等方面。基于知识图谱的知识推理应用领域随着研究的深入将愈加广泛。

       现阶段,基于中文的常识知识图谱尚处于起步阶段,国内在该领域的研究和积累刚刚开展,而壹沓科技高度关注对常识知识图谱技术并结合行业落地多任务场景下的应用进行了探索,并已经在信息抽取、表格OCR等应用场景下进行特定实验中取得了高精度结果,AI团队将通过进一步的努力,以知识图谱赋能品牌方程和数字机器人产品线,在不远的未来建成全面超越人类员工水平的自动化信息处理平台。


关于壹沓科技

壹沓科技成立于2016年11月,聚焦于前沿技术在企业数字化中的应用,公司核心业务包括壹沓数字机器人产品-Cube Robot和壹沓品牌方程服务-Formula DBM,已经为多个行业数百家企业及政府提供服务。

我们在自然语言处理-NLP、图像文字识别-OCR、知识图谱-KG、大数据挖掘-Data Mining、机器人流程自动化-RPA和业务流程重构及管理-BPR&BPM等领域具备完整的自主研发能力,已获得软件知识产权数十个。

总部位于上海 ,在北京、深圳设有分公司, 已获得高新技术企业、双软及专精特新企业等专业认证 。核心团队来自于多家知名上市公司,在企业服务及互联网从业超过10年,拥有大数据、云服务及人工智能领域的丰富经验。

本文系作者授权数英发表,内容为作者独立观点,不代表数英立场。
转载请在文章开头和结尾显眼处标注:作者、出处和链接。不按规范转载侵权必究。
本文系作者授权数英发表,内容为作者独立观点,不代表数英立场。
未经授权严禁转载,授权事宜请联系作者本人,侵权必究。
本内容为作者独立观点,不代表数英立场。
本文禁止转载,侵权必究。
本文系数英原创,未经允许不得转载。
授权事宜请至数英微信公众号(ID: digitaling) 后台授权,侵权必究。

    评论

    文明发言,无意义评论将很快被删除,异常行为可能被禁言
    DIGITALING
    登录后参与评论

    评论

    文明发言,无意义评论将很快被删除,异常行为可能被禁言
    800

    推荐评论

    暂无评论哦,快来评论一下吧!

    全部评论(0条)