携手业内专家赋能AI时代--EpiK铭识协议发起开源知识运动
1月10日,2021开源数据运动线上研讨会成功举办。EpiK邀请清华大学信息技术研究院副院长邢春晓、中国计算机学会知识图谱SIG主席、著名知识图谱专家王昊奋、著名数据及知识图谱公司创始人及项目负责人王会珍等重量级嘉宾参与,该活动在人工智能及大数据领域引起广泛关注。
此次研讨会,由EpiK铭识协议发起,希望借助区块链去中心化的协作模式搭建一个共建共享共益的开放知识库。这大大迎合了当下“数据开放共享”理念和相关政策,事实上,知识图谱的开放与互联,对于促进数据链接与广泛应用,推动人工智能、大数据发展有着不可估量的作用。
主题演讲精彩纷呈 掀起一轮开源知识思想风暴
随着万物互联趋势的不断推进,“数据开放共享”理念逐步渗透到“大数据”、“人工智能”等领域。主题演讲环节,各位嘉宾纷纷就各自领域的理论和实践经验进行了深入论证,并对开源知识给予了高度认可。
作为在知识图谱领域有着极深造诣的专家,王昊奋发表主题演讲《开源知识图谱如何保持实用性》指出,知识图谱跨学科交叉、多领域协作的复杂工程,赋能 AI 领域、自然语言处理、数据库等领域,当前各平台都在利用知识图谱构建属于自己的知识图谱。鉴于此,知识与数据开源成为了一大重要趋势,OpenKG就是当前知名的知识图谱开放平台,该平台聚集了包括高校、专业机构以及大企业的知识图谱开发及应用经验,这其中包含了数据集的开放、工具的开放、算法的开放。以OpenKG的新冠病毒开放知识图谱为例,共包含百科、科研、药物、防控、临床、流行病学等15个开放数据集,由浙江大学、同济大学、华为、清华大学、东南大学、IBM研究院等十余家单位共同构建。 除此之外,知识图谱是由无数数据集来结构而成,Openbase作为OpenKG的知识图谱众包平台,在这个平台上存在着游客、审核者、验收这等角色,分别针对数据上传、标注及审核。
最后,他还提到,OpenKG尝试与区块链进行结合,构建可信开放的联邦知识图谱平台。当前,该平台初始节点七个,交给不同的大学和企业来独立运营,相互的独立,来保证多中心的基础架构,并且是通过共识机制来做分布式帐本,共同提供可信的基础设施。在去中心化知识图谱建设方面,Epik铭识协议有很深的研究,现在正将推出更强大的平台。
清华大学信息技术研究院副院长副院长、清华大学互联网产业研究院副院长、中国计算机学会信息系统专委会副主任邢春晓在演讲中指出,知识图谱作为人工智能的重要生产力,其与区块链技术的结合是支持国家数字经济向智能经济演进,智能经济核心要素就是跨行业的知识融合应用的智力增值产业。提供行业的知识和决策的价值,将是智能经济的重要一环。区块链产业新模式,将推动信息互联网向价值互联网转化。人类很重要的价值就是知识,因此,知识如何能够作为跟区块链相结合,能真正的做到互联互通和互操作,体现价值的增值服务,非常重要的一个方向。
在案例解析部分,他介绍了清华自主研发的AMiner,通过构建庞大的底层科技信息知识图谱,用来进行科技情报的挖掘,目前已包含1亿学者和4亿论文。另外,他还介绍了清华自研的高性能数据仓库产品华鼎数据库,满足海量数据智能分析需求。最后,他还提到目前正与EpiK团队保持着密切合作,共同推动区块链+知识图谱的开源体系,开展数据和知识融合的体系的建设,为国家的数字经济提供重要的支持。
东北大学计算机应用专业博士、小牛思拓(北京)科技有限公司,董事长兼CEO王会珍发表主题演讲《数据标注助力知识获取》,她认为数据标注就是知识获取的一个过程。当前,京东百度都有众包平台,来了一个数据任务的时候,我们就需要给标注师进行任务分配,这是传统模式。小牛思拓团队新的模式是一方面通过ROP技术相似任务进行分析,并给到同一批标注师,提高效率;另一方面,通过自动技术,关系抽取的方式对数据进行预处理,用模型进行预先标注,预标注的结果再扔给标注师,通过标注师的审核校正,提高标注效率。但并非标注快就是质量高,标注工作专业性要通过服务前建立合理的标注体系、在需要时提供强有力保障、对原始数据提出更好实施或建议、建立完善的标注流程等进行保障。
EpiK 团队代表作题为《分布式知识图谱构建》的演讲,他指出,EpiK包含了知识图谱的生产、存储及应用的全过程,涉及领域专家、赏金猎人、知识矿工、知识用户和数据网关这5个重要生态参与者,而EpiK的愿景是构建人类的永恒知识库,提高 AI 的智能。
事实上,知识图谱开放协作在2020年已万事俱备:首先是,区块链的去中心化存储技术逐渐成熟,IPFS逐渐为业界所认可。其次是,数据标注行业也迎来了一个大的爆发,预计2025年会达到约100亿的人民币规模;再次是基于区块链的去中心化也在逐渐的成熟,可以更好帮助我们解决线上的激励动态分配。
此次,EpiK团队还带来了游戏化数据标注业务的一些思考,产品负责人表示,游戏的力量赋予了产品新的活力,这对于枯燥繁复的数据标注任务,无疑是重大启发,EpiK正尝试将游戏化引入到产品体验中,如智能分配标注任务、游戏化场景赋予用户故事与世界观,随机抽卡+成长激励体系,赋予产品游戏化体验等。
圆桌论坛众嘉宾各抒己见 开启知识开源前瞻
大会进入圆桌论坛,由上海立信会计金融学院国际经贸学院常任教师,科研能力养成社群联合创始人庄育婷、Center for Safe AGI创始人、University AI 创始人兼首席科学家朱小虎、Center for Safe AGI创始人、University AI创始人兼首席科学家刘吉、EpiK铭识协议中国区负责人姚翔四位嘉宾分别进行了以《开源知识与数据展望》为议题的圆桌对话。
庄育婷指出,个人非常希望真正可以看到人类知识有一天能够完成共享以及免费,知识图谱本身是具有一定系统性的事情。今年将针对中华脸谱计划提出一些更细致的布局,希望打造的是一个共益的中台,会牵涉到很多的利益相关者,实现从公益到共益的目标,让参与者在贡献能量的同时,也能从精神上或其他方面有所收获,提倡超越波特的“共享价值”。而这个理念跟EpiK共建共享理念其实是相吻合的,所以期待之后能够跟EpiK一起做一些事情,去为人类进步贡献星星之火。
朱小虎表示,在近几年的学习研究中发现算法有的时候会出现一些不曾预想的行为,比如大家很关心的这种所谓AI的安全性问题。这里面核心问题是如何让Alignment的行为跟人类的行为保持一致,这也是一种元安全的思想,也就是从原理上去保证这个方法本身的合理性和功能性。当然,曾考虑比如说用知识图谱来作为一个基础去把整个散落在各处的这种理念和技术、术语等等汇集起来,以这个为基础去推动所谓的安全的通用人工智能的研究。相信后期将与EpiK会有一些类似合作,比如法律、人才教育等方面的探索。
刘吉表示,不管在数据统计还是在感知智能之前,其实是基于数据来驱动的。我们现在可能是要做数据统计加知识推理做认知智能这块,所以涉及到很多知识图谱的建设。但是知识图谱其实它是一个很复杂的工程,它不仅仅是说一个场景化就能解决大面积问题。当前正在构想是一种基于泛标注的处理方式,利用人基本的决策能力构建一套可以快速简洁、可敏捷协作、系统化、可持续、可拓展的AI数据管道系统,这也是在标注3.0阶段要重点去做的一件事情。
姚翔最后表示,选择知识图谱这个赛道,是因为人工智能马上要进入下半场,在这个角逐中,知识图谱成为关键因素。而知识图谱的开源将大大降低了数据被篡改的风险,选择基于区块链的一个可信的分布式数据共享平台,从而来实现知识的共建共享,是大势所趋。与此同时,在这个共建共享平台上,数据标注的角色分工明确,且有着严格的付出与收益激励,EpiK的目标就是它要不断地优化开放式协作下的工作效率,从而来确保这个知识的质量,从而为 AI开阔视野。
此次主题活动汇聚了区块链产业、高校专家学者及媒体界人士,现场各位嘉宾各抒己见,实现思想的激烈碰撞,并在开源知识与数据方面达成了一致共识,在新年伊始为人工智能发展贡献了一场智慧盛宴,同时推动知识图谱开放与互联注入了创新活力。
关于EpiK Protocol铭识协议
EpiK Protocol 致力于去中心化的超大规模知识图谱构建,通过去中心化存储技术(IPFS)、去中心化自治组织(DAO)和通证经济模型(Token Economy),组织并激励全球社区成员将人类各领域知识梳理成知识图谱,共建共享并持续更新这一人类永恒知识库,从而将人工智能(AI)的视野拓展到更智能的未来。
转载请在文章开头和结尾显眼处标注:作者、出处和链接。不按规范转载侵权必究。
未经授权严禁转载,授权事宜请联系作者本人,侵权必究。
本文禁止转载,侵权必究。
授权事宜请至数英微信公众号(ID: digitaling) 后台授权,侵权必究。
评论
评论
推荐评论
全部评论(1条)