破解数据孤岛难题,企业需要什么样的大数据平台?

转载 收藏 评论
举报 2022-05-09

单模型数据库“落伍”,多模型大数据平台应运而生

在数字化转型早期,企业的数据采集、存储、分析、决策和应用场景往往相对单一、成熟,企业只需购买市面上对应的数据库产品即可满足自身需求。这个阶段,对企业来说,单模型数据库基本够用。

但是,随着数字化转型的深入和企业的快速发展,当面对业务扩展、不可预测的需求变化和企业管理标准的提高等各类情况出现时,单模型数据库就会“失效”,因为企业可能需要使用关系型存储、文本存储、图存储、对象存储、搜索引擎、地理空间存储、键值存储、宽表存储、时序数据存储、事件存储等更丰富的数据存储模型。

问题在于企业各自独立的大数据和数据库产品如同一个个数据孤岛,成为不同场景、项目、业务和部门间数据互通的壁垒。并且,企业使用多种单模型数据库将会导致数据冗余、数据一致性治理难、数据跨库分析难、资源配置难等一系列问题。同时,多产品的语言与接口不统一,学习成本高,运维成本高,系统的总拥有成本也会不断升高。

简言之,这些各自独立的大数据和数据库产品已经不适应企业发展的需求。

越来越多的企业逐渐意识到,未来的大数据平台,既要为不同的项目场景配置不同数据模型以保障其高性能,又要让数据操作和运维更便捷、更统一。在这样的需求推动下,在一个统一平台中用多种数据模型的“多模型大数据架构”应运而生,开始快速发展。

多模型大数据架构的本质是在一个单一软件平台内,针对不同的应用场景配置不同的数据模型,并将操作和运维等管理工作统一化、标准化,从而在保障数据平台性能的前提下大幅简化数据平台运维管理难度,提升平台的弹性与可扩展性,解决不同业务部门间存在的数据孤岛问题。

2

多模型大数据平台的“进化”

在多模型大数据架构的发展初期,业内主流产品仅仅是简单地将多个单模型数据库使用统一的界面组合在一起。这种平台内部依旧保留了多种类型的数据库,如关系型数据库、文档存储、键值存储、图数据库等,且不同数据库依旧采用各自独立的代码实现。

换句话说,这种多模型架构本质上仍然是单模型架构的延伸,只是在形式上将数据孤岛问题隐藏在统一的用户界面背后。简言之,它并没有真正解决问题。

随着企业痛点再次凸显,业界开始出现原生的多模型大数据平台。在这样的平台上,企业可以将所有业务数据汇聚起来,通过平台搭配的工具操作数据,从而挖掘数据中潜藏的价值。总体而言,原生多模型大数据平台需要具备以下特点:

满足一站式数据处理需求,能帮助用户完成一个数据处理的全链路;

处理多种数据模型,包括关系型数据、图数据、文本数据等;

具备强大的存储和计算能力,有能力帮助客户在海量数据中探索价值。

相比早期的拼装式多模型大数据架构,原生多模型大数据平台具有天然优势:

更强大的数据一致性。业务需要不同的数据模型时,多模型大数据平台天然支持一份逻辑数据实现多种数据建模,并应用于多个不同场景,避免了使用多个单一数据模型产品时需要面对的数据一致性、数据导入导出延时、数据冗余等问题。

更灵活的资源弹性。多模型大数据平台将不同模型的存储和计算资源池化,可以根据业务需要随时增减数据模型的种类,灵活部署和回收计算和存储资源,真正做到按需分配,用完回收,更灵活、更充分的使用好存储计算资源。

更简洁的操作与运维。多个单模型数据库产品往往接口不同、语法各异,开发人员学习成本高昂,专业技能门槛高。使用统一的多模型大数据平台时,开发人员只用学习统一的语言、统一的接口来操作多个数据模型,难度显著降低。

原生多模型大数据平台一诞生,很快获得企业青睐。据悉,在 2020 年前,业内主流的多模型大数据架构主要分为三种实现路径,但是各有各的问题。具体而言:

第一种:以 IBM DB2 和 Oracle DB 为代表,分别支持 6 个和 3 个模型种类。这一实现路径为每一种新数据模型开发独立完整的存算策略。其缺点是存算耦合,支持的模型越多,系统的开发量和复杂度就越高,消耗的存算资源也较多。

第二种:以 MongoDB 和 MySQL 为代表,均支持 3 个模型种类。该路径用单一存储引擎支撑多个存储模型。缺点是由于不同计算数据模型对存储的要求不同,单一存储引擎无法随之匹配适合的存储策略,从而限制了多模型数据库的性能。

第三种:以 Couchbase 和 MarkLogic 为代表,分别支持 2 个和 4 个模型种类。第三条路径在多种独立数据库之上提供统一的用户界面,对底层多个数据库进行转发。缺点是由于底层多个数据库开发语言不一致,导致实际开发时的高难度,排除故障的成本也较高。

为解决上述三条传统实现路径存在的问题,星环科技于 2020 年实现了基于分层设计的第四种多模型大数据统一架构:提供了统一接口层、统一的计算引擎层 、统一的分布式存储管理层以及统一的资源调度层,基于存算解耦支持 10 种数据模型。该架构应用于星环科技自研的大数据平台产品 TDH(Transwarp Data Hub)上。

3

不一样的多模型大数据架构:星环科技多模型统一架构

据悉,星环科技的多模型统一架构采用“异构存储,四层统一”设计,利用统一语言、计算、存储、资源重构大数据软件栈,在一个平台上支持十种数据模型,有效降低数据开发和运维的难度,极大提升了用户开发效率。


本文系作者授权数英发表,内容为作者独立观点,不代表数英立场。
转载请在文章开头和结尾显眼处标注:作者、出处和链接。不按规范转载侵权必究。
本文系作者授权数英发表,内容为作者独立观点,不代表数英立场。
未经授权严禁转载,授权事宜请联系作者本人,侵权必究。
本内容为作者独立观点,不代表数英立场。
本文禁止转载,侵权必究。
本文系数英原创,未经允许不得转载。
授权事宜请至数英微信公众号(ID: digitaling) 后台授权,侵权必究。

    评论

    文明发言,无意义评论将很快被删除,异常行为可能被禁言
    DIGITALING
    登录后参与评论

    评论

    文明发言,无意义评论将很快被删除,异常行为可能被禁言
    800

    推荐评论

    暂无评论哦,快来评论一下吧!

    全部评论(0条)