文章资讯

   
行业新闻

Article Information

聚焦数据,探索分布式数据库与湖仓一体的前沿应用


数字化时代,数据作为企业的重要资产,其管理和利用效率对企业的生存和发展具有重大影响。根据《数据库发展研究报告(2023年)》2022年全球数据库市场规模为833亿美元,中国数据库市场规模为59.7亿美元(约合403.6亿元人民币),占全球7.2%。预计到2027年,中国数据库市场总规模将达到1286.8亿元,市场年复合增长率(CAGR)为26.1%

近期51CTO举办了两场技术直播活动,围绕数据库前沿趋势和实践应用,分别以分布式数据库应用与挑战”和“湖仓一体的技术实践”为主题,邀请51CTO学堂金牌讲师以及数据库方向的企业技术专家进行分享,帮助用户更好地了解并掌握数据库领域的前沿技术趋势以及落地应用方法。

一、分布式数据库的应用与挑战

分布式数据库系统是一种高效、可扩展、可靠的数据库系统,适用于处理大规模的数据和应对复杂的业务需求。随着云计算和大数据技术的不断发展,分布式数据库系统将会得到更广泛的应用和发展

51CTO学堂认证讲师多哥和星环科技数据库资深架构师陈潜龙分别进行了主题为“揭开神秘的分布式数据库”和“星环分布式分析型数据库实践之路”的技术分享。

首先,多哥从大数据时代的数据特点、新时代的业务需求、以及使用分布式数据库的原因这三方面展开分享,讲述了大数据时代,企业面临的数据治理难题以及解决难题的通用解决方案。

多哥提到,大数据时代,很多老问题变成了新问题或者大问题。其中就包括算力挑战与互联网应用特性转变。一方面,数据量的激增引发存储成本与计算成本的不断提高,同时,管理者也需要时刻关注数据量为整体计算带来的任何向性变化以及数据管理的迭代升级对底层架构的挑战。另一方面,互联网应用的特性正在逐步转向物联网,例如,业务模型从交易型业务(OLTP)转向到分析业务(OLAP),数据出现越来越强的异构性变化等。

多哥认为,面对这些挑战,数据管理者可以尝试结合分布式编程的思想,从单机编程思维转换成集群编程思维,从纵向扩展思想转变为横向扩展思想以及启用全新的系统栈。由此,多哥总结了三个解决问题的方向,分别是:分布式数据库的选择和引入,灵活便捷的资源调度以及比移动数据更经济的移动计算方式。

陈潜龙在演讲时引用了信通院对未来数据库技术发展划分的九个方向和四大目标,提出融合,即架构融合,利用统一架构代替混合架构和平台融合,统一数据湖、数据仓库、数据集市才是数据平台架构的发展趋势。陈潜龙表示,分布式分析型数据库可以替代Hadoop+MPP混合架构。它支持标准SQL语法,提供了多模分析、实时数据处理、存算解耦、混合负载、数据联邦和异构服务器混合部署等先进技术能力。

提到分布式分析型数据库的关键技术,陈潜龙重点阐述了以下几点:

  • 第一,统一SQL入口,以均衡负载提升业务并发。同时,基于特定规则将不同的业务,如查询、跑批,分发到不同的计算资源上,以此实现业务的分流,减少业务间的相互影响。

  • 第二,统一SQL编译引擎,简化SQL开发适配,降低开发门槛,提升迁移效率。

  • 第三,统一SQL计算引擎,通过向量化计算引擎,提升性能。

  • 第四,统一存储管理,支持多种模态数据,多源数据高效融合,促进多模型能力进一步增强。

  • 第五,混合负载均衡管理,将作业与资源池的相互关联,控制并实现资源的合理利用,从而实现系统资源利用的最大化收益。

  • 第六,在线扩容,集群在线扩容,对正在运行的业务无感知,扩容后性能呈线性增长。

  • 第七,数据块级别灾备,突破地域限制,构建数据安全保障。

  • 第八,智能运维,集成集群管理,SQL开发,SQL监控等能力,实现数据库一站式运维能力。

陈潜龙表示,企业对数据库的选型、应用与优化应该因地制宜,从具体需求出发。同时,面对技术发展多变、应用特点多变、外部需求紧迫的现状,他建议数据库运维人员不断学习、广泛学习,时刻关注分布式数据库发展,保持足够的技术敏感度,才能够紧跟技术发展趋势。

二、湖仓一体的技术实践

湖仓一体是一种创新的数据存储和处理架构,具有强大的数据处理和分析能力,同时确保了数据的安全性和质量,逐渐成为企业主流数据存储方式。凭借低运维、低成本、多格式、多功能、高价值、高敏捷、更安全、更灵活的特性,湖仓一体解决方案已在金融、互联网行业进行规模化应用。51CTO学堂金牌认证讲师赵渝强和北京科杰科技CTO高经郡分别带来了主题为“湖仓一体的技术实践”和“湖仓一体构筑数据智能的新基石”的技术分享。

首先,赵渝强数据仓库与大数据技术出发,介绍了基于大数据技术的数据仓库架构:Lambda架构与Kappa架构以及大数据计算引擎:FlinkSpark,从而进一步引出了数据湖技术和基于数据湖的数据仓库实现话题。

渝强认为,数据仓库在本质上就是一个数据库,在具体实现数据仓库时候可以使用传统的关系型数据库来实现,例如:OracleMySQL等,也可以使用大数据生态圈体系来实现。而基于大数据技术的数据仓库架构主要有LambdaKappa两种其中Lambda架构是目前构建数据仓库选用的主要架构,分为离线数据仓库与实时数据仓库两部分,利用HDFSHBase存储离线数据,利用消息系统Kafka来存储实时数据。对文件数据进行封装后,提取数据的抽象便于与数据湖进行集成,实现离线数据或实时数据的读取功能。相较于Lambda架构,Kappa架构只能读取实时数据,虽然能够将离线数据作为实时数据的特殊情况进行读取,但是性能不佳。

在介绍了大数据计算引擎FlinkSpark之后,赵渝强又为大家介绍了数据湖的概念和常见的技术框架。简单来说,数据湖可存储结构化和非结构化数据,是一种面向大规模、多来源、高度多样化数据的组织方法。但数据湖本身不提供数据存储的能力,常见的数据湖技术框架有HudiIcebergDelta Lake。分享最后,赵渝强还为大家提供了一个基于数据湖的数据仓库流批一体架构供大家参考。

接着,北京科杰科技CTO高经郡老师为大家带来了主题为“湖仓一体构筑数据智能的新基石”的技术分享。高经郡从湖仓一体架构探索与构建、湖仓一体技术实践湖仓一体化平台未来发展趋势三个方面进行了分享。

经郡表示Lakehouse湖仓一体是一种新型开放式架构,充分结合数据湖和数据仓库的优势构建在数据湖低成本的数据存储架构之上,继承了数据仓库的数据处理和管理功能,能全面满足BIDIAI应用需求。

构建湖仓一体核心要素,高经郡认为有以下三点:

第一,可靠的湖上数据管理:一种开放的、高性能的数据组织格式。

第二,支持机器学习与数据科学:一套开放的、标准的API

第三,先进的SQL性能:一个极致优化的执行引擎。

但是,随着湖仓一体实践的逐渐深入,尤其是当单链路的数据量达到分钟级,每日数据达到万亿规模时,企业就需要格外重视湖仓一体的性能问题。例如:如何平衡流式访问和批访问?既能做到高性能和高效,又能做到低成本?实现分钟级接近极限如果继续加速该如何优化?高经郡认为,想要解决这些问题,需要不断优化技术架构、提高数据湖计算引擎的能力,通过存算分离、统一元数据服务和查询引擎等方式不断优化湖仓一体的性能。

经郡表示,企业数据架构具有从单一架构走向多架构融合,数据资产由物理性统一走向逻辑性统一的发展趋势。构建湖仓一体基础数据底座,保障企业多架构融合平台基础,从而助力企业构筑智能数据的新基石。

结语

随着信息技术的不断进步,数据库技术已经成为企业智能化建设的核心,它不仅存储着企业的核心数据,还支撑着企业的业务运营和决策分析。

数据库技术的未来发展将更加注重数据的处理效率和安全性。一方面,随着大数据时代的到来,企业需要处理的数据量越来越大,数据库技术需要不断提高数据处理效率,以满足企业的需求。另一方面,随着网络安全问题的日益严重,数据库技术的安全性也变得越来越重要。未来,数据库技术将更加注重数据的安全性和隐私保护,采用更加先进的数据加密和访问控制技术,以确保数据的安全性和完整性。