数据平台是能够为企业提供数据分析能力、支撑上层数据应用、 助力企业数字化转型的底层基础设施,它包含数据存储、数据计算分 析等能力的一套基础设施,通过汇聚各方数据,提供“采-存-算-管-用” 全生命周期的软件支撑。经过数十年的发展,数据平台架构持续演进, 主要经历了数据库、数据仓库、数据湖三个阶段。
如今,数据仓库和数据湖是数据平台最广泛的两种架构:数据仓 库具备规范性,可针对结构化数据进行集中式的存储和计算,但无法 处理半结构化与非结构化数据,且其扩展能力有一定局限性;数据湖 具有更好的扩展能力,能够灵活支持对于多种类型数据的高效取用, 但不支持事务处理,缺乏一致性、隔离性,数据质量难以保障。数据 仓库和数据湖是两套相对独立的体系,各有优劣势,无法相互替代。
为满足多种数据类型存储、多场景分析等业务诉求,企业采用数 据湖+数据仓库混合架构。“数据湖+数据仓库”混合架构满足了结构 化、半结构化、非结构化数据高效处理需求,解决了传统数据仓库在 海量数据下加载慢、数据查询效率低、难以融合多种异构数据源进行 分析的问题,但也存在混合架构复杂,开发运维难度大、成本高,数 据处理链路长时效低等问题。
湖仓一体是指融合数据湖与数据仓库的优势,形成一体化、开放 式数据处理平台的技术。通过湖仓一体技术,可使得数据处理平台底 层支持多数据类型统一存储,实现数据在数据湖、数据仓库之间无缝 调度和管理,并使得上层通过统一接口进行访问查询和分析。
自 2021 年“湖仓一体”首次写入 Gartner 数据管理领域成熟度 模型报告以来,随着企业数字化转型的不断深入,“湖仓一体”作为 新型的技术受到了前所未有的关注,越来越多的企业视“湖仓一体” 为数字化转型的重要基础设施。湖仓一体平台的建设解决了流批一体 面临的原子事务、一致性更新以及元数据性能瓶颈等问题,使得湖仓 一体平台的构建既能满足短期业务发展的需要,又能支撑长期的数据 应用诉求。
为给社会各界深入了解湖仓一体技术与产业提供有价值的参考。 本报告聚焦于湖仓一体技术,详细梳理了数据平台发展历程、湖仓一 体实践路径,研究分析了湖仓一体产业现状,并对湖仓一体未来发展 进行了展望与研判。