Google云计算宣布Data Cloud平台推出多项重要升级,重点在于强化数据湖仓架构的开放性与智能治理能力。本次更新包含原生支持Apache Iceberg开放格式,并通过BigLake服务集成企业级云计算存储,结合人工智能自动化数据治理,供企业与开发团队在数据管理、分析及应用层面提升弹性与效率。

这次更新主打BigLake原生支持Apache Iceberg,将Iceberg开放格式数据管理功能结合Google云计算存储,企业可通过BigLake Table,对Iceberg数据集进行高效分析,并应用Google云计算原生存积分层管理与用户自管加密密钥等机制。

通过BigLake Metastore新API与REST Catalog,开发者可更方便地集成多来源Iceberg数据,并支持与BigQuery、AlloyDB for PostgreSQL及第三方分析引擎协同操作,降低ETL成本,提升跨平台数据访问弹性。Google也推出自动化搬迁工具,协助企业将Hadoop或Delta Lake等现有数据环境快速搬迁至Iceberg。

数据湖仓架构的升级不仅提升分析层,更延伸至运营数据库及人工智能应用集成。BigQuery现支持对Iceberg数据进行即时查询、数据重整与多表格交易等高端应用,企业可在维持数据自主的同时,运用BigQuery于流媒体处理、机器学习及多模态分析等场景。AlloyDB for PostgreSQL也可直接查询BigLake管理的Iceberg数据,支持语义搜索及自然语言查询,让运营与分析数据层更紧密串联,减少数据复制及转换的麻烦。

Dataplex Universal Catalog也是这次更新的重点之一。该服务集成来自BigLake、BigQuery、Spanner、Vertex AI等不同来源的中继数据,实现统一探索、组织及治理。结合Gemini AI模型,Dataplex可自动分析数据关联,进行智能标注、语义搜索及分析建议,提升数据盘点与治理效率,并强化权限管控、数据安全及法规遵循的自动化。Dataplex Universal Catalog同时支持与第三方治理平台集成,方便企业构建跨云、多系统的数据治理机制。

Google还在BigQuery Notebook集成Gemini,提供SQL、Python与Apache Spark集成开发体验,通过智能提示、自动产生PySpark程序代码与错误诊断,降低学习与操作障碍,支持JupyterLab及VS Code等开发环境的扩展组件,可让用户快速串联Google云计算数据湖仓开放存储与计算资源,加速开发到部署的流程。