Google Cloud今日(3/25)分析,企业拥抱生成式AI前,得先创建集成的数据基础,包括制定AI优先的数据策略、构建统一的数据平台、运用AI将流程自动化、确保数据安全和数据治理,以及提高数据平台效率并降低数据成本等5步骤。尤其,企业得要有套集成式的数据分析平台,来汇集整理数据源、与其他包括AI在内的系统串联,才能发挥AI效用。Google Cloud也观察到,台湾企业大都有成熟的数据搜集模式,但将这些数据实际用于GenAI应用仍有段距离。
步骤1:制定AI优先的数据策略
要让AI发挥效益,首先得要制定AI优先的数据策略,包括创建数据策略、创建数据所有权和使用蓝图,以及形成数据生态系,来支持跨部门、跨场景的AI应用。
Google Cloud数据分析专家黄介荣解释,就好比企业内不同部门的员工,都有其运用数据和AI来解决问题的场景,比如人资单位可将自己的数据,如员工会议次数、进办公室的时长、工作绩效等,来运用AI模型预测其离职率,并尽早应对。
此时,企业就可根据这些需求和场景来制定数据策略,解决以往发展AI时,必须经历的数据收集、数据清洗、创建数据分析模型并落地的冗长阶段。
步骤2:构建统一的数据平台,连接数据与AI
有了策略,下一步是构建集成式的数据平台,来连接数据和AI。黄介荣指出,常见的企业情况是许多数据库和系统独立,有些可能为了权限管理,有些为了业务方便。但到了大数据和AI分析时代,需处理的数据量和数据类型(模态)大幅增加,数据平台就得重新设计,需构建一套统一的数据平台。
这种数据平台,要能支持结构化、半结构化和非结构化数据,比如零售业的多维度客户数据,来优化营销与库存管理。这套平台还要能集成各系统数据,以及有能力快速分析即时数据流媒体并反应。
Google Cloud的自家数据平台产品BigQuery,也针对这类需求,在今年提供新功能,如支持多模态表格和自动探索、编目,来简化多模态数据的截取与管理;集成大型语言模型(LLM)与SQL查询的AI查询引擎;以及即时RAG功能,来让LLM提供能精确的回答。
步骤3:运用AI将流程自动化
有了统一的数据平台,企业就可用来发展AI代理来自动化数据整理流程、产出洞察,来提高员工生产力。比如,运用AI代理来处理数据翻译、提供个性化建议,或是用于电子商务的商品分析、提供精准营销建议等。
不过,AI代理还能扮演一种数据分析角色,能协助用户分析数据,打破以往数据分析的高门槛。这种代理又称为数据代理。Google Cloud自己也在3月推出一套数据科学代理Data Science Agent,使用Gemini模型来为开发协作平台Collab用户简化数据分析流程。
步骤4:确保数据安全和数据治理
另一方面,为发展AI,尤其是生成式AI应用,企业也要做好数据治理和安全管理。Google Cloud建议,企业可从数据品质、法规遵循和安全性下手,比如数据品质部分,需设置机制确保数据的正确性、完整性和一致性,安全性部分则需查看,数据平台是否具备加密、访问控制和威胁侦测等安全措施。
黄介荣指出,Google Cloud和财团法人人工智能科技基金会在去年做了项《台湾企业AI准备度调查报告》,并发现,在发展AI所需的数据准备度中,超过半数的台湾企业具备良好的数据搜集能力,但是,只有17.8%的企业拥有集成的数据平台或明确定义的数据管理解决方案,来快速处理多个来源的数据,显示台湾企业从搜集到实例还有段距离。
他也表示,有些高机密敏感性的产业,如金融、特定制造业,在发展AI数据治理上步调较慢,因为得先创建规范,才能进一步实例。
步骤5:提高数据平台效率并降低数据成本
最后一步随着AI应用的规模扩大,企业使用的数据平台,也要能够扩展这些AI工作负载、极小化非必要成本,比如简化数据处理流程、提高资源利用率。
Google Cloud也建议,这个阶段的企业应考虑将工作负载自动化,比如数据平台来自动化数据管理任务(配置、扩展和备份等);另也需考量平台是否有自动化工具或功能,来监控、分析或优化数据存储状况和运算成本;以及考虑平台能否无缝扩展,来处理不断增长的数据量和AI工作负载,且兼顾性能和成本。