Google宣布在BigQuery中预览Vertex AI语音转文本模型,这项新功能可让用户更简单地转录语音文件,并将其与其他结构化数据结合,整合分析并构建创新人工智能用例。这项功能更新使得用户得以通过SQL根据数据微调转录模型,在BigQuery中执行语音转文本工作。
过去Google云计算用户要转录语音数据,需要自己创建独立的人工智能工作管线,这些工作管线并没有与BigQuery直接集成,客户需要编写自定义基础设施,再将转录的数据传输到BigQuery进行分析。而新的Google的语音转文本V2 API提供多功能转录服务,用户可以针对不同类型的语音音频,像是客服通话或医疗录音,选择合适的专门模型。此外,模型也可以根据用户的数据进行调整,以提高转录准确性。
在BigQuery中,用户可以创建对象表格,这些表格和Cloud Storage中的语音文件相关联,如此便能够提供高精细度的访问控制,允许管理员设置列级的访问政策强化数据安全。当要进行转录时,用户需要在BigQuery中注册现成或是经微调的转录模型,并使用SQL通过对象表格调用激活,转录结果会以BigQuery表格的文本字段回传。
当语音转换成为文本之后,用户有三种方式可以对文本数据进行分析,第一是使用BigQuery ML进行自然语言处理,像是识别客户支持通话中的情绪或是产品反馈分类,第二种则是将转录的元数据和存储在BigQuery表格中的其他结构数据进行集成分析,例如识别出在通话中表现出负面情绪,但是高终身价值的客户,或是从客户反馈中筛选出最受欢迎的产品特性,第三种则是从BigQuery调用语言模型PaLM API,执行摘要、分类,以及针对转录的文本进行问答等操作。