Apple新技术AI结合强力隐私保护合成数据技术不泄漏用户内容

Apple日前公开最新AI模型训练技术细节，透露计划通过分析用户设备内的电邮内容摘要，改良生成式人工智能系统Apple Intelligence的表现。Apple强调有关系统并不会读取或存储任何个人数据，改以差分隐私技术识别使用最广泛的语言模式，希望能在保障隐私情况下进一步改善Siri功能、电邮摘要及文本生成工具表现。

Apple于旗下Machine Learning Research博客发文，首次披露其用作训练AI的新方法细节。公司目前大多以大量人工生成数据训练模型，但这种方式在处理长句或需要理解语境的任务，如电邮摘要、文章改写等功能上存在明显限制。Apple指出，要让AI能更准确理解现实应用场景，需要更具代表性训练数据。

为解决这项挑战，Apple将使用名为“语义嵌入比对”技术提升训练数据品质。工程团队首先制作出大量主题广泛的合成电邮，例如“你明天早上11:30想打网球吗？”这类消息，并为每段消息创建语义坐标。接着，Apple把这些数据发送至部分已激活设备分析功能的用户iPhone或Mac上，由设备端算法本地比对近期电邮内容与合成消息之间的相似度。

当设备分析完毕后，会回传匿名的选择结果给Apple，让系统统计最常见的合成电邮模式，而不必识别任何个别设备或用户的实际内容。根据这些回传结果，Apple可以进一步生成相似主题内容以丰富训练数据，例如把“网球”改为“足球”等其他运动类主题，达到语言模式多样化的效果。

Apple表示，新系统可以协助人工智能更准确掌握用户最常见的语言结构与主题取向，提升例如电邮摘要、写作协助等功能准确性。过程中使用的差分隐私技术也确保即使Apple收到回传数据，也无法得知任何具体设备或消息内容，实现AI精准化与隐私保护并行。

报道又提到，Apple将于即将推出的iOS 18.5和macOS 15.5测试版本中引入这项系统。虽则Apple Intelligence先前因准备不足而延迟推出更多Siri个性化功能，但这次改良训练方式或有助加快其正式推出步伐。

数据源：9to5mac