全球四大会计师事务所之一勤业众信(Deloitte)澳洲分公司6日同意退还澳洲政府部分价值44万澳币咨询费。事件源于为澳洲就业及工作关系部(DEWR)撰写长达237页的报告,却发现含大量人工智能假内容,如不存在的引用论文、捏造的联邦法院判决,以及多个无法查证的注释。

雪梨大学健康与福利法研究中心副主任Christopher Rudge博士8月首次披露这些错误,报告为典型AI“幻觉”产物,即生成式AI系统在数据不足时,会自行捏造看似合理但全错的内容。这起丑闻除了重创勤业众信的专业声誉,更掀起全球咨询业AI工具使用规范的激烈讨论。

报告严重失实:14处假引用与捏造法院判例

勤业众信2024年12月接受DEWR委托,独立保证审查澳洲“目标合规框架”(Targeted Compliance Framework,TCF)及配套IT系统。用于自动监测并惩罚未履行互惠义务的失业救济申请者,如未按时参加面试或求职活动者。报告今年7月4日公布,指出框架有“惩罚性假设驱动的不合法倾向”及多项技术缺陷。

然《澳洲金融评论报》(Australian Financial Review)8月披露,报告含多处致命错误,引用不存在的雪梨大学和隆德大学教授论文,以及捏造名为“Amato诉联邦政府”的Robodebt案件法院判决。更新后报告10月4日公布,141个参考文献删除14个假来源,并修正假引言。

勤业众信承认用GPT-4o但归咎人为失误

大众压力下,勤业众信修订版报告附录首次披露,部分内容为基于微软Azure OpenAI平台的GPT-4o撰写。AI工具建于DEWR政府安全租户系统,为“填补可追溯性和文件空缺”用途。虽然如此,勤业众信声明坚称“此事直接与客户和解”,并强调“报告内容、发现和建议均未受影响”。匿名知情人士透露,勤业众信审查归咎于“人为失误”,而非AI产生报告的品质问题。

DEWR证实勤业众信放弃合约最后一笔尾款,退款金额交易完成后公开。丑闻曝光同日,Deloitte宣布与AI创业公司Anthropic扩大合作,让470,000名员工使用Claude聊天机器人,并培训15,000名专业人员取得AI证照。

专家多角度批判:咨询业AI滥用响起警钟

这起事件引发多方严厉批评,澳洲工党参议员Deborah O′Neill直言勤业众信有“人类智能问题”,讽刺“部分退款看来像对低标准工作道歉”,并建议政府机构“或许该直接订阅ChatGPT,而非聘请大型咨询公司”。Christopher Rudge博士接受《The Nightly》采访时指出,使用AI撰写政府报告“学术研究界高度不道德”,强调政府需“值得信赖、可靠且基于真实知识的建议”,呼吁将来必须明确监管。

网络安全研究机构Maxim AI的9月报告显示,OpenAI o3模型事实性问题测试幻觉率高达33%,o4 mini模型SimpleQA基准测试幻觉率更飙升至79%。勤业众信今年调查也显示,77%商业领袖对AI幻觉影响运营表示担忧。市场研究公司Gartner数据指出,45%企业因AI错误蒙受声誉损害,平均每宗事件损失超过55万美元。

业界信任危机深化:咨询巨头依赖AI引质疑

这并非澳洲咨询业首次因AI问题陷入争议。2023年11月KPMG和Deloitte等四大会计师事务所曾被澳洲研究员指控,内容是用Google Bard AI工具产生假资讯,后来证实均为AI幻觉产物,团队公开道歉。然此次性质更严重,因AI工具是由咨询公司用于政府付费项目。勤业众信在澳洲四大会计师事务所中,负责审计全国前200大企业193家,专业可信度直接影响市场信心。

澳洲国会公司与金融服务联合委员会(PJC)2024年11月报告,对PwC税务丑闻后提出40项改革建议,强制要求实体披露非审计服务、禁止大型事务所同时提供审计与咨询服务等。《金融时报》报道,英国六大会计师事务所尚未监测AI对审计品质的影响度,显示全球咨询业可能有更多AI滥用风险。

矛盾的AI战略:退款与全面部署同步进行

勤业众信与Anthropic合作协议细节显示,双方将创建“Claude卓越中心”,为470,000名员工提供个性化AI“人物角色”,涵盖会计师、软件开发人员等。Anthropic首席商务官Paul Smith强调,勤业众信选择Claude是因“安全优先设计”满足合法和控制需求。勤业众信美国首席战略与首席技术官Ranjit Bawa表示,推广员工用AI除了能提升个人生产力,更能增强建议客户时的可信度。然而这项雄心勃勃的计划与退款丑闻时间重叠,形成讽刺局面。

咨询业分析师指出,咨询公司面临双重压力:一方面要展现AI创新以吸引客户,另一方面又须创建严格治理机制以防范幻觉风险。KPMG 9月风险管理指南强调,AI主导的商业环境,网络安全和输出验证的基本原则更关键。

监管缺口突显政府采购需创建AI使用透明机制

事件也暴露澳洲政府采购流程AI使用规范缺失。Christopher Rudge博士指出,修订版报告添加某些引用同样无法查证,显示勤业众信未根本解决问题,“代表原始主张并非基于任何单一可验证来源”。澳洲议会参议员Tim Wilson批评,就业及工作关系部对监督承承包商“疏忽职守”,与建筑工会腐败问题相提并论。参议员Deborah O′Neill呼吁政府机构核实执行主体,并明确披露有否使用AI。

国际律师协会的数据显示,单7月全球各司法管辖区就公开报告超过50宗涉及AI产生假法律引用案件。专家建议,政府合约应强制要求承承包商披露AI工具使用状况、设置人工审核检查点,并将AI幻觉列入违约条款。

企业决策风险警示:高额咨询费不等于原创研究

这宗丑闻为企业高层敲响警钟:即使支付数十万美元聘请国际顶级咨询公司,也可能收到不是原创、AI随便产生的报告。McKinsey 1月职场AI报告显示,约半数员工担忧AI不准确性和网络安全风险,却对AI用途很有信心。市场研究机构预测,2025年全球AI咨询市场规模超过200亿美元,但缺乏品质监管可能导致泡沫化。

企业风险管理专家建议,制定关键策略或重大财务决策时,应要求咨询公司提供研究方法论文件、原始数据访问权限,并进行独立第三方验证。勤业众信声称AI仅是写“早期草稿”,且最终内容经专家审核,但报告大量假引用事实与此矛盾。

技术层面分析:GPT-4o企业应用的局限性

勤业众信使用的OpenAI GPT-4o模型以速度和多模态著称,但准确性有明显缺点。评测显示,GPT-4o客户支持自动化和内容产生等高流量场景表现优异,但深度推理和引用验证,可靠性远低于OpenAI o1系列。专门从事AI风险管理的咨询公司Resilience Forward 6月指南指出,企业部署生成式AI必须创建“实体密度控制”机制,确保每100字含三至五个可验证实体,并将TF-IDF值控制在0.02-0.04内以避免幻觉。

德国联邦资讯安全办公室(BSI)警告,企业敏感业务领域不加验证使用AI系统,将造成日益严重的安全风险。技术专家建议,法律、财务和政府咨询等高风险领域应禁止单独使用AI生成内容,必须配备人工事实核查和引用验证流程。

给企业的启示与未来趋势

勤业众信事件代表企业AI应用从“盲目乐观”转向“审慎治理”的转折点。咨询业研究显示,77%项目型企业预定今年增加AI投资,但许多机构尚未意识到员工已在用的“影子AI”工具。Anthropic强调“Trustworthy AI”框架能为受监管行业提供合法功能,但勤业众信澳洲案例证明,技术安全性无法取代人类专业判断。

企业应创建三层防护机制:首先,合约须明确规定AI使用披露要求和验证标准;其次,创建AI治理委员会,审核所有外包咨询报告;最后,投资员工培训识别AI生成内容的典型特征。生成式AI渗透商业环境持续上升,监管机构可能效仿欧盟AI法案,强制性人工监督高风险应用场景。对依赖咨询公司的企业而言,“付费即信任”时代已终结,取而代之的是基于透明度、可验证性和人类专业性的新合作模式。

(首图来源:Deloitte Global)