勤业众信用AI写出充满“幻觉”的政府报告，使业界再担忧AI转型

全球四大会计师事务所之一勤业众信（Deloitte）澳洲分公司6日同意退还澳洲政府部分价值44万澳币咨询费。事件源于为澳洲就业及工作关系部（DEWR）撰写长达237页的报告，却发现含大量人工智能假内容，如不存在的引用论文、捏造的联邦法院判决，以及多个无法查证的注释。

雪梨大学健康与福利法研究中心副主任Christopher Rudge博士8月首次披露这些错误，报告为典型AI“幻觉”产物，即生成式AI系统在数据不足时，会自行捏造看似合理但全错的内容。这起丑闻除了重创勤业众信的专业声誉，更掀起全球咨询业AI工具使用规范的激烈讨论。

报告严重失实：14处假引用与捏造法院判例

勤业众信2024年12月接受DEWR委托，独立保证审查澳洲“目标合规框架”（Targeted Compliance Framework，TCF）及配套IT系统。用于自动监测并惩罚未履行互惠义务的失业救济申请者，如未按时参加面试或求职活动者。报告今年7月4日公布，指出框架有“惩罚性假设驱动的不合法倾向”及多项技术缺陷。

然《澳洲金融评论报》（Australian Financial Review）8月披露，报告含多处致命错误，引用不存在的雪梨大学和隆德大学教授论文，以及捏造名为“Amato诉联邦政府”的Robodebt案件法院判决。更新后报告10月4日公布，141个参考文献删除14个假来源，并修正假引言。

勤业众信承认用GPT-4o但归咎人为失误

大众压力下，勤业众信修订版报告附录首次披露，部分内容为基于微软Azure OpenAI平台的GPT-4o撰写。AI工具建于DEWR政府安全租户系统，为“填补可追溯性和文件空缺”用途。虽然如此，勤业众信声明坚称“此事直接与客户和解”，并强调“报告内容、发现和建议均未受影响”。匿名知情人士透露，勤业众信审查归咎于“人为失误”，而非AI产生报告的品质问题。

DEWR证实勤业众信放弃合约最后一笔尾款，退款金额交易完成后公开。丑闻曝光同日，Deloitte宣布与AI创业公司Anthropic扩大合作，让470,000名员工使用Claude聊天机器人，并培训15,000名专业人员取得AI证照。

专家多角度批判：咨询业AI滥用响起警钟

这起事件引发多方严厉批评，澳洲工党参议员Deborah O′Neill直言勤业众信有“人类智能问题”，讽刺“部分退款看来像对低标准工作道歉”，并建议政府机构“或许该直接订阅ChatGPT，而非聘请大型咨询公司”。Christopher Rudge博士接受《The Nightly》采访时指出，使用AI撰写政府报告“学术研究界高度不道德”，强调政府需“值得信赖、可靠且基于真实知识的建议”，呼吁将来必须明确监管。

网络安全研究机构Maxim AI的9月报告显示，OpenAI o3模型事实性问题测试幻觉率高达33%，o4 mini模型SimpleQA基准测试幻觉率更飙升至79%。勤业众信今年调查也显示，77%商业领袖对AI幻觉影响运营表示担忧。市场研究公司Gartner数据指出，45%企业因AI错误蒙受声誉损害，平均每宗事件损失超过55万美元。

业界信任危机深化：咨询巨头依赖AI引质疑

这并非澳洲咨询业首次因AI问题陷入争议。2023年11月KPMG和Deloitte等四大会计师事务所曾被澳洲研究员指控，内容是用Google Bard AI工具产生假资讯，后来证实均为AI幻觉产物，团队公开道歉。然此次性质更严重，因AI工具是由咨询公司用于政府付费项目。勤业众信在澳洲四大会计师事务所中，负责审计全国前200大企业193家，专业可信度直接影响市场信心。

澳洲国会公司与金融服务联合委员会（PJC）2024年11月报告，对PwC税务丑闻后提出40项改革建议，强制要求实体披露非审计服务、禁止大型事务所同时提供审计与咨询服务等。《金融时报》报道，英国六大会计师事务所尚未监测AI对审计品质的影响度，显示全球咨询业可能有更多AI滥用风险。

矛盾的AI战略：退款与全面部署同步进行

勤业众信与Anthropic合作协议细节显示，双方将创建“Claude卓越中心”，为470,000名员工提供个性化AI“人物角色”，涵盖会计师、软件开发人员等。Anthropic首席商务官Paul Smith强调，勤业众信选择Claude是因“安全优先设计”满足合法和控制需求。勤业众信美国首席战略与首席技术官Ranjit Bawa表示，推广员工用AI除了能提升个人生产力，更能增强建议客户时的可信度。然而这项雄心勃勃的计划与退款丑闻时间重叠，形成讽刺局面。

咨询业分析师指出，咨询公司面临双重压力：一方面要展现AI创新以吸引客户，另一方面又须创建严格治理机制以防范幻觉风险。KPMG 9月风险管理指南强调，AI主导的商业环境，网络安全和输出验证的基本原则更关键。

监管缺口突显政府采购需创建AI使用透明机制

事件也暴露澳洲政府采购流程AI使用规范缺失。Christopher Rudge博士指出，修订版报告添加某些引用同样无法查证，显示勤业众信未根本解决问题，“代表原始主张并非基于任何单一可验证来源”。澳洲议会参议员Tim Wilson批评，就业及工作关系部对监督承承包商“疏忽职守”，与建筑工会腐败问题相提并论。参议员Deborah O′Neill呼吁政府机构核实执行主体，并明确披露有否使用AI。

国际律师协会的数据显示，单7月全球各司法管辖区就公开报告超过50宗涉及AI产生假法律引用案件。专家建议，政府合约应强制要求承承包商披露AI工具使用状况、设置人工审核检查点，并将AI幻觉列入违约条款。

企业决策风险警示：高额咨询费不等于原创研究

这宗丑闻为企业高层敲响警钟：即使支付数十万美元聘请国际顶级咨询公司，也可能收到不是原创、AI随便产生的报告。McKinsey 1月职场AI报告显示，约半数员工担忧AI不准确性和网络安全风险，却对AI用途很有信心。市场研究机构预测，2025年全球AI咨询市场规模超过200亿美元，但缺乏品质监管可能导致泡沫化。

企业风险管理专家建议，制定关键策略或重大财务决策时，应要求咨询公司提供研究方法论文件、原始数据访问权限，并进行独立第三方验证。勤业众信声称AI仅是写“早期草稿”，且最终内容经专家审核，但报告大量假引用事实与此矛盾。

技术层面分析：GPT-4o企业应用的局限性

勤业众信使用的OpenAI GPT-4o模型以速度和多模态著称，但准确性有明显缺点。评测显示，GPT-4o客户支持自动化和内容产生等高流量场景表现优异，但深度推理和引用验证，可靠性远低于OpenAI o1系列。专门从事AI风险管理的咨询公司Resilience Forward 6月指南指出，企业部署生成式AI必须创建“实体密度控制”机制，确保每100字含三至五个可验证实体，并将TF-IDF值控制在0.02-0.04内以避免幻觉。

德国联邦资讯安全办公室（BSI）警告，企业敏感业务领域不加验证使用AI系统，将造成日益严重的安全风险。技术专家建议，法律、财务和政府咨询等高风险领域应禁止单独使用AI生成内容，必须配备人工事实核查和引用验证流程。

给企业的启示与未来趋势

勤业众信事件代表企业AI应用从“盲目乐观”转向“审慎治理”的转折点。咨询业研究显示，77%项目型企业预定今年增加AI投资，但许多机构尚未意识到员工已在用的“影子AI”工具。Anthropic强调“Trustworthy AI”框架能为受监管行业提供合法功能，但勤业众信澳洲案例证明，技术安全性无法取代人类专业判断。

企业应创建三层防护机制：首先，合约须明确规定AI使用披露要求和验证标准；其次，创建AI治理委员会，审核所有外包咨询报告；最后，投资员工培训识别AI生成内容的典型特征。生成式AI渗透商业环境持续上升，监管机构可能效仿欧盟AI法案，强制性人工监督高风险应用场景。对依赖咨询公司的企业而言，“付费即信任”时代已终结，取而代之的是基于透明度、可验证性和人类专业性的新合作模式。

（首图来源：Deloitte Global）

勤业众信用AI写出充满“幻觉”的政府报告，使业界再担忧AI转型

微信扫一扫：分享