人工智能模型要判断系统是否安全,第一步就是主动测试,但Anthropic的新模型Claude Fable 5在回答前会先过滤掉网络安全查询,导致真正该做的检查被跳过。
Uniswap共同创办人Hayden Adams周一在X平台点出这套机制的缺陷:白帽测试和黑客攻击在底层用的是同一套动作,过滤掉安全查询等同于关掉了检测功能。
他在推文中写道:「白帽和黑客用同一种方式做事,机器却把两类请求一起过滤掉。」这套做法听起来合理,但实际上会漏掉真正该做的检查。
Anthropic在6月初推出Claude Fable 5,宣称针对网络安全设下最严格的护栏。Adams的观点是:AI要判断系统是否安全,第一步就是主动测试,而测试本身就是一种安全查询。
拿检查网站HTML原始码来说,白帽工程师和黑客的动作完全相同。如果模型先过滤掉这些请求,就等于跳过了真正的防御检查。
这套安全分流机制的核心逻辑是:把网络安全请求标记为「活跃动作」,再从原始资料中提取答案。但问题在于,白帽测试和黑客攻击在底层共享同一套动作集。
Uniswap不是唯一注意到Claude Fable 5的加密项目。Coinbase和币安已分别与Anthropic合作,接入Claude Mythos模型强化资安检测能力。
Coinbase的Glasswing计划利用Claude Mythos进行智能合约审计和链上交易分析。币安也在内部部署ClaudeFable5进行交易资料的异常检测。
Adams的批评提醒了产业:AI模型的安全护栏不是万能解。如果模型在底层过滤掉白帽测试请求,那些依赖AI检测的加密交易所可能错过真正的安全威胁。