评估校验 (Evaluation)

对比不同模型的语义评分与 Hard 校验通过率。

全局基准评分

-% 本周 +1.2%

总评估数

0

活跃模型

1
DeepSeek V4

评估集

基准名称模型语义评分硬性校验通过率证据日期

错误分布

所有模型 (近 7 天)

逻辑错误
45%
幻觉
35%
格式错误
20%