评估校验 (Evaluation)

对比不同模型的语义评分与 Hard 校验通过率。

全局基准评分

-% 本周 +1.2%

总评估数

0

活跃模型

1

DeepSeek V4

评估集

基准名称	模型	语义评分	硬性校验通过率	证据	日期

错误分布

所有模型 (近 7 天)

逻辑错误

45%

幻觉

35%

格式错误

20%