ProofLoop
AI 反馈分析引擎
add
新建分析
dashboard
控制台
add_chart
新建分析
history
运行历史
analytics
分析报告
check_circle
评估校验
database
训练数据
settings
系统设置
演示模式
language
官网
login
登录
评估校验 (Evaluation)
对比不同模型的语义评分与 Hard 校验通过率。
全局基准评分
-%
本周 +1.2%
总评估数
0
活跃模型
1
DeepSeek V4
评估集
新建评估
基准名称
模型
语义评分
硬性校验通过率
证据
日期
错误分布
所有模型 (近 7 天)
逻辑错误
45%
幻觉
35%
格式错误
20%