模型评估测试台

在构建 Agent 之前,先用系统化方法测试模型能力。定义 prompt 模板和测试用例,自动评分并分析失败模式。

System Prompt
使用 {{INPUT}} 作为测试用例输入的占位符
测试用例(最多 10 个)