本工具用于评测不同视觉大模型在食品识别任务上的表现。核心看三件事:名称是否正确、重量误差、食材拆分(F1)。
如需测试 ChatGPT / Gemini / Claude 等外网平台,请先确认当前设备具备可用的网络环境(例如 VPN/代理/可访问外网的网络)。
使用步骤(推荐流程)
- 新建评测:点击“新建评测”,输入模型名称(可选填写测试者)。
- 准备输入:点击“统一提示词”右上角“复制”,得到统一提示词。
- 外部平台测试:在模型平台上传测试图片 + 粘贴提示词,等待模型返回 JSON。
- 录入与分析:将模型返回的 JSON 代码块粘贴到对应用例文本框,系统自动计算并更新顶部指标。
- 导出结果:评测完成后可导出“汇总/明细/JSON”,用于复盘或生成报告。
内置与自定义测试数据
- 默认用例:内置 10 组测试数据,可直接用于多模型横向对比。
- 添加用例:点击“添加测试图片”可在网页中录入新的测试菜品。
- 素材来源(建议):学生可在 美食天下菜谱 查找菜品图片与名称,用作新增测试用例素材。
各平台入口(示例)
提示:页面中的“统一提示词”已与 README 保持一致;本页面的导出功能支持汇总/明细/全量 JSON。