Coze
官网链接低代码 Agent/Workflow 平台,适合快速搭建自动化流程。
访问通过自定义数据集评估 ChatGPT 性能,并在指标低于阈值时自动触发告警,确保持续的质量与安全。
Evaluate the {model_name} model on the {evaluation_dataset} dataset. Compute accuracy, F1, and safety score. If any metric is below {threshold}, send an alert to {alert_channel}.此处仅展示模板里的占位变量,不是在本站输入。请复制 Prompt 后,在 Coze / Dify / ChatGPT 中替换这些变量。
{model_name}要评估的 ChatGPT 模型名称,例如 gpt-4o-mini
填写建议:替换为你的真实业务内容。
{evaluation_dataset}用于评估的 JSON 数据集路径或名称
填写建议:替换为你的真实业务内容。
{threshold}指标阈值,低于此值将触发告警(0-1 之间的浮点数)
填写建议:替换为你的真实业务内容。
{alert_channel}告警发送的渠道,例如 Slack 频道或邮件列表
填写建议:替换为你的真实业务内容。
可在浏览器本地填写变量,自动生成可直接运行的 Prompt。
{model_name}要评估的 ChatGPT 模型名称,例如 gpt-4o-mini
{evaluation_dataset}用于评估的 JSON 数据集路径或名称
{threshold}指标阈值,低于此值将触发告警(0-1 之间的浮点数)
{alert_channel}告警发送的渠道,例如 Slack 频道或邮件列表
生成结果预览
Evaluate the {model_name} model on the {evaluation_dataset} dataset. Compute accuracy, F1, and safety score. If any metric is below {threshold}, send an alert to {alert_channel}.需要快速产出 Operations 相关内容,并希望用结构化 Prompt 提升稳定性。
减少从零写 Prompt 的时间,降低输出质量不稳定、漏条件、漏格式的问题。
需要实时联网数据、外部数据库写入或多工具自动编排时,应使用完整工作流(Agent/Automation)版本。
继续浏览同类模板,并搭配相关工具提升效果。
还没有最近浏览记录。
1. 加载 {evaluation_dataset} 数据集
2. 对每条样本使用 {model_name} 进行推理
3. 计算准确率、F1 分数和安全得分
4. 与 {threshold} 进行比较
5. 若任何指标低于阈值,向 {alert_channel} 发送告警
6. 将评估结果记录到日志或数据库
Operations
这些工具可与当前模板组合使用。