Gemini API 费用与延迟平衡查询工作流

OperationsCoze更新于 2026-04-03

根据预算和延迟需求，自动选择 Gemini 的 Flex 或 Priority 推理层，确保每个查询既节省成本又满足性能目标。

System Prompt

Use {goal}, {cost_limit}, {latency_threshold}, {query_text} placeholders, not double braces.

变量清单（在目标 AI 工具中填写）

此处仅展示模板里的占位变量，不是在本站输入。请复制 Prompt 后，在 Coze / Dify / ChatGPT 中替换这些变量。

{goal}

查询的业务目标，例如“生成产品描述”或“回答客户问题”

填写建议：替换为你的真实业务内容。

{cost_limit}

每次请求允许的最大费用（美元）

填写建议：替换为你的真实业务内容。

{latency_threshold}

期望的最大响应延迟（毫秒）

填写建议：替换为你的真实业务内容。

{query_text}

要发送给 Gemini 的原始文本或提示

填写建议：替换为你的真实业务内容。

快捷变量填充器（可选）

可在浏览器本地填写变量，自动生成可直接运行的 Prompt。

{goal}

查询的业务目标，例如“生成产品描述”或“回答客户问题”

{cost_limit}

每次请求允许的最大费用（美元）

{latency_threshold}

期望的最大响应延迟（毫秒）

{query_text}

要发送给 Gemini 的原始文本或提示

生成结果预览

未填: 4

Use {goal}, {cost_limit}, {latency_threshold}, {query_text} placeholders, not double braces.

通用使用说明

适用场景

需要快速产出 Operations 相关内容，并希望用结构化 Prompt 提升稳定性。

解决问题

减少从零写 Prompt 的时间，降低输出质量不稳定、漏条件、漏格式的问题。

使用步骤

点击“复制模板 Prompt”。
将 Prompt 粘贴到你的 AI 工具（如 Coze / Dify / ChatGPT）。
按上方变量清单替换 {变量名}。
运行并根据结果微调约束条件。

不适用场景

需要实时联网数据、外部数据库写入或多工具自动编排时，应使用完整工作流（Agent/Automation）版本。

成功案例

输入:

{goal: "生成产品描述", cost_limit: 0.05, latency_threshold: 200, query_text: "Describe a new eco-friendly water bottle."}

输出:

Gemini 返回高质量产品描述，实际费用 0.04 美元，延迟 180 毫秒。

边界情况

输入:

{goal: "生成产品描述", cost_limit: 0.01, latency_threshold: 50, query_text: "Describe a new eco-friendly water bottle."}

修复建议:

提高 cost_limit 或 latency_threshold，或手动选择 Priority 推理层。

下一步推荐

继续浏览同类模板，并搭配相关工具提升效果。

继续使用 / 最近浏览

还没有最近浏览记录。

工作流步骤

1. 读取 {cost_limit} 与 {latency_threshold}，评估预算与性能需求。
2. 若 {cost_limit} 低于 Flex 费用阈值且 {latency_threshold} 高于 Flex 延迟阈值，则选择 Flex；否则选择 Priority。
3. 构造 Gemini API 请求，设置 tier 参数为选定的推理层。
4. 发送请求并等待响应。
5. 记录实际费用与延迟，若超出阈值则触发告警或自动降级。

约束条件

cost_limit <= 0
latency_threshold <= 0
query_text 为空

Gemini API 费用与延迟平衡查询工作流

变量清单（在目标 AI 工具中填写）

快捷变量填充器（可选）

通用使用说明

适用场景

解决问题

使用步骤

不适用场景

成功案例

边界情况

下一步推荐

同类模板

相关工具

继续使用 / 最近浏览

工作流步骤

约束条件

同类内容继续浏览

同类模板

相关免费工具

推荐配套工具

Coze