余额与计费

1. 在哪查余额和用量

仪表盘

使用记录

📊 数据延迟:大约 5 秒 — 调用完到使用记录出现需要 1-5 秒,刷新即可。

本次调用扣款 = (基础 tokens × 模型单价 + 缓存 tokens × 缓存单价) × 分组倍率

基础单价跟着上游官方走(OpenAI / Anthropic / Google),分组倍率取决于你的 Key 所在分组:

生图按"张"收费,跟 tokens 无关:

工作台一次生 N 张 = N 次独立调用,所以扣 N 倍。

Claude 系列模型支持 Prompt Caching,长 prompt 反复调用时,缓存内容只收 10% 单价。

这对 Claude Code 这种"agent 反复读同一份代码"的场景非常划算,典型能省 60-80% 成本。

使用记录里能单独看到 cache_creation_tokens / cache_read_tokens 这两项,反映你的缓存命中情况。

使用记录每行包含:

限流维度	规则
分组 RPM	分组级别每分钟请求数上限,所有用同一分组 Key 的人共用
余额	余额不足直接拒绝
Key 额度	单 Key 设置的上限,达到就拒绝
IP 白名单	Key 限制 IP 时,非白名单 IP 直接拒绝

被限流时返回 429 Too Many Requests,网关会自动重试 1-2 次,通常 1-2 秒内自愈。

某个上游节点临时挂掉时,网关会自动 failover 到下一个节点。你的请求不会失败,只会稍微多花一两秒。这个过程对你完全透明。

充值是 CNY → 入账折算成 USD(按当时汇率,约 1 USD ≈ 7.2 CNY)。后续所有调用都从这个 USD 余额扣。

为什么不用 CNY?因为所有上游(OpenAI / Anthropic / Google)都用 USD 计费,中间转换汇率反而引入误差。