面向 Coding Agent 的语音输入：为什么听写应该进入终端

Agent prompt 并不总是短命令。它经常包含上下文、限制、观察到的失败，以及你希望 agent 做出的下一步判断。在手机上输入这类 prompt，可能比任务本身还慢。

语音输入适合进入移动端 coding 工作流，是因为工作单元已经发生变化。当你控制 coding agent 时，很多时候是在描述意图，而不是逐字符写代码。只要转写结果不会直接发送到终端，而是先进入可编辑的待输入区，语音就能成为很高效的 prompt 草稿方式。

语音可行，是因为输入变成了意图

当你控制 coding agent 时，很多输入都是自然语言。你可能会说明哪里失败、让它看哪个文件、运行哪个测试、偏好哪种取舍。这非常适合语音，尤其是在离开书桌时。

一个有用的语音 prompt 可能会变成：

支付 webhook 测试在 retry 改动后失败了。先检查 handler 和 fixture，保持外部 response shape 不变，补一个 focused regression test，然后只运行 webhook 测试。

这不是简单 Shell 命令，而是一条紧凑的开发指令。手机上说出来，通常比打出来更快。

但语音不应该直接发送

终端输入仍然需要精确。模型名、文件路径、命令名、分支、代码符号都可能被听错。转写模型可能把 src/auth/session.ts 识别成相似短语，也可能漏掉 --watch=false 这样的 flag。

因此 Redock 会先把转写结果放入待输入区。你检查、修改后，再发送到终端。这对安全和准确性都很重要：

你可以先修正文件路径。
你可以删除无意中说出的敏感上下文。
你可以把口语化草稿改成清晰 prompt。
你可以把终端输出一起粘贴进待输入区。
你可以在检查后决定不发送。

语音应该加快草稿，而不是取消开发者控制。

供应商选择很重要

Apple Speech 对简单听写很方便，也不需要 API Key。短中文或英文输入可以先用它。

OpenAI、火山豆包这类模型供应商，通常更适合中英混合、命令名、技术词、较长 agent prompt。Redock 支持多个供应商，是为了让开发者按准确率、延迟、地区、账号体系选择适合自己的方案。

供应商类型	适合场景	注意事项
Apple Speech	简单听写，无需额外配置	中英混合和技术词可能不稳定
OpenAI speech	多语言 prompt、技术表达	需要自己的 API Key 和额度
火山豆包	中文和中英混合场景	需要配置资源字段和 APP Key
OpenAI-compatible	团队已有转写基础设施	Base URL、model、API Key 要匹配

使用 OpenAI speech 时，Redock 需要 API Key，因为录音会发送给你选择的供应商进行转写。使用豆包或其他供应商时，需要填写对应控制台要求的字段。Redock 的职责是把转写结果放回可编辑的终端输入。

适合 coding agent 的语音 prompt

语音最好用来表达结构化意图。不要把所有信息无结构地说成一长串，可以使用一个简单模式：

说明观察到的问题。
如果知道，指出可能相关的文件或模块。
加上必须保留的限制条件。
要求 agent 执行验证步骤。
要求 agent 在修改前或修改后总结。

例如：

设置页在 API 返回空 profile 时崩溃。先看 profile normalization 逻辑，不要改 API client 接口。补一个空 profile 的 regression test，只运行 settings test。

这样的 prompt 对人和 agent 都更友好，因为它包含上下文、边界和成功标准。

什么时候不该用语音

语音并不适合所有输入。不要用它输入密钥、精确的一行复杂 Shell 命令、敏感生产细节，或任何你无法冷静检查后再发送的内容。这些场景更适合 snippets、粘贴或手动待输入。

如果终端内容涉及 rm、部署命令、数据库迁移或生产凭据，更要仔细检查最终文本。语音适合准备意图，不适合盲目执行危险命令。

快速结论

语音输入对移动 AI coding 有价值，是因为 agent prompt 往往是自然语言指令，而不只是 Shell 命令。Redock 把语音转写放入可编辑待输入区，让开发者先检查再发送。简单听写可以用 Apple Speech，复杂中英混合技术 prompt 可以选择 OpenAI 或火山豆包，精确命令则更适合 snippets 或手动输入。