返回指南列表
语音输入

OpenAI 语音配置

配置 OpenAI 转写模型,让 Redock 更好地处理多语言和技术口述。

Redock 可以使用 OpenAI speech-to-text 模型,把录音转换为终端输入。它适合在手机上口述较长 prompt、Git message、测试计划、报错上下文,或者中英混合的技术内容。

Redock 调用什么接口

Redock 会把音频发送到:

POST https://api.openai.com/v1/audio/transcriptions

请求使用:

  • Authorization: Bearer <OpenAI API Key>
  • multipart/form-data
  • 音频字段:file
  • 响应格式:json
  • 模型:Redock 中选择的 OpenAI speech model

Redock 会录制 16 kHz 单声道 WAV 音频后再发送。

准备 API Key

  1. 打开 OpenAI Platform。
  2. 确认当前组织和项目可以调用 API。
  3. 确认已有账单、额度或项目预算。
  4. 在 API Keys 页面创建或复制 secret key。
  5. 妥善保管 key。
https://platform.openai.com/api-keys

Redock 会把 API Key 存到 Keychain,不会写入应用数据快照。

回填到 Redock

  1. 打开 My > Speech。
  2. 将 Speech Provider 设为 OpenAI。
  3. 选择模型。
  4. 粘贴 OpenAI API Key。
  5. 回到终端工作区,点击语音按钮测试。

模型选择

  • Fast Transcribe:gpt-4o-mini-transcribe,默认日常选择。
  • Accurate Transcribe:gpt-4o-transcribe,更重视准确率时使用。
  • Diarize:gpt-4o-transcribe-diarize,主要用于说话人分离。Redock 当前只读取最终 text 字段,不展示说话人标签。

常见问题

  • 提示缺少 API Key:检查 My > Speech。
  • 鉴权失败:确认 key 没有复制错误,并且属于当前项目。
  • 无权限:检查项目权限、组织角色和 API key 权限。
  • 额度或账单问题:检查 Platform billing 和项目预算。
  • 中英混合效果不好:可以尝试 Accurate Transcribe,并把命令或路径读得更清楚。

官方参考

跟着指南在 Redock 里试一下

用手机控制 Coding Agent,随时进行开发

免费获取 Redock