音频转文本

POST

/v1/audio/transcriptions

Authorizations

bearer

TypeHTTP (bearer)

Request Body

multipart/form-data

object

要转录的音频文件对象（非文件名），格式为以下之一：flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav或webm。

Format"binary"

使用模型的ID。选项有 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 whisper-1

输入音频的语言。以ISO-639-1（例如en）格式提供输入语言将提高准确性和延迟。

可选文本，用于指导模型的风格或继续之前的音频片段。

The format of the output, in one of these options: json, text, srt, verbose_json, or vtt. For gpt-4o-transcribe and gpt-4o-mini-transcribe, the only supported format is json.

Valid values"json""text""srt""verbose_json""vtt"

Default"json"

采样温度，介于0和1之间。更高的值，如0.8，会使输出更随机，而更低的值，如0.2，会使输出更集中和确定。如果设置为0，模型将使用对数概率自动增加温度，直到达到某些阈值。

Default0

string[]

附加信息，包括在转录响应中。

logprobs 将返回响应中标记的对数概率，以了解模型对转录的置信度。

logprobs 仅在将 response_format 设置为 json 时有效，并且仅与 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 模型一起使用。

string[]

此转录要填充的时间戳粒度。必须将response_format设置为verbose_json才能使用时间戳粒度。支持以下一个或两个选项：word或segment。注意：分段时间戳不会增加额外延迟，但生成单词时间戳会增加额外延迟。

Default"segment"

如果设置为true，模型响应数据将随着生成实时传输到客户端，使用的是服务器端事件。

请参阅语音转文字指南中的流式传输部分获取更多信息。

注意：whisper-1模型不支持流式传输，将被忽略。

Defaultfalse

音频转文本

Authorizations

Request Body

Responses

Playground

Samples

音频转文本​

Authorizations​

Request Body​

Responses​

Playground​

Samples​

音频转文本

Authorizations

Request Body

Responses

Playground

Samples