Skip to content

音频转文本

POST
/v1/audio/transcriptions

Authorizations

bearer
TypeHTTP (bearer)

Request Body

multipart/form-data
object

要转录的音频文件对象(非文件名),格式为以下之一:flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav或webm。

Format"binary"

使用模型的ID。选项有 gpt-4o-transcribegpt-4o-mini-transcribewhisper-1

输入音频的语言。以ISO-639-1(例如en)格式提供输入语言将提高准确性和延迟。

可选文本,用于指导模型的风格或继续之前的音频片段。

The format of the output, in one of these options: json, text, srt, verbose_json, or vtt. For gpt-4o-transcribe and gpt-4o-mini-transcribe, the only supported format is json.

Valid values"json""text""srt""verbose_json""vtt"
Default"json"

采样温度,介于0和1之间。更高的值,如0.8,会使输出更随机,而更低的值,如0.2,会使输出更集中和确定。如果设置为0,模型将使用对数概率自动增加温度,直到达到某些阈值。

Default0
string[]

附加信息,包括在转录响应中。

logprobs 将返回响应中标记的对数概率,以了解模型对转录的置信度。

logprobs 仅在将 response_format 设置为 json 时有效,并且仅与 gpt-4o-transcribegpt-4o-mini-transcribe 模型一起使用。

string[]

此转录要填充的时间戳粒度。必须将response_format设置为verbose_json才能使用时间戳粒度。支持以下一个或两个选项:wordsegment。注意:分段时间戳不会增加额外延迟,但生成单词时间戳会增加额外延迟。

Default"segment"

如果设置为true,模型响应数据将随着生成实时传输到客户端,使用的是服务器端事件

请参阅语音转文字指南中的流式传输部分获取更多信息。

注意:whisper-1模型不支持流式传输,将被忽略。

Defaultfalse

Responses

OK

application/json
JSON
{
"text": "string",
"logprobs": [
{
"token": "string",
"logprob": 0,
"bytes": [
0
]
}
]
}

Playground

Authorization
Body

Samples