Appearance
音频转文本
POST
/v1/audio/transcriptions
Authorizations
bearer
TypeHTTP (bearer)
Request Body
multipart/form-data
file
string
Required
要转录的音频文件对象(非文件名),格式为以下之一:flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav或webm。
Format
"binary"model
string
Required
使用模型的ID。选项有 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 whisper-1
language
string
输入音频的语言。以ISO-639-1(例如en)格式提供输入语言将提高准确性和延迟。
prompt
string
可选文本,用于指导模型的风格或继续之前的音频片段。
response_format
string
The format of the output, in one of these options: json, text, srt, verbose_json, or vtt. For gpt-4o-transcribe and gpt-4o-mini-transcribe, the only supported format is json.
Valid values
"json""text""srt""verbose_json""vtt"Default
"json"temperature
number
采样温度,介于0和1之间。更高的值,如0.8,会使输出更随机,而更低的值,如0.2,会使输出更集中和确定。如果设置为0,模型将使用对数概率自动增加温度,直到达到某些阈值。
Default
0include[]
string[]
附加信息,包括在转录响应中。
logprobs 将返回响应中标记的对数概率,以了解模型对转录的置信度。
logprobs 仅在将 response_format 设置为 json 时有效,并且仅与 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 模型一起使用。
timestamp_granularities[]
string[]
此转录要填充的时间戳粒度。必须将response_format设置为verbose_json才能使用时间戳粒度。支持以下一个或两个选项:word或segment。注意:分段时间戳不会增加额外延迟,但生成单词时间戳会增加额外延迟。
Default
"segment"stream
boolean
Default
falseResponses
OK
application/json
{
"text": "string",
"logprobs": [
{
"token": "string",
"logprob": 0,
"bytes": [
0
]
}
]
}