Appearance
音频转文本
POST
/v1/audio/transcriptions
Authorizations
bearer
TypeHTTP (bearer)
Request Body
multipart/form-data
file
string
Required
要转录的音频文件对象(非文件名),格式为以下之一:flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav或webm。
Format
"binary"
model
string
Required
使用模型的ID。选项有 gpt-4o-transcribe
、gpt-4o-mini-transcribe
和 whisper-1
language
string
输入音频的语言。以ISO-639-1(例如en
)格式提供输入语言将提高准确性和延迟。
prompt
string
可选文本,用于指导模型的风格或继续之前的音频片段。
response_format
string
The format of the output, in one of these options: json
, text
, srt
, verbose_json
, or vtt
. For gpt-4o-transcribe
and gpt-4o-mini-transcribe
, the only supported format is json
.
Valid values
"json"
"text"
"srt"
"verbose_json"
"vtt"
Default
"json"
temperature
number
采样温度,介于0和1之间。更高的值,如0.8,会使输出更随机,而更低的值,如0.2,会使输出更集中和确定。如果设置为0,模型将使用对数概率自动增加温度,直到达到某些阈值。
Default
0
include[]
string[]
附加信息,包括在转录响应中。
logprobs
将返回响应中标记的对数概率,以了解模型对转录的置信度。
logprobs
仅在将 response_format
设置为 json
时有效,并且仅与 gpt-4o-transcribe
和 gpt-4o-mini-transcribe
模型一起使用。
timestamp_granularities[]
string[]
此转录要填充的时间戳粒度。必须将response_format
设置为verbose_json
才能使用时间戳粒度。支持以下一个或两个选项:word
或segment
。注意:分段时间戳不会增加额外延迟,但生成单词时间戳会增加额外延迟。
Default
"segment"
stream
boolean
Default
false
Responses
OK
application/json
{
"text": "string",
"logprobs": [
{
"token": "string",
"logprob": 0,
"bytes": [
0
]
}
]
}