×

API v1 API синхронного распознавания

 
С помощью API синхронного распознавания можно распознавать подготовленные аудиофайлы с такими характеристиками:
- максимальный размер файла — 1 МБ;
- максимальная длительность — 30 секунд;
- максимальное количество аудиоканалов — 1.
 
Сервис синхронного распознавания располагается по адресу: your_domain.apigw.cloupard.uz/speech/v1/stt:recognize
 
QUERY-ПАРАМЕТРЫ
Параметр
Описание
 lang
string
Язык, для которого будет выполнено распознавание.
Допустимые значения можно посмотреть в описании модели. Значение по умолчанию — ru-RU  — русский язык.
 topic
string
Языковая модель, которую следует использовать при распознавании.
Чем точнее выбрана модель, тем лучше результат распознавания. В одном запросе можно указать только одну модель.
Допустимые значения зависят от выбранного языка. Значение параметра по умолчанию: general.
 profanityFilter
boolean
Параметр, регулирующий работу фильтра ненормативной лексики в распознанной речи.
Допустимые значения:
  • false(по умолчанию) — ненормативная лексика не будет исключена из результатов распознавания;
  • true — ненормативная лексика будет исключена из результатов распознавания.
rawResults
boolean
Флаг, указывающий, как писать числа. true — писать прописью, false (по умолчанию) — писать цифрами.
 format
string
Формат передаваемого аудио.
Допустимые значения:
sampleRateHertz
string
Частота дискретизации передаваемого аудио.
Применяется, если значение format равно lpcm. Допустимые значения:
  • 48000(по умолчанию) — частота дискретизации 48 кГц;
  • 16000— частота дискретизации 16 кГц;
  • 8000— частота дискретизации 8 кГц.
folderId
string
Идентификатор каталога, к которому у вас есть доступ. Требуется для авторизации с пользовательским аккаунтом (Аутентификация в API SpeechKit).
Максимальная длина строки в символах — 50.
 
ПАРАМЕТРЫ В ТЕЛЕ ЗАПРОСА
 
В теле необходимо передать двоичное содержимое аудиофайла.
 
ОТВЕТ
{
  "result": <распознанный_текст>
}
 
Подробнее о формате и кодах ответов - Формат ответа.