API v2 для потокового распознавания

Сервис потокового распознавания располагается по адресу: your_domain.apigw.cloupard.uz.

СООБЩЕНИЕ С НАСТРОЙКАМИ РАСПОЗНАВАНИЯ.

Параметр	Описание
config	object Поле с настройками распознавания и идентификатором каталога.
config .specification	object Настройки распознавания.
config .specification .languageCode	string Язык, для которого будет выполнено распознавание. Допустимые значения в описании модели. Значение по умолчанию — ru-RU — русский язык.
config .specification .model	string Языковая модель, которую следует использовать при распознавании. Чем точнее выбрана модель, тем лучше результат распознавания. В одном запросе можно указать только одну модель. Допустимые значения зависят от выбранного языка. Значение параметра по умолчанию: general.
config .specification .profanityFilter	boolean Фильтр ненормативной лексики. Допустимые значения: true — исключать ненормативную лексику из результатов распознавания. false(по умолчанию) — не исключать ненормативную лексику.
config .specification .partialResults	boolean Фильтр промежуточных результатов. Допустимые значения: true — возвращать промежуточные результаты (часть распознанного высказывания). Для промежуточных результатов final равно false. false(по умолчанию) — возвращать только финальные результаты (распознанное высказывание целиком).
config .specification .singleUtterance	boolean Флаг, отключающий распознавание после первой фразы. Допустимые значения: true — распознать только первую фразу, прекратить распознавание и ожидать разрыва соединения пользователем. false(по умолчанию) — продолжать распознавание до окончания сессии.
config .specification .audioEncoding	string Формат передаваемого аудио. Допустимые значения: LINEAR16_PCM— LPCM без WAV-заголовка. OGG_OPUS(по умолчанию) — формат OggOpus.
config .specification .sampleRateHertz	integer (int64) Частота дискретизации передаваемого аудио. Этот параметр обязателен, если значение format равно LINEAR16_PCM. Допустимые значения: 48000(по умолчанию) — частота дискретизации 48 кГц; 16000— частота дискретизации 16 кГц; 8000— частота дискретизации 8 кГц.
config. specification. rawResults	boolean Флаг, указывающий, как писать числа. true — писать прописью, false (по умолчанию) — писать цифрами.
folderId	string Идентификатор каталога, к которому у вас есть доступ. Требуется для аутентификации с пользовательским аккаунтом (Аутентификация в API SpeechKit). Максимальная длина строки в символах — 50.

ЭКСПЕРИМЕНТАЛЬНЫЕ ДОПОЛНИТЕЛЬНЫЕ НАСТРОЙКИ РАСПОЗНАВАНИЯ.

Для моделей потокового распознавания поддерживаются новые настройки распознавания. Они передаются через метаданные к gRPC-процедуре.

Параметр

Описание

x-normalize-partials

boolean

Флаг, позволяющий получать промежуточные результаты распознавания (части распознанного высказывания) в нормализованном виде: числа передаются цифрами, включен фильтр ненормативной лексики и т. д.

Допустимые значения:

true — возвращать нормализованный результат.
false(по умолчанию) — возвращать ненормализованный результат.

СООБЩЕНИЕ С АУДИОФРАГМЕНТОМ

Параметр	Описание
audio_content	Фрагмент аудио в виде массива байт. Аудио должно быть в формате, указанном в сообщении с настройками распознавания.

СООБЩЕНИЕ С РЕЗУЛЬТАТАМИ РАСПОЗНАВАНИЯ.

При успешном распознавании фрагмента речи придет сообщение, содержащее список результатов распознавания chunks.

Каждый результат содержит поля.

alternatives[] - список вариантов распознанного текста. Каждый вариант содержит поля.
text - распознанный текст.
confidence - это поле сейчас не поддерживается, не используйте его.
final - флаг, указывающий что этот результат распознавания финальный и больше меняться не будет. Если значение false, то результат распознавания промежуточный и может измениться при распознавании следующих фрагментов речи.
endOfUtterance — флаг, указывающий что этот результат содержит конец фразы. Если значение true, то со следующего полученного результата начнется новая фраза.

	Если в настройках вы указали singleUtterance=true, то будет распознана только одна фраза за всю сессию. После сообщения, в котором endOfUtterance имеет значение true, сервер не будет распознавать следующие фразы и будет ждать, когда вы разорвете соединение.

КОДЫ ОШИБОК, ВОЗВРАЩАЕМЫЕ СЕРВЕРОМ.

Соответствия gRPC-статусов с HTTP-кодами описаны в google.rpc.Code.

Список возможных gRPC-ошибок, возвращаемых сервисом.

Код	Статус	Описание
3	INVALID_ARGUMENT	Клиент некорректно указал параметры запроса. Детальная информация представлена в поле details.
9	RESOURCE_EXHAUSTED	Клиент превысил одну из квот.
16	UNAUTHENTICATED	Для выполнения операции необходима аутентификация. Проверьте IAM-токен и идентификатор каталога, которые вы передали.
13	INTERNAL	Внутренняя ошибка сервера. Ошибка означает, что операция не может быть выполнена из-за технического состояния сервера. Например, из-за нехватки вычислительных ресурсов.