О технологии

Распознавание речи (speech-to-text — STT) — это процесс преобразования речи в текст.

Работа со SpeechKit осуществляется через API или Playground. Подробнее о принципах работы API в документе концепции API.

Для доступа к сервису воспользуйтесь учетными данными, выданными для Yandex Speech в Узбекистане Cloupard (your_domain.apigw.cloupard.uz и логин/пароль).

Для работы со SpeechKit также доступен Python SDK. Он основан на API v3 SpeechKit.

СПОСОБЫ РАСПОЗНАВАНИЯ.

SpeechKit предоставляет два способа распознавания речи.

Потоковое распознавание применяется для распознавания в режиме реального времени. При потоковом распознавании SpeechKit получает короткие аудиофрагменты и отправляет результаты, в том числе промежуточные, в рамках одного соединения.

Распознавание аудиофайлов. SpeechKit может распознавать аудиозаписи в синхронном и асинхронном режиме.

Синхронное распознавание имеет жесткие ограничения на размер и длительность файла и подходит для распознавания одноканальных аудио до 30 секунд.

Асинхронное распознавание может обрабатывать многоканальные аудиозаписи. Максимальная длительность файла — 4 часа.

КАКОЕ РАСПОЗНАВАНИЕ ВЫБРАТЬ.

	Потоковое распознавание	Синхронное распознавание	Асинхронное распознавание
Сценарии использования	Телефонные ассистенты и роботы Виртуальные ассистенты	Виртуальные ассистенты Голосовое управление Распознавание коротких голосовых сообщений в мессенджерах	Транскрибация аудиозвонков и выступлений Создание субтитров Контроль соблюдения скриптов колл-центров Выявление успешных скриптов Оценка качества работы операторов колл-центров
Входные данные	Голос в режиме реального времени	Предзаписанные одноканальные короткие аудиофайлы	Предзаписанные многоканальные и длинные аудиофайлы
Принцип работы	Обмен сообщениями с сервером в рамках одного соединения	Запрос — быстрый ответ	Запрос — отложенный ответ
Поддерживаемые API	gRPC v2 gRPC v3	REST v1	REST v2 gRPC v3
Максимальная длительность аудиоданных	5 минут	30 секунд	4 часа
Максимальный объем переданных данных	10 МБ	1 МБ	1 ГБ
Количество распознаваемых каналов	1	1	2

ПРОЦЕСС РАСПОЗНАВАНИЯ.

Распознавание аудио происходит в три этапа.

1. Акустическая модель определяет, какой набор низкоуровневых признаков соответствует звуковому сигналу.

2. Языковая модель на основе выхода акустической модели генерирует текст по словам.

3. Сервис обрабатывает текст: производит расстановку пунктуации, преобразование числительных в цифры и т.п.

ТОЧНОСТЬ РАСПОЗНАВАНИЯ.

Точность распознавания зависит от модели распознавания. Вы можете повысить точность распознавания модели, предоставив данные для дообучения модели. Подробнее о дообучении моделей см. в разделе Расширение модели распознавания речи.

Также на точность распознавания влияют.

Качество исходного звука.
Качество кодирования аудио.
Разборчивость и темп речи.
Сложность фраз и их длина.