×

О технологии

 
Распознавание речи (speech-to-text — STT) — это процесс преобразования речи в текст.
Работа со SpeechKit осуществляется через API или Playground. Подробнее о принципах работы API в документе концепции API.
Для доступа к сервису воспользуйтесь учетными данными, выданными для Yandex Speech в Узбекистане Cloupard
(
your_domain.apigw.cloupard.uz и логин/пароль).
 
Для работы со SpeechKit также доступен Python SDK. Он основан на API v3 SpeechKit.
 
СПОСОБЫ РАСПОЗНАВАНИЯ
SpeechKit предоставляет два способа распознавания речи:
Потоковое распознавание применяется для распознавания в режиме реального времени. При потоковом распознавании SpeechKit получает короткие аудиофрагменты и отправляет результаты, в том числе промежуточные, в рамках одного соединения.
Распознавание аудиофайлов. SpeechKit может распознавать аудиозаписи в синхронном и асинхронном режиме.
 
Синхронное распознавание имеет жесткие ограничения на размер и длительность файла и подходит для распознавания одноканальных аудио до 30 секунд.
 
Асинхронное распознавание может обрабатывать многоканальные аудиозаписи. Максимальная длительность файла — 4 часа.
 
КАКОЕ РАСПОЗНАВАНИЕ ВЫБРАТЬ
 
 
 Сценарии использования
Телефонные ассистенты и роботы
Виртуальные ассистенты
Виртуальные ассистенты
Голосовое управление
Распознавание коротких голосовых сообщений в мессенджерах
Транскрибация аудиозвонков и выступлений
Создание субтитров
Контроль соблюдения скриптов колл-центров
Выявление успешных скриптов
Оценка качества работы операторов колл-центров
 Входные данные
Голос в режиме реального времени
Предзаписанные одноканальные короткие аудиофайлы
Предзаписанные многоканальные и длинные аудиофайлы
 Принцип работы
Обмен сообщениями с сервером в рамках одного соединения
Запрос — быстрый ответ
Запрос — отложенный ответ
 Поддерживаемые API
 Максимальная длительность аудиоданных
5 минут
30 секунд
4 часа
 Максимальный объем переданных данных
10 МБ
1 МБ
1 ГБ
 Количество распознаваемых каналов
1
1
2
 
ПРОЦЕСС РАСПОЗНАВАНИЯ
Распознавание аудио происходит в три этапа:
1. Акустическая модель определяет, какой набор низкоуровневых признаков соответствует звуковому сигналу.
2. Языковая модель на основе выхода акустической модели генерирует текст по словам.
3. Сервис обрабатывает текст: производит расстановку пунктуации, преобразование числительных в цифры и т.п.
 
ТОЧНОСТЬ РАСПОЗНАВАНИЯ
 
Точность распознавания зависит от модели распознавания. Вы можете повысить точность распознавания модели, предоставив данные для дообучения модели. Подробнее о дообучении моделей см. в разделе Расширение модели распознавания речи.
 
Также на точность распознавания влияют:
  • качество исходного звука;
  • качество кодирования аудио;
  • разборчивость и темп речи;
  • сложность фраз и их длина.