×

О технологии

 
Распознавание речи (speech-to-text — STT) — это процесс преобразования речи в текст.
Работа со SpeechKit осуществляется через API или Playground. Подробнее о принципах работы API в документе концепции API.
 
Для доступа к сервису воспользуйтесь учетными данными, выданными для Yandex Speech в Узбекистане Cloupard (your_domain.apigw.cloupard.uz и логин/пароль).
 
Для работы со SpeechKit также доступен Python SDK. Он основан на API v3 SpeechKit.
 
СПОСОБЫ РАСПОЗНАВАНИЯ.
 
SpeechKit предоставляет два способа распознавания речи.
Потоковое распознавание применяется для распознавания в режиме реального времени. При потоковом распознавании SpeechKit получает короткие аудиофрагменты и отправляет результаты, в том числе промежуточные, в рамках одного соединения.
Распознавание аудиофайлов. SpeechKit может распознавать аудиозаписи в синхронном и асинхронном режиме.
 
Синхронное распознавание имеет жесткие ограничения на размер и длительность файла и подходит для распознавания одноканальных аудио до 30 секунд.
 
Асинхронное распознавание может обрабатывать многоканальные аудиозаписи. Максимальная длительность файла — 4 часа.
 
КАКОЕ РАСПОЗНАВАНИЕ ВЫБРАТЬ.
 
 
 Сценарии использования
Телефонные ассистенты и роботы
Виртуальные ассистенты
Виртуальные ассистенты
Голосовое управление
Распознавание коротких голосовых сообщений в мессенджерах
Транскрибация аудиозвонков и выступлений
Создание субтитров
Контроль соблюдения скриптов колл-центров
Выявление успешных скриптов
Оценка качества работы операторов колл-центров
 Входные данные
Голос в режиме реального времени
Предзаписанные одноканальные короткие аудиофайлы
Предзаписанные многоканальные и длинные аудиофайлы
 Принцип работы
Обмен сообщениями с сервером в рамках одного соединения
Запрос — быстрый ответ
Запрос — отложенный ответ
 Поддерживаемые API
 Максимальная длительность аудиоданных
5 минут
30 секунд
4 часа
 Максимальный объем переданных данных
10 МБ
1 МБ
1 ГБ
 Количество распознаваемых каналов
1
1
2
 
ПРОЦЕСС РАСПОЗНАВАНИЯ.
 
Распознавание аудио происходит в три этапа.
 
1. Акустическая модель определяет, какой набор низкоуровневых признаков соответствует звуковому сигналу.
2. Языковая модель на основе выхода акустической модели генерирует текст по словам.
3. Сервис обрабатывает текст: производит расстановку пунктуации, преобразование числительных в цифры и т.п.
 
ТОЧНОСТЬ РАСПОЗНАВАНИЯ.
 
Точность распознавания зависит от модели распознавания. Вы можете повысить точность распознавания модели, предоставив данные для дообучения модели. Подробнее о дообучении моделей см. в разделе Расширение модели распознавания речи.
 
Также на точность распознавания влияют.
 
  • Качество исходного звука.
  • Качество кодирования аудио.
  • Разборчивость и темп речи.
  • Сложность фраз и их длина.