О технологии
Распознавание речи (speech-to-text — STT) — это процесс преобразования речи в текст.
Работа со SpeechKit осуществляется через API или Playground. Подробнее о принципах работы API в документе концепции API.
Для доступа к сервису воспользуйтесь учетными данными, выданными для Yandex Speech в Узбекистане Cloupard
(your_domain.apigw.cloupard.uz и логин/пароль).
(your_domain.apigw.cloupard.uz и логин/пароль).
СПОСОБЫ РАСПОЗНАВАНИЯ
SpeechKit предоставляет два способа распознавания речи:
Потоковое распознавание применяется для распознавания в режиме реального времени. При потоковом распознавании SpeechKit получает короткие аудиофрагменты и отправляет результаты, в том числе промежуточные, в рамках одного соединения.
Распознавание аудиофайлов. SpeechKit может распознавать аудиозаписи в синхронном и асинхронном режиме.
Синхронное распознавание имеет жесткие ограничения на размер и длительность файла и подходит для распознавания одноканальных аудио до 30 секунд.
Асинхронное распознавание может обрабатывать многоканальные аудиозаписи. Максимальная длительность файла — 4 часа.
КАКОЕ РАСПОЗНАВАНИЕ ВЫБРАТЬ
| |||
Сценарии использования
|
Телефонные ассистенты и роботы
Виртуальные ассистенты
|
Виртуальные ассистенты
Голосовое управление
Распознавание коротких голосовых сообщений в мессенджерах
|
Транскрибация аудиозвонков и выступлений
Создание субтитров
Контроль соблюдения скриптов колл-центров
Выявление успешных скриптов
Оценка качества работы операторов колл-центров
|
Входные данные
|
Голос в режиме реального времени
|
Предзаписанные одноканальные короткие аудиофайлы
|
Предзаписанные многоканальные и длинные аудиофайлы
|
Принцип работы
|
Обмен сообщениями с сервером в рамках одного соединения
|
Запрос — быстрый ответ
|
Запрос — отложенный ответ
|
Поддерживаемые API
| |||
Максимальная длительность аудиоданных
|
5 минут
|
30 секунд
|
4 часа
|
Максимальный объем переданных данных
|
10 МБ
|
1 МБ
|
1 ГБ
|
Количество распознаваемых каналов
|
1
|
1
|
2
|
ПРОЦЕСС РАСПОЗНАВАНИЯ
Распознавание аудио происходит в три этапа:
1. Акустическая модель определяет, какой набор низкоуровневых признаков соответствует звуковому сигналу.
2. Языковая модель на основе выхода акустической модели генерирует текст по словам.
3. Сервис обрабатывает текст: производит расстановку пунктуации, преобразование числительных в цифры и т.п.
ТОЧНОСТЬ РАСПОЗНАВАНИЯ
Точность распознавания зависит от модели распознавания. Вы можете повысить точность распознавания модели, предоставив данные для дообучения модели. Подробнее о дообучении моделей см. в разделе Расширение модели распознавания речи.
Также на точность распознавания влияют:
-
качество исходного звука;
-
качество кодирования аудио;
-
разборчивость и темп речи;
-
сложность фраз и их длина.