Обзор технологий на базе Yandex SpeechKit
Голосовые технологии SpeechKit помогают решить любую задачу, связанную с речью человека. SpeechKit может распознавать речь в режиме реального времени и из предварительно записанных аудиофайлов, автоматически определяя язык говорящего, а также озвучивать шаблонные фразы и развернутые тексты при помощи стандартных голосов SpeechKit.
SpeechKit работает через интерфейсы API. В зависимости от задачи вам доступны интерфейсы gRPC или REST.
В таблице собраны самые распространенные сценарии использования SpeechKit, чтобы вы могли выбрать нужные технологии и настроить их для своих задач.
Описание
|
Рекомендуемые технологии
|
Возможности и настройки
|
Голосовой робот
|
|
|
Полная или частичная автоматизация телефонных коммуникаций с клиентами.
|
Для ввода запроса пользователем: потоковое распознавание.
Для ответа системы: синтез с использованием стандартных голосов и голосов Brand Voice, созданных специально для вас.
|
|
Речевая аналитика
Контроль качества работы операторов
|
|
|
Расшифровка и последующий анализ аудиозаписей диалогов клиентов с операторами или роботами.
|
Для распознавания предзаписанных аудиофайлов: асинхронное распознавание аудиофайлов.
|
|
Голосовое управление приложением и умными устройствами
Голосовой ассистент
|
|
|
Пользователь запрашивает действие или поиск голосом, сервис отвечает действием с голосовым комментарием или картинкой.
|
Для ввода запроса пользователем: потоковое распознавание.
|
|
Адаптация сервиса для людей с нарушениями зрения
|
|
|
Голосовое управление, голосовые подсказки и комментарии для людей с нарушениями зрения.
|
Для ввода запроса пользователем: потоковое распознавание.
|
|
Распознавание аудиозаписей встреч
|
|
|
Расшифровка аудиозаписей после окончания встречи.
|
Для распознавания предзаписанных аудиофайлов: асинхронное распознавание аудиофайлов.
|
|
Озвучивание книг и видео
|
|
|
Озвучивание книг и видео без привлечения живых дикторов.
|
| |
Ведение протоколов совещаний
|
|
|
Расшифровка совещаний в режиме реального времени
|
Для распознавания речи участников: потоковое распознавание.
|
|
Субтитры к видео
|
|
|
Создание субтитров к записанным видео.
|
Для распознавания аудиодорожки: асинхронное распознавание аудиофайлов.
|
|
Субтитры к трансляции
|
|
|
Расшифровка трансляции в режиме реального времени.
|
Для распознавания речи в трансляции: потоковое распознавание.
|
|
Расшифровка голосовых сообщений
|
|
|
Перевод в текстовый вид коротких сообщений в мессенджерах.
|
Для распознавания аудио: синхронное распознавание файлов.
|