×

Обзор технологий на базе Yandex SpeechKit

 
Голосовые технологии SpeechKit помогают решить любую задачу, связанную с речью человека. SpeechKit может распознавать речь в режиме реального времени и из предварительно записанных аудиофайлов, автоматически определяя язык говорящего, а также озвучивать шаблонные фразы и развернутые тексты при помощи стандартных голосов SpeechKit.
 
SpeechKit работает через интерфейсы API. В зависимости от задачи вам доступны интерфейсы gRPC или REST.
 
В таблице собраны самые распространенные сценарии использования SpeechKit, чтобы вы могли выбрать нужные технологии и настроить их для своих задач.
 
Описание
Рекомендуемые технологии
Возможности и настройки
 Голосовой робот
 
 
 Полная или частичная автоматизация телефонных коммуникаций с клиентами.
Для ввода запроса пользователем: потоковое распознавание.
Для ответа системы: синтез с использованием стандартных голосов и голосов Brand Voice, созданных специально для вас.
Речевая аналитика
Контроль качества работы операторов
 
 
 Расшифровка и последующий анализ аудиозаписей диалогов клиентов с операторами или роботами.
Для распознавания предзаписанных аудиофайлов: асинхронное распознавание аудиофайлов.
Голосовое управление приложением и умными устройствами
Голосовой ассистент
 
 
 Пользователь запрашивает действие или поиск голосом, сервис отвечает действием с голосовым комментарием или картинкой.
Для ввода запроса пользователем: потоковое распознавание.
Для ответа системы: синтез с использованием стандартных голосов и голосов Brand Voice.
Адаптация сервиса для людей с нарушениями зрения
 
 
 Голосовое управление, голосовые подсказки и комментарии для людей с нарушениями зрения.
Для ввода запроса пользователем: потоковое распознавание.
Для ответа системы: синтез с использованием стандартных голосов и голосов Brand Voice.
Распознавание аудиозаписей встреч
 
 
 Расшифровка аудиозаписей после окончания встречи.
Для распознавания предзаписанных аудиофайлов: асинхронное распознавание аудиофайлов.
Озвучивание книг и видео
 
 
 Озвучивание книг и видео без привлечения живых дикторов.
Синтез речи с использованием стандартных голосов и голосов Brand Voice.
Ведение протоколов совещаний
 
 
 Расшифровка совещаний в режиме реального времени
Для распознавания речи участников: потоковое распознавание.
Субтитры к видео
 
 
 Создание субтитров к записанным видео.
Для распознавания аудиодорожки: асинхронное распознавание аудиофайлов.
Субтитры к трансляции
 
 
 Расшифровка трансляции в режиме реального времени.
Для распознавания речи в трансляции: потоковое распознавание.
Расшифровка голосовых сообщений
 
 
 Перевод в текстовый вид коротких сообщений в мессенджерах.
Для распознавания аудио: синхронное распознавание файлов.