×

О технологии

 
Синтез речи в Yandex SpeechKit позволяет озвучить любой текст на нескольких языках.
 
Голосовые модели SpeechKit используют технологию глубоких нейронных сетей. При синтезе речи модель обращает внимание на большое количество деталей исходного голоса. Перед началом синтеза модель оценивает весь текст целиком, а не отдельные предложения. Благодаря этому синтезированный голос звучит чисто и естественно, без электронных искажений, и воспроизводит уместные интонации, присущие речи живого человека.
 
Сервис доступен по адресу https://85.92.116.215/.
 
ВОЗМОЖНОСТИ СИНТЕЗА
 
Работа со SpeechKit осуществляется через API или Playground.
Синтез SpeechKit имеет два API — API v1 (REST) и API v3 (gRPC). На основе API v3 также реализован Python SDK SpeechKit.
 
 
 
API v1
API v3
 Спецификация
REST
gRPC, REST
 Выбор голоса
Параметр voice
Параметр hints: voice
 Выбор языка
Зависит от голоса
Параметр lang
Зависит от голоса, в запросе явно не указан
 Задание амплуа
Зависит от голоса
Параметр emotion
Зависит от голоса
Параметр hints: role
 Управление тембром голоса
 Нет
Параметр hints: pitchShift
 Управление произношением
SSML
TTS
TTS
 Скорость произношения
Параметр speed
Параметр hints: speed
 Настройка громкости
Нет
Параметр loudness_normalization_type
 Формат результирующего аудио
Параметр format
Параметр output_audio_spec
 Задание параметров LPCM
Параметр sampleRateHertz
Параметр output_audio_spec: raw_audio
 Синтез по аудиошаблонам
Нет
Параметр text_template
 Способ тарификации
Суммарное количество символов в запросах
По запросам
 Автоматическое разбиение длинных фраз
Не требуется
Параметр unsafe_mode
 
На один запрос SpeechKit API v3 может прийти больше одного ответа с аудиофрагментом. Полный ответ получается путем склеивания всех полученных фрагментов.
 
ЯЗЫКИ И ГОЛОСА
 
Вы можете выбрать голос, который будет озвучивать ваш текст. Каждый голос соответствует модели, обученной на речи диктора. Голоса отличаются тембром, полом и языком говорящего. Список голосов и их характеристики см. в разделе Список голосов.
 
Если ни один голос не подходит вашему бизнесу, SpeechKit может создать уникальный — специально для вас. Подробнее об этом — в разделе Yandex SpeechKit Brand Voice.
 
SpeechKit может синтезировать речь на разных языках. Каждый голос предназначен для синтеза речи на определенном языке. Голоса могут произносить и текст на "иностранном" языке, однако в этом случае качество синтезированной речи будет хуже: "диктор" будет говорить с акцентом, а слова могут быть синтезированы с ошибками.
 
АМПЛУА
 
Синтезированная речь будет звучать по-разному в зависимости от выбранного амплуа. Амплуа — это характер произношения для одного и того же диктора. Для разных голосов доступны разные наборы амплуа. Попытка использовать амплуа, которого нет у выбранного голоса, вызовет ошибку сервиса.
 
ТЕМБР ГОЛОСА
 
Каждый голос SpeechKit имеет свою высоту. В API v3 вы можете изменить голос, указав смещение относительного базового тембра. Смещение задается в параметре hints: pitchShift в Гц и может принимать значения [-1000;1000]. По умолчанию значение параметра — 0. Положительные значения параметра hints: pitchShift делают голос выше, отрицательные — ниже.