Как синтезировать речь в API v1

Синтез речи преобразует текст в речь и сохраняет ее в аудиофайл. В этом разделе вы научитесь синтезировать речь из текста с помощью SpeechKit API v1 (REST).

Отправьте запрос на преобразование текста в речь.

read -r -d '' TEXT << EOM

Я Яндекс Спичк+ит.

Я могу превратить любой текст в речь.

Теперь и в+ы — можете!

EOM

export FOLDER_ID=<идентификатор_каталога>

export IAM_TOKEN=<IAM-токен>

curl

--request POST \

--header "Authorization: Bearer ${IAM_TOKEN}" \

--data-urlencode "text=${TEXT}" \

--data "lang=ru-RU&voice=filipp&folderId=${FOLDER_ID}" \

"https://85.92.116.215//speech/v1/tts:synthesize" > speech.ogg

Где,

1. FOLDER_ID— идентификатор каталога, полученный перед началом работы.

2. IAM_TOKEN— IAM-токен, полученный перед началом работы.

3. TEXT— текст с примененным URL-кодированием, который нужно распознать.

4. Lang— язык текста.

5. Voice— голос для синтеза речи.

6. Speech.ogg– файл, в который будет записан ответ.

	Для передачи слов-омографов используйте + перед ударной гласной: з+амок, зам+ок. Чтобы отметить паузу между словами, используйте -. Ограничение на длину строки: 5000 символов.

Синтезированная речь будет записана в файл speech.ogg в папке, из которой вы выполнили эту команду.

По умолчанию аудио создается в формате OggOpus. Прослушать созданный файл можно в браузере, например в Яндекс Браузере или Mozilla Firefox.

См. подробнее описание формата запроса на синтез речи.