Асинхроное распознавание
Асинхронное распознавание позволяет преобразовывать в текст многоканальные аудиофайлы следующих характеристик:
-Максимальная длительность записи — 4 часа.
-Максимальный размер файла — 1 ГБ.
Результаты распознавания хранятся на сервере 3 суток, после чего вы не сможете их получить.
Асинхронное распознавание не подходит для распознавания диалога в режиме реального времени. Если вам нужны промежуточные результаты и минимальное время ответа, используйте потоковое распознавание.
Список поддерживаемых языков в разделе Поддерживаемые языки распознавания.
РЕЖИМЫ РАБОТЫ АСИНХРОННОГО РАСПОЗНАВАНИЯ.
В асинхронном распознавании доступна языковая модель, которая может работать в двух режимах.
1. В стандартном режиме распознавание обрабатывается в очереди со стандартным приоритетом. Режим работает при выборе модели general.
2. В отложенном режиме аудиофайл для распознавания попадает в очередь с низким приоритетом и обрабатывается в наименее нагруженное время. На отложенное распознавание действуют специальные тарифы. Время обработки аудиофайла в отложенном режиме не более 24 часов. Распознавание в отложенном режиме доступно при указании тега deferred-general.
КАК АСИНХРОННО РАСПОЗНАТЬ ПРЕДЗАПИСАННОЕ АУДИО
Для асинхронного распознавания речи используются API v2 и v3 SpeechKit. Чтобы распознать предзаписанное аудио.
1. Создайте сервисный аккаунт.
2. Назначьте ему роли.
2.1 Ai.speechkit-stt.user — для распознавания речи.
2.2 Storage.uploader — для загрузки аудиофайла в бакет Object.
2.3 (Опционально) storage.configurer, kms.keys.encrypter и kms.keys.decrypter — для шифрования и расшифровки объектов в бакете. Эти роли нужны, только если вы используете шифрование в Object.
3. Получите IAM-токен или API-ключ для вашего сервисного аккаунта, они понадобятся для аутентификации в API.
4. Создайте бакет Object.
5. Загрузите аудиофайл в бакет.
6. Получите ссылку на загруженный файл.
Для бакета с ограниченным доступом в ссылке присутствуют дополнительные query-параметры (после знака ?). Эти параметры не нужно передавать в SpeechKit — они игнорируются.
7. Отправьте API-запрос на распознавание файла через gRPC API или REST API. В теле запроса передайте ссылку на аудиофайл. В HTTP-заголовке укажите данные аутентификации.
Authorization: Api-Key <API-ключ> — для аутентификации с API-ключом.
В ответе на запрос возвращается идентификатор операции распознавания. Сохраните его — он понадобится в следующем запросе.
Результаты хранятся на сервере 3 суток. После этого вы не сможете запросить результаты распознавания, используя полученный идентификатор.
|
8. Подождите, пока закончится распознавание. Одна минута одноканального аудио распознается примерно за 10 секунд.
9. Отправьте API-запрос на получение результатов распознавания.
9.1 При помощи API v2.
9.2 При помощи API v3.
10. В HTTP-заголовке укажите те же данные аутентификации.
Результаты содержат распознанный текст целиком и список распознанных слов.