×

Асинхроное распознавание

 
Асинхронное распознавание позволяет преобразовывать в текст многоканальные аудиофайлы следующих характеристик:
-Максимальная длительность записи — 4 часа.
-Максимальный размер файла — 1 ГБ.
 
Результаты распознавания хранятся на сервере 3 суток, после чего вы не сможете их получить.
 
Асинхронное распознавание не подходит для распознавания диалога в режиме реального времени. Если вам нужны промежуточные результаты и минимальное время ответа, используйте потоковое распознавание.
 
Список поддерживаемых языков в разделе Поддерживаемые языки распознавания.
 
РЕЖИМЫ РАБОТЫ АСИНХРОННОГО РАСПОЗНАВАНИЯ.
 
В асинхронном распознавании доступна языковая модель, которая может работать в двух режимах.
 
1. В стандартном режиме распознавание обрабатывается в очереди со стандартным приоритетом. Режим работает при выборе модели general.
2. В отложенном режиме аудиофайл для распознавания попадает в очередь с низким приоритетом и обрабатывается в наименее нагруженное время. На отложенное распознавание действуют специальные тарифы. Время обработки аудиофайла в отложенном режиме не более 24 часов. Распознавание в отложенном режиме доступно при указании тега deferred-general.
 
КАК АСИНХРОННО РАСПОЗНАТЬ ПРЕДЗАПИСАННОЕ АУДИО
 
Для асинхронного распознавания речи используются API v2 и v3 SpeechKit. Чтобы распознать предзаписанное аудио.
 
1. Создайте сервисный аккаунт.
 
2. Назначьте ему роли.
2.1 Ai.speechkit-stt.user — для распознавания речи.
2.2 Storage.uploader — для загрузки аудиофайла в бакет Object.
2.3 (Опционально) storage.configurer, kms.keys.encrypter и kms.keys.decrypter — для шифрования и расшифровки объектов в бакете. Эти роли нужны, только если вы используете шифрование в Object.
 
3. Получите IAM-токен или API-ключ для вашего сервисного аккаунта, они понадобятся для аутентификации в API.
 
4. Создайте бакет Object.
 
5. Загрузите аудиофайл в бакет.
 
6. Получите ссылку на загруженный файл.
 
Для бакета с ограниченным доступом в ссылке присутствуют дополнительные query-параметры (после знака ?). Эти параметры не нужно передавать в SpeechKit — они игнорируются.
 
7. Отправьте API-запрос на распознавание файла через gRPC API или REST API. В теле запроса передайте ссылку на аудиофайл. В HTTP-заголовке укажите данные аутентификации.
Authorization: Api-Key <API-ключ> — для аутентификации с API-ключом.
 
В ответе на запрос возвращается идентификатор операции распознавания. Сохраните его — он понадобится в следующем запросе.
Результаты хранятся на сервере 3 суток. После этого вы не сможете запросить результаты распознавания, используя полученный идентификатор.
 
8. Подождите, пока закончится распознавание. Одна минута одноканального аудио распознается примерно за 10 секунд.
 
9. Отправьте API-запрос на получение результатов распознавания.
 
9.1 При помощи API v2.
9.2 При помощи API v3.
 
9.2.1 REST.
9.2.2 GRPC.
 
10. В HTTP-заголовке укажите те же данные аутентификации.
 
Результаты содержат распознанный текст целиком и список распознанных слов.