×

Асинхроное распознавание

 
Асинхронное распознавание позволяет преобразовывать в текст многоканальные аудиофайлы следующих характеристик:
-Максимальная длительность записи — 4 часа.
-Максимальный размер файла — 1 ГБ.
 
Результаты распознавания хранятся на сервере 3 суток, после чего вы не сможете их получить.
 
Асинхронное распознавание не подходит для распознавания диалога в режиме реального времени. Если вам нужны промежуточные результаты и минимальное время ответа, используйте потоковое распознавание.
 
Список поддерживаемых языков в разделе Поддерживаемые языки распознавания.
 
РЕЖИМЫ РАБОТЫ АСИНХРОННОГО РАСПОЗНАВАНИЯ
 
В асинхронном распознавании доступна языковая модель, которая может работать в двух режимах.
 
1. В стандартном режиме распознавание обрабатывается в очереди со стандартным приоритетом. Режим работает при выборе модели general.
2. В отложенном режиме аудиофайл для распознавания попадает в очередь с низким приоритетом и обрабатывается в наименее нагруженное время. На отложенное распознавание действуют специальные тарифы. Время обработки аудиофайла в отложенном режиме не более 24 часов. Распознавание в отложенном режиме доступно при указании тега deferred-general.
 
КАК АСИНХРОННО РАСПОЗНАТЬ ПРЕДЗАПИСАННОЕ АУДИО
 
Для асинхронного распознавания речи используются API v2 и v3 SpeechKit. Чтобы распознать предзаписанное аудио:
1. Создайте сервисный аккаунт.
2. Назначьте ему роли:
- ai.speechkit-stt.user — для распознавания речи;
- storage.uploader — для загрузки аудиофайла в бакет Object;
- (Опционально) storage.configurer, kms.keys.encrypter и kms.keys.decrypter — для шифрования и расшифровки объектов в бакете. Эти роли нужны, только если вы используете шифрование в Object.
3. Получите IAM-токен или API-ключ для вашего сервисного аккаунта, они понадобятся для аутентификации в API.
4. Создайте бакет Object.
5. Загрузите аудиофайл в бакет.
6. Получите ссылку на загруженный файл.
 
Для бакета с ограниченным доступом в ссылке присутствуют дополнительные query-параметры (после знака ?). Эти параметры не нужно передавать в SpeechKit — они игнорируются.
 
7. Отправьте API-запрос на распознавание файла через gRPC API или REST API. В теле запроса передайте ссылку на аудиофайл. В HTTP-заголовке укажите данные аутентификации.
Authorization: Api-Key <API-ключ> — для аутентификации с API-ключом.
 
В ответе на запрос возвращается идентификатор операции распознавания. Сохраните его — он понадобится в следующем запросе.
Результаты хранятся на сервере 3 суток. После этого вы не сможете запросить результаты распознавания, используя полученный идентификатор.
 
8. Подождите, пока закончится распознавание. Одна минута одноканального аудио распознается примерно за 10 секунд.
 
9. Отправьте API-запрос на получение результатов распознавания.
- при помощи API v2;
- при помощи API v3:
   -REST;
   -gRPC.
10. В HTTP-заголовке укажите те же данные аутентификации.
 
Результаты содержат распознанный текст целиком и список распознанных слов.