Расширение модели распознавания речи

SpeechKit предоставляет несколько способов, которыми можно повысить качество распознавания речи.

АВТОТЮНИНГ

По умолчанию SpeechKit не сохраняет переданные пользователем данные. Однако самый эффективный способ улучшить модель распознавания речи — это обучить ее на реальных пользовательских данных.

Чтобы повысить качество распознавания, используйте автотюнинг модели. Он позволит сохранять переданные в запросах данные и применять их для дальнейшего обучения. Автотюнинг повышает качество распознавания в процессе работы модели без дополнительных действий с вашей стороны.

Автотюнинг подходит, когда выполняются следующие условия.

1. В уже настроенном сценарии, который используется для решения рабочих задач, не распознается часть лексики.

2. Лексика для автотюнинга должна быть такой, чтобы ее можно было легко воспринять на слух и записать транскрипцией. Например, названия лекарств не подойдут, так как эта лексика из узкой предметной области. Если нужно распознавать доменно-специфичные термины, используйте дообучение модели.

Чтобы передать данные для автотюнинга, включите логирование. Для этого в запросах API укажите заголовок x-data-logging-enabled: true. Пример запроса с включенным логированием можно посмотреть в разделе Диагностика ошибок.

Ограничения и требования.

1. Нужно минимум 10 часов аудио. Рекомендуемое количество часов — 50 или выше.

2. Обучение модели распознавания занимает около трех месяцев для русского языка. Сроки для других языков уточняйте у вашего аккаунт-менеджера.

ДООБУЧЕНИЕ МОДЕЛИ

Основная модель распознавания речи предназначена для работы с общей лексикой, однако ее может быть недостаточно для распознавания специфичной лексики. С помощью дообучения модель можно научить распознавать доменно-специфичные термины из разных областей.

Медицина — диагнозы, биологические термины, названия лекарств.
Бизнес — названия компаний.
Торговля — номенклатура товаров (ювелирные изделия, электротехника и т. п.).
Финансы — банковские термины и названия банковских продуктов.

Для дообучения необходимы текстовые шаблоны и глоссарии.

ТЕКСТОВЫЙ ШАБЛОН.

Текстовый шаблон содержит однородные фразы с переменными, на основе которых модель синтезирует высказывания. На место переменных подставляются термины из глоссария.

Чтобы улучшить общее качество распознавания, шаблоны можно использовать вместе с автотюнингом. Они подойдут, даже когда нужна специфичная лексика, например названия лекарств.

ГЛОССАРИЙ.

Глоссарий — полный список терминов, которые используются вместо переменных в шаблонах. Глоссарий содержит слова, которые есть в аудиозаписях для тестирования, а также другую лексику.

Глоссарий должен быть предоставлен отдельным файлом. Он создается под каждую переменную из шаблона. Эта переменная используется в качестве названия каждого файла с глоссарием. Каждый термин в файле размещается на отдельной строке.

Например, файлы-глоссарии first-name.tsv, middle-name.tsv и last-name.tsv для дообучения модели колл-центра могут содержать имена, отчества и фамилии клиентов.

first-name.tsv	middle-name.tsv	last-name.tsv
Никита Кирилл Павел ...	Александрович Петрович Казимирович ...	Романов Алексеев Кукушкин ...

Если фразы-шаблоны предполагают, что термины из глоссария могут склоняться, для каждой формы нужно создать отдельный файл-глоссарий. Например, файлы с именами в творительном падеже будут содержать записи.

first-name-ablative.tsv	middle-name-ablative.tsv	last-name-ablative.tsv
Никитой Кириллом Павлом ...	Александровичем Петровичем Казимировичем ...	Романовым Алексеевым Кукушкиным ...

Тогда файл с шаблонами templates.tsv может состоять из записей следующего вида.

Добрый день, вы {first-name=first-names.tsv} {middle-name=middle-names.tsv} {last-name=last-names.tsv}?

Здравствуйте, я могу поговорить с {first-name=first-names-ablative.tsv} {middle-name=middle-names-ablative.tsv}?

ОГРАНИЧЕНИЯ И ТРЕБОВАНИЯ К ТЕКСТОВЫМ ШАБЛОНАМ И ГЛОССАРИЯМ.

Глоссарии и текстовые шаблоны должны быть представлены в файлах формата TSV в нормализованном виде.

Числительные — расшифрованы прописью.

Латинские слова и символы — заменены на транскрипцию.

Сокращения — полностью прописаны.

Аббревиатуры на иностранном языке — расшифрованы полностью или заменены на транскрипцию.

Аббревиатуры на русском языке — оставлены без изменений.

	Безвозмездно, т.е. даром, отдадим 2 кг картошки, модель спирали ДНК и журналы Cloud of Science за 2020 г. Безвозмездно, то есть даром, отдадим два килограмма картошки, модель спирали ДНК и журналы Клауд оф сайенс за две тысячи двадцатый год.

Требования к текстовым шаблонам и глоссариям.

1. Длина шаблона вместе с переменными не должна превышать 200 символов.

2. Поддерживается только русский язык.

3. Дообучение эффективнее, если на каждый термин из глоссария приходится не менее 100 фраз.

Дообучение занимает около двух месяцев с момента, как вы передали технической поддержке архив с данными.

ИСПОЛЬЗОВАНИЕ АУДИО ДЛЯ УЛУЧШЕНИЯ КАЧЕСТВА

Вы можете передать команде SpeechKit аудиофайл для улучшения качества распознавания речи. Метод аналогичен автотюнингу, но вместо переданных в API-запросах данных используется подготовленное вами аудио. Передайте его технической поддержкев виде ZIP-архива.

Ограничения для такого способа совпадают с ограничениями для автотюнинга.

1. Нужно минимум 10 часов аудио. Рекомендуемое количество часов — 50 или выше.