×

Нормализация результатов распознавания

 
Нормализация — это преобразование (постобработка) текста, полученного в результате работы модели распознавания речи SpeechKit. Нормализация выполняется согласно параметрам, указанным в запросах API.
В режиме автоматического распознавания языка (код языка auto) нормализация не выполняется.
 
Вы можете применять следующие уровни нормализации:
- Представление дат и времени в цифровом формате.
- Преобразование чисел из словарного в цифровой формат.
- Добавление заглавной буквы в начале предложения и в именах собственных.
- Маскирование обсценной лексики.
- Форматирование телефонных номеров. Например, 7(999)123-45-67 вместо 7 999 123 45 67.
- Добавление знаков пунктуации.
Правила представления нормализованного текста могут меняться. Учитывайте это при интеграции и следите за обновлениями.
 
УПРАВЛЕНИЕ ПАРАМЕТРАМИ НОРМАЛИЗАЦИИ
 
API v1
Уровень нормализации
Параметр API
 Маскирование обсценной лексики
profanityFilter=true
 Преобразование чисел из словарного в цифровой формат
По умолчанию включено. Чтобы отключить, укажите rawResults=true
 
API v2
Уровень нормализации
Параметр API
 Маскирование обсценной лексики
config.specification.profanityFilter=true
 Преобразование чисел из словарного в цифровой формат
По умолчанию включено. Чтобы отключить, укажите config.specification.rawResults=true
 
Уровень нормализации
Параметр API
 Маскирование обсценной лексики
config.specification.profanityFilter=true
 Преобразование чисел из словарного в цифровой формат
По умолчанию включено. Чтобы отключить, укажите config.specification.rawResults=true
 Добавление заглавной буквы в начале предложения и в именах собственных. Добавление знаков пунктуации
config.specification.literature_text=true
 
API v3
Для включения нормализации задайте в API параметр text_normalization=TEXT_NORMALIZATION_ENABLED. Некоторые опции включаются дополнительными параметрами, когда задан text_normalization=TEXT_NORMALIZATION_ENABLED.
 
Уровень нормализации
Параметр API
 Представление дат и времени в цифровом формате
text_normalization=TEXT_NORMALIZATION_ENABLED
 Преобразование чисел из словарного в цифровой формат
text_normalization=TEXT_NORMALIZATION_ENABLED
 Форматирование телефонных номеров
text_normalization=TEXT_NORMALIZATION_ENABLED. Чтобы выключить только этот уровень, укажите дополнительно phone_formatting_mode=PHONE_FORMATTING_MODE_DISABLED.
 Маскирование обсценной лексики
profanity_filter=true при включенном параметре text_normalization
 Добавление заглавной буквы в начале предложения и в именах собственных. Добавление знаков пунктуации
literature_text=trueпри включенном параметре text_normalization