Нормализация результатов распознавания
Нормализация — это преобразование (постобработка) текста, полученного в результате работы модели распознавания речи SpeechKit. Нормализация выполняется согласно параметрам, указанным в запросах API.
В режиме автоматического распознавания языка (код языка auto) нормализация не выполняется.
|
Вы можете применять следующие уровни нормализации:
- Представление дат и времени в цифровом формате.
- Преобразование чисел из словарного в цифровой формат.
- Добавление заглавной буквы в начале предложения и в именах собственных.
- Маскирование обсценной лексики.
- Форматирование телефонных номеров. Например, 7(999)123-45-67 вместо 7 999 123 45 67.
- Добавление знаков пунктуации.
Правила представления нормализованного текста могут меняться. Учитывайте это при интеграции и следите за обновлениями.
|
УПРАВЛЕНИЕ ПАРАМЕТРАМИ НОРМАЛИЗАЦИИ
API v1
Уровень нормализации
|
Параметр API
|
Маскирование обсценной лексики
|
profanityFilter=true
|
Преобразование чисел из словарного в цифровой формат
|
По умолчанию включено. Чтобы отключить, укажите rawResults=true
|
API v2
Уровень нормализации
|
Параметр API
|
Маскирование обсценной лексики
|
config.specification.profanityFilter=true
|
Преобразование чисел из словарного в цифровой формат
|
По умолчанию включено. Чтобы отключить, укажите config.specification.rawResults=true
|
Уровень нормализации
|
Параметр API
|
Маскирование обсценной лексики
|
config.specification.profanityFilter=true
|
Преобразование чисел из словарного в цифровой формат
|
По умолчанию включено. Чтобы отключить, укажите config.specification.rawResults=true
|
Добавление заглавной буквы в начале предложения и в именах собственных. Добавление знаков пунктуации
|
config.specification.literature_text=true
|
API v3
Для включения нормализации задайте в API параметр text_normalization=TEXT_NORMALIZATION_ENABLED. Некоторые опции включаются дополнительными параметрами, когда задан text_normalization=TEXT_NORMALIZATION_ENABLED.
Уровень нормализации
|
Параметр API
|
Представление дат и времени в цифровом формате
|
text_normalization=TEXT_NORMALIZATION_ENABLED
|
Преобразование чисел из словарного в цифровой формат
|
text_normalization=TEXT_NORMALIZATION_ENABLED
|
Форматирование телефонных номеров
|
text_normalization=TEXT_NORMALIZATION_ENABLED. Чтобы выключить только этот уровень, укажите дополнительно phone_formatting_mode=PHONE_FORMATTING_MODE_DISABLED.
|
Маскирование обсценной лексики
|
profanity_filter=true при включенном параметре text_normalization
|
Добавление заглавной буквы в начале предложения и в именах собственных. Добавление знаков пунктуации
|
literature_text=trueпри включенном параметре text_normalization
|