×

Анализ результатов распознавания

 
SpeechKit API v3 может анализировать аудио во время распознавания и вместе с результатами возвращать дополнительную информацию: наличие и временные метки начала и конца определенных слов и речевых оборотов, длительность фраз и пауз, скорость речи говорящего, количество слов в фразах и другие метки и метрики речевой аналитики.
 
КЛАССИФИКАТОРЫ АУДИО.
 
Классификаторы доступны только для речи на русском языке.
 
Классификаторы могут применяться к промежуточным и окончательным результатам распознавания. Чтобы включить классификатор, определите параметр recognition_classifier в настройках сессии. Результаты срабатывания классификаторов будут приходить отдельным сообщением сразу после событий, указанных в настройках классификатора. Для классификаторов это могут быть события типа partial, eou_update или final.
 
SpeechKit поддерживает следующие классификаторы.
Классификатор
Описание
Результат
 formal_greeting
Формальное приветствие (например, "добрый день", "здравствуйте"")
Вероятность соответствия фразы формальному приветствию
 informal_greeting
Неформальное приветствие (например, "привет", "дарова")
Вероятность соответствия фразы неформальному приветствию
 formal_farewell
Формальное прощание (например, "до свидания", "всего доброго")
Вероятность соответствия фразы формальному прощанию
 informal_farewell
Неформальное прощание (например, "пока", "адьёс")
Вероятность соответствия фразы неформальному прощанию
 insult
Оскорбления (например, "дурак", "урод")
Вероятность соответствия фразы классу оскорблений
 profanity
Мат
Вероятность принадлежности фразы классу мата
 gender
Пол
Вероятности для классов male и female
 negative
Негатив
Вероятность негативной окраски распознанной фразы
 answerphone
Автоответчик
Вероятность ответа автоответчика
 
Python
session_options = stt_pb2.StreamingRequest(
  session_options=stt_pb2.StreamingOptions(
    recognition_model="general",
 
    # Настройки классификаторов
    recognition_classifier=stt_pb2.RecognitionClassifierOptions(
      classifiers=[
        # Определять оскорбления в фразах
        stt_pb2.RecognitionClassifier(
          classifier="insult",
          triggers=[stt_pb2.RecognitionClassifier.ON_UTTERANCE]
        ),
        # Определять мат в фразах
        stt_pb2.RecognitionClassifier(
          classifier="profanity",
          triggers=[stt_pb2.RecognitionClassifier.ON_UTTERANCE]
        ),
      ]
    )
  )
)
 
СТАТИСТИКИ АУДИО.
 
SpeechKit позволяет анализировать диалоги и речь отдельных участников и подсчитывать статистики для каждого участника и для диалога в целом. Результаты анализа содержат дискретные характеристики аудио и описательные статистики распределений этих значений.
 
Для каждого участника диалога можно определить.
 
  • Скорость и длительность речи.
  • Длительность пауз.
  • Количество и размеры фраз.
 
Для диалога в целом доступны.
 
  • Длительность одновременной речи и пауз.
  • Количество и временные метки перебиваний.
 
Чтобы включить подсчет статистик, в настройках сессии определите параметр speech_analysis.
recognize_options = stt_pb2.StreamingOptions(
        recognition_model=stt_pb2.RecognitionModelOptions(
            ..
            speech_analysis = stt_pb2.SpeechAnalysisOptions(
                enable_speaker_analysis = True,
                enable_conversation_analysis = True,
                descriptive_statistics_quantiles = [0.5, 0.9]
            ),
            ...
        )
 
Результаты анализа будут приходить в сообщениях speaker_analysis и conversation_analysis.