Определение того, когда говорящий говорит, с помощью Google Cloud Speech to Text API

Я пытаюсь определить время, в течение которого кто-то говорит в аудиоклипе, чтобы помочь с подсчетом слов в минуту звука (например, удаление открывающих и закрывающих пауз и определение пауз в середине) с помощью Google Cloud Speech to Text API. Пока мне удалось расшифровать текст и получить отметки времени, используя следующий код:

result = operation.result(timeout=90)

for result in result.results:
    alt = result.alternatives[0]
    print("STOP")
    for word_info in alt.words:
        word = word_info.word
        start_time = word_info.start_time
        end_time = word_info.end_time

        print("Word: {}, Start: {}, End: {}".format(word, start_time.seconds + start_time.nanos*1e-9,
                                                    end_time.seconds + end_time.nanos*1e-9))

Однако этот код включает в себя паузы и паузы до и после слова как часть слова, поэтому я не уверен, как определить фактические паузы в тексте.

0 ответов

Другие вопросы по тегам