Определение того, когда говорящий говорит, с помощью Google Cloud Speech to Text API
Я пытаюсь определить время, в течение которого кто-то говорит в аудиоклипе, чтобы помочь с подсчетом слов в минуту звука (например, удаление открывающих и закрывающих пауз и определение пауз в середине) с помощью Google Cloud Speech to Text API. Пока мне удалось расшифровать текст и получить отметки времени, используя следующий код:
result = operation.result(timeout=90)
for result in result.results:
alt = result.alternatives[0]
print("STOP")
for word_info in alt.words:
word = word_info.word
start_time = word_info.start_time
end_time = word_info.end_time
print("Word: {}, Start: {}, End: {}".format(word, start_time.seconds + start_time.nanos*1e-9,
end_time.seconds + end_time.nanos*1e-9))
Однако этот код включает в себя паузы и паузы до и после слова как часть слова, поэтому я не уверен, как определить фактические паузы в тексте.