определение слов для отметки времени в аудиофайле на Python
У меня есть аудиофайл, содержащий некоторую (синтетическую (сгенерированную google TTS)) речь, а также другой звук. Я ищу способ найти метку времени каждый раз, когда встречается речевая часть звука. Речь всегда начинается с одного и того же слова, скажем "это", поэтому я думаю, что мне подойдут как индексирование, так и выделение слов с отметкой времени. Однако я пробовал использовать pocketsphinx, но транскрипция, которую он дает, абсолютно неверна. Я также пробовал "простой аудиоиндексатор", но он выдает одну внутреннюю ошибку за другой.