Как маркировать данные речи несегментированной последовательности (wav-файл), используя CTC, используя python?
Здравствуйте, энтузиасты S/W разработчиков, я новичок в области распознавания речи (речь в текст) и в настоящее время я работаю над проектом для своих исследований, где я использую Mozilla Common Voice Dataset (Немецкий набор голосовых данных) - https://voice.mozilla.org/en. Я получил несегментированные данные последовательности (mp3-файлы) от Mozilla с набором tsv-файлов, которые состоят из текстового предложения звукового файла. Теперь я планирую реализовать маркировку CTC, чтобы сопоставить звуковой файл с соответствующим текстовым предложением (это означает, что каждый символ (а не каждое слово!) Должен быть выровнен по своему расположению в аудиофайле). Как я могу реализовать маркировку CTC, используя python? Или есть ли подобный сценарий, где я могу изучить и реализовать в моем проекте? Заранее спасибо!!