Как маркировать данные речи несегментированной последовательности (wav-файл), используя CTC, используя python?

Question

Как маркировать данные речи несегментированной последовательности (wav-файл), используя CTC, используя python?

Здравствуйте, энтузиасты S/W разработчиков, я новичок в области распознавания речи (речь в текст) и в настоящее время я работаю над проектом для своих исследований, где я использую Mozilla Common Voice Dataset (Немецкий набор голосовых данных) - https://voice.mozilla.org/en. Я получил несегментированные данные последовательности (mp3-файлы) от Mozilla с набором tsv-файлов, которые состоят из текстового предложения звукового файла. Теперь я планирую реализовать маркировку CTC, чтобы сопоставить звуковой файл с соответствующим текстовым предложением (это означает, что каждый символ (а не каждое слово!) Должен быть выровнен по своему расположению в аудиофайле). Как я могу реализовать маркировку CTC, используя python? Или есть ли подобный сценарий, где я могу изучить и реализовать в моем проекте? Заранее спасибо!!

0

deep-learning speech-recognition recurrent-neural-network speech-to-text ctc

Источник

user9805940 15 июл '19 в 03:10

0 ответов

Другие вопросы по тегам deep-learning speech-recognition recurrent-neural-network speech-to-text ctc