Распознавание речи Java Сфинкс 4
Я хочу использовать sphinx4 или набор инструментов HTK, чтобы создать приложение для распознавания речи, которое нацелено на оценку возраста по голосу. Я в большей степени понимаю стистистические модели, связанные с распознаванием речи. Меня интересуют кепстральные коэффициенты частоты Мел и модели гауссовой смеси, потому что эти два лучше подходят для моей проблемной области. Нужно ли использовать нейронные сети и вводить данные обучения из векторов, полученных из классификаторов сфинксов? Я не совсем уверен, с чего начать с sphinx или инструментария HTK. Я новичок в сфинксе и распознавании речи, и мое приложение является только прототипом.
Может ли кто-нибудь предложить какую-либо форму руководства в этом отношении. С уважением.
2 ответа
Обычно первое, что нужно начинать для чего-то подобного, - это поискать предшествующую работу академического сообщества. В Minematsu et al. В 2002 году они использовали модели гауссовских смесей (GMM) по кепстральным коэффициентам с низкой частотой, чтобы различать старых и молодых говорящих.
Предположительно, если у вас есть доступ к тренировочным данным как со старыми, так и с молодыми ораторами, вы сможете сделать то же самое. Даже если вы захотите попробовать другой бэкэнд классификатора, такой как нейронные сети, было бы неплохо начать с GMM, поскольку вы знаете, что они должны работать для вашей задачи, и они дадут вам что-то для сравнения с любыми другими классификаторами. Вы хотели бы попробовать использовать.
Если вы просто делаете это для развлечения или в качестве исследовательского проекта, я бы порекомендовал использовать HTK, поскольку мне нравится, насколько он модульный. Однако, если это не для чего-то коммерческого, вы, вероятно, должны пойти со Sphinx, так как он может распространяться по лицензии, подобной BSD.
Я решил не использовать Sphinx 4, потому что он основан на скрытых марковских моделях, которые в основном используются для последовательного анализа, такого как распознавание речи и даже мультимодальные входы в интерфейс на основе входной последовательности. Insted Я пошел с программным обеспечением под названием Praat, его для обработки речи и синтеза. Существует также "плагин", если хотите, под названием "Акустык", который используется для анализа гласных и так далее. Может быть, это направление будет иметь значение для вас, я не уверен.
Затем вы можете использовать mathlab и использовать инструментальные средства распознавания образов для реализации своих нейронных сетей, GMM или любого другого подхода, который вы хотите использовать.
Надеюсь, это было полезно.