как я могу подсчитать количество людей, говорящих в аудиофайле
Я работаю над аудиопроектом. Моя цель — подсчитать количество людей, которые говорят в аудиофайле. Мы можем считать, что мы уже удалили шум из этого аудио (например, если в аудио разговаривают два человека, программа может вернуть 2, если в этом аудио разговаривают три человека, программа вернет 3...). Мне не нужно распознавание речи; Я просто хочу знать, сколько людей говорит. Какая сыворотка лучше всего решает эту проблему.
1 ответ
Если я прав, вы ищете
speaker diarization
. В этой теме кто-то перечислил несколько вариантов для python. Распознавание говорящего на Python
В противном случае, если вы хотите пойти по более простому пути, вы можете позволить Google сделать это за вас с их
Cloud Speech-to-text
API. Не бесплатно, но тоже очень круто. Подробнее об этом прямо здесь:https://cloud.google.com/speech-to-text/docs/multiple-voices .