как я могу подсчитать количество людей, говорящих в аудиофайле

Я работаю над аудиопроектом. Моя цель — подсчитать количество людей, которые говорят в аудиофайле. Мы можем считать, что мы уже удалили шум из этого аудио (например, если в аудио разговаривают два человека, программа может вернуть 2, если в этом аудио разговаривают три человека, программа вернет 3...). Мне не нужно распознавание речи; Я просто хочу знать, сколько людей говорит. Какая сыворотка лучше всего решает эту проблему.

1 ответ

Если я прав, вы ищете speaker diarization. В этой теме кто-то перечислил несколько вариантов для python. Распознавание говорящего на Python

В противном случае, если вы хотите пойти по более простому пути, вы можете позволить Google сделать это за вас с их Cloud Speech-to-textAPI. Не бесплатно, но тоже очень круто. Подробнее об этом прямо здесь:https://cloud.google.com/speech-to-text/docs/multiple-voices .

Другие вопросы по тегам