System.Speech.Recognition; управление фоном или распознавание голоса

Я не уверен, если это возможно, но в любом случае,

я использую using System.Speech.Recognition; в приложении Winform C#.

Мне интересно, можно ли не только распознать речь, но и распознать голос, как-то распознать разницу между разными голосами

чтобы получить что-то, близкое к чтению кратного контента из каждого отдельного голоса, например, от двух одновременно или отдельно говорящих пользователей как двух разных.

Или, по крайней мере, может быть, какой-то метод управления громкостью фона, например, если AudioLevelUpdated Событие позволяет мне видеть громкость ввода, но, возможно, также существует какой-то особый способ отделить громкий голос от лишнего шума или голосов в фоновом режиме.

2 ответа

System.Speech.Recognition не поможет вам в распознавании голоса.System.Speech.Recognition предназначен для речи в текст. Добавление грамматики повышает его эффективность. Вы можете обучить рабочий стол Windows для лучшего преобразования. См. Распознавание речи на панели управления.

Есть несколько сторонних библиотек, доступных для распознавания голоса. Для удаления шума, вы можете обратиться к визуализатору звука в C#.

Вы можете найти интересную дискуссию на форуме msdn.

Я думаю, вы должны взглянуть на CRIS, который является частью Microsoft Cognitive Services, по крайней мере, для вас вопрос о шуме.

CRIS - это настраиваемая речевая служба, и ее основное назначение - улучшить качество преобразования речи в текст с использованием пользовательских моделей акустики (например, фонового шума) и изучения словарного запаса с использованием образцов.

Вы можете импортировать:

  • Акустические наборы данных

  • Наборы языковых данных

  • Набор данных произношения

Например, в акустических моделях у вас есть:

  • Разговорная модель Microsoft для распознавания речи, произносимой в разговорном стиле (то есть речь, направленная на другого человека).

  • Модель поиска и диктовки Microsoft для речи, направленной на приложение, например команды, поисковые запросы или диктовки.

В предварительном просмотре также доступен API распознавания динамиков.