Речь в текст конкретных людей из разговоров

Я новичок в распознавании голоса.

Мне интересно создать инструмент, который позволит мне записывать речь конкретного пользователя в разговоре и в шуме.

Мне нравится выяснять, существуют ли какие-либо модели глубокого обучения, способные обнаруживать речь конкретного пользователя и изолировать ее, чтобы я мог преобразовывать речь в текст только для этого конкретного человека.