Как сгруппировать объект, состоящий из 80000 уникальных записей, в более мелкие группы [закрыто]
В настоящее время я работаю с набором данных профиля пациента в своей компании, который состоит из более чем 20 миллионов строк наблюдений, каждая из которых имеет функцию назначения, которая назначается каждому пациенту. Проблема в том, что существует более 80000 различных уникальных рецептов, и многие из них являются результатом одного и того же рецепта, просто написанного по-разному.(например, собака, собака, СОБАКИ, щенки, щенок и т. д.). Какая стратегия была бы наилучшей для разбивки каждого из них на более мелкие группы?