Принадлежность к неоднозначности
Я встречал несколько сценариев Python для устранения неоднозначности имен авторов в библиометрических данных (таких как, например, борода библиотеки Python). Тем не менее, сейчас я ищу что-то похожее для различения названий, но не могу найти хорошего решения. Я сталкивался с некоторыми незавершенными и заброшенными проектами GitHub, но в большинстве случаев используется только сходство имен с помощью N-грамм и регулярных выражений, в то время как в оптимальном случае используются и другие доступные данные (например, если один автор публикует для нескольких филиалов, он скорее всего, это будет одна и та же организация или если несколько филиалов расположены в одном городе, это увеличивает вероятность того, что они будут одной и той же организацией).
Какую модель кластеризации я могу разработать лучше всего для выполнения этой задачи? Моя главная проблема - это масштабируемость, поскольку мои данные будут содержать более миллиона записей.