Нечеткие совпадающие номера деталей
В настоящее время у меня есть список номеров деталей, которые необходимо классифицировать. Они могут иметь различные формы, такие как - Часть: XYZK-RF или Аллен Часть: XYZK-RF - Датчик. Код ниже работает для передачи списка номеров деталей в.
def fuzzy_matchMulti(x, choices, scorer, cutoff, limit):
try:
return process.extractBests(
x, choices=choices, scorer=scorer, score_cutoff=cutoff, limit=limit
)
except:
x = str(x)
return process.extractBests(
x, choices=choices, scorer=scorer, score_cutoff=cutoff, limit=limit
)
f = smallSens['Drive Part Numbers'].apply(fuzzy_matchMulti,
args=(smallwarp['POLine_Description'],
fuzz.token_set_ratio,
95,
5))
Теперь проблема заключается в том, что я не хочу предоставлять номер детали, а просто сгруппировать номера деталей вместе. Использование smallwarp.POLine_Description.value_counts() дает мне близкий результат, но будет ли какой-либо способ соединить value_counts с библиотекой нечеткой wuzzy, чтобы избежать тысяч групп, которые немного отличаются друг от друга, а не группироваться вместе?