Нечеткие совпадающие номера деталей

Question

Нечеткие совпадающие номера деталей

В настоящее время у меня есть список номеров деталей, которые необходимо классифицировать. Они могут иметь различные формы, такие как - Часть: XYZK-RF или Аллен Часть: XYZK-RF - Датчик. Код ниже работает для передачи списка номеров деталей в.

def fuzzy_matchMulti(x, choices, scorer, cutoff, limit):
try:
    return process.extractBests(
    x, choices=choices, scorer=scorer, score_cutoff=cutoff, limit=limit
    )
except:
    x = str(x)
    return process.extractBests(
    x, choices=choices, scorer=scorer, score_cutoff=cutoff, limit=limit
    )

f = smallSens['Drive Part Numbers'].apply(fuzzy_matchMulti, 
                                            args=(smallwarp['POLine_Description'], 
                                                  fuzz.token_set_ratio, 
                                                  95, 
                                                  5))

Теперь проблема заключается в том, что я не хочу предоставлять номер детали, а просто сгруппировать номера деталей вместе. Использование smallwarp.POLine_Description.value_counts() дает мне близкий результат, но будет ли какой-либо способ соединить value_counts с библиотекой нечеткой wuzzy, чтобы избежать тысяч групп, которые немного отличаются друг от друга, а не группироваться вместе?

0

python python-3.x pandas data-science fuzzy-search

Источник

user5863941 20 фев '18 в 16:55

0 ответов

Другие вопросы по тегам python python-3.x pandas data-science fuzzy-search