Уменьшить список строковых значений по показателю сходства

Я сталкиваюсь с проблемой машинного обучения; Учебные данные состоят из числовых, категориальных и дат. Я начал тренироваться только на основе чисел и дат (которые я конвертировал в числа, используя эпоху, день недели, часы и т. Д.). Помимо плохой оценки, показатели очень хорошие (секунды обучения на миллион входов).

Проблема с категориями, большинство из которых имеют значения до тысяч.

Ценности состоят из марок оборудования, комментариев и т. Д. И вводятся по-человечески, поэтому я предполагаю, что есть много сходств. Я могу пожертвовать немного представлением о реальном мире через данные (счет Хенсе) для осуществимости (время обучения).

Задача программирования: я пришел к этому из этого хорошего анализа производительности

import difflib

def gcm1(strings):
    clusters = {}
    co = 0
    for string in (x for x in strings):
        if(co % 10000 == 0 ):
            print(co)
        co = co +1    
        if string in clusters:
            clusters[string].append(string)
        else:
            match = difflib.get_close_matches(string, clusters.keys(), 1, 0.90)
            if match:
                clusters[match[0]].append(string)
            else:
                clusters[string] = [ string ]
    return clusters

def reduce(lines_):
    clusters = gcm1(lines_)
    clusters = dict( (v,k) for k in clusters for v in clusters[k] )
    return [clusters.get(item,item) for item in lines_]

Примером этого является:

reduce(['XHSG11', 'XHSG8', 'DOIIV', 'D.OIIV ', ...] 
=> ['XHSG11', 'XHSG11', 'DOIIV', 'DOIIV ', ...] 

Я очень привязан к Python, поэтому не смог запустить другой реализованный код на C. Очевидно, что функция difflib.get_close_matches в каждой итерации является самой жадной.

Есть ли лучшая альтернатива? или лучший метод моего алгоритма?

Как я уже говорил о миллионах записей, скажем, о 10 столбцах, я даже не могу оценить, когда алгоритм остановится (более 3 часов и все еще работает на моих 16 гигабайтах оперативной памяти и процессоре i7 4790k)

Данные как (извлечение):

    Comments:  [nan '1er rdv' '16H45-VE' 'VTE 2016 APRES 9H'
     'ARM : SERENITE DV. RECUP.CONTRAT. VERIF TYPE APPAREIL. RECTIF TVA SI NECESSAIRE']
    422227 different values

    MODELE_CODE:  ['VIESK02534' 'CMA6781031' 'ELMEGLM23HNATVMC' 'CMACALYDRADELTA2428FF'
     'FBEZZCIAO3224SVMC']
    10206 values

    MARQUE_LIB:  ['VIESSMANN' 'CHAFFOTEAUX ET MAURY' 'ELM LEBLANC' 'FR BG' 'CHAPPEE']
    167 values 
... more columns

0 ответов

Другие вопросы по тегам