Удаление дубликатов миллионов строк с помощью LOAD DATA INFILE или другого решения

Question

Удаление дубликатов миллионов строк с помощью LOAD DATA INFILE или другого решения

Добрый день всем. Я знаю, что эта тема часто поднимается и прошу прощения за любую избыточность, но вы нужны мне, гуру MYSQL.

Я пробовал несколько решений, которые были размещены здесь безрезультатно. Решения либо занимают слишком много времени, и / или, скорее всего, у меня просто нет базы знаний, чтобы выполнить эту задачу в сжатые сроки, и мне нужно руководство. Наиболее распространенные ответы, которые, кажется, имеют смысл - это использовать LOAD DATA INFILE из временной таблицы, но нужно ли разбивать файл и разбивать его на куски, использовать циклические сценарии? Я знаю, что это помогло бы многим новичкам здесь для полного примера и объяснения и, возможно, уложило бы это в кровать раз и навсегда для вас, ребята, которые пытаются помочь. Мой пень может быть из-за использования параметров с IGNORE или REPLACE. Вот две таблицы:

Таблица 1 имеет 27 миллионов строк и дубликатов, основанных на человеке с более чем одним недугом, например:

first|last|zip|gender|address|city|state|zip|zip4|birthdate|ailment
-------------------------------------------------------------------
Jay   R    123  M     2 Help  LA   CA    123 123  8/23/86   21
Tom   L    123  M     2 Help  LA   CA    123 123  8/23/86   1

В таблице 2 есть 3 миллиона строк и два пустых столбца, но нет внутренних дубликатов по недугам.

first|last|zip|gender|address|city|state|zip|zip4|ailment|birthdate
-------------------------------------------------------------------
Jay   R    123  M     2 Help  LA   CA   123 NULL  NULL     8/23/86

Я ищу обман на основе первого, последнего и почтового индекса. Я потеряю немного данных, чтобы обработать это быстрее, если это поможет. Я более чем благодарен за эту помощь.

2

sql mysql deduplication

Источник

user2689658 16 авг '13 в 14:53

0 ответов

Другие вопросы по тегам sql mysql deduplication