Удаление дубликатов миллионов строк с помощью LOAD DATA INFILE или другого решения
Добрый день всем. Я знаю, что эта тема часто поднимается и прошу прощения за любую избыточность, но вы нужны мне, гуру MYSQL.
Я пробовал несколько решений, которые были размещены здесь безрезультатно. Решения либо занимают слишком много времени, и / или, скорее всего, у меня просто нет базы знаний, чтобы выполнить эту задачу в сжатые сроки, и мне нужно руководство. Наиболее распространенные ответы, которые, кажется, имеют смысл - это использовать LOAD DATA INFILE из временной таблицы, но нужно ли разбивать файл и разбивать его на куски, использовать циклические сценарии? Я знаю, что это помогло бы многим новичкам здесь для полного примера и объяснения и, возможно, уложило бы это в кровать раз и навсегда для вас, ребята, которые пытаются помочь. Мой пень может быть из-за использования параметров с IGNORE или REPLACE. Вот две таблицы:
Таблица 1 имеет 27 миллионов строк и дубликатов, основанных на человеке с более чем одним недугом, например:
first|last|zip|gender|address|city|state|zip|zip4|birthdate|ailment
-------------------------------------------------------------------
Jay R 123 M 2 Help LA CA 123 123 8/23/86 21
Tom L 123 M 2 Help LA CA 123 123 8/23/86 1
В таблице 2 есть 3 миллиона строк и два пустых столбца, но нет внутренних дубликатов по недугам.
first|last|zip|gender|address|city|state|zip|zip4|ailment|birthdate
-------------------------------------------------------------------
Jay R 123 M 2 Help LA CA 123 NULL NULL 8/23/86
Я ищу обман на основе первого, последнего и почтового индекса. Я потеряю немного данных, чтобы обработать это быстрее, если это поможет. Я более чем благодарен за эту помощь.