Описание тега deduplication
Дедупликация - это процесс удаления дублированных или избыточных данных из базы данных.
0
ответов
Удаление дубликатов миллионов строк с помощью LOAD DATA INFILE или другого решения
Добрый день всем. Я знаю, что эта тема часто поднимается и прошу прощения за любую избыточность, но вы нужны мне, гуру MYSQL. Я пробовал несколько решений, которые были размещены здесь безрезультатно. Решения либо занимают слишком много времени, и /…
16 авг '13 в 14:53
1
ответ
Рекомендации по дедупликации для хранения электронной почты
Предлагаемая модель хранения заключается в том, чтобы хранить вложения в отдельных файлах (или больших двоичных объектах) и сохранять само сообщение электронной почты в виде составного сообщения MIME со ссылками на вложенный файл и его кодировку. Эт…
25 янв '12 в 14:57
0
ответов
Как удалить дубликаты из XML, загруженные из Интернета в программировании iOS
Скажите, если бы я проанализировал следующие профили из XML-файла в Интернете и хотел удалить дубликаты, как бы я это сделал? Например, есть 2 профиля с одинаковыми именами (Amin), и я хочу отображать только 1. Я отображаю все профили, проанализиров…
30 дек '13 в 11:28
2
ответа
Дедупликация между строками с сохранением идентификационной метки
Проблема с JavaScript Можно ли это сделать? У меня есть входной массив, содержащий что-нибудь от 2 до 5 строк, каждая с меткой, разделенной точкой с запятой, чтобы идентифицировать его. Мне нужно дедуплицировать, чтобы выходные данные удаляли дублик…
19 фев '15 в 14:37
2
ответа
Дедуплицирующие множества n-грамм
Мне нужно придумать способ сортировки и отображения наиболее важных данных для пользователей. Наши данные состоят из нескольких n-грамм, извлеченных из социальных сетей. Мы называем эти "темы". Проблема, с которой я сталкиваюсь, заключается в том, ч…
30 сен '13 в 13:28
2
ответа
Дедупликация похожих, но не идентичных URL с помощью SQL-запроса
У меня есть набор данных с тысячами URL-адресов, хранящихся в столбце под названием Website (тип VARCHAR) в таблице под названием WebsiteData, Существует много пар URL-адресов (хранящихся в отдельных строках), которые идентичны, за исключением того,…
25 сен '14 в 15:38
1
ответ
Улучшение времени выполнения для дедупликации списков на основе только определенных столбцов в Python
У меня есть CSV два файла. Я пытаюсь удалить все строки, где определенные столбцы совпадают. Я думал, что я буду использовать списки в Python, чтобы сделать это. Я думал, что это будет быстро, но слишком медленно. Я только хочу сравнить первые 3 сто…
25 фев '15 в 00:57
3
ответа
Java 8 String дедупликация против String.intern()
Я читаю о функции в Java 8 обновление 20 для дедупликации строк ( дополнительная информация), но я не уверен, что это в основном делает String.intern() устарели. Я знаю, что эта функция JVM нуждается в сборщике мусора G1, который не может быть вариа…
29 сен '15 в 22:46
0
ответов
ГБД: Lessss; Как отследить
Я пытаюсь отследить эту программу с открытым исходным кодом под названием lessfs: и встроенную файловую систему дедупликации данных для Linux, но у меня возникают проблемы с пошаговым пошаговым использованием GDB Уроки можно найти здесь: http://www.…
08 июл '14 в 20:06
1
ответ
Есть ли прозрачная дедупликация для больших двоичных данных в PostgreSQL?
У нас есть приложение, которое хранит большие двоичные данные в виде больших объектов в базе данных PostgreSQL, и теперь у нас есть сценарий использования, при котором мы работаем с этими данными таким образом, что мы знаем, что части этих уже сохра…
24 мар '14 в 11:12
0
ответов
Эффекты фильтра Solr, видимые в анализаторе, но не в баллах
Как часть моего определения fieldType у меня есть фильтр, который можно найти здесь https://github.com/gaillard/solr-filter-dedup который будет дедуплицировать токены в этом поле. Когда я использую анализатор solr, я вижу, что для индексатора удаляю…
14 авг '14 в 20:43
1
ответ
Метка:- XMLContent De-duplication
Вопрос 1---> В настоящее время я работаю над проектом, в котором мы переводим английский контент на другие 17 языков. Чтобы снизить стоимость перевода, в настоящее время мы используем хэш-код MD5, и на основе результатов мы решаем, является ли тема …
21 июл '15 в 19:44
1
ответ
SQL-запрос для сопоставления дублированных записей для обогащения данных
Я довольно новичок в PostgreSQL. Я планирую запустить набор данных продуктов через механический турок, чтобы обогатить данные информацией о ценах. Проблема в том, что у меня есть 80000 записей, загруженных пользователями, многие из которых в действи…
03 ноя '14 в 23:16
5
ответов
Какой лучший способ удалить дубликаты из строки в PHP (или любом другом языке)?
Я ищу самый известный алгоритм для удаления дубликатов из строки. Я могу придумать множество способов сделать это, но я ищу решение, которое известно как особенно эффективное. Допустим, у вас есть следующие строки: Lorem Ipsum Lorem Ipsum Lorem Lore…
16 мар '11 в 19:59
5
ответов
Дедупликация таблицы SQL Server
У меня есть проблема. У меня есть таблица с почти 2 миллиардами строк (да, я знаю...) и в ней много дублирующих данных, которые я хотел бы удалить из нее. Мне было интересно, как именно это сделать? Столбцы: first, last, dob, address, city, state, z…
07 авг '14 в 01:36
3
ответа
Дедупликация записей базы данных, сравнивая значения в многочисленных полях
Поэтому я пытаюсь очистить некоторые записи телефона в таблице базы данных. Я узнал, как найти точные совпадения в 2 полях, используя: /* DUPLICATE first & last names */ SELECT `First Name`, `Last Name`, COUNT(*) c FROM phone.contacts GROUP BY `…
15 авг '13 в 09:49
3
ответа
Как я могу удалить дубликаты (дедупликацию) почтового ящика в формате mbox?
У меня есть почтовый ящик mbox, содержащий дубликаты сообщений, которые отличаются только своим заголовком "X-Evolution:". Я хочу удалить дубликаты как можно быстрее и проще. Кажется, что это уже было бы написано, но я не нашел его, хотя я посмотрел…
09 май '12 в 19:06
3
ответа
Как получить уникальные строки с помощью класса SET из Arraylist из "Arraylist string objects" класса Type Setters & Getters
Мне нужна ваша помощь в Java-коде, например, как я могу получить уникальные записи из массива, который является многомерным массивом приведения класса объектов Value (сеттеров и геттеров). Я читаю таблицу и помещаю все записи в список авторов. "Табл…
26 мар '14 в 00:51
2
ответа
Создание приложения для дедупликации для OS X, что / как я должен использовать в качестве хэша для файлов
Я собираюсь отправиться в путешествие по программированию, которое, несомненно, закончится неудачей и / или пробросит мою мышь через мой Mac, но это интересная проблема. Я хочу создать приложение, которое сканирует, начиная с некоторого базового кат…
28 ноя '11 в 03:43
1
ответ
Удалить дубликаты из таблицы LUA по метке времени
Я был в стеке несколько дней назад для помощи вставки записей, чтобы предотвратить дублирование. Однако процесс их ввода идет медленно и они проскальзывают. У меня есть база пользователей около 10000 игроков, и у них есть дубликаты записей. Я пыталс…
23 апр '14 в 03:50