Описание тега drop-duplicates

вопросы, связанные с удалением (или удалением) нежелательных повторяющихся значений
1 ответ

Падение дубликатов не работает на мой импортированный CSV-файл

Нужна помощь в этом. Я не знаю, почему, но падение дубликатов не работает, попробовал цикл с лямбда. все еще ничего, что я могу сделать, удалит многократные дубликаты на выходе. # Import files for use in the program: import pandas as pd import os im…
11 окт '18 в 04:43
1 ответ

Ищете аналог pd.DataFrame.drop_duplicates(), где порядок не имеет значения

Я хотел бы использовать что-то похожее на удаление дубликатов DataFrame. Я бы хотел, чтобы порядок столбцов не имел значения. Я имею в виду, что функция должна рассматривать строку, состоящую из записей 'a', 'b' быть идентичным строке, состоящей из …
2 ответа

Есть ли более быстрая альтернатива col.drop_duplicates()?

Я пытаюсь удалить дубликаты данных в моем фрейме данных (CSV) и получить отдельный CSV, чтобы показать уникальные ответы каждого столбца. Проблема в том, что мой код работал в течение дня (22 часа, если быть точным). Я открыт для некоторых других пр…
0 ответов

Spark Структурированная потоковая передача. Считайте, что Кафка показывает проблему тайм-аута при использовании dropDuplicates.

Время ожидания возникает, когда я использую dropDuplicates. Настройка следующая, 1) Spark Structured Streaming Program читает данные из Kafka 2) Поскольку мне нужно дедуплицировать строки в соответствии со столбцом с именем id, для решения этой проб…
2 ответа

Использование дубликатов значений из одного столбца для удаления всей строки в кадре данных панд

У меня есть данные в CSV-файл, загруженный по следующей ссылке Нажмите здесь для данных В этом файле у меня есть следующие столбцы Team Group Model SimStage Points GpWinner GpRunnerup 3rd 4th Будут дубликаты в колонках Team. Еще одна колонка - это S…
22 июн '18 в 07:22
3 ответа

drop_duplicates() перестал работать в пандах Python

Этот код ранее работал в Python 3 для удаления повторяющихся значений, но сохранял первое вхождение во всем фрейме данных. После возвращения к моему сценарию это больше не удаляет дубликаты в фрейме данных pandas. df = df.apply(lambda x: x.drop_dupl…
27 ноя '18 в 14:24
2 ответа

Хранение последних N дубликатов в пандах

Учитывая данные кадра: >>> import pandas as pd >>> lol = [['a', 1, 1], ['b', 1, 2], ['c', 1, 4], ['c', 2, 9], ['b', 2, 10], ['x', 2, 5], ['d', 2, 3], ['e', 3, 5], ['d', 2, 10], ['a', 3, 5]] >>> df = pd.DataFrame(lol) >&…
17 окт '17 в 01:32
1 ответ

Пользовательская логика для удаления дубликатов

У меня есть следующий набор данных, к которому я надеюсь применить некоторую пользовательскую логику: data = pd.DataFrame({'ID': ['A','B','B','C','C','D','D'], 'Date': ['2018-07-02T02:21:12.000+0000','2018-07-02T02:28:29.000+0000','2018-07-02T02:28:…
19 июл '18 в 15:22
1 ответ

Как выразить логику дедупликации событий при обработке потока Сиддхи

Привет: мне нужна следующая логика дедупликации, которая будет реализована при обработке потока Сиддхи. Предположим, у меня есть InputStream, и я хочу создать OutputStream следующим образом: (1) когда событие является первым (поскольку запускается м…
14 июн '18 в 22:35
3 ответа

Удаление дубликатов только внутри групп

Я хочу удалить дубликаты только в определенных подмножествах из фрейма данных. Под каждой "спецификацией" в столбце "A" я хочу отбросить дубликаты, но хочу сохранить дубликаты во всем фрейме данных (возможно иметь несколько строк под первой "специфи…
1 ответ

Почему PySpark dropDuplicates и Join дает результаты ODD

PySpark дает мне немного странные результаты после dropDuplicates и объединения наборов данных. Ситуация такова, что есть два очень больших набора данных: один с идентификатором людей и некоторыми переменными, а второй с их region_code первый набор …
31 май '18 в 13:21
8 ответов

Удалить все повторяющиеся строки в Python Pandas

pandas drop_duplicates Функция отлично подходит для "унификации" данных. Тем не менее, один из ключевых аргументов для передачи является take_last=True или же take_last=Falseв то время как я хотел бы отбросить все строки, которые являются дубликатам…
15 май '14 в 00:31
2 ответа

Как получить последнее значение с помощью dropDuplicates()?

Допустим, у меня есть следующий искровой фрейм данных (df): Как видно, в столбце "Timestamp" есть повторяющиеся значения, и я хочу избавиться от них, оставив строки, в которых "Timestamp" имеет уникальные значения. Я попытался удалить дубликаты с по…
1 ответ

Pyspark: удалить дубликаты, если между двумя столбцами есть обратный

У меня есть dataframe (около 20000000 строк), и я хотел бы удалить дубликаты из dataframe для двух столбцов, если эти столбцы имеют одинаковые значения, или даже если эти значения находятся в обратном порядке. Например, оригинальный фрейм данных: +-…
14 мар '19 в 06:46
1 ответ

Панды включающие уникальные значения из двух столбцов

Я не могу найти элегантный способ выбрать уникальные строки из столбца A и колонка B но не совместно и не в последовательности. Это сделано для того, чтобы сохранить "инклюзивное" пересечение уникальных значений из этих двух столбцов. Моя цель - сох…
15 мар '19 в 12:45
2 ответа

Как drop_duplicate, используя разные условия для группы?

У меня есть dataFrame, и мне нужно удалить дубликаты на группу ('col1') на основе минимального значения в другом столбце 'abs(col1 - col2)', но мне нужно изменить это условие для последней группы, приняв максимальное значение в "abs (col1 - col2)", …
28 мар '19 в 03:31
1 ответ

Отбросить все строки группы при выполнении условия?

У меня есть панды данных фрейм имеют двухуровневую группу на основе col10 ' а также ' col1 '. Все, что я хочу сделать, это удалить все строки группы, если указанное значение в другом столбце повторялось или это значение не существовало в группе (ост…
31 мар '19 в 15:00
0 ответов

Pandas drop_duplicates -> Фатальная ошибка Python: освобождение None

У меня есть код, который проверяет лист Excel, и если он находит какие-то изменения, то делает снимок (Pandas Dataframe) всего листа и сохраняет его в CSV с отметкой времени. Он работал весь день, выполняя свою работу правильно, но обычно один или д…
05 апр '19 в 20:06
1 ответ

Я не могу понять, почему я не могу удалить дубликаты из Dand Pandas

Я пытаюсь обновить Pandas Dataframe данными из API и записать их в.csv, я должен быть уверен, что он не содержит повторяющихся строк. Я проверил здесь, чтобы увидеть, в чем может быть проблема (например, забыл добавить inplace=True), но это не так. …
13 апр '19 в 15:31
1 ответ

Pyspark dataframe не сбрасывает все дубликаты

Я застрял на том, что кажется простой проблемой, но я не вижу, что я делаю неправильно, или почему ожидаемое поведение.dropDuplicates() не работает. переменная, которую я использую: print type(pk) <type 'tuple'> print pk ('column1', 'column4')…
19 апр '19 в 12:39