Описание тега drop-duplicates

Описание тега Вопросы с тегом

вопросы, связанные с удалением (или удалением) нежелательных повторяющихся значений

1 ответ

Падение дубликатов не работает на мой импортированный CSV-файл

Нужна помощь в этом. Я не знаю, почему, но падение дубликатов не работает, попробовал цикл с лямбда. все еще ничего, что я могу сделать, удалит многократные дубликаты на выходе. # Import files for use in the program: import pandas as pd import os im…

pandas drop-duplicates

11 окт '18 в 04:43

1 ответ

Ищете аналог pd.DataFrame.drop_duplicates(), где порядок не имеет значения

Я хотел бы использовать что-то похожее на удаление дубликатов DataFrame. Я бы хотел, чтобы порядок столбцов не имел значения. Я имею в виду, что функция должна рассматривать строку, состоящую из записей 'a', 'b' быть идентичным строке, состоящей из …

28 янв '18 в 11:22

2 ответа

Есть ли более быстрая альтернатива col.drop_duplicates()?

Я пытаюсь удалить дубликаты данных в моем фрейме данных (CSV) и получить отдельный CSV, чтобы показать уникальные ответы каждого столбца. Проблема в том, что мой код работал в течение дня (22 часа, если быть точным). Я открыт для некоторых других пр…

python-3.x pandas jupyter-notebook drop-duplicates

15 янв '19 в 10:25

0 ответов

Spark Структурированная потоковая передача. Считайте, что Кафка показывает проблему тайм-аута при использовании dropDuplicates.

Время ожидания возникает, когда я использую dropDuplicates. Настройка следующая, 1) Spark Structured Streaming Program читает данные из Kafka 2) Поскольку мне нужно дедуплицировать строки в соответствии со столбцом с именем id, для решения этой проб…

apache-kafka spark-structured-streaming drop-duplicates

17 дек '18 в 13:40

2 ответа

Использование дубликатов значений из одного столбца для удаления всей строки в кадре данных панд

У меня есть данные в CSV-файл, загруженный по следующей ссылке Нажмите здесь для данных В этом файле у меня есть следующие столбцы Team Group Model SimStage Points GpWinner GpRunnerup 3rd 4th Будут дубликаты в колонках Team. Еще одна колонка - это S…

python-3.x pandas drop-duplicates

22 июн '18 в 07:22

3 ответа

drop_duplicates() перестал работать в пандах Python

Этот код ранее работал в Python 3 для удаления повторяющихся значений, но сохранял первое вхождение во всем фрейме данных. После возвращения к моему сценарию это больше не удаляет дубликаты в фрейме данных pandas. df = df.apply(lambda x: x.drop_dupl…

python pandas duplicates drop-duplicates

27 ноя '18 в 14:24

2 ответа

Хранение последних N дубликатов в пандах

Учитывая данные кадра: >>> import pandas as pd >>> lol = [['a', 1, 1], ['b', 1, 2], ['c', 1, 4], ['c', 2, 9], ['b', 2, 10], ['x', 2, 5], ['d', 2, 3], ['e', 3, 5], ['d', 2, 10], ['a', 3, 5]] >>> df = pd.DataFrame(lol) >&…

python pandas dataframe drop-duplicates

17 окт '17 в 01:32

1 ответ

Пользовательская логика для удаления дубликатов

У меня есть следующий набор данных, к которому я надеюсь применить некоторую пользовательскую логику: data = pd.DataFrame({'ID': ['A','B','B','C','C','D','D'], 'Date': ['2018-07-02T02:21:12.000+0000','2018-07-02T02:28:29.000+0000','2018-07-02T02:28:…

python pandas drop-duplicates

19 июл '18 в 15:22

1 ответ

Как выразить логику дедупликации событий при обработке потока Сиддхи

Привет: мне нужна следующая логика дедупликации, которая будет реализована при обработке потока Сиддхи. Предположим, у меня есть InputStream, и я хочу создать OutputStream следующим образом: (1) когда событие является первым (поскольку запускается м…

cep siddhi wso2cep drop-duplicates wso2sp

14 июн '18 в 22:35

3 ответа

Удаление дубликатов только внутри групп

Я хочу удалить дубликаты только в определенных подмножествах из фрейма данных. Под каждой "спецификацией" в столбце "A" я хочу отбросить дубликаты, но хочу сохранить дубликаты во всем фрейме данных (возможно иметь несколько строк под первой "специфи…

python pandas dataframe group-by drop-duplicates

26 дек '18 в 09:19

1 ответ

Почему PySpark dropDuplicates и Join дает результаты ODD

PySpark дает мне немного странные результаты после dropDuplicates и объединения наборов данных. Ситуация такова, что есть два очень больших набора данных: один с идентификатором людей и некоторыми переменными, а второй с их region_code первый набор …

python pyspark left-join drop-duplicates

31 май '18 в 13:21

8 ответов

Удалить все повторяющиеся строки в Python Pandas

pandas drop_duplicates Функция отлично подходит для "унификации" данных. Тем не менее, один из ключевых аргументов для передачи является take_last=True или же take_last=Falseв то время как я хотел бы отбросить все строки, которые являются дубликатам…

python pandas duplicates drop-duplicates

15 май '14 в 00:31

2 ответа

Как получить последнее значение с помощью dropDuplicates()?

Допустим, у меня есть следующий искровой фрейм данных (df): Как видно, в столбце "Timestamp" есть повторяющиеся значения, и я хочу избавиться от них, оставив строки, в которых "Timestamp" имеет уникальные значения. Я попытался удалить дубликаты с по…

dataframe apache-spark pyspark drop-duplicates

10 май '19 в 11:11

1 ответ

Pyspark: удалить дубликаты, если между двумя столбцами есть обратный

У меня есть dataframe (около 20000000 строк), и я хотел бы удалить дубликаты из dataframe для двух столбцов, если эти столбцы имеют одинаковые значения, или даже если эти значения находятся в обратном порядке. Например, оригинальный фрейм данных: +-…

pyspark drop-duplicates

14 мар '19 в 06:46

1 ответ

Панды включающие уникальные значения из двух столбцов

Я не могу найти элегантный способ выбрать уникальные строки из столбца A и колонка B но не совместно и не в последовательности. Это сделано для того, чтобы сохранить "инклюзивное" пересечение уникальных значений из этих двух столбцов. Моя цель - сох…

python pandas filter unique drop-duplicates

15 мар '19 в 12:45

2 ответа

Как drop_duplicate, используя разные условия для группы?

У меня есть dataFrame, и мне нужно удалить дубликаты на группу ('col1') на основе минимального значения в другом столбце 'abs(col1 - col2)', но мне нужно изменить это условие для последней группы, приняв максимальное значение в "abs (col1 - col2)", …

python pandas grouping drop-duplicates

28 мар '19 в 03:31

1 ответ

Отбросить все строки группы при выполнении условия?

У меня есть панды данных фрейм имеют двухуровневую группу на основе col10 ' а также ' col1 '. Все, что я хочу сделать, это удалить все строки группы, если указанное значение в другом столбце повторялось или это значение не существовало в группе (ост…

pandas pandas-groupby drop-duplicates

31 мар '19 в 15:00

0 ответов

Pandas drop_duplicates -> Фатальная ошибка Python: освобождение None

У меня есть код, который проверяет лист Excel, и если он находит какие-то изменения, то делает снимок (Pandas Dataframe) всего листа и сохраняет его в CSV с отметкой времени. Он работал весь день, выполняя свою работу правильно, но обычно один или д…

python pandas drop-duplicates

05 апр '19 в 20:06

1 ответ

Я не могу понять, почему я не могу удалить дубликаты из Dand Pandas

Я пытаюсь обновить Pandas Dataframe данными из API и записать их в.csv, я должен быть уверен, что он не содержит повторяющихся строк. Я проверил здесь, чтобы увидеть, в чем может быть проблема (например, забыл добавить inplace=True), но это не так. …

python pandas drop-duplicates

13 апр '19 в 15:31

1 ответ

Pyspark dataframe не сбрасывает все дубликаты

Я застрял на том, что кажется простой проблемой, но я не вижу, что я делаю неправильно, или почему ожидаемое поведение.dropDuplicates() не работает. переменная, которую я использую: print type(pk) <type 'tuple'> print pk ('column1', 'column4')…

python pyspark drop-duplicates

19 апр '19 в 12:39