Описание тега drop-duplicates
вопросы, связанные с удалением (или удалением) нежелательных повторяющихся значений
1
ответ
Падение дубликатов не работает на мой импортированный CSV-файл
Нужна помощь в этом. Я не знаю, почему, но падение дубликатов не работает, попробовал цикл с лямбда. все еще ничего, что я могу сделать, удалит многократные дубликаты на выходе. # Import files for use in the program: import pandas as pd import os im…
11 окт '18 в 04:43
1
ответ
Ищете аналог pd.DataFrame.drop_duplicates(), где порядок не имеет значения
Я хотел бы использовать что-то похожее на удаление дубликатов DataFrame. Я бы хотел, чтобы порядок столбцов не имел значения. Я имею в виду, что функция должна рассматривать строку, состоящую из записей 'a', 'b' быть идентичным строке, состоящей из …
28 янв '18 в 11:22
2
ответа
Есть ли более быстрая альтернатива col.drop_duplicates()?
Я пытаюсь удалить дубликаты данных в моем фрейме данных (CSV) и получить отдельный CSV, чтобы показать уникальные ответы каждого столбца. Проблема в том, что мой код работал в течение дня (22 часа, если быть точным). Я открыт для некоторых других пр…
15 янв '19 в 10:25
0
ответов
Spark Структурированная потоковая передача. Считайте, что Кафка показывает проблему тайм-аута при использовании dropDuplicates.
Время ожидания возникает, когда я использую dropDuplicates. Настройка следующая, 1) Spark Structured Streaming Program читает данные из Kafka 2) Поскольку мне нужно дедуплицировать строки в соответствии со столбцом с именем id, для решения этой проб…
17 дек '18 в 13:40
2
ответа
Использование дубликатов значений из одного столбца для удаления всей строки в кадре данных панд
У меня есть данные в CSV-файл, загруженный по следующей ссылке Нажмите здесь для данных В этом файле у меня есть следующие столбцы Team Group Model SimStage Points GpWinner GpRunnerup 3rd 4th Будут дубликаты в колонках Team. Еще одна колонка - это S…
22 июн '18 в 07:22
3
ответа
drop_duplicates() перестал работать в пандах Python
Этот код ранее работал в Python 3 для удаления повторяющихся значений, но сохранял первое вхождение во всем фрейме данных. После возвращения к моему сценарию это больше не удаляет дубликаты в фрейме данных pandas. df = df.apply(lambda x: x.drop_dupl…
27 ноя '18 в 14:24
2
ответа
Хранение последних N дубликатов в пандах
Учитывая данные кадра: >>> import pandas as pd >>> lol = [['a', 1, 1], ['b', 1, 2], ['c', 1, 4], ['c', 2, 9], ['b', 2, 10], ['x', 2, 5], ['d', 2, 3], ['e', 3, 5], ['d', 2, 10], ['a', 3, 5]] >>> df = pd.DataFrame(lol) >&…
17 окт '17 в 01:32
1
ответ
Пользовательская логика для удаления дубликатов
У меня есть следующий набор данных, к которому я надеюсь применить некоторую пользовательскую логику: data = pd.DataFrame({'ID': ['A','B','B','C','C','D','D'], 'Date': ['2018-07-02T02:21:12.000+0000','2018-07-02T02:28:29.000+0000','2018-07-02T02:28:…
19 июл '18 в 15:22
1
ответ
Как выразить логику дедупликации событий при обработке потока Сиддхи
Привет: мне нужна следующая логика дедупликации, которая будет реализована при обработке потока Сиддхи. Предположим, у меня есть InputStream, и я хочу создать OutputStream следующим образом: (1) когда событие является первым (поскольку запускается м…
14 июн '18 в 22:35
3
ответа
Удаление дубликатов только внутри групп
Я хочу удалить дубликаты только в определенных подмножествах из фрейма данных. Под каждой "спецификацией" в столбце "A" я хочу отбросить дубликаты, но хочу сохранить дубликаты во всем фрейме данных (возможно иметь несколько строк под первой "специфи…
26 дек '18 в 09:19
1
ответ
Почему PySpark dropDuplicates и Join дает результаты ODD
PySpark дает мне немного странные результаты после dropDuplicates и объединения наборов данных. Ситуация такова, что есть два очень больших набора данных: один с идентификатором людей и некоторыми переменными, а второй с их region_code первый набор …
31 май '18 в 13:21
8
ответов
Удалить все повторяющиеся строки в Python Pandas
pandas drop_duplicates Функция отлично подходит для "унификации" данных. Тем не менее, один из ключевых аргументов для передачи является take_last=True или же take_last=Falseв то время как я хотел бы отбросить все строки, которые являются дубликатам…
15 май '14 в 00:31
2
ответа
Как получить последнее значение с помощью dropDuplicates()?
Допустим, у меня есть следующий искровой фрейм данных (df): Как видно, в столбце "Timestamp" есть повторяющиеся значения, и я хочу избавиться от них, оставив строки, в которых "Timestamp" имеет уникальные значения. Я попытался удалить дубликаты с по…
10 май '19 в 11:11
1
ответ
Pyspark: удалить дубликаты, если между двумя столбцами есть обратный
У меня есть dataframe (около 20000000 строк), и я хотел бы удалить дубликаты из dataframe для двух столбцов, если эти столбцы имеют одинаковые значения, или даже если эти значения находятся в обратном порядке. Например, оригинальный фрейм данных: +-…
14 мар '19 в 06:46
1
ответ
Панды включающие уникальные значения из двух столбцов
Я не могу найти элегантный способ выбрать уникальные строки из столбца A и колонка B но не совместно и не в последовательности. Это сделано для того, чтобы сохранить "инклюзивное" пересечение уникальных значений из этих двух столбцов. Моя цель - сох…
15 мар '19 в 12:45
2
ответа
Как drop_duplicate, используя разные условия для группы?
У меня есть dataFrame, и мне нужно удалить дубликаты на группу ('col1') на основе минимального значения в другом столбце 'abs(col1 - col2)', но мне нужно изменить это условие для последней группы, приняв максимальное значение в "abs (col1 - col2)", …
28 мар '19 в 03:31
1
ответ
Отбросить все строки группы при выполнении условия?
У меня есть панды данных фрейм имеют двухуровневую группу на основе col10 ' а также ' col1 '. Все, что я хочу сделать, это удалить все строки группы, если указанное значение в другом столбце повторялось или это значение не существовало в группе (ост…
31 мар '19 в 15:00
0
ответов
Pandas drop_duplicates -> Фатальная ошибка Python: освобождение None
У меня есть код, который проверяет лист Excel, и если он находит какие-то изменения, то делает снимок (Pandas Dataframe) всего листа и сохраняет его в CSV с отметкой времени. Он работал весь день, выполняя свою работу правильно, но обычно один или д…
05 апр '19 в 20:06
1
ответ
Я не могу понять, почему я не могу удалить дубликаты из Dand Pandas
Я пытаюсь обновить Pandas Dataframe данными из API и записать их в.csv, я должен быть уверен, что он не содержит повторяющихся строк. Я проверил здесь, чтобы увидеть, в чем может быть проблема (например, забыл добавить inplace=True), но это не так. …
13 апр '19 в 15:31
1
ответ
Pyspark dataframe не сбрасывает все дубликаты
Я застрял на том, что кажется простой проблемой, но я не вижу, что я делаю неправильно, или почему ожидаемое поведение.dropDuplicates() не работает. переменная, которую я использую: print type(pk) <type 'tuple'> print pk ('column1', 'column4')…
19 апр '19 в 12:39