Описание тега data-preprocessing

Предварительная обработка может представлять собой структурирование необработанных данных и очистку, чтобы их можно было действительно использовать, до преобразования данных, чтобы их можно было обрабатывать с помощью алгоритмов или улучшать их результаты. Желательно также использовать теги для конкретных методов. Этот тег следует использовать для значимых шагов предварительной обработки в конвейере данных, до алгоритмов или в качестве автономного метода.
0 ответов

Можно ли использовать модель CNN-LSTM для прогнозирования значений определенных целевых переменных из видео?

Скажем, у меня есть видео, на котором человек стоит, что-то говорит и слегка двигается из стороны в сторону. Кроме того, я знаю, что у этого человека 0,1 жира по шкале от 0 до 1. У меня есть 100 таких видео с участием 100 разных людей, а также их оц…
1 ответ

преобразовать несколько coulmns в категории одного столбца в пандах

Это набор данных, который конвертируется с использованием одной горячей кодировки, 0 означает нет, а 1 означает да данные:
1 ответ

Всегда ли стандартизировать все функции по умолчанию - плохая идея?

Есть ли причина не стандартизировать все функции по умолчанию? Я понимаю, что это может быть необходимо, например, не для деревьев решений, а для определенных алгоритмов, таких как KNN, SVM и K-Means. Будет ли вредно делать это для всех моих функций…
0 ответов

Как предварительно обработать данные в формате ниже с помощью Python?

Я изучаю науку о данных и хочу обработать данные для дальнейшего анализа. У меня есть необработанные данные в следующем формате: введите здесь описание изображения. Мне нужны обработанные данные в следующем формате: введите описание изображения здес…
1 ответ

Как выбрать списки с одинаковым идентификатором в Python?

У меня есть фрейм данных, который выглядит так: Обратите внимание, что идентификаторы имеют разную длину. Спасибо за помощь.
22 фев '21 в 18:28
0 ответов

Стандартизация / предварительная обработка данных в Java

Я пытаюсь построить простую нейронную сеть с JAva. Мне не удается найти аналог функций Python KERA, например scale () в Java. Итак, если у меня есть такой массив: double[] arr = {148.0, 85.0, 183.0, 89.0, 137.0, 116.0, 78.0, 115.0, 197.0, 125.0, 110…
1 ответ

Расчетный Robustscaler в sklearn кажется неправильным

Я попробовал Robustscaler в sklearn и обнаружил, что результаты не совпадают с формулой. Формула робустскалера в sklearn: У меня есть матрица, показанная ниже: Я тестирую первые данные в первой функции (первая строка и первый столбец). Масштабируемо…
06 фев '21 в 05:02
0 ответов

Как предварительно обработать данные, имеющие более 200 функций? [закрыто]

Данные состоят примерно из 200 характеристик, большинство из которых категоричны. Данные также состоят из пропущенных значений. Корреляция между ними низкая. Это проблема классификации. Как предварительно обработать данные? Есть ли в Интернете какие…
0 ответов

Какая наилучшая структура должна иметь набор видеоданных, чтобы использовать его с PyTorch? [закрыто]

Я новичок в глубоком обучении и особенно в PyTorch. У меня есть каталог клипов на языке жестов .mp4 и annotations.txt, который включает только метки, соответствующие клипам. Каждый клип - это слово на языке жестов, а каждый ярлык - его перевод на ес…
1 ответ

Перекрестное соединение 2 столбцов в пандах после их разделения на панда

У меня есть два столбца из файла csv: Я хочу обработать их так, чтобы они выглядели вот так Обратите внимание, что они не разделены запятыми (,). Я много чего пробовал, но ни одно из них не помогло. Это задерживало мою работу довольно долгое время. …
0 ответов

Предварительная обработка графиков в BigQuery (использование цикла for со структурой и типом словаря в BigQuery)

Обновлять Я нашел решение с использованием оператора цикла for в bigquery, но оно слишком медленное и слишком дорогое, когда существует много tag_id Это был бы только хороший способ использовать оператор соединения, а не использовать оператор цикла…
0 ответов

Предварительная обработка данных: выбор метода заполнения недостающих данных в наборе данных.

Итак, у меня есть набор данных со следующими заголовками: Во всех атрибутах, кроме SCHOOL_YEAR, отсутствуют значения. Как я могу решить, какой метод использовать для заполнения недостающих значений для каждого атрибута (в Python)? В настоящее время …
07 мар '21 в 19:51
1 ответ

AttributeError: объект 'SimpleImputer' не имеет атрибута 'mean'

Я пытаюсь выполнить предварительную обработку набора данных радужной оболочки глаза, но на этапе вменения я получаю эту ошибку при использовании SimpleImputer для печати среднего значения каждого столбца. вот полный код для справки. Я получаю сообще…
07 мар '21 в 13:41
2 ответа

У меня проблемы с извлечением года из столбца даты этого конкретного набора данных

#Adjust Date Info TSLA['date'] = TSLA['date'].astype(str) TSLA['date'] = pd.to_datetime(TSLA['date']) Тип данных обоих столбцов - объект. Я попытался использовать столбец даты thenn с помощью лямбда-функции для извлечения YYYY-MM-DD, но тип данных …
13 мар '21 в 11:03
1 ответ

Ошибка: слои предварительной обработки Tensorflow не конвертируются в Tensorflow lite

Используя пример на https://www.tensorflow.org/tutorials/structured_data/preprocessing_layers Я создал модель со своими данными. Я хочу сохранить его в формате Tensorflow lite. Я сохраняю как SavedModel, но при конвертации я обнаружил много кодов ош…
3 ответа

Python Pandas: Удалите строки из фрейма данных, если список строковых значений == [none]

У меня есть столбец в моем фрейме данных, содержащий списки значений. Tags [marvel, comics, comic, books, nerdy] [new, snapchat, version, snap, inc] [none] [new, york, times, ny, times, nyt, times] [today, show, today, show, today] [none] [mark, wah…
17 мар '21 в 19:43
1 ответ

Нормализация данных BraTS

В настоящее время я работаю над алгоритмом сверхвысокого разрешения с использованием набора данных BraTS18. У меня проблема с нормализацией данных между [-1, 1]. from tqdm import tqdm import os import numpy as np import SimpleITK as sitk def load_da…
17 мар '21 в 16:46
0 ответов

Уменьшение характеристик и устранение дисбаланса класса, которое необходимо выполнить в первую очередь?

Я работаю над проблемами извлечения признаков и дисбаланса классов, но мне нужен совет, что делать в первую очередь? Уменьшение / выбор функций или сначала справиться с дисбалансом классов?
0 ответов

Предварительная обработка текстовых данных

у меня есть набор файлов txt вот как я открыл файлы filepaths = [os.path.join(root, i) for i in os.listdir(root)] #List of files in the directory for path in filepaths: #ONE FILE FROM THE LIST if os.path.isfile(path): # Open Files fp = open(path, 'r…
20 мар '21 в 01:35
0 ответов

Прогнозирование и создание несуществующих функций. Машинное обучение

Я пытаюсь предсказать исход футбольного матча. Я хочу найти конкретные особенности совпадения с прошлыми функциями. Например, у меня есть результаты матчей английской Премьер-лиги за 2016 год с некоторой статистикой, такой как примерный счетчик удар…