Описание тега data-preprocessing
Предварительная обработка может представлять собой структурирование необработанных данных и очистку, чтобы их можно было действительно использовать, до преобразования данных, чтобы их можно было обрабатывать с помощью алгоритмов или улучшать их результаты. Желательно также использовать теги для конкретных методов. Этот тег следует использовать для значимых шагов предварительной обработки в конвейере данных, до алгоритмов или в качестве автономного метода.
0
ответов
Можно ли использовать модель CNN-LSTM для прогнозирования значений определенных целевых переменных из видео?
Скажем, у меня есть видео, на котором человек стоит, что-то говорит и слегка двигается из стороны в сторону. Кроме того, я знаю, что у этого человека 0,1 жира по шкале от 0 до 1. У меня есть 100 таких видео с участием 100 разных людей, а также их оц…
23 фев '21 в 15:03
1
ответ
преобразовать несколько coulmns в категории одного столбца в пандах
Это набор данных, который конвертируется с использованием одной горячей кодировки, 0 означает нет, а 1 означает да данные:
23 фев '21 в 17:50
1
ответ
Всегда ли стандартизировать все функции по умолчанию - плохая идея?
Есть ли причина не стандартизировать все функции по умолчанию? Я понимаю, что это может быть необходимо, например, не для деревьев решений, а для определенных алгоритмов, таких как KNN, SVM и K-Means. Будет ли вредно делать это для всех моих функций…
21 фев '21 в 17:37
0
ответов
Как предварительно обработать данные в формате ниже с помощью Python?
Я изучаю науку о данных и хочу обработать данные для дальнейшего анализа. У меня есть необработанные данные в следующем формате: введите здесь описание изображения. Мне нужны обработанные данные в следующем формате: введите описание изображения здес…
22 фев '21 в 20:08
1
ответ
Как выбрать списки с одинаковым идентификатором в Python?
У меня есть фрейм данных, который выглядит так: Обратите внимание, что идентификаторы имеют разную длину. Спасибо за помощь.
22 фев '21 в 18:28
0
ответов
Стандартизация / предварительная обработка данных в Java
Я пытаюсь построить простую нейронную сеть с JAva. Мне не удается найти аналог функций Python KERA, например scale () в Java. Итак, если у меня есть такой массив: double[] arr = {148.0, 85.0, 183.0, 89.0, 137.0, 116.0, 78.0, 115.0, 197.0, 125.0, 110…
06 фев '21 в 21:52
1
ответ
Расчетный Robustscaler в sklearn кажется неправильным
Я попробовал Robustscaler в sklearn и обнаружил, что результаты не совпадают с формулой. Формула робустскалера в sklearn: У меня есть матрица, показанная ниже: Я тестирую первые данные в первой функции (первая строка и первый столбец). Масштабируемо…
06 фев '21 в 05:02
0
ответов
Как предварительно обработать данные, имеющие более 200 функций? [закрыто]
Данные состоят примерно из 200 характеристик, большинство из которых категоричны. Данные также состоят из пропущенных значений. Корреляция между ними низкая. Это проблема классификации. Как предварительно обработать данные? Есть ли в Интернете какие…
15 фев '21 в 08:02
0
ответов
Какая наилучшая структура должна иметь набор видеоданных, чтобы использовать его с PyTorch? [закрыто]
Я новичок в глубоком обучении и особенно в PyTorch. У меня есть каталог клипов на языке жестов .mp4 и annotations.txt, который включает только метки, соответствующие клипам. Каждый клип - это слово на языке жестов, а каждый ярлык - его перевод на ес…
14 фев '21 в 15:32
1
ответ
Перекрестное соединение 2 столбцов в пандах после их разделения на панда
У меня есть два столбца из файла csv: Я хочу обработать их так, чтобы они выглядели вот так Обратите внимание, что они не разделены запятыми (,). Я много чего пробовал, но ни одно из них не помогло. Это задерживало мою работу довольно долгое время. …
26 фев '21 в 15:35
0
ответов
Предварительная обработка графиков в BigQuery (использование цикла for со структурой и типом словаря в BigQuery)
Обновлять Я нашел решение с использованием оператора цикла for в bigquery, но оно слишком медленное и слишком дорогое, когда существует много tag_id Это был бы только хороший способ использовать оператор соединения, а не использовать оператор цикла…
26 фев '21 в 04:55
0
ответов
Предварительная обработка данных: выбор метода заполнения недостающих данных в наборе данных.
Итак, у меня есть набор данных со следующими заголовками: Во всех атрибутах, кроме SCHOOL_YEAR, отсутствуют значения. Как я могу решить, какой метод использовать для заполнения недостающих значений для каждого атрибута (в Python)? В настоящее время …
07 мар '21 в 19:51
1
ответ
AttributeError: объект 'SimpleImputer' не имеет атрибута 'mean'
Я пытаюсь выполнить предварительную обработку набора данных радужной оболочки глаза, но на этапе вменения я получаю эту ошибку при использовании SimpleImputer для печати среднего значения каждого столбца. вот полный код для справки. Я получаю сообще…
07 мар '21 в 13:41
2
ответа
У меня проблемы с извлечением года из столбца даты этого конкретного набора данных
#Adjust Date Info TSLA['date'] = TSLA['date'].astype(str) TSLA['date'] = pd.to_datetime(TSLA['date']) Тип данных обоих столбцов - объект. Я попытался использовать столбец даты thenn с помощью лямбда-функции для извлечения YYYY-MM-DD, но тип данных …
13 мар '21 в 11:03
1
ответ
Ошибка: слои предварительной обработки Tensorflow не конвертируются в Tensorflow lite
Используя пример на https://www.tensorflow.org/tutorials/structured_data/preprocessing_layers Я создал модель со своими данными. Я хочу сохранить его в формате Tensorflow lite. Я сохраняю как SavedModel, но при конвертации я обнаружил много кодов ош…
12 мар '21 в 22:23
3
ответа
Python Pandas: Удалите строки из фрейма данных, если список строковых значений == [none]
У меня есть столбец в моем фрейме данных, содержащий списки значений. Tags [marvel, comics, comic, books, nerdy] [new, snapchat, version, snap, inc] [none] [new, york, times, ny, times, nyt, times] [today, show, today, show, today] [none] [mark, wah…
17 мар '21 в 19:43
1
ответ
Нормализация данных BraTS
В настоящее время я работаю над алгоритмом сверхвысокого разрешения с использованием набора данных BraTS18. У меня проблема с нормализацией данных между [-1, 1]. from tqdm import tqdm import os import numpy as np import SimpleITK as sitk def load_da…
17 мар '21 в 16:46
0
ответов
Уменьшение характеристик и устранение дисбаланса класса, которое необходимо выполнить в первую очередь?
Я работаю над проблемами извлечения признаков и дисбаланса классов, но мне нужен совет, что делать в первую очередь? Уменьшение / выбор функций или сначала справиться с дисбалансом классов?
19 мар '21 в 08:53
0
ответов
Предварительная обработка текстовых данных
у меня есть набор файлов txt вот как я открыл файлы filepaths = [os.path.join(root, i) for i in os.listdir(root)] #List of files in the directory for path in filepaths: #ONE FILE FROM THE LIST if os.path.isfile(path): # Open Files fp = open(path, 'r…
20 мар '21 в 01:35
0
ответов
Прогнозирование и создание несуществующих функций. Машинное обучение
Я пытаюсь предсказать исход футбольного матча. Я хочу найти конкретные особенности совпадения с прошлыми функциями. Например, у меня есть результаты матчей английской Премьер-лиги за 2016 год с некоторой статистикой, такой как примерный счетчик удар…
22 мар '21 в 23:03