Описание тега apache-spark-mllib

MLlib is a machine learning library for Apache Spark
0 ответов

Ожидаемый результат анализа основных компонентов Spark (PCA)

Я работаю над проектом, в котором мне нужно выполнить кластеризацию K-средних с MLlib от Spark. Проблема в том, что мои данные имеют 744 особенности. Я провел небольшое исследование и обнаружил, что мне нужен PCA. Самое приятное, что Spark PCA реали…
29 май '17 в 22:12
1 ответ

Отображение правил дерева решений, смоделированных в библиотеке pyspark ml

Я новичок в искре. Я смоделировал дерево решений, используя API на основе Dataframe, т.е. pyspark.ml. Я хочу отобразить правила дерева решений, аналогичные тем, которые мы получаем в API на основе RDD (spark.mllib) в spark, используя toDebugString. …
0 ответов

Spark SQL при ошибке прогнозирования LR

Я выполняю следующий запрос блокнота Jupyter к фрейму данных "Preds" как упрощенный DF результата прогноза: Мне удалось сделать простой запрос к "метке", но НЕ к "прогнозу" (даже для того же запроса), но мне не удалось выполнить сложный запрос. Я по…
04 май '18 в 06:00
1 ответ

Обработка значений null/NaN в искровом классификаторе

У меня есть набор категориальных столбцов (строк), которые я анализирую и преобразую в векторы объектов, чтобы передать их в классификатор mllib (случайный лес). В моих входных данных некоторые столбцы имеют нулевые значения. Скажем, в одном из этих…
1 ответ

Особенности с высокой кардинальностью (как их векторизовать?)

Я пытаюсь запустить задачу машинного обучения, используя scikit learn для набора данных, и один из столбцов (функция) имеет высокую мощность около 300 КБ уникальных значений. Как мне векторизовать такую ​​функцию. Использование DictVectorizer не буд…
0 ответов

Искры мл Ява многомерная линейная регрессия

Можно ли реализовать многомерную линейную регрессию в Java с помощью SPARK ML?Есть ли простой способ или метод в java spark ml для этого? Примечание. Под многовариантным я подразумеваю более одного выхода (значение Y). Например, рассмотрим модель ре…
1 ответ

Фильтрация СДР по количеству вхождений

У меня есть СДР рейтингов продуктов с использованием объекта MLlib Rating, который является просто кортежем (int userId, int productId, double rating). Я хочу удалить любой элемент из СДР, являющийся обзором продукта со слишком низким рейтингом. Нап…
14 фев '17 в 16:03
2 ответа

Spark MLlib Library не предоставляет библиотеки для контентных систем рекомендаций?

Я пытаюсь использовать spark mllib для реализации системы рекомендаций на основе контента. Я только что понял, что они предлагают только реализацию чередующихся наименьших квадратов (ALS). Правильно ли мое понимание? Предоставляет ли какая-либо друг…
04 дек '16 в 07:06
0 ответов

R GBM против производительности Spark GBT

Я пытаюсь сравнить производительность между R и Spark-ML, и мое первоначальное тестирование говорит мне, что Spark-ML лучше, чем R, в большинстве случаев и масштабируется намного лучше, когда набор данных становится больше. Тем не менее, у меня стра…
0 ответов

Эффективность сходства строк в Apache Spark

Мы новички в Apache Spark и выполняем сопоставление строк, используя методы сходства строк (JaroWinkler, Levenshtein, Cosine), мы должны сделать это для огромных данных (2,2 миллиона), хотели бы знать, является ли это правильным способом или же мы м…
1 ответ

Как переучивать модели только на новых партиях (без взятия предыдущего набора обучающих данных) в Spark Streaming?

Я пытаюсь написать свою первую модель рекомендаций (Spark 2.0.2), и я хотел бы знать, возможно ли это после первоначального обучения, когда модель проработает всю мою работу, работаю только с дельтой для будущего поезда. Позвольте мне объяснить на п…
1 ответ

Сколько столбцов может обрабатывать реализация Spark в PCA?

Можно ли, например, вычислить основные компоненты из 1 000 000 столбцов?
19 дек '17 в 16:46
1 ответ

TypeError при вызове Spark MLlib LogisticRegressionWithLBFGS.train

Я пытаюсь позвонить LogisticRegressionWithLBFGS.train от Spark MLlib с данными обучения для решения мультиклассовой логистической регрессии. Данные моего тренировочного набора представлены в виде: trainingData = sXYdf.rdd.map(lambda x: reg.LabeledPo…
1 ответ

java.lang.NumberFormatException: для входной строки: Y400sX902: при использовании Spark Kmeans

Я пытаюсь использовать искривленные MLlib - kmeans для кластеризации набора данных продукта. Но мой первый столбец, т. Е. Идентификатор, начинается с Y400sX902 и выдает ошибку NumberFormatException, когда я запускаю приведенный ниже код. Я новичок в…
27 апр '16 в 20:45
1 ответ

MLlib: Как работает RFormula.fit()?

Одна возможность создать модель с помощью Spark's MLlib это RFormula модуль из pyspark.ml.feature как объяснено в документах. Тем не менее, я не могу найти никакого объяснения, как fit на самом деле реализуется в этом случае. Использует ли он функци…
01 авг '17 в 09:11
0 ответов

Рандомизация Dataframe или RDD для обучения ML в Spark

Как я могу случайным образом перетасовать свои тренировочные данные для классификатора Spark? Прямо сейчас у меня есть dataframe, где первые N строк от положительного класса, а остальные M строк от отрицательного класса, и я пытаюсь обучить pyspark.…
0 ответов

Доступ к апостериорной вероятности Наивного Бэя в MLbb Спарка

Я пытаюсь получить доступ к апостериорной вероятности предсказания Наивного Байя с помощью MLlib с использованием Java. Поскольку переменные-члены brzPi и brzTheta являются частными, я применил хак, чтобы получить доступ к значениям через отражение.…
26 ноя '14 в 06:48
1 ответ

MLlib: для автономного обучения, Storm: использовать (развернуть) изученную модель

Можно ли обучить модель с помощью MLlib и использовать ее в топологии Storm? Я получаю набор отзывов от пользователей и планирую дать рекомендации.
1 ответ

Реализация Spark UnaryTransformer завершается ошибкой с scala.MatchError

Я внедряю UnaryTransformer в Spark 1.6.2. с этим интерфейсом: class myUT(override val uid: String) extends UnaryTransformer[Seq[String], Seq[String], myUT] { ... override protected def createTransformFunc: Seq[String] => Seq[String] = { _ => _…
21 июл '17 в 12:34
2 ответа

Извлечение массива NumPy из Pyspark Dataframe

У меня есть датафрейм gi_man_df, где группа может быть: +------------------+-----------------+--------+--------------+ | group | number|rand_int| rand_double| +------------------+-----------------+--------+--------------+ | 'GI_MAN'| 7| 3| 124.2| | …