Описание тега apache-spark-ml

Описание тега Вопросы с тегом

Spark ML is a high-level API for building machine learning pipelines in Apache Spark.

1 ответ

Отображение правил дерева решений, смоделированных в библиотеке pyspark ml

Я новичок в искре. Я смоделировал дерево решений, используя API на основе Dataframe, т.е. pyspark.ml. Я хочу отобразить правила дерева решений, аналогичные тем, которые мы получаем в API на основе RDD (spark.mllib) в spark, используя toDebugString. …

02 апр '18 в 15:44

0 ответов

Искры мл Ява многомерная линейная регрессия

Можно ли реализовать многомерную линейную регрессию в Java с помощью SPARK ML?Есть ли простой способ или метод в java spark ml для этого? Примечание. Под многовариантным я подразумеваю более одного выхода (значение Y). Например, рассмотрим модель ре…

java machine-learning linear-regression apache-spark-mllib apache-spark-ml

09 авг '18 в 08:09

1 ответ

StandardScaler в Spark не работает должным образом

Любая идея, почему спарк будет делать это для StandardScaler? Согласно определению StandardScaler: StandardScaler стандартизирует набор функций, чтобы иметь нулевое среднее значение и стандартное отклонение 1. Флаг withStd будет масштабировать данны…

apache-spark pyspark scikit-learn apache-spark-ml

08 авг '18 в 18:07

0 ответов

Эффективность сходства строк в Apache Spark

Мы новички в Apache Spark и выполняем сопоставление строк, используя методы сходства строк (JaroWinkler, Levenshtein, Cosine), мы должны сделать это для огромных данных (2,2 миллиона), хотели бы знать, является ли это правильным способом или же мы м…

apache-spark apache-spark-mllib similarity apache-spark-dataset apache-spark-ml

10 фев '17 в 14:20

2 ответа

Искровой трубопровод KMeansModel кластерцентры

Я использую конвейер для кластеризации текстовых документов. Последним этапом в конвейере является ml.clustering.KMeans, который предоставляет мне DataFrame со столбцом кластерных прогнозов. Я хотел бы добавить кластерные центры в виде столбца. Я по…

apache-spark apache-spark-ml

24 май '16 в 03:34

1 ответ

Замедление при многократных вызовах в память

Скажи у меня 40 сплошных (DoubleType) переменные, которые я сгруппировал в квартили, используя ft_quantile_discretizer, Идентификация квартилей по всем переменным выполняется очень быстро, так как функция поддерживает выполнение нескольких переменны…

r apache-spark apache-spark-ml sparklyr

21 авг '18 в 23:23

1 ответ

Могу ли я использовать фрейм данных с разреженным вектором для настройки перекрестной проверки?

Я тренирую свой многослойный классификатор Перцептрон. Вот мой тренировочный набор. Особенности в редком векторном формате. df_train.show(10,False) +------+---------------------------+ |target|features | +------+---------------------------+ |1.0 |(5…

machine-learning pyspark scikit-learn cross-validation apache-spark-ml

06 ноя '17 в 06:59

1 ответ

Почему StandardScaler не прикрепляет метаданные к выходному столбцу?

Я заметил, что мл StandardScaler не прикрепляет метаданные к выходному столбцу: import org.apache.spark.ml.Pipeline import org.apache.spark.ml.feature._ val df = spark.read.option("header", true) .option("inferSchema", true) .csv("/path/to/cars.data…

apache-spark apache-spark-mllib apache-spark-ml

20 июн '17 в 11:09

1 ответ

Как тренировать модель ALS в Spark с матрицей вместо отдельных "покупок"?

У меня есть датафрейм, который уже является разреженной матрицей. Я хотел бы обучить модель ALS с этим фреймом данных без создания нового фрейма данных пользователя / элемента. Это возможно?

apache-spark machine-learning pyspark apache-spark-mllib apache-spark-ml

14 май '17 в 00:59

1 ответ

Как предоставить несколько столбцов для setInputCol()

Я новичок в Spark Machine Learning. Я хочу передать несколько столбцов объектам, в приведенном ниже коде я передаю только столбец Date объектам, но теперь я хочу передать столбцы Userid и Date объектам. Я пытался использовать вектор, но он поддержив…

scala apache-spark prediction apache-spark-mllib apache-spark-ml

19 июн '17 в 09:56

0 ответов

Spark Scala Kmeans - как маркировать результаты и визуализировать?

Вот некоторый код, который использует Spark ML для поиска кластеров: val dfRaw = spark.read.option("header", "true") .csv("src/main/resources/input.csv") val K = 5 val assembler = new VectorAssembler().setInputCols(Array("id", "lat", "lon")).setOutp…

scala apache-spark machine-learning apache-spark-ml

11 сен '18 в 22:01

1 ответ

Сохраните и загрузите две модели ML в pyspark

Сначала я создаю два алгоритма ML и сохраняю их в два отдельных файла. Обратите внимание, что обе модели основаны на одном и том же кадре данных. feature_1 а также feature_2 различные наборы функций, извлеченные из одного и того же набора данных. im…

python apache-spark pyspark apache-spark-ml

01 авг '17 в 16:18

0 ответов

Как опубликовать настройки процесса? (Я использую спарк ALS неявно)

Я знаком со статьей "Совместная фильтрация для наборов данных неявной обратной связи" http://yifanhu.net/PUB/cf.pdf. Я использую ALS Spark ml неявно, чтобы рекомендовать элементы пользователям, с параметрами Alpha = 30, Rank = 10, RegParam = 0.1. В …

machine-learning apache-spark-ml

28 ноя '17 в 11:21

1 ответ

ApacheSparkML StringIndexer ест мои столбцы

При применении StringIndexer к df_notnull (объекту DataFrame), который содержит следующие столбцы: scala> df_notnull.printSchema root |-- L0_S22_F545: string (nullable = true) |-- L0_S0_F0: double (nullable = true) |-- L0_S0_F2: double (nullable …

apache-spark apache-spark-sql apache-spark-ml

27 апр '17 в 15:43

1 ответ

Как распечатать путь решения / правила, используемые для прогнозирования выборки конкретной строки в PySpark?

Как распечатать путь решения конкретного образца в Spark DataFrame? Spark Version: '2.3.1' Приведенный ниже код печатает путь принятия решения всей модели, как заставить его распечатать путь принятия решения для конкретного образца? Например, путь п…

apache-spark pyspark apache-spark-ml

31 июл '18 в 13:04

1 ответ

Писпарк НЛП - CountVectorizer Max DF или TF. Как отфильтровать общие вхождения из набора данных

Я использую CountVectorizer чтобы подготовить набор данных для ML. Я хочу отфильтровать редкие слова, и я использую параметр CountVectorizer, minDF или minTF для этого. Я также хотел бы удалить элементы, которые часто появляются в моем наборе данных…

python apache-spark pyspark nlp apache-spark-ml

02 июл '18 в 21:41

1 ответ

Spark ML Word2Vec Проблемы с сериализацией

Версия Spark: 1.6.1 Недавно я провел рефакторинг нашего кода Word2Vec для перехода к мл-моделям на основе DataFrame, но у меня возникла проблема с сериализацией и загрузкой модели локально. Я могу успешно: Подгоните фрейм данных и создайте модель. П…

apache-spark apache-spark-mllib apache-spark-ml

09 июн '16 в 10:24

2 ответа

Многоканальная классификация в Spark

Можем ли мы предсказать множественные целевые переменные в Pyspark, как мы выполняем MultiOutputClassifier в sklearn? У меня есть набор данных из нескольких целевых переменных Problem Complexity Skill1 Skill2 Skill3 Skill4 Skill5 0 Pbl1 Low 7 0 2 9 …

python pyspark classification apache-spark-ml

15 фев '19 в 11:39

0 ответов

Можно ли преобразовать строку в метку?

Я новичок в машинном обучении. Я использую наивный байесовский алгоритм apache spark. Я тренирую свои данные. Когда я хочу предсказать, я даю строку, но модель задает мне метку. Возможно ли преобразовать строку в метку? Я очень смущен. Можете ли вы …

apache-spark apache-spark-ml

31 окт '17 в 12:58

1 ответ

Как получить значение regSaram ALS CrossMalidator bestModel?

Я тренирую модель ALS с помощью CrossValidator: val als = new ALS() .setMaxIter(5) .setUserCol("userId") .setItemCol("movieId") .setRatingCol("rating") val evaluator = new RegressionEvaluator() .setMetricName("rmse") .setLabelCol("rating") .setPredi…

apache-spark-ml

02 янв '18 в 10:25