Описание тега apache-spark-ml
Spark ML is a high-level API for building machine learning pipelines in Apache Spark.
1
ответ
Отображение правил дерева решений, смоделированных в библиотеке pyspark ml
Я новичок в искре. Я смоделировал дерево решений, используя API на основе Dataframe, т.е. pyspark.ml. Я хочу отобразить правила дерева решений, аналогичные тем, которые мы получаем в API на основе RDD (spark.mllib) в spark, используя toDebugString. …
02 апр '18 в 15:44
0
ответов
Искры мл Ява многомерная линейная регрессия
Можно ли реализовать многомерную линейную регрессию в Java с помощью SPARK ML?Есть ли простой способ или метод в java spark ml для этого? Примечание. Под многовариантным я подразумеваю более одного выхода (значение Y). Например, рассмотрим модель ре…
09 авг '18 в 08:09
1
ответ
StandardScaler в Spark не работает должным образом
Любая идея, почему спарк будет делать это для StandardScaler? Согласно определению StandardScaler: StandardScaler стандартизирует набор функций, чтобы иметь нулевое среднее значение и стандартное отклонение 1. Флаг withStd будет масштабировать данны…
08 авг '18 в 18:07
0
ответов
Эффективность сходства строк в Apache Spark
Мы новички в Apache Spark и выполняем сопоставление строк, используя методы сходства строк (JaroWinkler, Levenshtein, Cosine), мы должны сделать это для огромных данных (2,2 миллиона), хотели бы знать, является ли это правильным способом или же мы м…
10 фев '17 в 14:20
2
ответа
Искровой трубопровод KMeansModel кластерцентры
Я использую конвейер для кластеризации текстовых документов. Последним этапом в конвейере является ml.clustering.KMeans, который предоставляет мне DataFrame со столбцом кластерных прогнозов. Я хотел бы добавить кластерные центры в виде столбца. Я по…
24 май '16 в 03:34
1
ответ
Замедление при многократных вызовах в память
Скажи у меня 40 сплошных (DoubleType) переменные, которые я сгруппировал в квартили, используя ft_quantile_discretizer, Идентификация квартилей по всем переменным выполняется очень быстро, так как функция поддерживает выполнение нескольких переменны…
21 авг '18 в 23:23
1
ответ
Могу ли я использовать фрейм данных с разреженным вектором для настройки перекрестной проверки?
Я тренирую свой многослойный классификатор Перцептрон. Вот мой тренировочный набор. Особенности в редком векторном формате. df_train.show(10,False) +------+---------------------------+ |target|features | +------+---------------------------+ |1.0 |(5…
06 ноя '17 в 06:59
1
ответ
Почему StandardScaler не прикрепляет метаданные к выходному столбцу?
Я заметил, что мл StandardScaler не прикрепляет метаданные к выходному столбцу: import org.apache.spark.ml.Pipeline import org.apache.spark.ml.feature._ val df = spark.read.option("header", true) .option("inferSchema", true) .csv("/path/to/cars.data…
20 июн '17 в 11:09
1
ответ
Как тренировать модель ALS в Spark с матрицей вместо отдельных "покупок"?
У меня есть датафрейм, который уже является разреженной матрицей. Я хотел бы обучить модель ALS с этим фреймом данных без создания нового фрейма данных пользователя / элемента. Это возможно?
14 май '17 в 00:59
1
ответ
Как предоставить несколько столбцов для setInputCol()
Я новичок в Spark Machine Learning. Я хочу передать несколько столбцов объектам, в приведенном ниже коде я передаю только столбец Date объектам, но теперь я хочу передать столбцы Userid и Date объектам. Я пытался использовать вектор, но он поддержив…
19 июн '17 в 09:56
0
ответов
Spark Scala Kmeans - как маркировать результаты и визуализировать?
Вот некоторый код, который использует Spark ML для поиска кластеров: val dfRaw = spark.read.option("header", "true") .csv("src/main/resources/input.csv") val K = 5 val assembler = new VectorAssembler().setInputCols(Array("id", "lat", "lon")).setOutp…
11 сен '18 в 22:01
1
ответ
Сохраните и загрузите две модели ML в pyspark
Сначала я создаю два алгоритма ML и сохраняю их в два отдельных файла. Обратите внимание, что обе модели основаны на одном и том же кадре данных. feature_1 а также feature_2 различные наборы функций, извлеченные из одного и того же набора данных. im…
01 авг '17 в 16:18
0
ответов
Как опубликовать настройки процесса? (Я использую спарк ALS неявно)
Я знаком со статьей "Совместная фильтрация для наборов данных неявной обратной связи" http://yifanhu.net/PUB/cf.pdf. Я использую ALS Spark ml неявно, чтобы рекомендовать элементы пользователям, с параметрами Alpha = 30, Rank = 10, RegParam = 0.1. В …
28 ноя '17 в 11:21
1
ответ
ApacheSparkML StringIndexer ест мои столбцы
При применении StringIndexer к df_notnull (объекту DataFrame), который содержит следующие столбцы: scala> df_notnull.printSchema root |-- L0_S22_F545: string (nullable = true) |-- L0_S0_F0: double (nullable = true) |-- L0_S0_F2: double (nullable …
27 апр '17 в 15:43
1
ответ
Как распечатать путь решения / правила, используемые для прогнозирования выборки конкретной строки в PySpark?
Как распечатать путь решения конкретного образца в Spark DataFrame? Spark Version: '2.3.1' Приведенный ниже код печатает путь принятия решения всей модели, как заставить его распечатать путь принятия решения для конкретного образца? Например, путь п…
31 июл '18 в 13:04
1
ответ
Писпарк НЛП - CountVectorizer Max DF или TF. Как отфильтровать общие вхождения из набора данных
Я использую CountVectorizer чтобы подготовить набор данных для ML. Я хочу отфильтровать редкие слова, и я использую параметр CountVectorizer, minDF или minTF для этого. Я также хотел бы удалить элементы, которые часто появляются в моем наборе данных…
02 июл '18 в 21:41
1
ответ
Spark ML Word2Vec Проблемы с сериализацией
Версия Spark: 1.6.1 Недавно я провел рефакторинг нашего кода Word2Vec для перехода к мл-моделям на основе DataFrame, но у меня возникла проблема с сериализацией и загрузкой модели локально. Я могу успешно: Подгоните фрейм данных и создайте модель. П…
09 июн '16 в 10:24
2
ответа
Многоканальная классификация в Spark
Можем ли мы предсказать множественные целевые переменные в Pyspark, как мы выполняем MultiOutputClassifier в sklearn? У меня есть набор данных из нескольких целевых переменных Problem Complexity Skill1 Skill2 Skill3 Skill4 Skill5 0 Pbl1 Low 7 0 2 9 …
15 фев '19 в 11:39
0
ответов
Можно ли преобразовать строку в метку?
Я новичок в машинном обучении. Я использую наивный байесовский алгоритм apache spark. Я тренирую свои данные. Когда я хочу предсказать, я даю строку, но модель задает мне метку. Возможно ли преобразовать строку в метку? Я очень смущен. Можете ли вы …
31 окт '17 в 12:58
1
ответ
Как получить значение regSaram ALS CrossMalidator bestModel?
Я тренирую модель ALS с помощью CrossValidator: val als = new ALS() .setMaxIter(5) .setUserCol("userId") .setItemCol("movieId") .setRatingCol("rating") val evaluator = new RegressionEvaluator() .setMetricName("rmse") .setLabelCol("rating") .setPredi…
02 янв '18 в 10:25