Описание тега apache-spark

Описание тега Вопросы с тегом

Apache Spark - это механизм распределенной обработки данных с открытым исходным кодом, написанный на Scala, предоставляющий пользователям унифицированный API и распределенные наборы данных. Примеры использования Apache Spark часто связаны с машинным / глубоким обучением, обработкой графиков.

1 ответ

Предварительная обработка данных с Apache Spark и Scala

Я довольно новичок в spark и scala, и поэтому у меня есть несколько вопросов, касающихся предварительной обработки данных с помощью spark и работы с rdds. Я работаю над небольшим проектом и хочу внедрить систему машинного обучения с помощью spark. Я…

scala apache-spark rdd

21 июл '15 в 19:06

1 ответ

Spark Scala - проанализировать JSON из столбца данных и вернуть RDD со столбцами

У меня есть sparkScala RDD это выглядит так: df.printSchema() |-- stock._id: string (nullable = true) |-- stock.value: string (nullable = true) Второй столбец RDD является вложенным JSON: [ { ""warehouse"" : ""Type1"" , ""amount"" : ""0.0"" }, { ""w…

json scala apache-spark

06 фев '17 в 12:18

3 ответа

Ошибка нехватки памяти при чтении большого файла в Spark 2.1.0

Я хочу использовать spark для чтения большого (51 ГБ) XML-файла (на внешнем жестком диске) в информационном кадре (с помощью плагина spark-xml), выполнить простое сопоставление / фильтрацию, переупорядочить его и затем записать обратно на диск в вид…

xml scala apache-spark apache-spark-2.0 apache-spark-xml

05 май '17 в 04:18

1 ответ

Создать RDD на основе части строк HBase

Я пытаюсь создать RDD на основе данных из HBase Таблица: val targetRDD = sparkContext.newAPIHadoopRDD(hBaseConfig, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result]) .map { case (key, row) => parse(key, row) } parse вызы…

apache-spark hadoop hbase

29 окт '16 в 19:36

0 ответов

Ошибка: java.lang.RuntimeException: azkaban.jobExecutor.utils.process.ProcessFailureException?

Как мне запустить искровую работу в Азкабане? Должен ли я использовать command=spark-submit... или что-то другое? Может быть в azkaban есть тип работы для свечи? В настоящее время я только что spark-submiy команда и попытался положить его в файл зад…

apache-spark azkaban

25 июн '18 в 10:38

1 ответ

Объединение двух наборов данных искры скала

scala csv apache-spark

26 фев '17 в 05:30

0 ответов

winutils для 32-разрядных - ошибка при компиляции кода spark-sql

Я компилирую код, написанный для Apache Spark-sql/Scala в Eclipse IDE. говорится, что версия Winutils, доступная в hadoop-common-2.2.0-bin-master\bin, не совпадает, так как у меня 32-битная ОС. тот же код отлично работает на моей машине коллеги, кот…

apache-spark

12 июн '16 в 11:59

3 ответа

Строковый фильтр с использованием Spark UDF

input.csv: 200,300,889,767,9908,7768,9090 300,400,223,4456,3214,6675,333 234567890 123445667887 Что я хочу: читать входной файл и сравнивать с набором "123 200 300", если совпадение найдено, дает соответствующие данные 200 300 (из 1 строки ввода) 30…

scala apache-spark

16 июн '16 в 13:46

1 ответ

В PySpark нет метода getVectors, доступного для Word2VecModel

Я пытаюсь получить доступ к getVectors() метод pyspark 1.2.0 версии Spark, но состояния pyspark - input.cache() word2vec = Word2Vec() model = word2vec.fit(input) vector = model.getVectors() AttributeError: 'Word2VecModel' object has no attribute 'ge…

apache-spark pyspark

06 апр '15 в 10:47

1 ответ

pyspark выбирает подмножество файлов с помощью regex/glob из s3

У меня есть несколько файлов, каждый из которых разделен по дате (date=yyyymmdd) на амазоне с3. Файлы возвращаются на 6 месяцев назад, но я бы хотел ограничить использование сценария данными только за последние 3 месяца. Я не уверен, смогу ли я испо…

regex apache-spark amazon-s3 pyspark glob

21 июл '15 в 15:44

0 ответов

Передача аргументов командной строки в Spark-shell зависает на терминале Scala

У меня есть искорка, написанная на Scala. Я использую: arguments=$@ spark-shell -i <file-name-with-main, auxiliary-file-name1, auxiliary-file-name2> --master yarn-client --driver-memory 2G --executor-memory 4G --num-executors 10 --executor-cor…

scala shell apache-spark

19 янв '17 в 12:14

0 ответов

Могу ли я взять окно с последовательностью значений в Spark?

У меня есть последовательность значений (от сокращения по ключу). Я знаю, что теоретически ключи - это упорядоченная последовательность вещей, и я должен быть в состоянии уменьшить их. Я хочу запустить окно над этими последовательностями. Я мог бы с…

apache-spark

09 дек '14 в 18:25

0 ответов

Минус запросов между HDFS и CASSANDRA с 70 миллионами записей занимает около 40 минут

У моего файла партера HDFS и таблицы Cassandra 70 миллионов строк, 16 столбцов и 14 столбцов в формате Json, длина которых превышает 2000. Я делаю источник минус цель и цель минус источник. Затем подсчитывается количество каждого кадра данных HDFS и…

apache-spark

09 июн '18 в 07:33

0 ответов

Как решить InvalidRequestException(почему: вы не вошли в систему) при запуске приложения spark?

При запуске приложения Spark с DSE 5.0.5: SparkConf conf = new SparkConf().setAppName("wordCount"); JavaSparkContext sc = new JavaSparkContext(conf); // Load our input data. JavaRDD<String> input = sc.textFile(inputFile); // Split up into word…

java apache-spark cassandra datastax-enterprise

15 май '17 в 11:42

1 ответ

Распакуйте список, разбейте на пары и рассчитайте разницу

Я хочу рассчитать разницу во времени между входом и выходом для каждого идентификатора. Данные в формате: String,Long,String,List[String] ====================================== in, time0, door1, [id1, id2, id3, id4] out, time1, door1, [id1, id2, id3…

scala apache-spark functional-programming

18 фев '15 в 19:26

1 ответ

Scala - отсутствует кодер для типа, хранящегося в наборе данных

Я пытаюсь запустить следующую команду в Scala 2.2 val x_test0 = cn_train.map( { case row => row.toSeq.toArray } ) И я продолжаю получать следующую ошибку error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, et…

scala apache-spark encoder

06 мар '18 в 03:29

1 ответ

Как запустить задачи в Spark на разных рабочих?

У меня есть следующий код для Spark: package my.spark; import java.util.ArrayList; import java.util.List; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.SparkSession; public c…

java apache-spark

04 сен '17 в 06:40

1 ответ

Обработка записей Hive в программе Spark Driver

В моем случае у меня есть таблица улья, которая содержит 100 тысяч записей. Каждая запись представляет файл необработанных данных, который должен быть обработан. Обработка каждого файла необработанных данных генерирует CSV-файл, размер которого буде…

apache-spark hive

28 авг '17 в 09:42

1 ответ

Как частично обновить спарк-фрейм данных (обновить несколько строк)

Я использую Spark 1.5.2 с Python3. У меня есть два dataframes в pyspark. Они похожи: old_df = src | rank ------ | ------ a| 1 b| 1 c| 1 d| 1 e| 1 f| 1 g| 1 а также new_df = src| rank ---|----------------- a| 0.5 b|0.3333333333333333 c|1.666666666666…

python apache-spark

03 авг '16 в 03:54

0 ответов

Ошибка переполнения стека при запуске искрового задания через сервер заданий

У меня длительный контекст срабатывания через сервер заданий. Пакетные задания запускаются периодически. В некоторых случаях пакетное задание получило исключение со следующей трассировкой стека. В трассировке стека не так много подсказок, чтобы увид…

apache-spark spark-jobserver

05 июл '16 в 09:16