Описание тега apache-spark

Apache Spark - это механизм распределенной обработки данных с открытым исходным кодом, написанный на Scala, предоставляющий пользователям унифицированный API и распределенные наборы данных. Примеры использования Apache Spark часто связаны с машинным / глубоким обучением, обработкой графиков.
1 ответ

Предварительная обработка данных с Apache Spark и Scala

Я довольно новичок в spark и scala, и поэтому у меня есть несколько вопросов, касающихся предварительной обработки данных с помощью spark и работы с rdds. Я работаю над небольшим проектом и хочу внедрить систему машинного обучения с помощью spark. Я…
21 июл '15 в 19:06
1 ответ

Spark Scala - проанализировать JSON из столбца данных и вернуть RDD со столбцами

У меня есть sparkScala RDD это выглядит так: df.printSchema() |-- stock._id: string (nullable = true) |-- stock.value: string (nullable = true) Второй столбец RDD является вложенным JSON: [ { ""warehouse"" : ""Type1"" , ""amount"" : ""0.0"" }, { ""w…
06 фев '17 в 12:18
3 ответа

Ошибка нехватки памяти при чтении большого файла в Spark 2.1.0

Я хочу использовать spark для чтения большого (51 ГБ) XML-файла (на внешнем жестком диске) в информационном кадре (с помощью плагина spark-xml), выполнить простое сопоставление / фильтрацию, переупорядочить его и затем записать обратно на диск в вид…
1 ответ

Создать RDD на основе части строк HBase

Я пытаюсь создать RDD на основе данных из HBase Таблица: val targetRDD = sparkContext.newAPIHadoopRDD(hBaseConfig, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result]) .map { case (key, row) => parse(key, row) } parse вызы…
29 окт '16 в 19:36
0 ответов

Ошибка: java.lang.RuntimeException: azkaban.jobExecutor.utils.process.ProcessFailureException?

Как мне запустить искровую работу в Азкабане? Должен ли я использовать command=spark-submit... или что-то другое? Может быть в azkaban есть тип работы для свечи? В настоящее время я только что spark-submiy команда и попытался положить его в файл зад…
25 июн '18 в 10:38
1 ответ

Объединение двух наборов данных искры скала

У меня есть два файла CSV (наборы данных) file1 и file2. Файл1 состоит из следующих столбцов: Orders | Requests | Book1 | Book2 Varchar| Integer | Integer| Integer Файл2 состоит из следующих столбцов: Book3 | Book4 | Book5 | Orders String| String| V…
26 фев '17 в 05:30
0 ответов

winutils для 32-разрядных - ошибка при компиляции кода spark-sql

Я компилирую код, написанный для Apache Spark-sql/Scala в Eclipse IDE. говорится, что версия Winutils, доступная в hadoop-common-2.2.0-bin-master\bin, не совпадает, так как у меня 32-битная ОС. тот же код отлично работает на моей машине коллеги, кот…
12 июн '16 в 11:59
3 ответа

Строковый фильтр с использованием Spark UDF

input.csv: 200,300,889,767,9908,7768,9090 300,400,223,4456,3214,6675,333 234567890 123445667887 Что я хочу: читать входной файл и сравнивать с набором "123 200 300", если совпадение найдено, дает соответствующие данные 200 300 (из 1 строки ввода) 30…
16 июн '16 в 13:46
1 ответ

В PySpark нет метода getVectors, доступного для Word2VecModel

Я пытаюсь получить доступ к getVectors() метод pyspark 1.2.0 версии Spark, но состояния pyspark - input.cache() word2vec = Word2Vec() model = word2vec.fit(input) vector = model.getVectors() AttributeError: 'Word2VecModel' object has no attribute 'ge…
06 апр '15 в 10:47
1 ответ

pyspark выбирает подмножество файлов с помощью regex/glob из s3

У меня есть несколько файлов, каждый из которых разделен по дате (date=yyyymmdd) на амазоне с3. Файлы возвращаются на 6 месяцев назад, но я бы хотел ограничить использование сценария данными только за последние 3 месяца. Я не уверен, смогу ли я испо…
21 июл '15 в 15:44
0 ответов

Передача аргументов командной строки в Spark-shell зависает на терминале Scala

У меня есть искорка, написанная на Scala. Я использую: [email protected] spark-shell -i <file-name-with-main, auxiliary-file-name1, auxiliary-file-name2> --master yarn-client --driver-memory 2G --executor-memory 4G --num-executors 10 --executor-cor…
19 янв '17 в 12:14
0 ответов

Могу ли я взять окно с последовательностью значений в Spark?

У меня есть последовательность значений (от сокращения по ключу). Я знаю, что теоретически ключи - это упорядоченная последовательность вещей, и я должен быть в состоянии уменьшить их. Я хочу запустить окно над этими последовательностями. Я мог бы с…
09 дек '14 в 18:25
0 ответов

Минус запросов между HDFS и CASSANDRA с 70 миллионами записей занимает около 40 минут

У моего файла партера HDFS и таблицы Cassandra 70 миллионов строк, 16 столбцов и 14 столбцов в формате Json, длина которых превышает 2000. Я делаю источник минус цель и цель минус источник. Затем подсчитывается количество каждого кадра данных HDFS и…
09 июн '18 в 07:33
0 ответов

Как решить InvalidRequestException(почему: вы не вошли в систему) при запуске приложения spark?

При запуске приложения Spark с DSE 5.0.5: SparkConf conf = new SparkConf().setAppName("wordCount"); JavaSparkContext sc = new JavaSparkContext(conf); // Load our input data. JavaRDD<String> input = sc.textFile(inputFile); // Split up into word…
1 ответ

Распакуйте список, разбейте на пары и рассчитайте разницу

Я хочу рассчитать разницу во времени между входом и выходом для каждого идентификатора. Данные в формате: String,Long,String,List[String] ====================================== in, time0, door1, [id1, id2, id3, id4] out, time1, door1, [id1, id2, id3…
18 фев '15 в 19:26
1 ответ

Scala - отсутствует кодер для типа, хранящегося в наборе данных

Я пытаюсь запустить следующую команду в Scala 2.2 val x_test0 = cn_train.map( { case row => row.toSeq.toArray } ) И я продолжаю получать следующую ошибку error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, et…
06 мар '18 в 03:29
1 ответ

Как запустить задачи в Spark на разных рабочих?

У меня есть следующий код для Spark: package my.spark; import java.util.ArrayList; import java.util.List; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.SparkSession; public c…
04 сен '17 в 06:40
1 ответ

Обработка записей Hive в программе Spark Driver

В моем случае у меня есть таблица улья, которая содержит 100 тысяч записей. Каждая запись представляет файл необработанных данных, который должен быть обработан. Обработка каждого файла необработанных данных генерирует CSV-файл, размер которого буде…
28 авг '17 в 09:42
1 ответ

Как частично обновить спарк-фрейм данных (обновить несколько строк)

Я использую Spark 1.5.2 с Python3. У меня есть два dataframes в pyspark. Они похожи: old_df = src | rank ------ | ------ a| 1 b| 1 c| 1 d| 1 e| 1 f| 1 g| 1 а также new_df = src| rank ---|----------------- a| 0.5 b|0.3333333333333333 c|1.666666666666…
03 авг '16 в 03:54
0 ответов

Ошибка переполнения стека при запуске искрового задания через сервер заданий

У меня длительный контекст срабатывания через сервер заданий. Пакетные задания запускаются периодически. В некоторых случаях пакетное задание получило исключение со следующей трассировкой стека. В трассировке стека не так много подсказок, чтобы увид…
05 июл '16 в 09:16