Описание тега spark-shell

1 ответ

Вопросы по настройке оболочки pySpark

Я пытаюсь изменить параметры конфигурации оболочки pyspark, теперь она работает локально, но я хочу изменить ее на пряжу. Код в shell.py (файл запускает оболочку) conf = SparkConf() #It was this line conf = SparkConf().setMaster("yarn").setAppName("…
18 окт '18 в 15:36
2 ответа

Scala, Spark-shell, Groupby не работает

У меня Spark версии 2.4.0 и Scala версии 2.11.12. Я могу успешно загрузить фрейм данных с помощью следующего кода. val df = spark.read.format("csv").option("header","true").option("delimiter","|").option("mode","DROPMALFORMED").option("maxColumns",6…
14 дек '18 в 02:05
2 ответа

Разбор данных в Apache Spark Scala org.apache.spark.SparkException: ошибка задания не сериализуется при попытке использовать textinputformat.record.delimiter

Входной файл: ___DATE___ 2018-11-16T06:3937 Linux hortonworks 3.10.0-514.26.2.el7.x86_64 #1 SMP Fri Jun 30 05:26:04 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux 06:39:37 up 100 days, 1:04, 2 users, load average: 9.01, 8.30, 8.48 06:30:01 AM all 6.08 0.00…
20 ноя '18 в 11:55
1 ответ

Метод Apache Spark не найден sun.nio.ch.DirectBuffer.cleaner()Lsun/misc/Cleaner;

Я столкнулся с этой проблемой при запуске сценария автоматической обработки данных в spark-shell. Первые несколько итераций работают нормально, но всегда рано или поздно сталкиваются с этой ошибкой. Я погуглил эту проблему, но не нашел точного соотв…
1 ответ

Невозможно разобрать строку в Int с классом Case

Может ли кто-нибудь помочь мне, где я точно пропал с этим кодом? Я не могу разобрать телефон из строки в целое число case class contactNew(id:Long,name:String,phone:Int,email:String) val contactNewData = Array("1#Avinash#Mob-8885453419#avinashbasett…
05 дек '18 в 09:55
0 ответов

Spark-shell и pyspark с использованием glom

Я выполняю сценарий с использованием спарк-оболочки --master пряжи, как показано ниже У меня есть текстовый файл в папке HDFS "/user/cloudera/Day_12_Jan/file.txt" Содержимое файла Spark SQL - это модуль Spark для структурированной обработки данных. …
12 янв '19 в 14:18
1 ответ

Mahout 0.13.0 с примерами искривления оболочки завершается с ошибкой "нет jniViennaCL в java.library.path"

Пытаюсь заставить Mahout 0.13.0 работать с искрой 1.6.3, У меня уже есть спарк 1.6.3 и Hadoop 2.7. Я загружаю последнюю сборку с домашней страницы mahout_download. Распаковать в /opt/mahout. попробуйте выполнить пример на spark-shell из интернета. В…
08 авг '18 в 13:43
0 ответов

Спарк-оболочка не может прочитать файл партера - java.lang.NoClassDefFoundError

Я использую предварительно собранную версию Spark 2.3.0 для Hadoop версии 2.7+. Когда я побежал spark-shell и попробуйте прочитать файл партера, он жалуется на отсутствие зависимости: scala> val df = spark.read.parquet("/home/spark/spark-2.3.0-bi…
25 окт '18 в 13:18
0 ответов

Graphx: возможно ли выполнить программу на каждой вершине без получения сообщения?

Когда я пытался реализовать алгоритм в Graphx с помощью Scala, я не нашел возможности активировать все вершины в следующей итерации. Как я могу отправить сообщение всем вершинам моего графа? В моем алгоритме есть несколько супершагов, которые должны…
1 ответ

Сравнение парных RDD-кортежей

Я учусь использовать spark и scala и пытаюсь написать программу scala spark, которая получает и вводит строковые значения, такие как: 12 13 13 14 13 12 15 16 16 17 17 16 Я изначально создаю свою пару RDD с: val myRdd = sc.textFile(args(0)).map(line=…
13 окт '18 в 04:41
2 ответа

SBT консоль против Spark-Shell для интерактивной разработки

Мне интересно, есть ли какие-либо важные различия между использованием SBT-консоли и Spark-shell для интерактивной разработки нового кода для проекта Spark (ноутбуки на самом деле не вариант с брандмауэрами сервера). Оба могут импортировать зависимо…
03 авг '18 в 17:07
0 ответов

Apache Spark 2.3.1 - твиттер не является членом пакета org.apache.spark.streaming

Прежде всего, я некоторое время искал эту проблему, и я вижу, что существуют другие решения по этому вопросу, но ничего для Apache Spark версии 2.3.1. Короче говоря, я пытаюсь создать приложение, которое использует bahir для выполнения аналитических…
0 ответов

Не удалось запустить Spark-shell с исключением:java.lang.reflect.InvocationTargetException

Я новичок в Spark, установил несколько машин, работает spark-shell ХОРОШО. Но на одной из моих машин (RHEL5, немного старой) у меня возникла проблема: Я установил JDK, Scala, Ppark из файлов tar.gz, как показано ниже: export JAVA_HOME=/home/me/softw…
19 окт '18 в 07:28
2 ответа

Создание Dataframe с использованием spark2-shell и получил эту ошибку

Я новичок в Spark-shell и я получаю эту ошибку при создании кадра данных из файла CSV: scala> val bankDF = bankrdd.toDF() bankDF.registerTempTable("bankfull") <console>:1: error: ';' expected but '.' found. val bankDF = bankrdd.toDF() bankD…
04 ноя '18 в 17:22
0 ответов

Как прочитать файл свойств в databricks в scala без использования spark-shell?

Я могу читать это как RDD val rdd = sc.textFile("dbfs:/mnt/abc/XYZ.properties") но в файле очень мало данных, и я не хочу читать его как rdd, так как он разделит данные на разные узлы так как мы можем читать данные без использования спарк?
13 сен '18 в 08:34
0 ответов

Невозможно получить доступ к улью, используя искру

Я пытаюсь получить доступ к улью через спарк-снаряд. Я использую Windows 8. Версия Hive - 2.1.1 Версия Spark - 2.4.0 Версия Hadoop - 2.7.7 Для начала я ввел следующий код в Spark-shell import org.apache.spark.sql.hive.HiveContext import org.apache.s…
1 ответ

Система не может найти указанный путь spark-shell на windows 10

Я пытаюсь установить spark на моем местном. Выдает ошибку ниже при запуске spark-shell Система не может найти указанный путь Я обновил все переменные среды, такие как переменные JAVA_HOME, SPARK_HOME, PATH, но все еще получаю ошибку.
25 янв '19 в 08:29
1 ответ

Спарк читать содержимое zip файла в HDFS

Я пытаюсь прочитать данные из zip-файла можно прочитать весь текстовый файл, как показано ниже val f = sc.wholeTextFiles("hdfs://") но не знаю, как читать текстовые данные внутри zip файла Есть ли какой-нибудь возможный способ сделать это, если да, …
23 авг '18 в 21:10
0 ответов

Исключение запроса выбора куста по искру создает внешнюю таблицу, используя формат ORC

Я создал образец таблицы с помощью spark-shell. Записать рамку данных во внешнюю таблицу в формате ORC по разделам. Это рабочий файл с возможностью чтения / записи в оболочке spark. Но когда я попытался распространить тот же самый запрос выбора на о…
1 ответ

Ошибка получения файла из-за escape-символа

Я пытаюсь выполнить приведенную ниже команду spark-shell в терминале Linux через код Java. echo spark.sparkContext.parallelize\(1 to 3,3\).map\(x => \ (x,\"city_\"+x\)\).toDF\(\"num",\"city\"\).write.partitionBy\(\"num\"\).mode\ (SaveMode.Overwri…
08 окт '18 в 14:18