Описание тега apache-spark-1.6

Use for questions specific to Apache Spark 1.6. For general questions related to Apache Spark use the tag [apache-spark].
1 ответ

Как динамически выбирать spark.sql.shuffle.partitions

В настоящее время я обрабатываю данные с помощью раздела spark и foreach, открываю соединение с mysql и вставляю его в базу данных в количестве 1000. Как указано в значении по умолчанию SparkDocumentation: spark.sql.shuffle.partitions 200, но я хочу…
06 июн '16 в 14:43
1 ответ

Почему Spark Streaming не читается в теме Кафки?

Spark Streaming 1.6.0 Apache Kafka 10.0.1 Я использую Spark Streaming для чтения из sample тема. Код выполняется без ошибок и исключений, но я не получаю никаких данных на консоли через print() метод. Я проверил, есть ли сообщения в теме: ./bin/kafk…
1 ответ

Не удалось загрузить таблицу улья в Spark

Я пытаюсь загрузить данные из таблицы улья с помощью spark-sql. Тем не менее, это ничего не возвращает мне. Я попытался выполнить тот же запрос в улье, и он выводит результат. Ниже мой код, который я пытаюсь выполнить в Scala. sc.setLogLevel("ERROR"…
03 апр '17 в 08:02
1 ответ

Оконные функции / scala / spark 1.6

Я хотел бы использовать оконную функцию в Scala. У меня есть файл CSV, который является следующим: id;date;value1 1;63111600000;100 1;63111700000;200 1;63154800000;300 Когда я пытаюсь применить оконную функцию к этому фрейму данных, иногда это работ…
02 фев '17 в 16:37
0 ответов

Невозможно открыть основной интерфейс приложения в spark1.6.1 в режиме кластера

Кластер Hadoop имеет 8 узлов с высокой доступностью диспетчера ресурсов. Активный ResourceManager находится в узле 3. и Standby ResourceManager в узле 2. когда я подаю заявку в режиме кластера. Контейнер драйвера может находиться в любом из 8 узлов.…
25 авг '18 в 05:15
2 ответа

Исключение в потоке "main" java.lang.NoClassDefFoundError: org/apache/spark/internal/Logging

My Spark Consumer не работает с ошибкой "регистрации". Я обнаружил во время просмотра ошибка из-за несовместимости банок. Я использую Spark 1.6.3 и все зависимости используются в pom,xml - 1.6.3. Тем не менее я получаю ту же ошибку. Ниже моя структу…
0 ответов

HashMap UserDefinedType, выдающий исключение приведения в Spark 1.6.2 при реализации UDAF

Я пытаюсь использовать пользовательскую реализацию HashMap в качестве UserDefinedType вместо MapType в spark. Код работает нормально в спарк 1.5.2, но дает java.lang.ClassCastException: scala.collection.immutable.HashMap$HashMap1 cannot be cast to o…
1 ответ

Спарк пишет файл внутри рабочего процесса

У меня есть работа Spark, которая генерирует набор результатов со статистикой. Мое количество рабочих элементов больше, чем количество рабов. Таким образом, я делаю больше чем одну обработку на раба. я cache результаты после генерации RDD объекты, ч…
27 фев '17 в 19:07
1 ответ

Ошибка метода неизвестна на кластере, работает локально - обе версии свечи идентичны

У меня проблема с использованием spark.ml.util.SchemaUtils на Spark v1.6.0. Я получаю следующую ошибку: Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.ml.util.SchemaUtils$.appendColumn(Lorg/apache/spark/sql/types/StructType…
16 мар '17 в 17:05
1 ответ

Apache Spark: настройка экземпляров исполнителя

Я запускаю свое приложение Spark на YARN с параметрами: в spark-defaults.conf: spark.master yarn-client spark.driver.cores 1 spark.driver.memory 1g spark.executor.instances 6 spark.executor.memory 1g в yarn-site.xml: yarn.nodemanager.resource.memory…
26 окт '16 в 16:08
1 ответ

Метод cast приводит к нулевым значениям в java spark

У меня есть простой пример использования соединения двух структур данных, я использую версию spark 1.6.3. Проблема заключается в том, что при попытке привести строковый тип к целочисленному типу с использованием метода приведения получающийся столбе…
1 ответ

Почему чтение из Hive завершается с ошибкой "java.lang.ClassNotFoundException: класс org.apache.hadoop.fs.s3a.S3AFileSystem not found"?

Я использую Spark v1.6.1 и Hive v1.2.x с Python v2.7 Для Hive у меня есть несколько таблиц (ORC-файлов), хранящихся в HDFS, а некоторые хранятся в S3. Если мы пытаемся объединить 2 таблицы, одна из которых находится в HDFS, а другая - в S3, java.lan…
1 ответ

Исключение в потоке "main" java.lang.NoClassDefFoundError: org/ejml/simple/SimpleBase

Кажется, что здесь отсутствует библиотека Java Efficient Java Matrix Library(ejml), поэтому я скачал из источников здесь. Я создаю исполняемый файл Maven Jar и работаю в среде Openstack EDP Spark. У меня проблемы с выяснением, как решить эту проблем…
04 сен '17 в 12:28
0 ответов

Сценарий SparkSQL JDBC завершается с ошибкой "Не удается получить блокировки"

Я пытаюсь вставить 50 миллионов строк из таблицы улья в таблицу SQLServer, используя SparkSQL JDBC Writer. Ниже приведена строка кода, которую я использую для вставки данных. mdf1.coalesce(4).write.mode(SaveMode.Append).jdbc(connectionString, "dbo.T…
1 ответ

Читать таблицу Impala с помощью SparkSQL

Я пытался выполнить запрос, который имел функции, такие как привести.. над.. раздел и Союз. Этот запрос хорошо работает, когда я пытаюсь запустить его на Impala, но не работает на Hive. Мне нужно написать работу Spark, которая выполняет этот запрос.…
1 ответ

Apache spark, где пункт не работает

Я использую Apache Spark 1.6.1 на меньшем кластере пряжи. Я пытаюсь получить данные из таблицы улья, используя такой запрос: df = hiveCtx.sql(""" SELECT * FROM hive_database.gigantic_table WHERE loaddate = '20170502' """) Тем не менее, итоговый кадр…
1 ответ

Как прочитать файл CSV с запятыми в поле, используя pyspark?

У меня есть CSV-файл, содержащий запятые в значении столбца. Например, Column1,Column2,Column3 123,"45,6",789 Значения заключаются в двойные кавычки, когда в данных есть лишние запятые. В приведенном выше примере значения Column1=123, Column2=45,6 и…
1 ответ

Объединение схемы Spark без дубликатов?

Для обработки имеющихся у меня данных я извлекаю схему раньше, поэтому, когда я читаю набор данных, я предоставляю схему вместо того, чтобы выполнять дорогостоящий этап вывода схемы. Чтобы построить схему, мне нужно объединить несколько различных сх…
27 дек '16 в 22:45
1 ответ

Проблема с памятью pyspark: вызвано: java.lang.OutOfMemoryError: пространство кучи Java

Folks, Я запускаю код pyspark для чтения 500 МБ файла из hdfs и построения пустой таблицы из содержимого файла Информация о кластере: 9 датододов 128 ГБ памяти /48 vCore CPU /Node Конфигурация работы conf = SparkConf().setAppName('test') \ .set('spa…
17 май '18 в 23:17
1 ответ

Как найти схему значений в DStream во время выполнения?

Я использую Spark 1.6 и Kafka 0.8.2.1. Я пытаюсь получить некоторые данные из Kafka с помощью Spark Streaming и выполнить некоторые операции с этими данными. Для этого я должен знать схему извлеченных данных, есть ли способ для этого или мы можем по…