Описание тега apache-spark-1.6
Use for questions specific to Apache Spark 1.6. For general questions related to Apache Spark use the tag [apache-spark].
1
ответ
Как динамически выбирать spark.sql.shuffle.partitions
В настоящее время я обрабатываю данные с помощью раздела spark и foreach, открываю соединение с mysql и вставляю его в базу данных в количестве 1000. Как указано в значении по умолчанию SparkDocumentation: spark.sql.shuffle.partitions 200, но я хочу…
06 июн '16 в 14:43
1
ответ
Почему Spark Streaming не читается в теме Кафки?
Spark Streaming 1.6.0 Apache Kafka 10.0.1 Я использую Spark Streaming для чтения из sample тема. Код выполняется без ошибок и исключений, но я не получаю никаких данных на консоли через print() метод. Я проверил, есть ли сообщения в теме: ./bin/kafk…
21 апр '17 в 08:30
1
ответ
Не удалось загрузить таблицу улья в Spark
Я пытаюсь загрузить данные из таблицы улья с помощью spark-sql. Тем не менее, это ничего не возвращает мне. Я попытался выполнить тот же запрос в улье, и он выводит результат. Ниже мой код, который я пытаюсь выполнить в Scala. sc.setLogLevel("ERROR"…
03 апр '17 в 08:02
1
ответ
Оконные функции / scala / spark 1.6
Я хотел бы использовать оконную функцию в Scala. У меня есть файл CSV, который является следующим: id;date;value1 1;63111600000;100 1;63111700000;200 1;63154800000;300 Когда я пытаюсь применить оконную функцию к этому фрейму данных, иногда это работ…
02 фев '17 в 16:37
0
ответов
Невозможно открыть основной интерфейс приложения в spark1.6.1 в режиме кластера
Кластер Hadoop имеет 8 узлов с высокой доступностью диспетчера ресурсов. Активный ResourceManager находится в узле 3. и Standby ResourceManager в узле 2. когда я подаю заявку в режиме кластера. Контейнер драйвера может находиться в любом из 8 узлов.…
25 авг '18 в 05:15
2
ответа
Исключение в потоке "main" java.lang.NoClassDefFoundError: org/apache/spark/internal/Logging
My Spark Consumer не работает с ошибкой "регистрации". Я обнаружил во время просмотра ошибка из-за несовместимости банок. Я использую Spark 1.6.3 и все зависимости используются в pom,xml - 1.6.3. Тем не менее я получаю ту же ошибку. Ниже моя структу…
11 авг '17 в 09:06
0
ответов
HashMap UserDefinedType, выдающий исключение приведения в Spark 1.6.2 при реализации UDAF
Я пытаюсь использовать пользовательскую реализацию HashMap в качестве UserDefinedType вместо MapType в spark. Код работает нормально в спарк 1.5.2, но дает java.lang.ClassCastException: scala.collection.immutable.HashMap$HashMap1 cannot be cast to o…
11 окт '17 в 10:01
1
ответ
Спарк пишет файл внутри рабочего процесса
У меня есть работа Spark, которая генерирует набор результатов со статистикой. Мое количество рабочих элементов больше, чем количество рабов. Таким образом, я делаю больше чем одну обработку на раба. я cache результаты после генерации RDD объекты, ч…
27 фев '17 в 19:07
1
ответ
Ошибка метода неизвестна на кластере, работает локально - обе версии свечи идентичны
У меня проблема с использованием spark.ml.util.SchemaUtils на Spark v1.6.0. Я получаю следующую ошибку: Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.ml.util.SchemaUtils$.appendColumn(Lorg/apache/spark/sql/types/StructType…
16 мар '17 в 17:05
1
ответ
Apache Spark: настройка экземпляров исполнителя
Я запускаю свое приложение Spark на YARN с параметрами: в spark-defaults.conf: spark.master yarn-client spark.driver.cores 1 spark.driver.memory 1g spark.executor.instances 6 spark.executor.memory 1g в yarn-site.xml: yarn.nodemanager.resource.memory…
26 окт '16 в 16:08
1
ответ
Метод cast приводит к нулевым значениям в java spark
У меня есть простой пример использования соединения двух структур данных, я использую версию spark 1.6.3. Проблема заключается в том, что при попытке привести строковый тип к целочисленному типу с использованием метода приведения получающийся столбе…
19 дек '18 в 16:48
1
ответ
Почему чтение из Hive завершается с ошибкой "java.lang.ClassNotFoundException: класс org.apache.hadoop.fs.s3a.S3AFileSystem not found"?
Я использую Spark v1.6.1 и Hive v1.2.x с Python v2.7 Для Hive у меня есть несколько таблиц (ORC-файлов), хранящихся в HDFS, а некоторые хранятся в S3. Если мы пытаемся объединить 2 таблицы, одна из которых находится в HDFS, а другая - в S3, java.lan…
18 май '17 в 19:04
1
ответ
Исключение в потоке "main" java.lang.NoClassDefFoundError: org/ejml/simple/SimpleBase
Кажется, что здесь отсутствует библиотека Java Efficient Java Matrix Library(ejml), поэтому я скачал из источников здесь. Я создаю исполняемый файл Maven Jar и работаю в среде Openstack EDP Spark. У меня проблемы с выяснением, как решить эту проблем…
04 сен '17 в 12:28
0
ответов
Сценарий SparkSQL JDBC завершается с ошибкой "Не удается получить блокировки"
Я пытаюсь вставить 50 миллионов строк из таблицы улья в таблицу SQLServer, используя SparkSQL JDBC Writer. Ниже приведена строка кода, которую я использую для вставки данных. mdf1.coalesce(4).write.mode(SaveMode.Append).jdbc(connectionString, "dbo.T…
02 дек '17 в 05:14
1
ответ
Читать таблицу Impala с помощью SparkSQL
Я пытался выполнить запрос, который имел функции, такие как привести.. над.. раздел и Союз. Этот запрос хорошо работает, когда я пытаюсь запустить его на Impala, но не работает на Hive. Мне нужно написать работу Spark, которая выполняет этот запрос.…
28 авг '17 в 19:47
1
ответ
Apache spark, где пункт не работает
Я использую Apache Spark 1.6.1 на меньшем кластере пряжи. Я пытаюсь получить данные из таблицы улья, используя такой запрос: df = hiveCtx.sql(""" SELECT * FROM hive_database.gigantic_table WHERE loaddate = '20170502' """) Тем не менее, итоговый кадр…
13 июл '17 в 15:52
1
ответ
Как прочитать файл CSV с запятыми в поле, используя pyspark?
У меня есть CSV-файл, содержащий запятые в значении столбца. Например, Column1,Column2,Column3 123,"45,6",789 Значения заключаются в двойные кавычки, когда в данных есть лишние запятые. В приведенном выше примере значения Column1=123, Column2=45,6 и…
08 окт '18 в 14:54
1
ответ
Объединение схемы Spark без дубликатов?
Для обработки имеющихся у меня данных я извлекаю схему раньше, поэтому, когда я читаю набор данных, я предоставляю схему вместо того, чтобы выполнять дорогостоящий этап вывода схемы. Чтобы построить схему, мне нужно объединить несколько различных сх…
27 дек '16 в 22:45
1
ответ
Проблема с памятью pyspark: вызвано: java.lang.OutOfMemoryError: пространство кучи Java
Folks, Я запускаю код pyspark для чтения 500 МБ файла из hdfs и построения пустой таблицы из содержимого файла Информация о кластере: 9 датододов 128 ГБ памяти /48 vCore CPU /Node Конфигурация работы conf = SparkConf().setAppName('test') \ .set('spa…
17 май '18 в 23:17
1
ответ
Как найти схему значений в DStream во время выполнения?
Я использую Spark 1.6 и Kafka 0.8.2.1. Я пытаюсь получить некоторые данные из Kafka с помощью Spark Streaming и выполнить некоторые операции с этими данными. Для этого я должен знать схему извлеченных данных, есть ли способ для этого или мы можем по…
28 май '17 в 18:25