Описание тега apache-spark-1.5

Use for questions specific to Apache Spark 1.5. For general questions related to Apache Spark use the tag [apache-spark].
0 ответов

Разделитель поля таблицы Hive не распознается искрой HiveContext

Я создал внешнюю таблицу улья, которая хранится в виде текстового файла, разделенного по дате события. Как мы должны указать конкретный формат CSV при чтении в спарк из таблицы Hive? Окружающая среда 1. 1.Spark 1.5.0 - cdh5.5.1 Using Scala version 2…
0 ответов

Spark 2.0 ГРУППА ПО НУЛЯМ

Работаем над переносом некоторых запросов из Spark 1.5 в Spark 2.0 Запрос следующий: SELECT users.age AS users_age, NULL AS users_running_total_on_null FROM users GROUP BY users.age ORDER BY users_age LIMIT 1 Во-первых, я знаю, что в Spark нулевые п…
6 ответов

"INSERT INTO ..." с SparkSQL HiveContext

Я пытаюсь запустить оператор вставки с моим HiveContext, например так: hiveContext.sql('insert into my_table (id, score) values (1, 10)') В документации SQL Server 1.5.2 Spark явно не указано, поддерживается ли она или нет, хотя она поддерживает "ди…
1 ответ

Как подключить Zeppelin к Spark 1.5, собранной из исходников?

Я вытащил последний источник из репозитория Spark и собрал локально. Он отлично работает из интерактивной оболочки, такой как spark-shell или же spark-sql, Теперь я хочу подключить Zeppelin к моему Spark 1.5, согласно этому руководству по установке.…
2 ответа

Передача дополнительных банок в Spark через spark-submit

Я использую Spark с MongoDB, и поэтому полагаюсь на mongo-hadoop водители. У меня все работает благодаря вкладу в мой оригинальный вопрос здесь. Моя работа Spark выполняется, однако я получаю предупреждения, которые не понимаю. Когда я запускаю эту …
2 ответа

Как работать с Apache Spark, используя Intellij Idea?

Я хочу знать, как лучше всего работать с Apache Spark, используя Intellij Idea? (специально для языка программирования Scala) Пожалуйста, объясните шаг за шагом, если можете. Спасибо за ответ
2 ответа

Опции для чтения больших файлов (чистый текст, xml, json, csv) из hdfs в RStudio с SparkR 1.5

Я новичок в Spark и хотел бы знать, есть ли другие варианты, кроме указанных ниже, для чтения данных, хранящихся в hdfs из RStudio с использованием SparkR, или я правильно их использую. Данные могут быть любого типа (чистый текст, CSV, JSON, XML или…
15 сен '15 в 12:07
1 ответ

Apache Spark dataframe createJDBCTable исключение

Связано с сохранением в JDBC, попыткой импортировать текстовый файл и сохранить в файл Hive JDBC для импорта с помощью инструментов отчетности. Мы используем spark-1.5.1-bin-hadoop2.6 (ведущий + 1 ведомый), сервер управления JDBC и клиент beeline. К…
1 ответ

zeppelin with spark 1.5.2 ошибка автономного кластера

Я загрузил двоичный файл Zeppelin 0.5.5 в экземпляр Redhat 6.3. Я также успешно построил спарк 1.5.2. Теперь я хотел бы, чтобы zeppelin использовал эту версию искры вместо предварительно скомпилированной версии, которая поставляется с zeppelin. Для …
1 ответ

Действия / преобразования на нескольких RDD одновременно в Spark

Я пишу приложение Spark (один клиент) и имею дело с множеством небольших файлов, для которых я хочу запустить алгоритм. Тот же алгоритм для каждого из них. Но файлы не могут быть загружены в один и тот же RDD для работы алгоритма, потому что он долж…
01 окт '15 в 13:31
1 ответ

Искра на Hadoop YARN - исполнитель отсутствует

У меня есть кластер из 3 компьютеров MacOS, работающих под управлением Hadoop и Spark-1.5.2 (хотя с Spark-2.0.0 такая же проблема существует). При использовании "пряжи" в качестве основного URL-адреса Spark я сталкиваюсь со странной проблемой, когда…
10 окт '16 в 22:37
0 ответов

Spark SQL like не возвращает результатов spark версии 1.5.1/1.5.2 с использованием sqlContext select

Это не похоже на спарк sql с поддержкой улья "sql like". Вот пример кода, который я использую для тестирования в spark-shell case class Department(id: String, name: String) val department1 = new Department("123456", "Computer Science") val departmen…
0 ответов

Как вызвать SparkContext и SparkConf в Eclipse с Python

Я настроил среду PySpark в Eclipse IDE. Я смонтировал драйвер Py4J, связал интерпретатор PyDev и настроил каталог PySpark с помощью переменных среды, но я озадачен тем, как создать объект SparkConf для настройки setAppName и setMaster. Я работаю в M…
12 ноя '15 в 19:40
1 ответ

Spark 1.5.0 spark.app.id предупреждение

Я обновил свой кластер CDH для использования spark 1.5.0, Когда я подаю искру приложение, система показывает предупреждение о spark.app.id Using default name DAGScheduler for source because spark.app.id is not set. Я искал около spark.app.id но не д…
26 сен '15 в 03:16
0 ответов

Spark - постоянный RDD с памятью уровня хранения и дисковым сервером не сохраняет данные на диск

У меня есть машина с 4 кластерами (1 мастер и 3 рабочих), каждая машина с 4 ядрами и 16 ГБ памяти, и я использую 2 ядра и 8 ГБ памяти на рабочий узел. Итого всего 6 ядер с 24 ГБ памяти. У меня есть файл данных 5 ГБ в формате hdf с 41 блоком, каждый …
01 сен '16 в 13:38
2 ответа

Что эквивалентно для Ozzie?

У нас очень сложные конвейеры, которые нам нужно составить и запланировать. Я вижу, что в экосистеме Hadoop есть Oozie для этого. Каковы варианты для заданий на основе Spark, когда я запускаю Spark на Mesos или Standalone и не имею кластера Hadoop?
24 ноя '15 в 00:55
1 ответ

Сохранить Spark Dataframe в Elasticsearch - Не удается обработать исключение типа

Я разработал простую работу для чтения данных из MySQL и сохранения их в Elasticsearch с помощью Spark. Вот код: JavaSparkContext sc = new JavaSparkContext( new SparkConf().setAppName("MySQLtoEs") .set("es.index.auto.create", "true") .set("es.nodes"…
0 ответов

Ошибка инициализации SparkContext при запуске "./bin/spark-shell"

Я использую spark-1.5.2 с scala-2.11.7после успешного построения с sbt/sbt assembly когда я бегу ./bin/spark-shell я получил ниже ошибки. 16/02/10 19:20:22 ERROR SparkContext: Error initializing SparkContext. akka.ConfigurationException: Akka JAR ve…
10 фев '16 в 14:20
0 ответов

Драйвер искры остановился после получения результата с помощью команды spark-submit

Я установил автономный режим spark-1.5.1 и использую команду spark-submit для получения результата. На самом деле я хотел бы получить результат, используя spark скрытый rest API. При остановке spark-драйвера я не могу получить результат, используя r…
01 ноя '15 в 03:18
2 ответа

Могу ли я иметь мастера и работника на одном узле?

У меня есть автономный кластер с 3 узлами искры, и на главном узле у меня также есть рабочий. Когда я отправляю приложение в кластер, два других работника запускают RUNNING, но рабочий на главном узле остается со статусом LOADING, и в конце концов д…