Описание тега apache-spark-1.4

Используйте для вопросов, касающихся Apache Spark 1.4. Для общих вопросов, связанных с Apache Spark, используйте тег [apache-spark].
2 ответа

Как обрабатывать нулевые записи в SparkR

У меня есть SparkSQL DataFrame. Некоторые записи в этих данных пусты, но они не ведут себя как NULL или NA. Как я мог удалить их? Есть идеи? В R I их легко удалить, но в sparkR говорится, что есть проблема с системой / методами S4. Благодарю.
23 июл '15 в 21:46
1 ответ

Изображение Spark 1.4 для Google Cloud?

С bdutil последняя версия tarball, которую я могу найти, находится на spark 1.3.1: гс://spark-dist/spark-1.3.1-bin-hadoop2.6.tgz В Spark 1.4 есть несколько новых функций DataFrame, которые я хочу использовать. Есть ли шанс, что образ Spark 1.4 будет…
1 ответ

Выберите значения из столбца данных

Я хотел бы рассчитать разницу между двумя значениями из одного столбца. Прямо сейчас я просто хочу разницу между последним значением и первым значением, однако использование last(столбец) возвращает нулевой результат. Есть ли причина, по которой las…
0 ответов

Пользовательский трансформатор в PySpark Pipeline с перекрестной проверкой

Я написал собственный преобразователь, как описано здесь. При создании конвейера с моим преобразователем в качестве первого шага я могу обучить (логистическую регрессию) модель для классификации. Однако, когда я хочу выполнить перекрестную проверку …
1 ответ

Ошибка компиляции при вызове updateStateByKey

Ошибка компиляции: The method updateStateByKey(Function2<List<Integer>,Optional<S>,Optional<S>>) in the type JavaPairDStream<String,Integer> is not applicable for the arguments (Function2<List<Integer>,Optional…
03 авг '15 в 05:07
1 ответ

Почему YARN не может получить исполнителя, если включено динамическое распределение?

Задания работают плавно при использовании YARN без включения функции динамического выделения. Я использую Spark 1.4.0. Вот что я пытаюсь сделать: rdd = sc.parallelize(range(1000000)) rdd.first() Вот что я получаю в логах: 15/09/08 11:36:12 INFO Spar…
2 ответа

Исключить утечку памяти из кучи на пряже с помощью прямого потока Kafka

Я использую потоковую версию 1.4.0 на Yarn (дистрибутив Apache 2.6.0) с java 1.8.0_45, а также прямой поток Kafka. Я также использую спарк с поддержкой Scala 2.11. Проблема, с которой я сталкиваюсь, заключается в том, что контейнеры как драйвера, та…
1 ответ

Непоследовательная догадка JSON-схемы с кадрами данных Spark

Попытка прочитать файл JSON с фреймами данных Spark 1.4.1 и перейти внутрь. Кажется, угаданная схема неверна. JSON-файл: { "FILE": { "TUPLE_CLI": [{ "ID_CLI": "C3-00000004", "TUPLE_ABO": [{ "ID_ABO": "T0630000000000004", "TUPLE_CRA": { "CRA": "T0700…
1 ответ

Искра: DecoderException: java.lang.OutOfMemoryError

Я запускаю потоковое приложение Spark в кластере с 3 рабочими узлами. Время от времени задания не выполняются из-за следующего исключения: Job aborted due to stage failure: Task 0 in stage 4508517.0 failed 4 times, most recent failure: Lost task 0.3…
1 ответ

Интеграция Spark + Kafka - отображение разделов Kafka на разделы RDD

У меня есть пара основных вопросов, связанных с потоковой передачей искр [Пожалуйста, дайте мне знать, если на эти вопросы были даны ответы в других сообщениях - я не смог найти ни одного]: (i) Является ли в Spark Streaming количество разделов в СДР…
1 ответ

Медленный или неполный saveAsParquetFile от EMR Spark до S3

У меня есть кусок кода, который создает DataFrame и сохраняет его на S3. Ниже создает DataFrame из 1000 строк и 100 столбцов, заполненных math.Random, Я запускаю это на кластере с 4 х r3.8xlarge рабочие узлы и настройка большого количества памяти. Я…
1 ответ

pyspark 1.4, как получить список в агрегированной функции

Я хочу получить список значений столбца в агрегированной функции, в pyspark 1.4. collect_list не доступен. У кого-нибудь есть предложения как это сделать? Оригинальные колонки: ID, date, hour, cell 1, 1030, 01, cell1 1, 1030, 01, cell2 2, 1030, 01, …
06 дек '17 в 22:53
1 ответ

Spark 1.4 Mllib LDA topicDistributions() возвращает неправильное количество документов

У меня есть модель LDA, работающая на корпусе размером 12 054 документа с размером вокаба 9 681 слово и 60 кластерами. Я пытаюсь получить распространение темы по документам, вызывая.topicDistributions() или.javaTopicDistributions(). Оба эти метода в…
1 ответ

Spark рабочий узел удален, но не пропал

Я использую Spark отдельно с мастером и одним работником только для тестирования. Сначала я использовал одну рабочую коробку, но теперь я решил использовать другую рабочую коробку. Для этого я остановил работающий мастер, изменил IP в файле conf/sla…
13 окт '15 в 16:35
1 ответ

Как оптимизировать случайный разлив в приложении Apache Spark

Я запускаю потоковое приложение Spark с двумя рабочими. Приложение имеет операции объединения и объединения. Все партии успешно завершаются, но заметили, что метрики случайного разлива не соответствуют размеру входных или выходных данных (объем разл…
2 ответа

Spark группировки и пользовательские агрегации

У меня есть данные, как показано ниже, n1 d1 un1 mt1 1 n1 d1 un1 mt2 2 n1 d1 un1 mt3 3 n1 d1 un1 mt4 4 n1 d2 un1 mt1 3 n1 d2 un1 mt3 3 n1 d2 un1 mt4 4 n1 d2 un1 mt5 6 n1 d2 un1 mt2 3 я хочу получить вывод, как показано ниже n1 d1 un1 0.75 n1 d2 un1 …
6 ответов

Оптимизация соединения DataFrame - Broadcast Hash Join

Я пытаюсь эффективно объединить два DataFrames, один из которых большой, а второй немного меньше. Есть ли способ избежать всего этого перетасовки? Я не могу установить autoBroadCastJoinThresholdпотому что он поддерживает только целые числа - и табли…
3 ответа

Не могу запустить спарк-оболочку

Я использую Spark 1.4.1. Я могу использовать spark-submit без проблем. Но когда я побежал ~/spark/bin/spark-shell Я получил ошибку ниже, я настроил SPARK_HOME а также JAVA_HOME, Тем не менее, это было нормально с Spark 1.2 15/10/08 02:40:30 WARN Nat…
08 окт '15 в 02:45
1 ответ

Невозможно сохранить RDD[String] в виде текстового файла с помощью saveAsTextFile

Когда я пытаюсь записать мой RDD в текстовый файл на HDFS, как показано ниже, я получаю сообщение об ошибке. val rdd = sc.textFile("/user/hadoop/dxld801/test.txt") val filtered = rdd.map({line=> line.replace("\\N","NULL")}) filtered.saveAsTextFil…
3 ответа

Найти размер данных, хранящихся в rdd из текстового файла в Apache Spark

Я новичок в Apache Spark (версия 1.4.1). Я написал небольшой код для чтения текстового файла и сохранил его данные в Rdd . Есть ли способ, которым я могу получить размер данных в RDD. Это мой код: import org.apache.spark.SparkContext import org.apac…
24 авг '15 в 09:52