Описание тега apache-spark-1.4
Используйте для вопросов, касающихся Apache Spark 1.4. Для общих вопросов, связанных с Apache Spark, используйте тег [apache-spark].
2
ответа
Как обрабатывать нулевые записи в SparkR
У меня есть SparkSQL DataFrame. Некоторые записи в этих данных пусты, но они не ведут себя как NULL или NA. Как я мог удалить их? Есть идеи? В R I их легко удалить, но в sparkR говорится, что есть проблема с системой / методами S4. Благодарю.
23 июл '15 в 21:46
1
ответ
Изображение Spark 1.4 для Google Cloud?
С bdutil последняя версия tarball, которую я могу найти, находится на spark 1.3.1: гс://spark-dist/spark-1.3.1-bin-hadoop2.6.tgz В Spark 1.4 есть несколько новых функций DataFrame, которые я хочу использовать. Есть ли шанс, что образ Spark 1.4 будет…
16 июл '15 в 23:27
1
ответ
Выберите значения из столбца данных
Я хотел бы рассчитать разницу между двумя значениями из одного столбца. Прямо сейчас я просто хочу разницу между последним значением и первым значением, однако использование last(столбец) возвращает нулевой результат. Есть ли причина, по которой las…
28 сен '15 в 16:11
0
ответов
Пользовательский трансформатор в PySpark Pipeline с перекрестной проверкой
Я написал собственный преобразователь, как описано здесь. При создании конвейера с моим преобразователем в качестве первого шага я могу обучить (логистическую регрессию) модель для классификации. Однако, когда я хочу выполнить перекрестную проверку …
22 сен '15 в 10:44
1
ответ
Ошибка компиляции при вызове updateStateByKey
Ошибка компиляции: The method updateStateByKey(Function2<List<Integer>,Optional<S>,Optional<S>>) in the type JavaPairDStream<String,Integer> is not applicable for the arguments (Function2<List<Integer>,Optional…
03 авг '15 в 05:07
1
ответ
Почему YARN не может получить исполнителя, если включено динамическое распределение?
Задания работают плавно при использовании YARN без включения функции динамического выделения. Я использую Spark 1.4.0. Вот что я пытаюсь сделать: rdd = sc.parallelize(range(1000000)) rdd.first() Вот что я получаю в логах: 15/09/08 11:36:12 INFO Spar…
08 сен '15 в 08:49
2
ответа
Исключить утечку памяти из кучи на пряже с помощью прямого потока Kafka
Я использую потоковую версию 1.4.0 на Yarn (дистрибутив Apache 2.6.0) с java 1.8.0_45, а также прямой поток Kafka. Я также использую спарк с поддержкой Scala 2.11. Проблема, с которой я сталкиваюсь, заключается в том, что контейнеры как драйвера, та…
13 июл '15 в 18:01
1
ответ
Непоследовательная догадка JSON-схемы с кадрами данных Spark
Попытка прочитать файл JSON с фреймами данных Spark 1.4.1 и перейти внутрь. Кажется, угаданная схема неверна. JSON-файл: { "FILE": { "TUPLE_CLI": [{ "ID_CLI": "C3-00000004", "TUPLE_ABO": [{ "ID_ABO": "T0630000000000004", "TUPLE_CRA": { "CRA": "T0700…
26 ноя '15 в 13:54
1
ответ
Искра: DecoderException: java.lang.OutOfMemoryError
Я запускаю потоковое приложение Spark в кластере с 3 рабочими узлами. Время от времени задания не выполняются из-за следующего исключения: Job aborted due to stage failure: Task 0 in stage 4508517.0 failed 4 times, most recent failure: Lost task 0.3…
14 окт '15 в 00:52
1
ответ
Интеграция Spark + Kafka - отображение разделов Kafka на разделы RDD
У меня есть пара основных вопросов, связанных с потоковой передачей искр [Пожалуйста, дайте мне знать, если на эти вопросы были даны ответы в других сообщениях - я не смог найти ни одного]: (i) Является ли в Spark Streaming количество разделов в СДР…
30 сен '15 в 18:37
1
ответ
Медленный или неполный saveAsParquetFile от EMR Spark до S3
У меня есть кусок кода, который создает DataFrame и сохраняет его на S3. Ниже создает DataFrame из 1000 строк и 100 столбцов, заполненных math.Random, Я запускаю это на кластере с 4 х r3.8xlarge рабочие узлы и настройка большого количества памяти. Я…
09 сен '15 в 07:11
1
ответ
pyspark 1.4, как получить список в агрегированной функции
Я хочу получить список значений столбца в агрегированной функции, в pyspark 1.4. collect_list не доступен. У кого-нибудь есть предложения как это сделать? Оригинальные колонки: ID, date, hour, cell 1, 1030, 01, cell1 1, 1030, 01, cell2 2, 1030, 01, …
06 дек '17 в 22:53
1
ответ
Spark 1.4 Mllib LDA topicDistributions() возвращает неправильное количество документов
У меня есть модель LDA, работающая на корпусе размером 12 054 документа с размером вокаба 9 681 слово и 60 кластерами. Я пытаюсь получить распространение темы по документам, вызывая.topicDistributions() или.javaTopicDistributions(). Оба эти метода в…
14 авг '15 в 21:57
1
ответ
Spark рабочий узел удален, но не пропал
Я использую Spark отдельно с мастером и одним работником только для тестирования. Сначала я использовал одну рабочую коробку, но теперь я решил использовать другую рабочую коробку. Для этого я остановил работающий мастер, изменил IP в файле conf/sla…
13 окт '15 в 16:35
1
ответ
Как оптимизировать случайный разлив в приложении Apache Spark
Я запускаю потоковое приложение Spark с двумя рабочими. Приложение имеет операции объединения и объединения. Все партии успешно завершаются, но заметили, что метрики случайного разлива не соответствуют размеру входных или выходных данных (объем разл…
12 июн '15 в 07:36
2
ответа
Spark группировки и пользовательские агрегации
У меня есть данные, как показано ниже, n1 d1 un1 mt1 1 n1 d1 un1 mt2 2 n1 d1 un1 mt3 3 n1 d1 un1 mt4 4 n1 d2 un1 mt1 3 n1 d2 un1 mt3 3 n1 d2 un1 mt4 4 n1 d2 un1 mt5 6 n1 d2 un1 mt2 3 я хочу получить вывод, как показано ниже n1 d1 un1 0.75 n1 d2 un1 …
04 авг '15 в 18:59
6
ответов
Оптимизация соединения DataFrame - Broadcast Hash Join
Я пытаюсь эффективно объединить два DataFrames, один из которых большой, а второй немного меньше. Есть ли способ избежать всего этого перетасовки? Я не могу установить autoBroadCastJoinThresholdпотому что он поддерживает только целые числа - и табли…
07 сен '15 в 09:26
3
ответа
Не могу запустить спарк-оболочку
Я использую Spark 1.4.1. Я могу использовать spark-submit без проблем. Но когда я побежал ~/spark/bin/spark-shell Я получил ошибку ниже, я настроил SPARK_HOME а также JAVA_HOME, Тем не менее, это было нормально с Spark 1.2 15/10/08 02:40:30 WARN Nat…
08 окт '15 в 02:45
1
ответ
Невозможно сохранить RDD[String] в виде текстового файла с помощью saveAsTextFile
Когда я пытаюсь записать мой RDD в текстовый файл на HDFS, как показано ниже, я получаю сообщение об ошибке. val rdd = sc.textFile("/user/hadoop/dxld801/test.txt") val filtered = rdd.map({line=> line.replace("\\N","NULL")}) filtered.saveAsTextFil…
18 авг '15 в 07:05
3
ответа
Найти размер данных, хранящихся в rdd из текстового файла в Apache Spark
Я новичок в Apache Spark (версия 1.4.1). Я написал небольшой код для чтения текстового файла и сохранил его данные в Rdd . Есть ли способ, которым я могу получить размер данных в RDD. Это мой код: import org.apache.spark.SparkContext import org.apac…
24 авг '15 в 09:52