Описание тега rdd

Описание тега Вопросы с тегом

Resilient Distributed Datasets (RDDs) are a distributed memory abstraction that allows programmers to perform in-memory computations on large clusters while retaining the fault tolerance of data flow models like MapReduce.

1 ответ

Предварительная обработка данных с Apache Spark и Scala

Я довольно новичок в spark и scala, и поэтому у меня есть несколько вопросов, касающихся предварительной обработки данных с помощью spark и работы с rdds. Я работаю над небольшим проектом и хочу внедрить систему машинного обучения с помощью spark. Я…

scala apache-spark rdd

21 июл '15 в 19:06

2 ответа

Как разделить RDD по столбцам на список RDD в Python

Допустим, у нас есть этот RDD: RDDs = sc.parallelize([["panda", 0], ["pink", 3]]) Поскольку RDD теперь имеют два столбца, нужно получить два RDD, например: RDDList[0] = (["panda"], ["pink"]) RDDList[1] = ([0], [3]) Не удалось найти обсуждение по это…

python apache-spark rdd

19 июн '18 в 15:08

1 ответ

Сортировать по нескольким значениям с помощью sortBy

Я хотел бы отсортировать RDD[(Int,Int)] по первому и второму значению, чтобы иметь что-то подобное. [(1,1),(1,2),(1,3),(2,1),(2,2),(3,1)....] Я пробовал это rdd.sortBy( x => (x._1,x._2) ) Но, похоже, он не работает, даже если он компилируется, он…

scala apache-spark rdd

03 фев '16 в 09:33

2 ответа

Как получить конкретную запись из RDD с помощью Python

Я работаю в RDD с помощью Python. Я хочу найти конкретную запись из этого RDD (8, 23, 4.0) (50, 21, 3.0) (5, 48, 3.0) (5, 85, 3.0) (40, 17, 3.0) (3, 62, 3.0) (24, 92, 3.0) (48, 24, 3.0) (48, 73, 3.0) (34, 48, 3.0) (50, 14, 3.0) (1, 78, 3.0) (7, 8, 3…

python apache-spark pyspark rdd

12 июл '17 в 12:39

3 ответа

Является ли groupByKey когда-либо предпочтительным по сравнению с ReduByKey

Я всегда использую reduceByKey когда мне нужно сгруппировать данные в RDD, потому что он выполняет уменьшение на стороне карты перед перетасовкой данных, что часто означает, что меньше данных перетасовывается, и, таким образом, я получаю более высок…

apache-spark rdd

19 окт '15 в 18:49

1 ответ

Фильтрация СДР по количеству вхождений

У меня есть СДР рейтингов продуктов с использованием объекта MLlib Rating, который является просто кортежем (int userId, int productId, double rating). Я хочу удалить любой элемент из СДР, являющийся обзором продукта со слишком низким рейтингом. Нап…

scala apache-spark rdd apache-spark-mllib

14 фев '17 в 16:03

1 ответ

Spark: создание объекта RDD из списка<Object> RDD

Предполагать Employee это класс Java у меня есть JavaRDD<Employee[]> arrayOfEmpListкаждый СДР имеет array of employees, Из этого я хочу создать единый список сотрудников, что-то вроде JavaRDD<Employee> Вот что я попробовал: создал List&l…

java apache-spark rdd

26 май '16 в 13:23

2 ответа

Рекурсивный вызов метода в Apache Spark

Я строю семейное дерево из базы данных на Apache Spark, используя рекурсивный поиск, чтобы найти конечного родителя (то есть человека на вершине семейного дерева) для каждого человека в БД. Для этого предполагается, что первый человек, вернувшийся п…

scala apache-spark recursion rdd

17 фев '16 в 18:07

1 ответ

Spark читает Python3 Pickle в качестве входных данных

Мои данные доступны в виде наборов маринованных файлов Python 3. Большинство из них - сериализация панд DataFrames, Я хотел бы начать использовать Spark, потому что мне нужно больше памяти и процессора, которые может иметь один компьютер. Также я бу…

python-3.x apache-spark pyspark serialization rdd

26 мар '16 в 08:56

0 ответов

Как подружиться второй степени

У меня есть RDD, его элементы такие: (k,<iterable list>),(imagine key is a vertex and values are it's neighbors).Я хочу найти друзей второй степени (Friends of friends). Так что у меня должно быть два вложенных цикла для создания этих пар ключ…

scala apache-spark rdd

25 янв '16 в 10:43

1 ответ

Как разделить входные данные и загрузить их в RDD

У меня есть терабайты данных для обработки с использованием Apache Spark. Я использую код sparkContext.binaryFiles(folderpath) загрузить все данные из папки. Я думаю, что он загружает полные данные в RDD и вызывает ошибку OutOfMemory. Как разделить …

java apache-spark rdd

03 фев '16 в 09:46

0 ответов

Почему mergeValue требуется в CombineByKey

Операция комбинировать ByKey в спарк принимает три функции, как показано ниже: combineByKey(createCombiner, mergeValue, mergeCombiners). Результат mergeValue может быть создан с помощью createCombiner а также mergeCombiner как показано ниже. Пусть ф…

performance apache-spark rdd

04 июн '18 в 07:54

1 ответ

Сам включайся в искру с scala api

Ранее я опубликовал проблему самостоятельного присоединения в Scala. Я пытаюсь реализовать то же самое в Spark, но не могу конвертировать. Здесь проблема и мой код. Набор входных данных... Proprty_ID, latitude, longitude, Address 123, 33.84, -118.39…

list scala apache-spark rdd haversine

19 фев '16 в 23:22

1 ответ

Искра декартова не вызывает перемешивания?

Итак, я попытался протестировать операции Spark, которые вызывают перестановки, на основе этого сообщения стека overflow: LINK. Тем не менее, это не имеет смысла для меня, когда cartesian операция не вызывает перетасовки в Spark, поскольку они должн…

apache-spark pyspark rdd concept

01 авг '16 в 23:56

2 ответа

Извлечение столбца СДР в новый СДР

У меня есть rdd с несколькими столбцами и я хочу извлечь столбец с именем age. Я старался: rddAge = df.rdd.map(lambda row: Row(age=row.age)) Код не возвращает ошибок. Но когда я просто пытаюсь сделать rddAge.count(), я получаю очень длинную трассиро…

python apache-spark rdd spark-dataframe

10 фев '17 в 02:54

1 ответ

Создание схемы Pyspark с использованием ArrayType

Я пытаюсь создать схему для моего нового DataFrame и пробовал различные комбинации скобок и ключевых слов, но не смог понять, как заставить это работать. Моя текущая попытка: from pyspark.sql.types import * schema = StructType([ StructField("User", …

pyspark schema rdd spark-dataframe

23 янв '18 в 05:19

1 ответ

SPARK - назначить несколько ядер одной задаче в RDD.map в pyspark

Я новичок в SPARK и пытаюсь использовать RDD.map в pyspark для параллельного запуска метода с именем function в среде SPARK (всего 72 ядра в автономном кластере SPARK - один драйвер с 100G RAM и 3 рабочих с каждым 24 ядра и 100G оперативной памяти).…

apache-spark pyspark parallel-processing rdd spark-dataframe

16 май '17 в 15:26

0 ответов

Как различить строки для выбранных столбцов в pyspark?

Мой DataFrame выглядит так: ------------------------------------ product item qty flag ------------------------------------ A A021 2 0 A A021 3 1 B B031 4 0 B B031 4 1 B B031 6 1 C C040 5 1 ------------------------------------ Я хочу отбросить повто…

dataframe apache-spark pyspark rdd

10 июн '18 в 12:34

1 ответ

Сравните два rdd и значения, соответствующие правому rdd, поместите его в rdd

У меня 2 rdd1 rdd2 1,abc 3,asd 2,edc 4,qwe 3,wer 5,axc 4,ert 5,tyu 6,sdf 7,ghj Сравните два rdd и один раз, которые совпадают с идентификатором, будет обновлено значение от rdd2 до rdd1. Я понимаю, что rdd неизменны, поэтому я считаю, что новый rdd …

scala apache-spark rdd

23 апр '16 в 15:58

1 ответ

rdd.sortByKey дает неверный результат

Я скопировал sortByKeyтело и переименовано в sortByKey2, но они дают разные результаты. Почему первый результат здесь неверен? Это было запущено в затмении. Я возобновил затмение и все еще получил неправильный результат. package test.spark import or…

scala apache-spark rdd

08 сен '17 в 02:39