Описание тега rdd
Resilient Distributed Datasets (RDDs) are a distributed memory abstraction that allows programmers to perform in-memory computations on large clusters while retaining the fault tolerance of data flow models like MapReduce.
1
ответ
Предварительная обработка данных с Apache Spark и Scala
Я довольно новичок в spark и scala, и поэтому у меня есть несколько вопросов, касающихся предварительной обработки данных с помощью spark и работы с rdds. Я работаю над небольшим проектом и хочу внедрить систему машинного обучения с помощью spark. Я…
21 июл '15 в 19:06
2
ответа
Как разделить RDD по столбцам на список RDD в Python
Допустим, у нас есть этот RDD: RDDs = sc.parallelize([["panda", 0], ["pink", 3]]) Поскольку RDD теперь имеют два столбца, нужно получить два RDD, например: RDDList[0] = (["panda"], ["pink"]) RDDList[1] = ([0], [3]) Не удалось найти обсуждение по это…
19 июн '18 в 15:08
1
ответ
Сортировать по нескольким значениям с помощью sortBy
Я хотел бы отсортировать RDD[(Int,Int)] по первому и второму значению, чтобы иметь что-то подобное. [(1,1),(1,2),(1,3),(2,1),(2,2),(3,1)....] Я пробовал это rdd.sortBy( x => (x._1,x._2) ) Но, похоже, он не работает, даже если он компилируется, он…
03 фев '16 в 09:33
2
ответа
Как получить конкретную запись из RDD с помощью Python
Я работаю в RDD с помощью Python. Я хочу найти конкретную запись из этого RDD (8, 23, 4.0) (50, 21, 3.0) (5, 48, 3.0) (5, 85, 3.0) (40, 17, 3.0) (3, 62, 3.0) (24, 92, 3.0) (48, 24, 3.0) (48, 73, 3.0) (34, 48, 3.0) (50, 14, 3.0) (1, 78, 3.0) (7, 8, 3…
12 июл '17 в 12:39
3
ответа
Является ли groupByKey когда-либо предпочтительным по сравнению с ReduByKey
Я всегда использую reduceByKey когда мне нужно сгруппировать данные в RDD, потому что он выполняет уменьшение на стороне карты перед перетасовкой данных, что часто означает, что меньше данных перетасовывается, и, таким образом, я получаю более высок…
19 окт '15 в 18:49
1
ответ
Фильтрация СДР по количеству вхождений
У меня есть СДР рейтингов продуктов с использованием объекта MLlib Rating, который является просто кортежем (int userId, int productId, double rating). Я хочу удалить любой элемент из СДР, являющийся обзором продукта со слишком низким рейтингом. Нап…
14 фев '17 в 16:03
1
ответ
Spark: создание объекта RDD из списка<Object> RDD
Предполагать Employee это класс Java у меня есть JavaRDD<Employee[]> arrayOfEmpListкаждый СДР имеет array of employees, Из этого я хочу создать единый список сотрудников, что-то вроде JavaRDD<Employee> Вот что я попробовал: создал List&l…
26 май '16 в 13:23
2
ответа
Рекурсивный вызов метода в Apache Spark
Я строю семейное дерево из базы данных на Apache Spark, используя рекурсивный поиск, чтобы найти конечного родителя (то есть человека на вершине семейного дерева) для каждого человека в БД. Для этого предполагается, что первый человек, вернувшийся п…
17 фев '16 в 18:07
1
ответ
Spark читает Python3 Pickle в качестве входных данных
Мои данные доступны в виде наборов маринованных файлов Python 3. Большинство из них - сериализация панд DataFrames, Я хотел бы начать использовать Spark, потому что мне нужно больше памяти и процессора, которые может иметь один компьютер. Также я бу…
26 мар '16 в 08:56
0
ответов
Как подружиться второй степени
У меня есть RDD, его элементы такие: (k,<iterable list>),(imagine key is a vertex and values are it's neighbors).Я хочу найти друзей второй степени (Friends of friends). Так что у меня должно быть два вложенных цикла для создания этих пар ключ…
25 янв '16 в 10:43
1
ответ
Как разделить входные данные и загрузить их в RDD
У меня есть терабайты данных для обработки с использованием Apache Spark. Я использую код sparkContext.binaryFiles(folderpath) загрузить все данные из папки. Я думаю, что он загружает полные данные в RDD и вызывает ошибку OutOfMemory. Как разделить …
03 фев '16 в 09:46
0
ответов
Почему mergeValue требуется в CombineByKey
Операция комбинировать ByKey в спарк принимает три функции, как показано ниже: combineByKey(createCombiner, mergeValue, mergeCombiners). Результат mergeValue может быть создан с помощью createCombiner а также mergeCombiner как показано ниже. Пусть ф…
04 июн '18 в 07:54
1
ответ
Сам включайся в искру с scala api
Ранее я опубликовал проблему самостоятельного присоединения в Scala. Я пытаюсь реализовать то же самое в Spark, но не могу конвертировать. Здесь проблема и мой код. Набор входных данных... Proprty_ID, latitude, longitude, Address 123, 33.84, -118.39…
19 фев '16 в 23:22
1
ответ
Искра декартова не вызывает перемешивания?
Итак, я попытался протестировать операции Spark, которые вызывают перестановки, на основе этого сообщения стека overflow: LINK. Тем не менее, это не имеет смысла для меня, когда cartesian операция не вызывает перетасовки в Spark, поскольку они должн…
01 авг '16 в 23:56
2
ответа
Извлечение столбца СДР в новый СДР
У меня есть rdd с несколькими столбцами и я хочу извлечь столбец с именем age. Я старался: rddAge = df.rdd.map(lambda row: Row(age=row.age)) Код не возвращает ошибок. Но когда я просто пытаюсь сделать rddAge.count(), я получаю очень длинную трассиро…
10 фев '17 в 02:54
1
ответ
Создание схемы Pyspark с использованием ArrayType
Я пытаюсь создать схему для моего нового DataFrame и пробовал различные комбинации скобок и ключевых слов, но не смог понять, как заставить это работать. Моя текущая попытка: from pyspark.sql.types import * schema = StructType([ StructField("User", …
23 янв '18 в 05:19
1
ответ
SPARK - назначить несколько ядер одной задаче в RDD.map в pyspark
Я новичок в SPARK и пытаюсь использовать RDD.map в pyspark для параллельного запуска метода с именем function в среде SPARK (всего 72 ядра в автономном кластере SPARK - один драйвер с 100G RAM и 3 рабочих с каждым 24 ядра и 100G оперативной памяти).…
16 май '17 в 15:26
0
ответов
Как различить строки для выбранных столбцов в pyspark?
Мой DataFrame выглядит так: ------------------------------------ product item qty flag ------------------------------------ A A021 2 0 A A021 3 1 B B031 4 0 B B031 4 1 B B031 6 1 C C040 5 1 ------------------------------------ Я хочу отбросить повто…
10 июн '18 в 12:34
1
ответ
Сравните два rdd и значения, соответствующие правому rdd, поместите его в rdd
У меня 2 rdd1 rdd2 1,abc 3,asd 2,edc 4,qwe 3,wer 5,axc 4,ert 5,tyu 6,sdf 7,ghj Сравните два rdd и один раз, которые совпадают с идентификатором, будет обновлено значение от rdd2 до rdd1. Я понимаю, что rdd неизменны, поэтому я считаю, что новый rdd …
23 апр '16 в 15:58
1
ответ
rdd.sortByKey дает неверный результат
Я скопировал sortByKeyтело и переименовано в sortByKey2, но они дают разные результаты. Почему первый результат здесь неверен? Это было запущено в затмении. Я возобновил затмение и все еще получил неправильный результат. package test.spark import or…
08 сен '17 в 02:39