Описание тега java-pair-rdd

In Spark Java API RDDs of key-value pairs are represented by the JavaPairRDD
0 ответов

Apache-spark Ошибка: не удалось выполнить задачу при записи строк в sequenceFile

Я создаю javaPairRDD и сохраняю его в sequenceFileFormat с помощью apache-spark. Версия Spark 2.3. Я запускаю это на нормальном кластере из 4 узлов, и путь также является нормальным путем hdfs. Я делаю это с использованием искрового кода (Java): Jav…
12 сен '18 в 10:37
1 ответ

Преобразовать JavaPairRDD<ImmutableBytesWritable, Result> в JavaRDD<String>

Я пытаюсь прочитать данные из HBase, используя Apache Spark. Я хочу сканировать только один конкретный столбец. Я создаю RDD моих данных HBase, как показано ниже SparkConf sparkConf = new SparkConf().setAppName("HBaseRead").setMaster("local[2]"); Ja…
20 дек '17 в 16:07
0 ответов

Одно поле в буферах протокола всегда отсутствует при чтении из SequenceFile

Что-то таинственное происходит со мной: Что я хотел сделать: 1. Save a Protocol Buffers object as SequenceFile format. 2. Read this SequenceFile text and extract the field that I need. Таинственная часть: одно поле, которое я хотел получить, всегда …
0 ответов

Как взять ряд элементов из JavaPairRDD

Я пытаюсь получить данные из HBase, используя Spark. JavaPairRDD&lt;ImmutableBytesWritable, Result&gt; javaPairRdd = sc.newAPIHadoopRDD(hbaseConf, TableInputFormat.class,ImmutableBytesWritable.class, Result.class); Но мне нужно получить элементы из …
25 сен '18 в 16:14
0 ответов

Может ли JavaPairRDD когда-либо использовать массив вместо Tuple2 в Spark Java?

Я читал книгу "Learning Spark" и, например, 5-14, я заметил, что JavaPairRDD&lt;String[]&gt; был объявлен. Я почти уверен, что JavaPairRDD может принимать только Tuple2 (т.е. для Key и Value), но я не был уверен, что происходило какое-то странное не…
02 май '18 в 21:49
1 ответ

Записать JavaPairRdd в CSV

JavaPairRdd имеет saveAsTextfile функция, с помощью которой вы можете сохранять данные в текстовом формате. Однако мне нужно сохранить данные в виде файла CSV, чтобы я мог использовать их позже с Neo4j. Мой вопрос: Как сохранить данные JavaPairRdd в…
09 июл '18 в 13:36
1 ответ

Каково правильное преобразование JavaRDD в кластерные строки на непересекающихся множествах?

У меня есть настройки строк в JavaPairRDD&lt;String, MyPojo&gt; где MyPojo это Pojo с атрибутом (давайте назовем его HashSet&lt;String&gt; values). Теперь я хочу сгруппировать (объединить) мои строки на основе любого пересечения с MyPojo.values, Нап…
04 сен '18 в 19:58
0 ответов

Как создать набор данных, используя значения из нескольких наборов данных типа<Tuple2> набора данных

У меня есть несколько наборов данных разных типов формы Dataset&lt;Tuple2&lt;A, B&gt;&gt;, Dataset&lt;Tuple2&lt;C, D&gt;&gt;, Dataset&lt;Tuple2&lt;E, F&gt;&gt;, Я хочу создать новый набор данных типа Dataset&lt;myClass&gt; используя значения из набо…
26 дек '18 в 07:08
0 ответов

Как получить новый PairRDD, чьи kv-пары рассчитываются из каждых двух kv-пар в PairRDD

Если в PairRDD есть 4 пары kv, и они{(a1,b1),(a2,b2),(a3,b3),(a4,b4)}, Как получить новую PairRDD, которая имеет 6 пар kv, и первая пара kv новой PairRDD рассчитывается по (a1,b1) и (a2,b2), вторая пара kv рассчитывается по (a1,b1) и (a3, б3) и тд.
26 фев '19 в 07:58
0 ответов

Spark - JavaPairRDD saveAsHadoopFile в AvroOutputFormat

Я пытаюсь спасти JavaPairRDD в файл avro со следующим кодом JavaPairRDD&lt;String, Float&gt; j = existingRDD.mapToPair().combineByKey().mapToPair(); j.saveAsHadoopFile("/hdfsPath/avro/", String.class, Float.class, AvroOutputFormat.class); Но я получ…
27 июн '18 в 12:01
1 ответ

Как интерсекать разные JavaPairRDD

У меня есть два разных JavaPairRdd один с Key1, значение и второй с key2, значение. Я пытаюсь достичь их слияния, но получить только предметы с одинаковым значением. Я пробовал следующее: JavaPairRDD&lt;String, String&gt; finalRdd = filteredRdd.inte…
26 дек '17 в 00:32
1 ответ

Как использовать фильтр с помощью containsAll и содержит в javapairrdd

У меня есть 2 коллекции, одна из которых "список", а другая "pairRdd2", которая содержит данные, как указано ниже. Я пытаюсь применить фильтр с containsAll, где, если mypairRdd2 содержит все значения, указанные в списке. Ожидаемый результат - Джо,{С…
20 фев '18 в 11:35
2 ответа

Преобразование JavaPairRDD в Dataframe в Spark Java API

Я использую Spark 1.6 с Java 7 У меня есть пара RDD: JavaPairRDD&lt;String, String&gt; filesRDD = sc.wholeTextFiles(args[0]); Я хочу преобразовать это в DataFrame со схемой. Похоже, что сначала я должен конвертировать pair RDD в RowRDD. Так как же с…
1 ответ

Итерации по СДР Итерируемые в Scala

Так что я новичок в Scala и только начинаю работать с RDD и функциональными операциями Scala. Я пытаюсь перебрать значения моих парных СДР и вернуть Var1 со средним значением, хранящимся в Var2 применяя определенный averageфункция, так что окончател…
01 фев '19 в 06:54
0 ответов

Как собрать данные Spark JavaPairRDD в виде списка

Я работаю над задачей Apache Spark 2.2.0 в Java, и в настоящее время я выполняю mapToPair() функционировать над моим JavaRDD&lt;String&gt; и я получаю результат JavaPairRDD&lt;Integer, Table&gt;, Рассматривать Table как любой тип объекта. Сейчас я п…
28 ноя '17 в 00:07
1 ответ

JavaPairRDD для набора данных<Row> в SPARK

У меня есть данные в JavaPairRDD в формате JavaPairdRDD&lt;Tuple2&lt;String, Tuple2&lt;String,String&gt;&gt;&gt; Я пытался использовать приведенный ниже код Encoder&lt;Tuple2&lt;String, Tuple2&lt;String,String&gt;&gt;&gt; encoder2 = Encoders.tuple(E…
13 июн '18 в 09:47
3 ответа

Преобразовать Java-Pair-Rdd в Rdd

Мне нужно преобразовать мою Java-pair-rdd в CSV: поэтому я думаю преобразовать его в rdd, чтобы решить мою проблему. я хочу, чтобы мой rdd был преобразован из: Key Value Jack [a,b,c] к: Key value Jack a Jack b Jack c я вижу, что это возможно в этой …
11 июл '18 в 10:23
0 ответов

JavaPairRDD - mapToPair() выбрасывает ошибку памяти

Я пытаюсь перебрать JavaPairRDD и применить какое-то преобразование к Value(который является классом Java Model, Key is String) и возвращает ту же пару Key Value Key, что и JavaPairRDD. Перед тем как выбросить из памяти ошибки Marking Stage 5 (saveA…
19 дек '15 в 07:00
1 ответ

Spark группировка, а затем сортировка (код Java)

У меня есть JavaPairRDD и мне нужно сгруппировать по ключу, а затем отсортировать его, используя значение внутри объекта MyObject. Допустим, MyObject это: class MyObject { Integer order; String name; } Пример данных: 1, {order:1, name:'Joseph'} 1, {…
18 сен '17 в 01:15
1 ответ

Java Spark, как сохранить JavaPairRDD<HashSet <String>, HashMap<String, Double >> в файл?

Я получил этоJavaPairRDD&lt;HashSet&lt;String&gt;, HashMap&lt;String, Double&gt;&gt;"СДР после некоторых сложных агрегаций, хочу сохранить результат в файл. Я считаю, saveAsHadoopFile хороший API для этого, но у меня проблемы с заполнением параметро…
27 апр '18 в 04:47