Описание тега java-pair-rdd
In Spark Java API RDDs of key-value pairs are represented by the JavaPairRDD
0
ответов
Apache-spark Ошибка: не удалось выполнить задачу при записи строк в sequenceFile
Я создаю javaPairRDD и сохраняю его в sequenceFileFormat с помощью apache-spark. Версия Spark 2.3. Я запускаю это на нормальном кластере из 4 узлов, и путь также является нормальным путем hdfs. Я делаю это с использованием искрового кода (Java): Jav…
12 сен '18 в 10:37
1
ответ
Преобразовать JavaPairRDD<ImmutableBytesWritable, Result> в JavaRDD<String>
Я пытаюсь прочитать данные из HBase, используя Apache Spark. Я хочу сканировать только один конкретный столбец. Я создаю RDD моих данных HBase, как показано ниже SparkConf sparkConf = new SparkConf().setAppName("HBaseRead").setMaster("local[2]"); Ja…
20 дек '17 в 16:07
0
ответов
Одно поле в буферах протокола всегда отсутствует при чтении из SequenceFile
Что-то таинственное происходит со мной: Что я хотел сделать: 1. Save a Protocol Buffers object as SequenceFile format. 2. Read this SequenceFile text and extract the field that I need. Таинственная часть: одно поле, которое я хотел получить, всегда …
16 сен '17 в 21:37
0
ответов
Как взять ряд элементов из JavaPairRDD
Я пытаюсь получить данные из HBase, используя Spark. JavaPairRDD<ImmutableBytesWritable, Result> javaPairRdd = sc.newAPIHadoopRDD(hbaseConf, TableInputFormat.class,ImmutableBytesWritable.class, Result.class); Но мне нужно получить элементы из …
25 сен '18 в 16:14
0
ответов
Может ли JavaPairRDD когда-либо использовать массив вместо Tuple2 в Spark Java?
Я читал книгу "Learning Spark" и, например, 5-14, я заметил, что JavaPairRDD<String[]> был объявлен. Я почти уверен, что JavaPairRDD может принимать только Tuple2 (т.е. для Key и Value), но я не был уверен, что происходило какое-то странное не…
02 май '18 в 21:49
1
ответ
Записать JavaPairRdd в CSV
JavaPairRdd имеет saveAsTextfile функция, с помощью которой вы можете сохранять данные в текстовом формате. Однако мне нужно сохранить данные в виде файла CSV, чтобы я мог использовать их позже с Neo4j. Мой вопрос: Как сохранить данные JavaPairRdd в…
09 июл '18 в 13:36
1
ответ
Каково правильное преобразование JavaRDD в кластерные строки на непересекающихся множествах?
У меня есть настройки строк в JavaPairRDD<String, MyPojo> где MyPojo это Pojo с атрибутом (давайте назовем его HashSet<String> values). Теперь я хочу сгруппировать (объединить) мои строки на основе любого пересечения с MyPojo.values, Нап…
04 сен '18 в 19:58
0
ответов
Как создать набор данных, используя значения из нескольких наборов данных типа<Tuple2> набора данных
У меня есть несколько наборов данных разных типов формы Dataset<Tuple2<A, B>>, Dataset<Tuple2<C, D>>, Dataset<Tuple2<E, F>>, Я хочу создать новый набор данных типа Dataset<myClass> используя значения из набо…
26 дек '18 в 07:08
0
ответов
Как получить новый PairRDD, чьи kv-пары рассчитываются из каждых двух kv-пар в PairRDD
Если в PairRDD есть 4 пары kv, и они{(a1,b1),(a2,b2),(a3,b3),(a4,b4)}, Как получить новую PairRDD, которая имеет 6 пар kv, и первая пара kv новой PairRDD рассчитывается по (a1,b1) и (a2,b2), вторая пара kv рассчитывается по (a1,b1) и (a3, б3) и тд.
26 фев '19 в 07:58
0
ответов
Spark - JavaPairRDD saveAsHadoopFile в AvroOutputFormat
Я пытаюсь спасти JavaPairRDD в файл avro со следующим кодом JavaPairRDD<String, Float> j = existingRDD.mapToPair().combineByKey().mapToPair(); j.saveAsHadoopFile("/hdfsPath/avro/", String.class, Float.class, AvroOutputFormat.class); Но я получ…
27 июн '18 в 12:01
1
ответ
Как интерсекать разные JavaPairRDD
У меня есть два разных JavaPairRdd один с Key1, значение и второй с key2, значение. Я пытаюсь достичь их слияния, но получить только предметы с одинаковым значением. Я пробовал следующее: JavaPairRDD<String, String> finalRdd = filteredRdd.inte…
26 дек '17 в 00:32
1
ответ
Как использовать фильтр с помощью containsAll и содержит в javapairrdd
У меня есть 2 коллекции, одна из которых "список", а другая "pairRdd2", которая содержит данные, как указано ниже. Я пытаюсь применить фильтр с containsAll, где, если mypairRdd2 содержит все значения, указанные в списке. Ожидаемый результат - Джо,{С…
20 фев '18 в 11:35
2
ответа
Преобразование JavaPairRDD в Dataframe в Spark Java API
Я использую Spark 1.6 с Java 7 У меня есть пара RDD: JavaPairRDD<String, String> filesRDD = sc.wholeTextFiles(args[0]); Я хочу преобразовать это в DataFrame со схемой. Похоже, что сначала я должен конвертировать pair RDD в RowRDD. Так как же с…
24 май '17 в 22:59
1
ответ
Итерации по СДР Итерируемые в Scala
Так что я новичок в Scala и только начинаю работать с RDD и функциональными операциями Scala. Я пытаюсь перебрать значения моих парных СДР и вернуть Var1 со средним значением, хранящимся в Var2 применяя определенный averageфункция, так что окончател…
01 фев '19 в 06:54
0
ответов
Как собрать данные Spark JavaPairRDD в виде списка
Я работаю над задачей Apache Spark 2.2.0 в Java, и в настоящее время я выполняю mapToPair() функционировать над моим JavaRDD<String> и я получаю результат JavaPairRDD<Integer, Table>, Рассматривать Table как любой тип объекта. Сейчас я п…
28 ноя '17 в 00:07
1
ответ
JavaPairRDD для набора данных<Row> в SPARK
У меня есть данные в JavaPairRDD в формате JavaPairdRDD<Tuple2<String, Tuple2<String,String>>> Я пытался использовать приведенный ниже код Encoder<Tuple2<String, Tuple2<String,String>>> encoder2 = Encoders.tuple(E…
13 июн '18 в 09:47
3
ответа
Преобразовать Java-Pair-Rdd в Rdd
Мне нужно преобразовать мою Java-pair-rdd в CSV: поэтому я думаю преобразовать его в rdd, чтобы решить мою проблему. я хочу, чтобы мой rdd был преобразован из: Key Value Jack [a,b,c] к: Key value Jack a Jack b Jack c я вижу, что это возможно в этой …
11 июл '18 в 10:23
0
ответов
JavaPairRDD - mapToPair() выбрасывает ошибку памяти
Я пытаюсь перебрать JavaPairRDD и применить какое-то преобразование к Value(который является классом Java Model, Key is String) и возвращает ту же пару Key Value Key, что и JavaPairRDD. Перед тем как выбросить из памяти ошибки Marking Stage 5 (saveA…
19 дек '15 в 07:00
1
ответ
Spark группировка, а затем сортировка (код Java)
У меня есть JavaPairRDD и мне нужно сгруппировать по ключу, а затем отсортировать его, используя значение внутри объекта MyObject. Допустим, MyObject это: class MyObject { Integer order; String name; } Пример данных: 1, {order:1, name:'Joseph'} 1, {…
18 сен '17 в 01:15
1
ответ
Java Spark, как сохранить JavaPairRDD<HashSet <String>, HashMap<String, Double >> в файл?
Я получил этоJavaPairRDD<HashSet<String>, HashMap<String, Double>>"СДР после некоторых сложных агрегаций, хочу сохранить результат в файл. Я считаю, saveAsHadoopFile хороший API для этого, но у меня проблемы с заполнением параметро…
27 апр '18 в 04:47