Описание тега apache-spark-dataset
Spark Dataset is a strongly typed collection of objects mapped to a relational schema. It supports the similar optimizations to Spark DataFrames providing type-safe programming interface at the same time.
1
ответ
Когда использовать Spark DataFrame/Dataset API, а когда использовать простой RDD?
Механизм исполнения Spark SQL DataFrame/Dataset имеет несколько чрезвычайно эффективных способов оптимизации времени и пространства (например, InternalRow и выражение codeGen). Согласно многим документациям, для большинства распределенных алгоритмов…
30 май '16 в 20:08
0
ответов
Эффективность сходства строк в Apache Spark
Мы новички в Apache Spark и выполняем сопоставление строк, используя методы сходства строк (JaroWinkler, Levenshtein, Cosine), мы должны сделать это для огромных данных (2,2 миллиона), хотели бы знать, является ли это правильным способом или же мы м…
10 фев '17 в 14:20
1
ответ
Как спарк определяет количество заданий?
Меня немного смущает количество задач, которые создаются Spark при чтении нескольких текстовых файлов. Вот код: val files = List["path/to/files/a/23", "path/to/files/b/", "path/to/files/c/0"] val ds = spark.sqlContext.read.textFile(files :_*) ds.cou…
18 ноя '16 в 14:33
1
ответ
Агрегация нескольких столбцов в искровой Java
У меня есть список столбцов priceColumns это динамично. Я пытаюсь объединить эти столбцы в наборе данных, public Dataset getAgg(RelationalGroupedDataset rlDataset){ Dataset selectedDS=null; for(String priceCol :priceColumns){ selectedDS=rlDataset.ag…
10 сен '18 в 09:21
2
ответа
Набор данных Spark: возвращает HashMap значений, имеющих одинаковый ключ
+------+-----+ |userID|entID| +------+-----+ | 0| 5| | 0| 15| | 1| 7| | 1| 3| | 2| 3| | 2| 4| | 2| 5| | 2| 9| | 3| 25| +------+-----+ Я хочу получить результат как {0->(5,15), 1->(7,3),..} Любая помощь будет оценена.
25 фев '18 в 22:09
1
ответ
Как добавить столбец со значением последовательности в кадре данных Spark?
Как мне добавить столбец со значением последовательности из определенного числа во фрейме данных PySpark? Текущий набор данных: Col1 Col2 Flag Val1 Val2 F Val3 Val4 T Но я хочу, чтобы набор данных был таким: Col1 Col2 Flag New_Col Val1 Val2 F 11F Va…
15 авг '18 в 06:07
0
ответов
Динамическое моделирование данных на основе схемы - Scala & Spark
У меня есть несколько схем, как показано ниже, с разными именами столбцов и типов данных. Я хочу генерировать тестовые / смоделированные данные, используя DataFrame с Scala для каждой схемы и сохраните ее в файл паркета. Ниже приведен пример схемы (…
30 ноя '18 в 07:21
1
ответ
Выберите последнюю запись метки времени после оконной операции для каждой группы данных с помощью Spark Scala
Я выполнил подсчет попыток (пользователь, приложение) за временной промежуток дня (86400). Я хочу извлечь строки с последней отметкой времени с помощью счетчика и удалить ненужные предыдущие счетчики. Убедитесь, что ваш ответ учитывает временное окн…
29 апр '18 в 00:24
1
ответ
SparkSql - Соединение при выполнении запроса выдает "объект не является экземпляром объявления класса"
Я выполняю запрос на SparkSession который бросает Object is not an instance of declaring classниже приведен код, после которого Dataset<Row> results = spark.sql("SELECT t1.someCol FROM table1 t1 join table2 t2 on t1.someCol=t2.someCol"); resul…
27 мар '17 в 08:32
1
ответ
Как создать меньшее подмножество большого файла, используя спарк
У меня есть куча больших связанных файлов. Я хочу создать меньшие файлы с подмножеством данных из больших файлов. Как я могу добиться этого с помощью Apache Spark? Я могу загрузить эти файлы, применить преобразования и создать подмножество записей в…
29 ноя '18 в 19:13
1
ответ
Групповой набор данных по месяцам с отметкой времени в java
Я загрузил все строки из таблицы в набор данных, используя сеанс spark в Java. Я хочу получить количество строк в каждом месяце. Я попытался создать новый столбец месяца с помощью withColumn(), чтобы позже я мог использовать group_by month и count()…
07 фев '19 в 12:05
0
ответов
Spark 2.0-2.3 DataSets groupByKey и mapGroups
Я вижу правильный вывод записей при локальном запуске. Однако, когда я работаю в кластере, результат будет другим и, казалось бы, противоречивым. Даже некоторые из выводов mappedGroup верны. Это проблема с искровым затвором? Не уверен, как лучше опи…
13 фев '19 в 23:37
1
ответ
Получить значения из набора данных<Row> в файл.txt (используя Java)
Я новичок здесь, поэтому я надеюсь помочь вам и помочь, если это возможно. Я сделал проект Apache Spark, используя Spark SQL и ML Spark на Java. Я закончил этот проект, но у меня есть некоторые проблемы с выводом. у меня есть Dataset<Row> fina…
25 сен '18 в 07:38
0
ответов
Apache Spark, выбрал предыдущий последний элемент на основе некоторых условий
У меня есть входные данные, которые имеют идентификатор, pid, pname, ppid, которые являются id (может думать, что пришло время), pid (идентификатор процесса), pname (имя процесса), ppid (идентификатор родительского процесса), который создал pid +---…
06 дек '18 в 01:14
1
ответ
Как использовать наборы данных с BigInts?
Как я ни стараюсь, я не могу создать набор данных класса case с достаточной точностью для обработки DecimalType(38,0), Я пробовал: case class BigId(id: scala.math.BigInt) Это приводит к ошибке в ExpressionEncoder https://issues.apache.org/jira/brows…
17 апр '17 в 16:01
2
ответа
Spark Bucketing производительность чтения
Версия Spark - 2.2.1. Я создал таблицу с 64 сегментами, я выполняю функцию агрегирования select t1.ifa,count(*) from $tblName t1 where t1.date_ = '2018-01-01' group by ifa, Я вижу, что 64 задачи в пользовательском интерфейсе Spark, которые использую…
18 янв '18 в 19:11
1
ответ
dataset.write() приводит к появлению искры Java ORA-00001
Просто пытаюсь выяснить, как лучше всего справиться с этой ситуацией. Я использую dataset.write для записи в базу данных оракула, и необходимо найти, если дубликат уже существует в таблице (не в наборе данных), и если существует, записать эти дублик…
30 июл '18 в 10:30
1
ответ
Вызов SPARK SQL внутри функции карты
В моем коде у меня есть требование, где мне нужно вызвать спарк SQL для каждой из строк dataset, Теперь искра sql требует SparkSession функция внутренней карты, которую невозможно передать как переменную широковещания. Итак, есть ли в любом случае д…
07 фев '19 в 07:14
1
ответ
Использование универсального типа Scala при создании набора данных Apache Spark
Следующий код создает пустой набор данных в Spark. scala> val strings = spark.emptyDataset[String] strings: org.apache.spark.sql.Dataset[String] = [value: string] Подпись empty Dataset является.. @Experimental @InterfaceStability.Evolving def emp…
14 мар '17 в 09:04
1
ответ
Подсчет количества слов в группе по
У меня есть набор данных +----------+--------+------------+ | id| date| errors| +----------+--------+------------+ |1 |20170319| error1| |1 |20170319| error2| |1 |20170319| error2| |1 |20170319| error1| |2 |20170319| err6| |1 |20170319| error2| Нужн…
01 мар '19 в 21:12