Описание тега apache-spark-dataset

Описание тега Вопросы с тегом

Spark Dataset is a strongly typed collection of objects mapped to a relational schema. It supports the similar optimizations to Spark DataFrames providing type-safe programming interface at the same time.

1 ответ

Когда использовать Spark DataFrame/Dataset API, а когда использовать простой RDD?

Механизм исполнения Spark SQL DataFrame/Dataset имеет несколько чрезвычайно эффективных способов оптимизации времени и пространства (например, InternalRow и выражение codeGen). Согласно многим документациям, для большинства распределенных алгоритмов…

30 май '16 в 20:08

0 ответов

Эффективность сходства строк в Apache Spark

Мы новички в Apache Spark и выполняем сопоставление строк, используя методы сходства строк (JaroWinkler, Levenshtein, Cosine), мы должны сделать это для огромных данных (2,2 миллиона), хотели бы знать, является ли это правильным способом или же мы м…

apache-spark apache-spark-mllib similarity apache-spark-dataset apache-spark-ml

10 фев '17 в 14:20

1 ответ

Как спарк определяет количество заданий?

Меня немного смущает количество задач, которые создаются Spark при чтении нескольких текстовых файлов. Вот код: val files = List["path/to/files/a/23", "path/to/files/b/", "path/to/files/c/0"] val ds = spark.sqlContext.read.textFile(files :_*) ds.cou…

apache-spark task apache-spark-dataset

18 ноя '16 в 14:33

1 ответ

Агрегация нескольких столбцов в искровой Java

У меня есть список столбцов priceColumns это динамично. Я пытаюсь объединить эти столбцы в наборе данных, public Dataset getAgg(RelationalGroupedDataset rlDataset){ Dataset selectedDS=null; for(String priceCol :priceColumns){ selectedDS=rlDataset.ag…

java apache-spark group-by aggregate apache-spark-dataset

10 сен '18 в 09:21

2 ответа

Набор данных Spark: возвращает HashMap значений, имеющих одинаковый ключ

+------+-----+ |userID|entID| +------+-----+ | 0| 5| | 0| 15| | 1| 7| | 1| 3| | 2| 3| | 2| 4| | 2| 5| | 2| 9| | 3| 25| +------+-----+ Я хочу получить результат как {0->(5,15), 1->(7,3),..} Любая помощь будет оценена.

scala apache-spark apache-spark-dataset

25 фев '18 в 22:09

1 ответ

Как добавить столбец со значением последовательности в кадре данных Spark?

Как мне добавить столбец со значением последовательности из определенного числа во фрейме данных PySpark? Текущий набор данных: Col1 Col2 Flag Val1 Val2 F Val3 Val4 T Но я хочу, чтобы набор данных был таким: Col1 Col2 Flag New_Col Val1 Val2 F 11F Va…

python apache-spark pyspark apache-spark-sql apache-spark-dataset

15 авг '18 в 06:07

0 ответов

Динамическое моделирование данных на основе схемы - Scala & Spark

У меня есть несколько схем, как показано ниже, с разными именами столбцов и типов данных. Я хочу генерировать тестовые / смоделированные данные, используя DataFrame с Scala для каждой схемы и сохраните ее в файл паркета. Ниже приведен пример схемы (…

scala apache-spark apache-spark-sql apache-spark-dataset

30 ноя '18 в 07:21

1 ответ

Выберите последнюю запись метки времени после оконной операции для каждой группы данных с помощью Spark Scala

Я выполнил подсчет попыток (пользователь, приложение) за временной промежуток дня (86400). Я хочу извлечь строки с последней отметкой времени с помощью счетчика и удалить ненужные предыдущие счетчики. Убедитесь, что ваш ответ учитывает временное окн…

apache-spark apache-spark-sql window-functions spark-dataframe apache-spark-dataset

29 апр '18 в 00:24

1 ответ

SparkSql - Соединение при выполнении запроса выдает "объект не является экземпляром объявления класса"

Я выполняю запрос на SparkSession который бросает Object is not an instance of declaring classниже приведен код, после которого Dataset<Row> results = spark.sql("SELECT t1.someCol FROM table1 t1 join table2 t2 on t1.someCol=t2.someCol"); resul…

apache-spark apache-spark-sql spark-dataframe apache-spark-dataset structured-streaming

27 мар '17 в 08:32

1 ответ

Как создать меньшее подмножество большого файла, используя спарк

У меня есть куча больших связанных файлов. Я хочу создать меньшие файлы с подмножеством данных из больших файлов. Как я могу добиться этого с помощью Apache Spark? Я могу загрузить эти файлы, применить преобразования и создать подмножество записей в…

java apache-spark apache-spark-dataset

29 ноя '18 в 19:13

1 ответ

Групповой набор данных по месяцам с отметкой времени в java

Я загрузил все строки из таблицы в набор данных, используя сеанс spark в Java. Я хочу получить количество строк в каждом месяце. Я попытался создать новый столбец месяца с помощью withColumn(), чтобы позже я мог использовать group_by month и count()…

java apache-spark group-by cassandra apache-spark-dataset

07 фев '19 в 12:05

0 ответов

Spark 2.0-2.3 DataSets groupByKey и mapGroups

Я вижу правильный вывод записей при локальном запуске. Однако, когда я работаю в кластере, результат будет другим и, казалось бы, противоречивым. Даже некоторые из выводов mappedGroup верны. Это проблема с искровым затвором? Не уверен, как лучше опи…

scala apache-spark apache-spark-dataset

13 фев '19 в 23:37

1 ответ

Получить значения из набора данных<Row> в файл.txt (используя Java)

Я новичок здесь, поэтому я надеюсь помочь вам и помочь, если это возможно. Я сделал проект Apache Spark, используя Spark SQL и ML Spark на Java. Я закончил этот проект, но у меня есть некоторые проблемы с выводом. у меня есть Dataset<Row> fina…

java apache-spark apache-spark-sql bigdata apache-spark-dataset

25 сен '18 в 07:38

0 ответов

Apache Spark, выбрал предыдущий последний элемент на основе некоторых условий

У меня есть входные данные, которые имеют идентификатор, pid, pname, ppid, которые являются id (может думать, что пришло время), pid (идентификатор процесса), pname (имя процесса), ppid (идентификатор родительского процесса), который создал pid +---…

sql apache-spark apache-spark-sql window-functions apache-spark-dataset

06 дек '18 в 01:14

1 ответ

Как использовать наборы данных с BigInts?

Как я ни стараюсь, я не могу создать набор данных класса case с достаточной точностью для обработки DecimalType(38,0), Я пробовал: case class BigId(id: scala.math.BigInt) Это приводит к ошибке в ExpressionEncoder https://issues.apache.org/jira/brows…

scala apache-spark apache-spark-dataset

17 апр '17 в 16:01

2 ответа

Spark Bucketing производительность чтения

Версия Spark - 2.2.1. Я создал таблицу с 64 сегментами, я выполняю функцию агрегирования select t1.ifa,count(*) from $tblName t1 where t1.date_ = '2018-01-01' group by ifa, Я вижу, что 64 задачи в пользовательском интерфейсе Spark, которые использую…

apache-spark spark-dataframe apache-spark-dataset apache-spark-2.2

18 янв '18 в 19:11

1 ответ

dataset.write() приводит к появлению искры Java ORA-00001

Просто пытаюсь выяснить, как лучше всего справиться с этой ситуацией. Я использую dataset.write для записи в базу данных оракула, и необходимо найти, если дубликат уже существует в таблице (не в наборе данных), и если существует, записать эти дублик…

apache-spark spark-streaming apache-spark-dataset

30 июл '18 в 10:30

1 ответ

Вызов SPARK SQL внутри функции карты

В моем коде у меня есть требование, где мне нужно вызвать спарк SQL для каждой из строк dataset, Теперь искра sql требует SparkSession функция внутренней карты, которую невозможно передать как переменную широковещания. Итак, есть ли в любом случае д…

apache-spark apache-spark-sql apache-spark-dataset

07 фев '19 в 07:14

1 ответ

Использование универсального типа Scala при создании набора данных Apache Spark

Следующий код создает пустой набор данных в Spark. scala> val strings = spark.emptyDataset[String] strings: org.apache.spark.sql.Dataset[String] = [value: string] Подпись empty Dataset является.. @Experimental @InterfaceStability.Evolving def emp…

scala apache-spark apache-spark-dataset scala-generics

14 мар '17 в 09:04

1 ответ

Подсчет количества слов в группе по

У меня есть набор данных +----------+--------+------------+ | id| date| errors| +----------+--------+------------+ |1 |20170319| error1| |1 |20170319| error2| |1 |20170319| error2| |1 |20170319| error1| |2 |20170319| err6| |1 |20170319| error2| Нужн…

sql scala apache-spark apache-spark-sql apache-spark-dataset

01 мар '19 в 21:12