Описание тега apache-spark-sql

Описание тега Вопросы с тегом

Apache Spark SQL - это инструмент для "обработки SQL и структурированных данных" в Spark, быстрой и универсальной кластерной вычислительной системе. Его можно использовать для извлечения данных из Hive, Parquet и т. Д. И выполнения SQL-запросов по существующим RDD и Datasets.

0 ответов

Как экранировать специальные символы в SQL-запросе Spark, "`"не работает

У меня есть датафрейм в Apache Spark с некоторыми структурами внутри схемы. Теперь я хочу выполнить SQL-запрос Spark на этом фрейме данных. До сих пор я думал, что использование `для цитирования специальных имен внутри фрейма данных отлично работает…

apache-spark apache-spark-sql

15 ноя '18 в 16:45

2 ответа

Spark: индекс значения в массиве внутри ColumnType

В Spark, используя Scala, у меня есть набор данных со столбцом, имеющим массив, как [foo, bar, baz, bei] [foo, bar, baz, bei] [foo, zie] Теперь я хочу добавить еще один столбец с индексом значения "бар" [foo, bar, baz, bei] 2 [foo, zie] 0 Есть ли чт…

scala apache-spark apache-spark-sql

03 окт '18 в 12:14

1 ответ

Когда использовать Spark DataFrame/Dataset API, а когда использовать простой RDD?

Механизм исполнения Spark SQL DataFrame/Dataset имеет несколько чрезвычайно эффективных способов оптимизации времени и пространства (например, InternalRow и выражение codeGen). Согласно многим документациям, для большинства распределенных алгоритмов…

apache-spark apache-spark-sql spark-dataframe apache-spark-dataset

30 май '16 в 20:08

1 ответ

Как вычислить смежные данные с помощью spark/scala

Я хава RDD, то RDD тип Tuple2(value,timestamp)значение равно 1 или 0, временная метка является последовательной, а переменная limitTime=4. Когда я сопоставляю RDDЕсли значение равно 1, выходное значение от текущей метки времени до (timestamp +limitT…

scala apache-spark apache-spark-sql

09 июн '17 в 01:15

22 ответа

Как выполнить объединение двух DataFrames с разным количеством столбцов в спарк?

У меня есть 2 DataFrameS следующим образом: Мне нужен союз, как это: unionAll Функция не работает, потому что количество и название столбцов разные. Как я могу это сделать?

apache-spark pyspark apache-spark-sql

28 сен '16 в 21:34

1 ответ

Как приписать значения NULL к нулю в Spark/Scala

У меня есть Dataframe, в котором некоторые столбцы имеют тип String и содержат NULL в качестве значения String (не как фактический NULL). Я хочу вменять их с нуля. по-видимому df.na.fill(0) не работает Как я могу вменять их с нуля?

scala apache-spark apache-spark-sql

24 авг '16 в 14:10

5 ответов

Как определить разбиение DataFrame?

Я начал использовать Spark SQL и DataFrames в Spark 1.4.0. Я хочу определить пользовательский разделитель в DataFrames, в Scala, но не вижу, как это сделать. Одна из таблиц данных, с которыми я работаю, содержит список транзакций по счетам, silimar …

dataframe scala apache-spark apache-spark-sql partitioning

23 июн '15 в 06:48

0 ответов

spark 2.2.0, при вызове cache() получаются разные результаты

Я озадачен этим фрагментом кода, и мне интересно, если это ошибка искры. Мне удалось сузить его до этого теста: val path = tempFolder Seq(1, 2).toDS.write.parquet(path) val loaded = spark.read.parquet(path).as[Int] val filtered = loaded.filter(_ &lt…

scala apache-spark apache-spark-sql

26 сен '18 в 09:39

1 ответ

Замените значение одного столбца из другого столбца в кадре данных искры

У меня есть датафрейм, как показано ниже +---+------------+----------------------------------------------------------------------+ |id |indexes |arrayString | +---+------------+----------------------------------------------------------------------+ …

scala apache-spark apache-spark-sql

24 май '18 в 22:04

1 ответ

Скорость работы Spark в зависимости от размера сервера SQL

Моя настройка: У меня есть сервер MS SQL под управлением Azure (V12) У меня есть кластер Spark, работающий в Azure HDInsights Spark.Version: 1.6.2 Scala.Version: 2.10.5 Я извлекаю свои данные (около 5 миллионов строк) с сервера SQL через драйвер jdb…

apache-spark apache-spark-sql spark-dataframe hdinsight

14 окт '16 в 19:36

1 ответ

Как получить доступ к таблицам RDD с помощью Spark SQL как хранилища данных SnowFlake JDBC Distributed Query Engine?

Привет, я хочу запросить мою временную таблицу базы данных из снежной базы. Как, например, Как получить доступ к таблицам RDD через Spark SQL как механизм распределенных запросов JDBC? Есть ли способ сделать это из базы данных снежинок, работающих н…

amazon-web-services apache-spark apache-spark-sql snowflake-datawarehouse

08 ноя '18 в 18:08

0 ответов

Spark sql подзапрос

Я не могу найти проблему с запросом ниже. Он продолжает жаловаться на cannot recognize input near 'SELECT' 'wrk_prd_dt' '.' in expression specification (state=42000,code=40000) select tb1.name from dept tb1 LEFT JOIN emp lexp ON (lexp.id = tb1.id) w…

apache-spark-sql hiveql

11 июл '18 в 22:21

1 ответ

Количество входных строк в искровой структурированной потоковой передаче с пользовательским приемником

Я использую пользовательский приемник в структурированном потоке (spark 2.2.0) и заметил, что spark создает неверные метрики для количества входных строк - он всегда равен нулю. Моя конструкция потока: StreamingQuery writeStream = session .readStrea…

apache-spark apache-spark-sql spark-streaming spark-structured-streaming

26 янв '18 в 16:59

2 ответа

Что такое SparkSQL?

Я очень новичок во всем мире технологий "больших данных", и недавно начал читать о Spark. Одной вещью, которая продолжает появляться, является SparkSQL, но я постоянно не могу понять, что это было именно так. Предполагается ли конвертировать SQL-зап…

apache-spark apache-spark-sql mapreduce bigdata

18 янв '16 в 03:34

1 ответ

Как мне сложить определенное значение за определенный день недели?

У меня есть дата-фрейм телефонных звонков, который содержит метку времени и продолжительность звонка. Как бы я суммировал общую продолжительность каждого дня для всех телефонных звонков? Метка времени - это строка, поэтому у меня возникли проблемы с…

sql dataframe apache-spark apache-spark-sql

30 июн '15 в 22:24

1 ответ

Запрос данных Cassandra с использованием Spark SQL в Java

Для запроса данных Cassandra с использованием Spark SQL в Java я натолкнулся на 2 документации из datastax с версиями 4.6 и 5.0 Документация для 5.0 рекомендует HiveContext, в то время как 4.6 docs рекомендует CassandraSQLContext. Какой из них я дол…

apache-spark apache-spark-sql cassandra spark-cassandra-connector

27 мар '17 в 08:40

0 ответов

Spark DataFrame: группировка по временным промежуткам

My Spark DataFrame содержит следующие данные: user_id | id | timestamp ---------|----|------------------- 123 | 2 | 2018-10-12 9:25:30 123 | 3 | 2018-10-12 9:27:20 123 | 4 | 2018-10-12 9:45:15 123 | 5 | 2018-10-12 9:47:40 234 | 6 | 2018-10-12 9:26:3…

scala apache-spark apache-spark-sql spark-streaming

13 окт '18 в 06:57

3 ответа

Функции Spark Window - диапазон между датами

У меня Spark SQL DataFrame с данными, и я пытаюсь получить все строки, предшествующие текущей строке в заданном диапазоне дат. Так, например, я хочу, чтобы все строки из 7 дней назад предшествовали данной строке. Я понял, что мне нужно использовать …

python sql apache-spark date pyspark apache-spark-sql window-functions

19 окт '15 в 05:24

0 ответов

stateSnapshots по требованию в mapWithState

Я выполняю потоковую передачу данных из Kafka (интервал между партиями 10 секунд), преобразую RDD в PairRDD, а затем сохраняю RDD в состояние с помощью mapWithState(). Ниже приведен код: JavaPairDStream<String, Object> transformedStream = stre…

apache-spark-sql spark-streaming

30 июл '18 в 21:29

5 ответов

Как нарезать и суммировать элементы столбца массива?

Я бы хотел sum (или выполнять другие агрегатные функции тоже) в столбце массива с использованием SparkSQL. У меня есть столик +-------+-------+---------------------------------+ |dept_id|dept_nm| emp_details| +-------+-------+-----------------------…

scala apache-spark apache-spark-sql

20 окт '16 в 09:52