Описание тега apache-spark-sql
Apache Spark SQL - это инструмент для "обработки SQL и структурированных данных" в Spark, быстрой и универсальной кластерной вычислительной системе. Его можно использовать для извлечения данных из Hive, Parquet и т. Д. И выполнения SQL-запросов по существующим RDD и Datasets.
0
ответов
Как экранировать специальные символы в SQL-запросе Spark, "`"не работает
У меня есть датафрейм в Apache Spark с некоторыми структурами внутри схемы. Теперь я хочу выполнить SQL-запрос Spark на этом фрейме данных. До сих пор я думал, что использование `для цитирования специальных имен внутри фрейма данных отлично работает…
15 ноя '18 в 16:45
2
ответа
Spark: индекс значения в массиве внутри ColumnType
В Spark, используя Scala, у меня есть набор данных со столбцом, имеющим массив, как [foo, bar, baz, bei] [foo, bar, baz, bei] [foo, zie] Теперь я хочу добавить еще один столбец с индексом значения "бар" [foo, bar, baz, bei] 2 [foo, zie] 0 Есть ли чт…
03 окт '18 в 12:14
1
ответ
Когда использовать Spark DataFrame/Dataset API, а когда использовать простой RDD?
Механизм исполнения Spark SQL DataFrame/Dataset имеет несколько чрезвычайно эффективных способов оптимизации времени и пространства (например, InternalRow и выражение codeGen). Согласно многим документациям, для большинства распределенных алгоритмов…
30 май '16 в 20:08
1
ответ
Как вычислить смежные данные с помощью spark/scala
Я хава RDD, то RDD тип Tuple2(value,timestamp)значение равно 1 или 0, временная метка является последовательной, а переменная limitTime=4. Когда я сопоставляю RDDЕсли значение равно 1, выходное значение от текущей метки времени до (timestamp +limitT…
09 июн '17 в 01:15
22
ответа
Как выполнить объединение двух DataFrames с разным количеством столбцов в спарк?
У меня есть 2 DataFrameS следующим образом: Мне нужен союз, как это: unionAll Функция не работает, потому что количество и название столбцов разные. Как я могу это сделать?
28 сен '16 в 21:34
1
ответ
Как приписать значения NULL к нулю в Spark/Scala
У меня есть Dataframe, в котором некоторые столбцы имеют тип String и содержат NULL в качестве значения String (не как фактический NULL). Я хочу вменять их с нуля. по-видимому df.na.fill(0) не работает Как я могу вменять их с нуля?
24 авг '16 в 14:10
5
ответов
Как определить разбиение DataFrame?
Я начал использовать Spark SQL и DataFrames в Spark 1.4.0. Я хочу определить пользовательский разделитель в DataFrames, в Scala, но не вижу, как это сделать. Одна из таблиц данных, с которыми я работаю, содержит список транзакций по счетам, silimar …
23 июн '15 в 06:48
0
ответов
spark 2.2.0, при вызове cache() получаются разные результаты
Я озадачен этим фрагментом кода, и мне интересно, если это ошибка искры. Мне удалось сузить его до этого теста: val path = tempFolder Seq(1, 2).toDS.write.parquet(path) val loaded = spark.read.parquet(path).as[Int] val filtered = loaded.filter(_ <…
26 сен '18 в 09:39
1
ответ
Замените значение одного столбца из другого столбца в кадре данных искры
У меня есть датафрейм, как показано ниже +---+------------+----------------------------------------------------------------------+ |id |indexes |arrayString | +---+------------+----------------------------------------------------------------------+ …
24 май '18 в 22:04
1
ответ
Скорость работы Spark в зависимости от размера сервера SQL
Моя настройка: У меня есть сервер MS SQL под управлением Azure (V12) У меня есть кластер Spark, работающий в Azure HDInsights Spark.Version: 1.6.2 Scala.Version: 2.10.5 Я извлекаю свои данные (около 5 миллионов строк) с сервера SQL через драйвер jdb…
14 окт '16 в 19:36
1
ответ
Как получить доступ к таблицам RDD с помощью Spark SQL как хранилища данных SnowFlake JDBC Distributed Query Engine?
Привет, я хочу запросить мою временную таблицу базы данных из снежной базы. Как, например, Как получить доступ к таблицам RDD через Spark SQL как механизм распределенных запросов JDBC? Есть ли способ сделать это из базы данных снежинок, работающих н…
08 ноя '18 в 18:08
0
ответов
Spark sql подзапрос
Я не могу найти проблему с запросом ниже. Он продолжает жаловаться на cannot recognize input near 'SELECT' 'wrk_prd_dt' '.' in expression specification (state=42000,code=40000) select tb1.name from dept tb1 LEFT JOIN emp lexp ON (lexp.id = tb1.id) w…
11 июл '18 в 22:21
1
ответ
Количество входных строк в искровой структурированной потоковой передаче с пользовательским приемником
Я использую пользовательский приемник в структурированном потоке (spark 2.2.0) и заметил, что spark создает неверные метрики для количества входных строк - он всегда равен нулю. Моя конструкция потока: StreamingQuery writeStream = session .readStrea…
26 янв '18 в 16:59
2
ответа
Что такое SparkSQL?
Я очень новичок во всем мире технологий "больших данных", и недавно начал читать о Spark. Одной вещью, которая продолжает появляться, является SparkSQL, но я постоянно не могу понять, что это было именно так. Предполагается ли конвертировать SQL-зап…
18 янв '16 в 03:34
1
ответ
Как мне сложить определенное значение за определенный день недели?
У меня есть дата-фрейм телефонных звонков, который содержит метку времени и продолжительность звонка. Как бы я суммировал общую продолжительность каждого дня для всех телефонных звонков? Метка времени - это строка, поэтому у меня возникли проблемы с…
30 июн '15 в 22:24
1
ответ
Запрос данных Cassandra с использованием Spark SQL в Java
Для запроса данных Cassandra с использованием Spark SQL в Java я натолкнулся на 2 документации из datastax с версиями 4.6 и 5.0 Документация для 5.0 рекомендует HiveContext, в то время как 4.6 docs рекомендует CassandraSQLContext. Какой из них я дол…
27 мар '17 в 08:40
0
ответов
Spark DataFrame: группировка по временным промежуткам
My Spark DataFrame содержит следующие данные: user_id | id | timestamp ---------|----|------------------- 123 | 2 | 2018-10-12 9:25:30 123 | 3 | 2018-10-12 9:27:20 123 | 4 | 2018-10-12 9:45:15 123 | 5 | 2018-10-12 9:47:40 234 | 6 | 2018-10-12 9:26:3…
13 окт '18 в 06:57
3
ответа
Функции Spark Window - диапазон между датами
У меня Spark SQL DataFrame с данными, и я пытаюсь получить все строки, предшествующие текущей строке в заданном диапазоне дат. Так, например, я хочу, чтобы все строки из 7 дней назад предшествовали данной строке. Я понял, что мне нужно использовать …
19 окт '15 в 05:24
0
ответов
stateSnapshots по требованию в mapWithState
Я выполняю потоковую передачу данных из Kafka (интервал между партиями 10 секунд), преобразую RDD в PairRDD, а затем сохраняю RDD в состояние с помощью mapWithState(). Ниже приведен код: JavaPairDStream<String, Object> transformedStream = stre…
30 июл '18 в 21:29
5
ответов
Как нарезать и суммировать элементы столбца массива?
Я бы хотел sum (или выполнять другие агрегатные функции тоже) в столбце массива с использованием SparkSQL. У меня есть столик +-------+-------+---------------------------------+ |dept_id|dept_nm| emp_details| +-------+-------+-----------------------…
20 окт '16 в 09:52