Описание тега spark-jdbc

2 ответа

Псевдоколонка в Spark JDBC

Я использую запрос для получения данных из MYSQL следующим образом: var df = spark.read.format("jdbc") .option("url", "jdbc:mysql://10.0.0.192:3306/retail_db") .option("driver" ,"com.mysql.jdbc.Driver") .option("user", "retail_dba") .option("passwor…
03 дек '17 в 06:41
0 ответов

Обработка огромной таблицы базы данных с помощью Spark

У меня есть огромная таблица базы данных, которая содержит миллионы записей. Каждая запись может обрабатываться изолированно, и она должна быть преобразована, скажем, в строку. Поэтому я начал смотреть по сторонам и подумал, может ли Спарк помочь мн…
21 дек '17 в 12:12
0 ответов

Сценарий SparkSQL JDBC завершается с ошибкой "Не удается получить блокировки"

Я пытаюсь вставить 50 миллионов строк из таблицы улья в таблицу SQLServer, используя SparkSQL JDBC Writer. Ниже приведена строка кода, которую я использую для вставки данных. mdf1.coalesce(4).write.mode(SaveMode.Append).jdbc(connectionString, "dbo.T…
1 ответ

Есть ли способ определить "partitionColumn" в "option(" partitionColumn "," colname ")" в Spark-JDBC, если столбец имеет тип данных: String?

Я пытаюсь загрузить данные из RDBMS в таблицу кустов на HDFS. Я читаю таблицу RDBMS следующим образом: val mydata = spark.read .format("jdbc") .option("url", connection) .option("dbtable", "select * from dev.userlocations") .option("user", usrname) …
1 ответ

Спарк jdbc чтение настройки, где таблица без первичного ключа

Я читаю 30 миллионов записей из таблицы оракулов без столбцов первичного ключа. При чтении spark jdbc зависает и не получает никаких данных. где я могу получить результат от Oracle SQLDeveloper в течение нескольких секунд для того же запроса. oracle…
21 сен '18 в 14:20
0 ответов

Spark JDBC: DataFrameReader не может прочитать таблицу Oracle с типом данных как ROWID

Я пытаюсь прочитать таблицу Oracle, используя spark.read.format, и она отлично работает для всех таблиц, за исключением нескольких таблиц, в которых любой столбец с типом данных имеет значение ROWID. Ниже мой код var df = spark.read.format("jdbc"). …
09 сен '18 в 12:21
1 ответ

Поддерживает ли df.write.jdbc подключение к пулу JDBC?

Знаете ли вы, может ли следующая строка обрабатывать подключение к пулу jdbc: df.write .mode("append") .jdbc(url, table, prop) Есть ли у вас какие-либо идеи? Спасибо
0 ответов

Искра jdbc редактировать вставку

Можно ли ввести параметр в оператор вставки искры JDBC? я использую spark.sql("select * from my_table ").write.mode(SaveMode.Append).jdbc для сохранения большого массива данных в моей БД. В JdbcUtils insertStatement создано. Можно ли (не создавая мо…
15 мар '18 в 13:16
1 ответ

pySpark jdbc error write write: Ошибка при вызове o43.jdbc.: scala.MatchError: null

Я пытаюсь записать простой спарк dataframe в базу данных db2, используя pySpark. Фрейм данных имеет только один столбец с типом данных double. Это фрейм данных только с одной строкой и одним столбцом: Это схема данных: Когда я пытаюсь записать этот …
20 мар '18 в 18:41
0 ответов

Чтение jdbc с partitionColumn - все еще видят только 1 исполнитель, выполняющий любую работу

Я работал над инструментом извлечения / синхронизации контента на основе pyspark (похож на sqoop, но применяя некоторые преобразования в виде конвейера). Я создаю соединение JDBC через: datatype_boundry_mappings = { # https://docs.microsoft.com/en-u…
26 дек '17 в 15:58
0 ответов

Чтение Spark JDBC заканчивается только в одном разделе

У меня есть фрагмент кода ниже для чтения данных из таблицы Postgresql, откуда я беру все доступные данные, т.е. select * from table_name: jdbcDF = spark.read \ .format("jdbc") \ .option("url", self.var_dict['jdbc_url']) \ .option("dbtable", "({0}) …
28 фев '19 в 13:57
0 ответов

Получение NullPointerException при попытке загрузить таблицу phoenix из spark jdbc

Я использую приведенный ниже код для загрузки таблицы Phoenix в спарк: sparkSession.read().option("driver", driverName).jdbc(url, "emp.person", properties); Здесь URL является действительным в соответствии с документом: jdbc:phoenix:zkQuorum:2181/hb…
18 янв '18 в 13:39
0 ответов

Получите доступ к сеансу спекуляции экономичного сервера программно

Возможно ли получить доступ к сеансу искры, созданному работающим сервером Spark Thrift. Я создал большую кэшированную таблицу, подключив Билайн к серверу Spark Thrift. Теперь я хочу повторно использовать эту кешированную таблицу в моей программе, н…
1 ответ

Spark: разница между numPartitions в read.jdbc(..numPartitions..) и перераспределением (.. numPartitions..)

Я озадачен между поведением numPartitions Параметр в следующих методах: DataFrameReader.jdbc Dataset.repartition Официальные документы DataFrameReader.jdbc сказать следующее относительно numPartitions параметр numPartitions: количество разделов. Это…
0 ответов

Как заставить Spark jdbc dataframewriter выполнять предварительные действия?

Я хотел бы, чтобы JDBC автор писем использовать что-то вроде preaction на таблицу sql я пишу, аналогично preactions параметры в RedshiftWriter Databrick. Мой вариант использования - обновить таблицу данными текущего дня и удалить дубликаты или ранее…
22 май '18 в 01:44
0 ответов

Запись Apache Spark в MySQL с JDBC-коннектором (режим записи: игнорировать) не выполняется должным образом

Мои таблицы хранятся в MySQL с ID в качестве первичного ключа. Я хочу написать с помощью Spark в Mysql, где он игнорирует строки в кадре данных, который уже существует в Mysql (на основе первичного ключа), и записывает только новый набор строк. ID (…
0 ответов

Как читать данные пользовательского sql в scala spark jdbc, считываемого в фрейм данных?

Я следую этому способу получения данных пользовательского SQL-запроса в scala spark dataframe. Фрагмент кода в разделе "Pushdown Query to Database Engine" не работает для меня. Есть ли способ для меня выполнить пользовательский запрос и использовать…
0 ответов

Как установить размер выборки при получении результатов от Spark Thrift Server с использованием JDBC?

Я попытался использовать Statement.setFetchSize (необходимое число), но это работает, когда я подключаюсь к Hive, используя JDBC, а не когда я пытаюсь пройти через сервер spark thrift. Мой запрос приводит к большому набору результатов, вызывая OOM н…
1 ответ

Как настроить отображение / фильтрацию для больших наборов данных (перекрестное соединение из двух наборов данных)?

Spark 2.2.0 У меня есть следующий код, преобразованный из сценария SQL. Он работает уже два часа и все еще работает. Даже медленнее, чем SQL Server. Что-то не так сделано правильно? Ниже приведен план, От себя table2 всем исполнителям раздел table1 …
0 ответов

Оптимизация Apache Spark JDBC с SQL Server с использованием граничных ограничений

У нас есть платформа, которая использует Apache Spark для получения данных с SQL Server с использованием Spark SQL . Вы можете увидеть образец запроса ниже. Здесь я жестко закодировал значения lowerBound и upperBound, потому что эти значения предназ…