Как я могу обновить или удалить записи таблицы улья из spark, не загружая всю таблицу в dataframe?

У меня есть таблица орков кустов с около 2 миллионами записей, в настоящее время для обновления или удаления я загружаю всю таблицу в информационный кадр, а затем обновляю и сохраняю как новый информационный кадр и сохраняю его в режиме перезаписи (ниже приводится команда), поэтому для обновления одного запись мне нужна для загрузки и обработки всей таблицы данных?

Я не могу сделать objHiveContext.sql("обновить myTable set columnName='' ") Я использую Spark 1.4.1, Hive 1.2.1

myData.write.format("orc").mode(SaveMode.Overwrite).saveAsTable("myTable") где myData - это обновленный фрейм данных.

Как избавиться от загрузки целых 2-3 миллионов записей только для обновления одной записи таблицы улья.

0 ответов

Другие вопросы по тегам