Как я могу обновить или удалить записи таблицы улья из spark, не загружая всю таблицу в dataframe?
У меня есть таблица орков кустов с около 2 миллионами записей, в настоящее время для обновления или удаления я загружаю всю таблицу в информационный кадр, а затем обновляю и сохраняю как новый информационный кадр и сохраняю его в режиме перезаписи (ниже приводится команда), поэтому для обновления одного запись мне нужна для загрузки и обработки всей таблицы данных?
Я не могу сделать objHiveContext.sql("обновить myTable set columnName='' ") Я использую Spark 1.4.1, Hive 1.2.1
myData.write.format("orc").mode(SaveMode.Overwrite).saveAsTable("myTable")
где myData - это обновленный фрейм данных.
Как избавиться от загрузки целых 2-3 миллионов записей только для обновления одной записи таблицы улья.