Соединение Spark Broadcast, где необходимо объединить набор данных из 1,5 млн записей с временной таблицей из 150 записей

Я сталкиваюсь с одной проблемой, когда пытаюсь соединить 1.5M записей Dataset с другим DF, имеющим 150 записей. Производительность очень плохая и показывает неверные результаты. Можете ли вы предложить присоединиться к трансляции, где LargeDF оставил соединение с небольшим DF, используя Scala?

Спасибо!

1 ответ

Вы можете использовать функцию широковещательной рассылки явно, хотя, как упоминалось в комментариях, спарк должен автоматически включаться для небольших DF.

import org.apache.spark.sql.functions.broadcast

dfBig.join(broadcast(dfSmall))
Другие вопросы по тегам