Соединение Spark Broadcast, где необходимо объединить набор данных из 1,5 млн записей с временной таблицей из 150 записей
Я сталкиваюсь с одной проблемой, когда пытаюсь соединить 1.5M записей Dataset с другим DF, имеющим 150 записей. Производительность очень плохая и показывает неверные результаты. Можете ли вы предложить присоединиться к трансляции, где LargeDF оставил соединение с небольшим DF, используя Scala?
Спасибо!
1 ответ
Вы можете использовать функцию широковещательной рассылки явно, хотя, как упоминалось в комментариях, спарк должен автоматически включаться для небольших DF.
import org.apache.spark.sql.functions.broadcast
dfBig.join(broadcast(dfSmall))