SparkR быстро получает отличные значения от Dataframe
Я пытаюсь получить различные значения из SparkDataframe с помощью инструкции ниже.
distVals <- collect(distinct(select(dataframeName, 'Column_name')))
Чтобы выполнить это утверждение, требуется около 30-40 минут. Есть ли лучший способ сделать это?
Также нет большой разницы во времени для сбора полного фрейма данных и сбора различных значений. Так почему не рекомендуется собирать весь набор данных? Это только из-за размера данных?
Так как мне нужно получать различные виды отфильтрованных данных, я стремлюсь быстрее собирать результаты.