SparkR быстро получает отличные значения от Dataframe

Я пытаюсь получить различные значения из SparkDataframe с помощью инструкции ниже.

distVals <- collect(distinct(select(dataframeName, 'Column_name')))

Чтобы выполнить это утверждение, требуется около 30-40 минут. Есть ли лучший способ сделать это?

Также нет большой разницы во времени для сбора полного фрейма данных и сбора различных значений. Так почему не рекомендуется собирать весь набор данных? Это только из-за размера данных?

Так как мне нужно получать различные виды отфильтрованных данных, я стремлюсь быстрее собирать результаты.

0 ответов

Другие вопросы по тегам