Когда использовать API низкого уровня?

В иске, Resilient Distributed Datasets (RDD) являются низкоуровневыми API, а фреймы данных - высокоуровневыми API, поэтому мой вопрос, когда использовать низкоуровневые API?

1 ответ

Spark имеет два основных набора API: низкоуровневые "неструктурированные" API и высокоуровневые структурированные API.

СДР может обрабатывать как структурированные, так и неструктурированные данные, когда в качестве фрейма данных данные организуются в виде столбцов строк, поэтому они работают со структурированными данными. При необходимости вы можете преобразовать фрейм данных в rdd.

В целом люди используют dataframe и, следовательно, API высокого уровня, так как это дает больше возможностей. Но это зависит только от вашего требования.

Я предлагаю вам прочитать либо такие книги, как "Learning Spark" или "Spark -The Definition Guide", чтобы получить больше разъяснений.

Другие вопросы по тегам