Когда использовать API низкого уровня?
В иске, Resilient Distributed Datasets (RDD) являются низкоуровневыми API, а фреймы данных - высокоуровневыми API, поэтому мой вопрос, когда использовать низкоуровневые API?
1 ответ
Spark имеет два основных набора API: низкоуровневые "неструктурированные" API и высокоуровневые структурированные API.
СДР может обрабатывать как структурированные, так и неструктурированные данные, когда в качестве фрейма данных данные организуются в виде столбцов строк, поэтому они работают со структурированными данными. При необходимости вы можете преобразовать фрейм данных в rdd.
В целом люди используют dataframe и, следовательно, API высокого уровня, так как это дает больше возможностей. Но это зависит только от вашего требования.
Я предлагаю вам прочитать либо такие книги, как "Learning Spark" или "Spark -The Definition Guide", чтобы получить больше разъяснений.