Описание тега spark-dataframe

Структурированные столбчатые данные, аналогичные пандам или фреймам данных R, но с искровой базой RDD, позволяющей выполнять массовые распределенные операции, подобные SQL.

Spark SQL - это модуль Spark для обработки структурированных данных. Он предоставляет программную абстракцию под названием DataFrames, а также может действовать как механизм распределенных запросов SQL.

DataFrame представляет собой распределенную совокупность данных, организованных в именованные столбцы. Это концептуально эквивалентно таблице в реляционной базе данных или фрейму данных в R/Python, но с более обширной внутренней оптимизацией. DataFrames могут быть созданы из широкого спектра источников, таких как файлы структурированных данных, таблицы в Hive, внешние базы данных или существующие RDD.

Внешние ссылки:

Похожие теги: apache-spark, apache-spark-sql, pyspark-sql