Описание тега spark-dataframe
Структурированные столбчатые данные, аналогичные пандам или фреймам данных R, но с искровой базой RDD, позволяющей выполнять массовые распределенные операции, подобные SQL.
Spark SQL - это модуль Spark для обработки структурированных данных. Он предоставляет программную абстракцию под названием DataFrames, а также может действовать как механизм распределенных запросов SQL.
DataFrame представляет собой распределенную совокупность данных, организованных в именованные столбцы. Это концептуально эквивалентно таблице в реляционной базе данных или фрейму данных в R/Python, но с более обширной внутренней оптимизацией. DataFrames могут быть созданы из широкого спектра источников, таких как файлы структурированных данных, таблицы в Hive, внешние базы данных или существующие RDD.
Внешние ссылки:
Похожие теги: apache-spark, apache-spark-sql, pyspark-sql