PySpark, запрашивающий несколько файлов JSON

Question

PySpark, запрашивающий несколько файлов JSON

Я загрузил в Spark 2.2.0 множество файлов JSONL (структура одинакова для всех из них), содержащихся в каталоге с помощью команды (python spark): df = spark.read.json(mydirectory) df.createGlobalTempView("MyDatabase") sqlDF = spark.sql("SELECT count(*) FROM MyDatabase") sqlDF.show().

Загрузка работает, но когда я запрашиваю sqlDF (sqlDF.show()), кажется, что Spark считает строки только одного файла (первого?), а не всех из них. Я предполагаю, что "MyDatabase" - это фрейм данных, содержащий все файлы.

Что мне не хватает?

0

json apache-spark pyspark spark-dataframe

Источник

user8462471 15 сен '17 в 21:09

1 ответ

Другие вопросы по тегам json apache-spark pyspark spark-dataframe

user8462471 16 сен '17 в 11:28 2017-09-16 11:28 · Answer 1 · 2017-09-16 11:28

Если я загружаю только один файл, состоящий только из одной строки из нескольких объектов json {...}, Spark может правильно идентифицировать табличную структуру. Если у меня есть более одного файла, я должен поместить каждый {} в новую строку, чтобы получить тот же результат.