PySpark, запрашивающий несколько файлов JSON

Я загрузил в Spark 2.2.0 множество файлов JSONL (структура одинакова для всех из них), содержащихся в каталоге с помощью команды (python spark): df = spark.read.json(mydirectory) df.createGlobalTempView("MyDatabase") sqlDF = spark.sql("SELECT count(*) FROM MyDatabase") sqlDF.show().

Загрузка работает, но когда я запрашиваю sqlDF (sqlDF.show()), кажется, что Spark считает строки только одного файла (первого?), а не всех из них. Я предполагаю, что "MyDatabase" - это фрейм данных, содержащий все файлы.

Что мне не хватает?

1 ответ

Если я загружаю только один файл, состоящий только из одной строки из нескольких объектов json {...}, Spark может правильно идентифицировать табличную структуру. Если у меня есть более одного файла, я должен поместить каждый {} в новую строку, чтобы получить тот же результат.

Другие вопросы по тегам