PySpark, запрашивающий несколько файлов JSON
Я загрузил в Spark 2.2.0
множество файлов JSONL (структура одинакова для всех из них), содержащихся в каталоге с помощью команды (python spark): df = spark.read.json(mydirectory) df.createGlobalTempView("MyDatabase") sqlDF = spark.sql("SELECT count(*) FROM MyDatabase") sqlDF.show().
Загрузка работает, но когда я запрашиваю sqlDF (sqlDF.show()
), кажется, что Spark считает строки только одного файла (первого?), а не всех из них. Я предполагаю, что "MyDatabase" - это фрейм данных, содержащий все файлы.
Что мне не хватает?
1 ответ
Если я загружаю только один файл, состоящий только из одной строки из нескольких объектов json {...}, Spark может правильно идентифицировать табличную структуру. Если у меня есть более одного файла, я должен поместить каждый {} в новую строку, чтобы получить тот же результат.