Описание тега spark-csv

Библиотека для работы с CSV-файлами в Apache Spark.
0 ответов

Потоковая передача из CSV-файлов с помощью Spark

Я пытаюсь использовать Spark Streaming для сбора данных из файлов CSV, расположенных на NFS. У меня очень простой код, и до сих пор я запускал его только в spark-shell, но даже там я сталкиваюсь с некоторыми проблемами. Я запускаю spark-shell с авто…
13 ноя '17 в 21:23
1 ответ

Spark сохранить как CSV не игнорировать пробелы

Я пытаюсь сохранить Dataframe как файл CSV, я хочу сохранить пробелы. Я использую Spark 2.1.1, но когда я пытаюсь сохранить его как файл CSV, все пробелы обрезаются. Я попробовал эти варианты, но они не работали. option("ignoreLeadingWhiteSpace",fal…
1 ответ

Искра: java.io.FileNotFoundException: файл не существует в copyMerge

Я пытаюсь объединить все файлы искровых деталей в каталог и создать один файл в Scala. Вот мой код: import org.apache.spark.sql.functions.input_file_name import org.apache.spark.sql.functions.regexp_extract def merge(srcPath: String, dstPath: String…
23 окт '17 в 06:01
1 ответ

Загрузка вложенных CSV-файлов из S3 с помощью Spark

У меня есть сотни сжатых CSV-файлов в S3, которые я пытаюсь загрузить. Структура каталогов выглядит следующим образом: bucket -- level1 ---- level2.1 -------- level3.1 ------------ many files -------- level3.2 ------------ many files ---- level2.2 -…
30 янв '17 в 17:24
1 ответ

Динамическая загрузка com.databricks:spark-csv spark package в мое приложение

Мне нужно динамически загружать пакеты spark com.csv в мое приложение, используя spark submit, все работает spark-submit --class "DataLoaderApp" --master yarn --deploy-mode client --packages com.databricks:spark-csv_2.11:1.4.0 target/scala-2.10/ra-e…
16 авг '16 в 07:25
1 ответ

Spark: master local[*] намного медленнее, чем master local

У меня есть EC2 настроить с r3.8xlarge (32 cores, 244G RAM), В моем Spark приложение, я читаю два файла CSV из S3 с помощью Spark-CSV из DataBrick каждый CSV имеет около 5 миллионов строк. я unionAll два DataFrames и работает dropDuplicates на комби…
0 ответов

Сохранение кадра данных с использованием пакета spark-csv вызывает исключения и сбои (pyspark)

Я запускаю скрипт на spark 1.5.2 в автономном режиме (с использованием 8 ядер), и в конце сценария я пытаюсь сериализовать очень большой массив данных на диск, используя spark-csv пакет. Фрагмент кода, который выдает исключение: numfileparts = 16 da…
20 апр '16 в 07:41
1 ответ

Как избежать искры NumberFormatException: null

У меня есть общий вопрос, полученный из конкретного исключения, с которым я столкнулся. Я запрашиваю данные с помощью dataproc, используя spark 1.6. Мне нужно получить 1 день данных (~10000 файлов) из 2 журналов, а затем сделать некоторые преобразов…
17 мар '16 в 10:05
1 ответ

PySpark для блоков данных: чтение файла CSV, скопированного из хранилища BLOB-объектов Azure, приводит к исключению java.io.FileNotFoundException

Я использую Azure Databricks 4.3 (включает Apache Spark 2.3.1, Scala 2.11). Я скопировал CSV файл из хранилища BLOB-объектов Azure в кластер Databricks с помощью dbutils.fs.cp на диск, добавив file: в абсолют local_path: copy_to = "file:" + local_pa…
1 ответ

Добавление пользовательского разделителя добавляет двойные кавычки в итоговом кадре данных искры CSV outpu

У меня есть фрейм данных, где я заменяю разделитель по умолчанию , с |^|, он работает нормально, и я получаю ожидаемый результат, кроме случаев, когда , находится в записях. Например, у меня есть одна такая запись, как показано ниже 4295859078|^|914…
29 окт '17 в 16:15
2 ответа

Символы становятся поврежденными, если spark.executor.memory не установлен должным образом при импорте CSV в DataFrame

ОБНОВЛЕНИЕ: Пожалуйста, держитесь за этот вопрос. Я обнаружил, что это может быть проблемой самого Spark 1.5, поскольку я не использую официальную версию Spark. Я буду обновлять этот вопрос. Спасибо! Недавно я заметил странную ошибку при использован…
07 мар '16 в 05:11
2 ответа

О том, как программным способом создать объект схемы org.apache.spark.sql.types.StructType, начиная с файла json.

Мне нужно создать собственный объект схемы org.apache.spark.sql.types.StructType с информацией из файла json, файл json может быть любым, поэтому я параметризовал его в файле свойств. Вот так выглядит файл свойств: //ruta al esquema del fichero outp…
10 ноя '16 в 11:13
1 ответ

NumberFormatException при попытке создать файл паркета с пользовательской схемой и типами BigDecimal

Мне нужно создать файл паркета из CSV-файлов, используя настроенный файл схемы JSON, как этот: {"type" : "struct","fields" : [ {"name" : "tenor_bank","type" : "string","nullable" : false}, {"name":"tenor_frtb", "type":"string", "nullable":false}, {"…
05 дек '16 в 12:01
2 ответа

Удалить столбец (столбцы) в кадре данных spark csv

У меня есть датафрейм, к которому я делаю объединение всех его полей. После объединения он становится другим фреймом данных, и, наконец, я записываю его вывод в файл csv, разделенный на две колонки. Один из столбцов присутствует в первом кадре данны…
4 ответа

Могу ли я прочитать CSV, представленный в виде строки, в Apache Spark, используя spark-csv

Я знаю, как прочитать CSV-файл в искру с помощью spark-CSV ( https://github.com/databricks/spark-csv), но у меня уже есть CSV-файл, представленный в виде строки, и хотел бы преобразовать эту строку непосредственно в dataframe. Это возможно?
23 авг '16 в 22:53
2 ответа

Как оценить реальный размер датафрейма в pyspark?

Как определить размер кадра данных? Сейчас я оцениваю реальный размер кадра данных следующим образом: headers_size = key for key in df.first().asDict() rows_size = df.map(lambda row: len(value for key, value in row.asDict()).sum() total_size = heade…
06 май '16 в 16:38
1 ответ

Spark не может прочитать CSV, когда имя последнего столбца содержит пробелы

У меня есть CSV, который выглядит так: +-----------------+-----------------+-----------------+ | Column One | Column Two | Column Three | +-----------------+-----------------+-----------------+ | This is a value | This is a value | This is a value |…
22 май '18 в 23:33
7 ответов

Как прочитать только n строк большого файла CSV в HDFS с помощью пакета spark-csv?

У меня есть большой распределенный файл в HDFS, и каждый раз, когда я использую sqlContext с пакетом spark-csv, он сначала загружает весь файл, что занимает довольно много времени. df = sqlContext.read.format('com.databricks.spark.csv').options(head…
1 ответ

Как преобразовать тип столбца из str в дату, когда str имеет формат dd/mm/yyyy?

У меня есть большая таблица в SQL я импортировал из большого файла CSV. Столбец распознается как строка, если он содержит информацию о дате в формате дд / мм / гггг. Я старался select TO_DATE('12/31/2015') as date но это не работает, потому что функ…
19 авг '16 в 05:04
1 ответ

Схема Spark из класса case с правильной обнуляемостью

Для пользовательского метода transformSchema оценщика мне нужно уметь сравнивать схему входного фрейма данных со схемой, определенной в классе наблюдения. Обычно это может быть выполнено как Генерация Spark StructType / Schema из класса наблюдения, …