Описание тега spark-csv
Библиотека для работы с CSV-файлами в Apache Spark.
0
ответов
Потоковая передача из CSV-файлов с помощью Spark
Я пытаюсь использовать Spark Streaming для сбора данных из файлов CSV, расположенных на NFS. У меня очень простой код, и до сих пор я запускал его только в spark-shell, но даже там я сталкиваюсь с некоторыми проблемами. Я запускаю spark-shell с авто…
13 ноя '17 в 21:23
1
ответ
Spark сохранить как CSV не игнорировать пробелы
Я пытаюсь сохранить Dataframe как файл CSV, я хочу сохранить пробелы. Я использую Spark 2.1.1, но когда я пытаюсь сохранить его как файл CSV, все пробелы обрезаются. Я попробовал эти варианты, но они не работали. option("ignoreLeadingWhiteSpace",fal…
06 дек '17 в 16:54
1
ответ
Искра: java.io.FileNotFoundException: файл не существует в copyMerge
Я пытаюсь объединить все файлы искровых деталей в каталог и создать один файл в Scala. Вот мой код: import org.apache.spark.sql.functions.input_file_name import org.apache.spark.sql.functions.regexp_extract def merge(srcPath: String, dstPath: String…
23 окт '17 в 06:01
1
ответ
Загрузка вложенных CSV-файлов из S3 с помощью Spark
У меня есть сотни сжатых CSV-файлов в S3, которые я пытаюсь загрузить. Структура каталогов выглядит следующим образом: bucket -- level1 ---- level2.1 -------- level3.1 ------------ many files -------- level3.2 ------------ many files ---- level2.2 -…
30 янв '17 в 17:24
1
ответ
Динамическая загрузка com.databricks:spark-csv spark package в мое приложение
Мне нужно динамически загружать пакеты spark com.csv в мое приложение, используя spark submit, все работает spark-submit --class "DataLoaderApp" --master yarn --deploy-mode client --packages com.databricks:spark-csv_2.11:1.4.0 target/scala-2.10/ra-e…
16 авг '16 в 07:25
1
ответ
Spark: master local[*] намного медленнее, чем master local
У меня есть EC2 настроить с r3.8xlarge (32 cores, 244G RAM), В моем Spark приложение, я читаю два файла CSV из S3 с помощью Spark-CSV из DataBrick каждый CSV имеет около 5 миллионов строк. я unionAll два DataFrames и работает dropDuplicates на комби…
08 ноя '16 в 21:21
0
ответов
Сохранение кадра данных с использованием пакета spark-csv вызывает исключения и сбои (pyspark)
Я запускаю скрипт на spark 1.5.2 в автономном режиме (с использованием 8 ядер), и в конце сценария я пытаюсь сериализовать очень большой массив данных на диск, используя spark-csv пакет. Фрагмент кода, который выдает исключение: numfileparts = 16 da…
20 апр '16 в 07:41
1
ответ
Как избежать искры NumberFormatException: null
У меня есть общий вопрос, полученный из конкретного исключения, с которым я столкнулся. Я запрашиваю данные с помощью dataproc, используя spark 1.6. Мне нужно получить 1 день данных (~10000 файлов) из 2 журналов, а затем сделать некоторые преобразов…
17 мар '16 в 10:05
1
ответ
PySpark для блоков данных: чтение файла CSV, скопированного из хранилища BLOB-объектов Azure, приводит к исключению java.io.FileNotFoundException
Я использую Azure Databricks 4.3 (включает Apache Spark 2.3.1, Scala 2.11). Я скопировал CSV файл из хранилища BLOB-объектов Azure в кластер Databricks с помощью dbutils.fs.cp на диск, добавив file: в абсолют local_path: copy_to = "file:" + local_pa…
28 янв '19 в 15:59
1
ответ
Добавление пользовательского разделителя добавляет двойные кавычки в итоговом кадре данных искры CSV outpu
У меня есть фрейм данных, где я заменяю разделитель по умолчанию , с |^|, он работает нормально, и я получаю ожидаемый результат, кроме случаев, когда , находится в записях. Например, у меня есть одна такая запись, как показано ниже 4295859078|^|914…
29 окт '17 в 16:15
2
ответа
Символы становятся поврежденными, если spark.executor.memory не установлен должным образом при импорте CSV в DataFrame
ОБНОВЛЕНИЕ: Пожалуйста, держитесь за этот вопрос. Я обнаружил, что это может быть проблемой самого Spark 1.5, поскольку я не использую официальную версию Spark. Я буду обновлять этот вопрос. Спасибо! Недавно я заметил странную ошибку при использован…
07 мар '16 в 05:11
2
ответа
О том, как программным способом создать объект схемы org.apache.spark.sql.types.StructType, начиная с файла json.
Мне нужно создать собственный объект схемы org.apache.spark.sql.types.StructType с информацией из файла json, файл json может быть любым, поэтому я параметризовал его в файле свойств. Вот так выглядит файл свойств: //ruta al esquema del fichero outp…
10 ноя '16 в 11:13
1
ответ
NumberFormatException при попытке создать файл паркета с пользовательской схемой и типами BigDecimal
Мне нужно создать файл паркета из CSV-файлов, используя настроенный файл схемы JSON, как этот: {"type" : "struct","fields" : [ {"name" : "tenor_bank","type" : "string","nullable" : false}, {"name":"tenor_frtb", "type":"string", "nullable":false}, {"…
05 дек '16 в 12:01
2
ответа
Удалить столбец (столбцы) в кадре данных spark csv
У меня есть датафрейм, к которому я делаю объединение всех его полей. После объединения он становится другим фреймом данных, и, наконец, я записываю его вывод в файл csv, разделенный на две колонки. Один из столбцов присутствует в первом кадре данны…
07 окт '17 в 09:22
4
ответа
Могу ли я прочитать CSV, представленный в виде строки, в Apache Spark, используя spark-csv
Я знаю, как прочитать CSV-файл в искру с помощью spark-CSV ( https://github.com/databricks/spark-csv), но у меня уже есть CSV-файл, представленный в виде строки, и хотел бы преобразовать эту строку непосредственно в dataframe. Это возможно?
23 авг '16 в 22:53
2
ответа
Как оценить реальный размер датафрейма в pyspark?
Как определить размер кадра данных? Сейчас я оцениваю реальный размер кадра данных следующим образом: headers_size = key for key in df.first().asDict() rows_size = df.map(lambda row: len(value for key, value in row.asDict()).sum() total_size = heade…
06 май '16 в 16:38
1
ответ
Spark не может прочитать CSV, когда имя последнего столбца содержит пробелы
У меня есть CSV, который выглядит так: +-----------------+-----------------+-----------------+ | Column One | Column Two | Column Three | +-----------------+-----------------+-----------------+ | This is a value | This is a value | This is a value |…
22 май '18 в 23:33
7
ответов
Как прочитать только n строк большого файла CSV в HDFS с помощью пакета spark-csv?
У меня есть большой распределенный файл в HDFS, и каждый раз, когда я использую sqlContext с пакетом spark-csv, он сначала загружает весь файл, что занимает довольно много времени. df = sqlContext.read.format('com.databricks.spark.csv').options(head…
31 май '17 в 06:15
1
ответ
Как преобразовать тип столбца из str в дату, когда str имеет формат dd/mm/yyyy?
У меня есть большая таблица в SQL я импортировал из большого файла CSV. Столбец распознается как строка, если он содержит информацию о дате в формате дд / мм / гггг. Я старался select TO_DATE('12/31/2015') as date но это не работает, потому что функ…
19 авг '16 в 05:04
1
ответ
Схема Spark из класса case с правильной обнуляемостью
Для пользовательского метода transformSchema оценщика мне нужно уметь сравнивать схему входного фрейма данных со схемой, определенной в классе наблюдения. Обычно это может быть выполнено как Генерация Spark StructType / Schema из класса наблюдения, …
27 ноя '16 в 14:43