Описание тега apache-arrow

Описание тега Вопросы с тегом

Apache Arrow™ enables execution engines to take advantage of the latest SIM D (Single input multiple data) operations included in modern processors, for native vectorized optimization of analytical data processing.

0 ответов

Чтение определенной группы строк из набора данных паркета

Можно ли прочитать определенную группу строк из набора данных паркета, используя пиарроу? Я могу сделать это для файла паркета. Я изучил документацию для pyarrow.parquet, а также изучил сигнатуры методов / классов.

parquet pyarrow apache-arrow

06 июл '18 в 09:55

0 ответов

Доступ Spark Java Executor к Arrow Record Batch из Python Worker в PySpark?

Каким образом код исполнителя Java Spark, например работника раздела, может использовать Arrow для доступа к пакетам записей Arrow после их обработки работником Python в PySpark? То есть на сопутствующей диаграмме мы хотели бы получить прямой доступ…

apache-spark pyspark apache-arrow

19 июн '18 в 17:13

0 ответов

Конвертируйте Pandas DataFrame в перо в памяти

Используя инструменты IO в пандах, можно преобразовать DataFrame в перовой буфер в памяти: import pandas as pd from io import BytesIO df = pd.DataFrame({'a': [1,2], 'b': [3.0,4.0]}) buf = BytesIO() df.to_feather(buf) Тем не менее, используя тот же б…

python python-3.x pandas apache-arrow feather

08 июн '18 в 13:31

0 ответов

Адаптер Apache Arrow Интеграция с Apache Calcite

Есть ли какая-либо опция, доступная для интеграции apache arrow и apache calcite? Я заметил, что CSV, JSON имеет эту функцию интеграции. но у Apache Arrow этого нет.

apache-arrow apache-calcite calcite

27 ноя '18 в 19:14

1 ответ

Получите доступ к результатам фильтра Gadiva по индексу в Apache Arrow

Может быть, я упускаю что-то очевидное, но на всю жизнь я не могу понять, как я могу получить доступ к элементам массива после операции фильтра Gandiva. Я привел минимальный пример, который я собираю так: $ /usr/lib64/ccache/g++ -g -Wall -m64 -std=c…

c++ apache-arrow

12 дек '18 в 19:52

2 ответа

Проблемы с типами данных при преобразовании данных паркета в кадр данных Pandas

У меня проблема с типами файлов при преобразовании файла паркета в фрейм данных. я делаю bucket = 's3://some_bucket/test/usages' import pyarrow.parquet as pq import s3fs s3 = s3fs.S3FileSystem() read_pq = pq.ParquetDataset(bucket, filesystem=s3).rea…

pandas parquet pyarrow apache-arrow

25 фев '19 в 12:45

0 ответов

Как написать простой развернутый байтовый массив в Apache-Arrow ListWriter

В настоящее время я пишу некоторый код для преобразования произвольной структуры данных в векторы Apache Arrow и застрял на чем-то относительно простом, а именно, как написать byte[] к ListVector, При записи данных в ListVector через BaseWriter.List…

java apache-arrow

30 окт '17 в 08:03

1 ответ

Ошибка переполнения при использовании datetime с Pyarrow

При рандомизации даты и времени для проверки базы данных я сохранил их в паркет, используя pyarrow.parquets ' write_table(), а затем прочитать их обратно, используя read_table(), При попытке преобразовать в типы данных Python с to_pydict()Я получил …

datetime parquet pyarrow apache-arrow

22 дек '17 в 18:48

0 ответов

Как реализовать пример бумаги Dremel в пирору?

Я пытаюсь использовать следующую примерную схему документа из бумаги Dremel Dremel: Интерактивный анализ наборов данных веб-масштаба: message Document { required int64 DocId; optional group Links { repeated int64 Backward; repeated int64 Forward; } …

python parquet pyarrow apache-arrow

15 окт '18 в 06:49

1 ответ

Как загрузить файл CSV в векторы Arache Arrow и сохранить файл стрелки на диск

В настоящее время я играю с API Java Apache Arrow (хотя я использую его из Scala для примеров кода), чтобы немного познакомиться с этим инструментом. В качестве упражнения я решил загрузить файл CSV в векторы стрелок, а затем сохранить их в файл стр…

java scala csv apache-arrow

23 окт '17 в 09:53

1 ответ

В чем разница между Apache Spark и Apache Arrow?

Каковы различия между Apache Arrow и Apache Spark? Будет ли Apache Arrow заменять Hadoop?

apache-spark hadoop bigdata apache-arrow

09 мар '16 в 06:52

4 ответа

Spark датафрейм в стрелку

Я уже некоторое время использую Apache Arrow с Spark в Python и с легкостью могу конвертировать между фреймами данных и объектами Arrow, используя Pandas в качестве посредника. Однако недавно я перешел с Python на Scala для взаимодействия со Spark, …

dataframe scala apache-spark apache-arrow

27 июл '17 в 17:04

1 ответ

Создание таблицы поверх письменного файла паркета в Афине

Я создаю паркетный файл из CSV-файла, используя следующий скрипт Python: import pandas as pd import pyarrow as pa import pyarrow.parquet as pq csv_file = '~/Desktop/SWA_UK_Pickup_Forecast_HOURLY_M1_at_2017-11-28-04_20_21-UTC_from_28-Nov-2017_to_28-N…

python parquet amazon-athena pyarrow apache-arrow

28 ноя '17 в 10:23

0 ответов

Можно ли выполнить запрос в таблице стрелок памяти с помощью Presto или есть какой-либо способ использовать фрейм данных Pandas в качестве источника данных для механизма запросов Presto

Можно ли выполнить запрос в таблице стрелок памяти с помощью Presto или есть какой-либо способ использовать фрейм данных Pandas в качестве источника данных для механизма запросов Presto? На самом деле у меня есть паркетные файлы, которые я хочу прео…

apache presto prestodb apache-arrow

15 мар '18 в 19:29

0 ответов

Как конвертировать arrow::Array в std::vector?

У меня есть массив стрелок Apache, который создается путем чтения файла. std::shared_ptr<arrow::Array> array; PARQUET_THROW_NOT_OK(reader->ReadColumn(0, &array)); Есть ли способ преобразовать его в std::vector или любой другой тип масси…

c++ arrays vector apache-arrow

17 ноя '18 в 00:21

1 ответ

Сгруппированные данные в фрейме со стрелкой apache

schema = StructType([ StructField("title", StringType(), False), StructField("stringdataA", StringType(), False), # StructField("list", ArrayType( StructType([ # StructField("A", IntegerType() , False), # StructField("B", StringType() , False), # St…

python pyspark apache-arrow

20 фев '19 в 09:00

1 ответ

Apache arrow, выравнивание и отступ

Я хочу использовать стрелку apache, потому что она позволяет механизмам исполнения использовать последние операции SIMD (с одним входом и несколькими данными), включенные в современные процессоры, для встроенной векторизованной оптимизации обработки…

python-3.x alignment padding simd apache-arrow

16 фев '18 в 15:32

0 ответов

Apace Arrow Plasma Client - Не удается подключиться к хранилищу памяти (UnsatisfiedLinkError)

Я пытаюсь использовать Java API для Apache Arrow для подключения к хранилищу памяти. Я успешно сделал это на Python, используя Python API, следуя приведенному здесь руководству. Я также посмотрел документацию по API C++, но это не сильно помогло. До…

java sockets jni pyarrow apache-arrow

09 ноя '18 в 17:59

0 ответов

Есть ли конструктор массива пироу

Я ищу строителя массива стрелок Python. Мой пример использования следующий: у меня есть записи 'row', которые я хотел бы преобразовать в таблицу 'columnar' со стрелкой. Для каждого поля в моих записях я хочу создать массив стрелок соответствующего т…

arrays builder pyarrow apache-arrow

30 ноя '18 в 14:03

3 ответа

Как сохранить огромный массив данных pandas в формате hdf?

Я работаю с пандами и со свечами. Кадры данных всегда очень большие (> 20 ГБ), и стандартных функций зажигания недостаточно для этих размеров. В настоящее время я конвертирую мой pandas dataframe в искровой dataframe, например так: dataframe = spark…

python pandas apache-spark pyarrow apache-arrow

20 ноя '17 в 13:19