Описание тега apache-arrow
Apache Arrow™ enables execution engines to take advantage of the latest SIM D (Single input multiple data) operations included in modern processors, for native vectorized optimization of analytical data processing.
0
ответов
Чтение определенной группы строк из набора данных паркета
Можно ли прочитать определенную группу строк из набора данных паркета, используя пиарроу? Я могу сделать это для файла паркета. Я изучил документацию для pyarrow.parquet, а также изучил сигнатуры методов / классов.
06 июл '18 в 09:55
0
ответов
Доступ Spark Java Executor к Arrow Record Batch из Python Worker в PySpark?
Каким образом код исполнителя Java Spark, например работника раздела, может использовать Arrow для доступа к пакетам записей Arrow после их обработки работником Python в PySpark? То есть на сопутствующей диаграмме мы хотели бы получить прямой доступ…
19 июн '18 в 17:13
0
ответов
Конвертируйте Pandas DataFrame в перо в памяти
Используя инструменты IO в пандах, можно преобразовать DataFrame в перовой буфер в памяти: import pandas as pd from io import BytesIO df = pd.DataFrame({'a': [1,2], 'b': [3.0,4.0]}) buf = BytesIO() df.to_feather(buf) Тем не менее, используя тот же б…
08 июн '18 в 13:31
0
ответов
Адаптер Apache Arrow Интеграция с Apache Calcite
Есть ли какая-либо опция, доступная для интеграции apache arrow и apache calcite? Я заметил, что CSV, JSON имеет эту функцию интеграции. но у Apache Arrow этого нет.
27 ноя '18 в 19:14
1
ответ
Получите доступ к результатам фильтра Gadiva по индексу в Apache Arrow
Может быть, я упускаю что-то очевидное, но на всю жизнь я не могу понять, как я могу получить доступ к элементам массива после операции фильтра Gandiva. Я привел минимальный пример, который я собираю так: $ /usr/lib64/ccache/g++ -g -Wall -m64 -std=c…
12 дек '18 в 19:52
2
ответа
Проблемы с типами данных при преобразовании данных паркета в кадр данных Pandas
У меня проблема с типами файлов при преобразовании файла паркета в фрейм данных. я делаю bucket = 's3://some_bucket/test/usages' import pyarrow.parquet as pq import s3fs s3 = s3fs.S3FileSystem() read_pq = pq.ParquetDataset(bucket, filesystem=s3).rea…
25 фев '19 в 12:45
0
ответов
Как написать простой развернутый байтовый массив в Apache-Arrow ListWriter
В настоящее время я пишу некоторый код для преобразования произвольной структуры данных в векторы Apache Arrow и застрял на чем-то относительно простом, а именно, как написать byte[] к ListVector, При записи данных в ListVector через BaseWriter.List…
30 окт '17 в 08:03
1
ответ
Ошибка переполнения при использовании datetime с Pyarrow
При рандомизации даты и времени для проверки базы данных я сохранил их в паркет, используя pyarrow.parquets ' write_table(), а затем прочитать их обратно, используя read_table(), При попытке преобразовать в типы данных Python с to_pydict()Я получил …
22 дек '17 в 18:48
0
ответов
Как реализовать пример бумаги Dremel в пирору?
Я пытаюсь использовать следующую примерную схему документа из бумаги Dremel Dremel: Интерактивный анализ наборов данных веб-масштаба: message Document { required int64 DocId; optional group Links { repeated int64 Backward; repeated int64 Forward; } …
15 окт '18 в 06:49
1
ответ
Как загрузить файл CSV в векторы Arache Arrow и сохранить файл стрелки на диск
В настоящее время я играю с API Java Apache Arrow (хотя я использую его из Scala для примеров кода), чтобы немного познакомиться с этим инструментом. В качестве упражнения я решил загрузить файл CSV в векторы стрелок, а затем сохранить их в файл стр…
23 окт '17 в 09:53
1
ответ
В чем разница между Apache Spark и Apache Arrow?
Каковы различия между Apache Arrow и Apache Spark? Будет ли Apache Arrow заменять Hadoop?
09 мар '16 в 06:52
4
ответа
Spark датафрейм в стрелку
Я уже некоторое время использую Apache Arrow с Spark в Python и с легкостью могу конвертировать между фреймами данных и объектами Arrow, используя Pandas в качестве посредника. Однако недавно я перешел с Python на Scala для взаимодействия со Spark, …
27 июл '17 в 17:04
1
ответ
Создание таблицы поверх письменного файла паркета в Афине
Я создаю паркетный файл из CSV-файла, используя следующий скрипт Python: import pandas as pd import pyarrow as pa import pyarrow.parquet as pq csv_file = '~/Desktop/SWA_UK_Pickup_Forecast_HOURLY_M1_at_2017-11-28-04_20_21-UTC_from_28-Nov-2017_to_28-N…
28 ноя '17 в 10:23
0
ответов
Можно ли выполнить запрос в таблице стрелок памяти с помощью Presto или есть какой-либо способ использовать фрейм данных Pandas в качестве источника данных для механизма запросов Presto
Можно ли выполнить запрос в таблице стрелок памяти с помощью Presto или есть какой-либо способ использовать фрейм данных Pandas в качестве источника данных для механизма запросов Presto? На самом деле у меня есть паркетные файлы, которые я хочу прео…
15 мар '18 в 19:29
0
ответов
Как конвертировать arrow::Array в std::vector?
У меня есть массив стрелок Apache, который создается путем чтения файла. std::shared_ptr<arrow::Array> array; PARQUET_THROW_NOT_OK(reader->ReadColumn(0, &array)); Есть ли способ преобразовать его в std::vector или любой другой тип масси…
17 ноя '18 в 00:21
1
ответ
Сгруппированные данные в фрейме со стрелкой apache
schema = StructType([ StructField("title", StringType(), False), StructField("stringdataA", StringType(), False), # StructField("list", ArrayType( StructType([ # StructField("A", IntegerType() , False), # StructField("B", StringType() , False), # St…
20 фев '19 в 09:00
1
ответ
Apache arrow, выравнивание и отступ
Я хочу использовать стрелку apache, потому что она позволяет механизмам исполнения использовать последние операции SIMD (с одним входом и несколькими данными), включенные в современные процессоры, для встроенной векторизованной оптимизации обработки…
16 фев '18 в 15:32
0
ответов
Apace Arrow Plasma Client - Не удается подключиться к хранилищу памяти (UnsatisfiedLinkError)
Я пытаюсь использовать Java API для Apache Arrow для подключения к хранилищу памяти. Я успешно сделал это на Python, используя Python API, следуя приведенному здесь руководству. Я также посмотрел документацию по API C++, но это не сильно помогло. До…
09 ноя '18 в 17:59
0
ответов
Есть ли конструктор массива пироу
Я ищу строителя массива стрелок Python. Мой пример использования следующий: у меня есть записи 'row', которые я хотел бы преобразовать в таблицу 'columnar' со стрелкой. Для каждого поля в моих записях я хочу создать массив стрелок соответствующего т…
30 ноя '18 в 14:03
3
ответа
Как сохранить огромный массив данных pandas в формате hdf?
Я работаю с пандами и со свечами. Кадры данных всегда очень большие (> 20 ГБ), и стандартных функций зажигания недостаточно для этих размеров. В настоящее время я конвертирую мой pandas dataframe в искровой dataframe, например так: dataframe = spark…
20 ноя '17 в 13:19