Описание тега kite-sdk

Kite - это высокоуровневый уровень данных для Hadoop. Это API и набор инструментов, которые ускоряют разработку. Вы настраиваете, как Kite хранит ваши данные в Hadoop, вместо того, чтобы создавать и поддерживать эту инфраструктуру самостоятельно.
0 ответов

Hadoop Parquet Datastorewriter плохая производительность письма

Я пишу файлы Parquet, используя ParquetDatasetStoreWriterкласс и производительность я получаю очень плохо. Обычно поток следует так: // First write dataStoreWriter.write(entity #1); dataStoreWriter.write(entity #2); ... dataStoreWriter.write(entity …
27 ноя '17 в 08:39
1 ответ

flume-kite-morphline: com.fasterxml.jackson.core.JsonParseException: неожиданный конец ввода: ожидаемый маркер закрытия для OBJECT

При работе на Flume (1.6 и 1.7) я испытываю следующую ошибку 2016-12-02 00:57:11,634 (pool-3-thread-1) [WARN - org.apache.flume.serialization.LineDeserializer.readLine(LineDeserializer.java:143)] Line length exceeds max (2048), truncating line! 2016…
02 дек '16 в 00:46
1 ответ

Apache NiFi: InferAvroSchema выводит значения со знаком в виде строки

Я устанавливаю конвейер в NiFi, где я получаю записи JSON, которые я затем использую для запроса API. Ответ, который я получу, будет содержать как числовые, так и текстовые данные. Затем я должен записать эти данные в Hive. я использую InferAvroSche…
27 фев '17 в 05:53
2 ответа

apache nifi, формат hdfs паркет

Я новичок в NIFI, мой пример использования - чтение из порта и запись в hdfs в формате паркета, мое исследование говорит о том, что есть что-то под названием KiteSDK, с помощью которого я могу сохранить формат Parquet. Я прав? Любые примеры помогут.
10 май '16 в 21:32
0 ответов

Пример приложения kite-morphlines-hadoop-sequencefile

Может ли кто-нибудь помочь мне понять, как использовать команду kite-morphlines-hadoop-sequencefile, предоставляемую kitesdk в Cloudera, для чтения и индексирования файлов последовательности в HDFS с использованием Solr?
21 июн '18 в 15:20
0 ответов

Создание схемы AVRO из файла CSV с помощью Kite SDK

Я хочу создать схему AVRO (файл.avsc) из CSV, для этого у меня есть CSV-файл с заголовками Я попытался выполнить следующие действия в - http://kitesdk.org/docs/1.1.0/Using-the-Kite-CLI-to-Create-a-Dataset.html в среде Windows 10. Но не повезло Может…
12 фев '19 в 17:16
2 ответа

Исключение в потоке "main" java.lang.NoClassDefFoundError: org/apache/hadoop/mapreduce/RecordReader

Я пытаюсь преобразовать мой файл Json в формат Parquet. Следующее - мой файл пом. <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLoca…
12 мар '18 в 04:08
1 ответ

Файлы остаются в состоянии.avro.tmp в задании Spark?

У меня есть работа Spark, которая читает миллионы записей из HDFS, обрабатывает их и записывает обратно в HDFS в формате AVRO. Заметил, что многие файлы (записанные) остаются в состоянии.avro.tmp. Я использую Kite SDK для записи данных в формате AVR…
03 фев '16 в 21:10
2 ответа

KiteSdk 1.1.0 csv-import IOError

С HDP-2.5 на Ubuntu-14.04, запустив эту команду и $ ./kite-dataset csv-import ./test.csv test_schema пытаясь import raw csv данные в Hive с помощью KiteSdk ver.1-1-0и имеющий следующую ошибку IOError: Произошло 1 сбой (задания): org.kitesdk.tools.Co…
2 ответа

Ошибка разрешения зависимостей

Я пытаюсь преобразовать файл JSON в формат Parquet с помощью Kites SDK. У меня есть следующий pom.xml: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-ins…
09 мар '18 в 11:49
1 ответ

Невозможно преобразовать строку JSON в схему Avro с помощью Kite-data-core

Я пытаюсь преобразовать строку JSON в схему Avro, используя https://github.com/kite-sdk/kite/blob/master/kite-data/kite-data-core/src/main/java/org/kitesdk/ данные/spi/JsonUtil.java#L539 Но для приведенного ниже кода - String json = "{\n" + " \"id\"…
23 янв '23 в 23:13