Описание тега morphline

Kite Morphlines (ранее известная как Cloudera Morphlines) - это среда с открытым исходным кодом, которая поддерживает приложения Hadoop, Flume и Spark, которые извлекают, преобразуют и загружают данные в Apache Solr, Apache HBase, HDFS и т. Д. "Morphline" - это файл конфигурации, который определяет цепочку преобразования для чтения, обработки и записи данных.
1 ответ

Конфигурационный файл Morphline, не индексирующий австро-данные

Я создаю индекс для моих AVR-данных в Solr. Индекс генерируется только для элементов данных, которые находятся на корневом уровне и не являются вложенными. Ниже приведен пример схемы (не включая все) Моя схема Avro, как показано ниже. { "type" : "re…
28 июл '16 в 02:28
1 ответ

Ошибка flume MorphlineSolrSink readJson java.lang.NoSuchFieldError: USE_DEFAULTS

Я пытаюсь прочитать JSON из авро источника и погрузиться в Solr. Когда я пытался readLine {} и хранится как строка, это сработало. Но при попытке readJson{} это бросая следующую ошибку. Версия: CDH 5.9.0, Посылки ошибка 2017-01-26 06:35:38,604 ERROR…
26 янв '17 в 07:40
1 ответ

Как прочитать десятичное значение из файла паркета с помощью Morphline readAvroParquetFile и солнечной

Таблица с двумя столбцами (строка имени, десятичная зарплата (10,3) и хранится в формате паркета в улье. При выполнении индексации с использованием Morphline и Solar получено следующее исключение: ERROR morphline.MorphlineMapRunner: Unable to proces…
25 янв '18 в 05:10
1 ответ

flume-kite-morphline: com.fasterxml.jackson.core.JsonParseException: неожиданный конец ввода: ожидаемый маркер закрытия для OBJECT

При работе на Flume (1.6 и 1.7) я испытываю следующую ошибку 2016-12-02 00:57:11,634 (pool-3-thread-1) [WARN - org.apache.flume.serialization.LineDeserializer.readLine(LineDeserializer.java:143)] Line length exceeds max (2048), truncating line! 2016…
02 дек '16 в 00:46
0 ответов

Составной уникальный ключ с использованием инструмента Solr Morphline Mapreduce

Я довольно плохо знаком с Solr. Поэтому, пожалуйста, прости меня, если я получу неправильную терминологию. Я пытаюсь создать составной уникальный ключ, используя morphline для моего индекса Solr. Вот ключи, которые я хочу в составном уникальном ключ…
24 июл '18 в 14:56
1 ответ

Flume morphline interceptor-split

Привет я пытаюсь использовать морфлайн inteceptor и конвертировать мой системный журнал в JSON для начала я пытался использовать команду split для разделения моей строки, но я получаю ошибку, как показано ниже: "" Источник r1 был удален из-за ошибки…
06 фев '17 в 07:48
0 ответов

Как читать DECIMAL(38,10) с помощью файла Conf Morphlines

Я хочу читать паркетные файлы, используя Morphlines. Ссылка: https://medium.com/@bkvarda/index-parquet-with-morphlines-and-solr-20671cd93a41 Этот файл Parquet имеет DECIMAL типы данных. Я не нахожу никакой документации, как бороться с DECIMAL в Morp…
06 июл '18 в 11:35
0 ответов

Хотите создать задание Morphline ETL для чтения файлов, индексирования их и помещения индексированных файлов в один выходной каталог

Я пытаюсь проиндексировать XML-файлы, присутствующие в одной входной папке в HDFS, проиндексировал их через Apache solr и сохранить индексированный результат в одном выходном каталоге в HDFS. Для достижения этой цели используйте инструмент морфлин и…
16 мар '18 в 09:13
1 ответ

Сохранить весь JsonObject в переменную с помощью команды ReadJson в Morphlines?

Я просмотрел документацию для Morphlines (доступную по адресу http://cloudera.github.io/cdk/docs/current/cdk-morphlines/morphlinesReferenceGuide.html), и, судя по всему, нет способа сохранить весь объект Json в переменную в Morphlines с помощью кома…
15 дек '16 в 09:45
1 ответ

Как вставить многозначное поле в solr, используя лилию с морфлинной строкой

Я пытаюсь вставить разделенную запятыми строку в качестве многозначного поля в мою конфигурацию морфлина из структуры на основе строк в HBase. Может ли кто-нибудь предложить какой-либо лучший способ или опыт, я новичок в этом. Есть ли способ, которы…
24 май '16 в 18:03
1 ответ

Индексирование документов PDF с помощью Cloudera Search

Я пытался проиндексировать документы PDF с помощью Cloudera Search aka Apache Solr. Сначала я смог проиндексировать твиты твиттера. Позже я попытался проиндексировать PDF-файлы. Я создал соответствующую коллекцию, используя solrctl со схемой по умол…
19 май '17 в 08:25
1 ответ

Flume morphline interceptor: для очистки данных

У меня есть простой структурированный ввод в реальном времени. Но он также содержит мусор в значениях, например, в некоторых местах '@' или шестнадцатеричные символы. Как я могу использовать Morphline Flume Interceptor для очистки данных? Моя ракови…
15 мар '16 в 18:24
1 ответ

Можно ли добавить значения двух переменных, используя встроенный набор команд Morphline?

Мне интересно, есть ли способ добавить значения двух переменных в морфлайны, без необходимости писать пользовательскую команду. Например, что-то вроде: addValues { answer : "@{value_one}" + 50 } Любая помощь приветствуется, спасибо
12 янв '17 в 09:43
0 ответов

Morphline Читать один большой файл

У меня есть таблица Hive, которую я пытаюсь проиндексировать в SolrCloud с помощью morphline, однако данные за таблицей Hive составляют ОДИН большой файл 20 ГБ, который для обработки morphline занимает много времени. Вместо запуска нескольких маппер…
01 мар '16 в 21:02
1 ответ

Настройка Flume в местном

Могу ли я выполнить настройку flume на моей локальной машине? Я вижу только руководства по настройке flume в кластерной среде. Я должен настроить flume и интегрировать его с morphline.
06 дек '16 в 10:06
1 ответ

Морфлайны исключение формата даты

Я хочу преобразовать поле в формат даты следующим образом: { convertTimestamp { field : document_date inputFormats : ["yyyy-MM-dd"] inputTimezone : UTC outputFormat : "yyyy" outputTimezone : UTC } Формат ввода yyyy-MM-dd и я хочу вывести только част…
01 июл '16 в 08:00
2 ответа

Как должен выглядеть морфлайн для MapReduceIndexerTool?

Я хочу эффективно просматривать множество журналов (размером около 1 ТБ, размещенных на нескольких машинах). Для этой цели я хочу построить инфраструктуру, состоящую из Flume, Hadoop и Solr. Flume получит журналы с нескольких машин и поместит их в H…
05 мар '18 в 12:35
0 ответов

Отобразить объект json, сохраненный в базе данных, чтобы решить

У меня есть таблица HBase с некоторыми данными, как показано ниже ROW COLUMN+CELL test2 column=data:json, timestamp=1560259758891, value={"name" : "john", "age" : "25", "gender" : "M"} Я настроил индексатор hbase lily и индексирую данные в solr, ото…
11 июн '19 в 16:58
0 ответов

Получено исключение при вызове метода readJson MorphlineInterceptor

Я просто хочу получить данные Json из Kafka, а затем выполнить некоторые преобразования с помощью Morphline. Я просто получаю это исключение: ОШИБКА kafka.KafkaSource: KafkaSource EXCEPTION, {} org.apache.flume.FlumeException: > org.apache.flume.sin…
17 окт '19 в 06:28