Flume - это распределенная, надежная и доступная служба для эффективного сбора, агрегирования и перемещения больших объемов данных журнала.
1 ответ

Файл FlumeData не создается в приемнике HDFS

Я пытаюсь принимать данные в реальном времени, используя Кафку в качестве источника и поток в качестве приемника. Тип раковины - HDFS. Мой продюсер работает нормально, я вижу производимые данные, и мой агент работает нормально (без ошибок при выполн…
17 июл '17 в 10:07
0 ответов

Предупреждение "Неявное приведение к карте" в apache pig

Запустив следующую команду в pig: extract_details = FOREACH load_tweets GENERATE myMap # 'id' как идентификатор,myMap#'text' как текст; выдал это предупреждение: [main] WARN org.apache.pig.newplan.BaseOperatorPlan - Обнаружено предупреждение IMPLICI…
11 ноя '17 в 05:29
0 ответов

Улей не собирает новые записи, добавленные в файл?

У меня есть внешняя таблица улья [1], указывающая на somepath каталог в HDFS. Вот последовательность событий, с которыми я связан: Какой-то процесс (в данном случае Flume) создает новый файл somefile в somepath и записывает одну строку в этот файл. …
17 авг '17 в 08:42
1 ответ

Flume не может поместить файлы в корзину S3

Я использую Flume в режиме "только для узлов" (тестирование); Flume извлекает сообщения из RabbitMQ и помещает их в корзину Amazon S3. Эта проблема: Flume фактически извлекает данные из RabbitMQ, но файлы не отображаются в корзине S3. Технические де…
16 авг '12 в 12:33
1 ответ

Как получить все записи каждую минуту из таблицы SQL, используя Apache Flume

Я пытаюсь получить все данные из таблицы SQL каждую минуту, используя Flume. Может кто-нибудь предложить, пожалуйста, какие изменения конфигурации должны быть сделаны? Конфиги: agent.channels = ch1 agent.sinks = kafkaSink agent.sources = sql-source …
11 мар '16 в 13:05
3 ответа

Ошибка неверного имени хоста при подключении к приемнику s3 при использовании секретного ключа с косой чертой

У меня есть forward slash в секретном ключе. Когда я пытаюсь подключиться к раковине s3 Caused by: java.lang.IllegalArgumentException: Invalid hostname in URI s3://xxxx:xxxx@jelogs/je.1359961366545 at org.apache.hadoop.fs.s3.S3Credentials.initialize…
04 фев '13 в 07:12
5 ответов

Проблема с балансировкой при чтении сообщений в Кафке

Я пытаюсь читать сообщения на тему Кафки, но не могу прочитать. Процесс завершается через некоторое время, без чтения каких-либо сообщений. Вот ошибка перебалансировки, которую я получаю: [2014-03-21 10:10:53,215] ERROR Error processing message, sto…
1 ответ

Чтение бинарного авро у свиньи

Я отправляю двоичный объект в HDFS, и у меня есть Flume Agent и настройка приемника выглядит следующим образом a1.sinks.k1.type = hdfs a1.sinks.k1.channel = c1 a1.sinks.k1.hdfs.path = /user/%y-%m-%d/%H%M/%S a1.sinks.k1.hdfs.filePrefix = events- a1.s…
08 янв '15 в 00:56
3 ответа

Какая библиотека является самой зрелой для построения конвейера аналитики данных в Java/Scala для Hadoop?

В последнее время я нашел много вариантов, которые интересны в их сравнении главным образом зрелостью и стабильностью. Хруст - https://github.com/cloudera/crunch Scrunch - https://github.com/cloudera/crunch/tree/master/scrunch Каскадирование - http:…
24 фев '12 в 08:59
0 ответов

Данные отсутствуют в HDFS при передаче сжатых файлов с помощью Flume

Я пытаюсь перенести zip/ сжатые файлы в HDFS, используя flume, но я вижу, что только несколько файлов передаются. например, только 3 из 12 файлов. Я много раз пытался проверить, передаются ли случайные файлы, но каждый раз передаются одни и те же фа…
22 дек '15 в 23:08
1 ответ

Flume syslogTcp не выводится на консоль

Я новичок в flume и перехожу руководство пользователя flume. Я застрял при попытке запустить простую демонстрацию syslogTcp, показанную на этой странице. на одном терминале я бегу flume dump 'syslogTcp(5140)' на втором терминале я запускаю: $ echo "…
02 май '12 в 09:16
1 ответ

Apache Flume: невозможно зафиксировать транзакцию. Достигнут предел кучи

Я пытаюсь передать некоторые данные в HDFS с помощью Flume, используя один агент, настроенный на источник netcat, канал памяти и приемник HDFS. Конфигурация следующая: a1.sources = src1 a1.channels = ch1 a1.sinks = snk1 # SOURCES CONFIGURATION a1.so…
21 ноя '14 в 17:06
1 ответ

Сложность настройки Apache Flume

Есть много систем обмена сообщениями с открытым исходным кодом, каждая из которых имеет свои собственные шаги установки. Этот вопрос касается Apache Flume и очень простого случая использования - перемещения данных между двумя серверами. Каково будет…
09 мар '13 в 08:02
1 ответ

Невозможно активировать Kafka в CDH 5.7.0

Я новичок в CDH 5.7.0. Мне нужно, чтобы Кафка и Flume использовались в моем проекте. Когда я запустил Cloudera Manager, я обнаружил, что kafka уже доступен для скачивания. Я нажал на "Dowbload", чтобы загрузить kafka, а затем на "Distribut", чтобы р…
08 авг '16 в 07:06
1 ответ

morphline@flume - поиск изменений регулярных выражений и хэш-функции

Перелив данных в Солр. Данные меняются с помощью морфлина. Ищем пару основных функций в библиотеке морфлин: создать значение хеш-функции на основе других значений атрибута (например, hash=("sha-1", метка времени, сообщение, хост,..) измените регистр…
11 мар '15 в 05:47
1 ответ

Flume agent выбрасывает java.net.ConnectException: соединение отказано

Некоторое время я использовал flume, у меня есть агент и коллектор, работающие на одной машине. конфигурация agent: exec("/usr/bin/tail -n +0 -F /path/to/file") | agentE2ESink("hostname", 35855) collector: collectorSource(35855) | collector(10000) {…
04 июн '12 в 14:14
1 ответ

Как перехватить мета-данные Apache flume для передаваемых данных

Я пытался перехватить метаданные Apache Flume, но я не видел, где он записывает эту информацию. Пожалуйста, дайте мне знать, если мне нужно выполнить предварительную настройку для сбора метаданных Flume. Заранее спасибо.
25 апр '13 в 07:52
0 ответов

Apache Flume получает неверные данные

Я использую Apache Flume 1.3.0 и дал несколько ключевых слов в поле ключевых слов файла Flume для поиска данных в Twitter. Как обычно, flume приносит данные в формате json, но также получает некоторые данные, которые не содержат ключевые слова, кото…
24 июл '14 в 11:06
1 ответ

Очистить или отфильтровать данные

Я использую потоковую искру, где я использую приемник Flume. Потоковые события состоят из множества полей, которые мне не нужны. Итак, я хочу отфильтровать это. Я просто хочу проверить, какое место лучше фильтровать данные: Применяя перехватчик пото…
13 фев '16 в 13:42
1 ответ

Почему Flume использует больше ресурсов (%CPU), когда File используется как канал, по сравнению с тем, когда память используется как канал.?

Я пытаюсь использовать Файл в качестве канала, поскольку он надежен в случае сбоя агента по сравнению с использованием памяти в качестве канала. То, что я вижу, это%CPU в случае канала File на 99 - 110 %, тогда как%CPU в случае канала памяти только …
05 окт '15 в 12:23