Описание тега data-ingestion

1 ответ

Задание kafka connect, которое работало в версии 0.9, не работало в 0.10.2

Когда я запускаю работу по подключению kafka, я получаю сообщение об ошибке ниже [2017-04-25 14:56:22,806] ERROR Failed to create job for ./etc/kafka-connect-jdbc/sqlserver.properties (org.apache.kafka.connect.cli.ConnectStandalone:88) [2017-04-25 1…
0 ответов

Как назвать выходные данные задания Kafka-HDFS-Ingestion, содержащие имена тем Apache Kafka в Apache Gobblin?

Я протестировал Gobblin с Hadoop и Apache Kafka, используя Kafka-HDFS-Ingestion Job. Пример доступен здесь. В Кафке у меня есть 2 темы, и я могу легко помещать сообщения от Кафки в HDFS. bin/kafka-topics.sh --list --zookeeper localhost:2181 Action S…
2 ответа

Как загрузить большой CSV-файл, проверить каждую строку и обработать данные

Я ищу, чтобы проверить каждую строку файла CSV более 600 миллионов строк и до 30 столбцов (решение должно обрабатывать несколько больших файлов CSV этого диапазона). Столбцы могут быть текстом, датами или суммами. CSV должен быть проверен с 40 прави…
23 апр '18 в 17:02
1 ответ

Прием данных с помощью Kafka и Hadoop - как избежать дублирования данных, которое может возникнуть в результате сбоя проверки качества?

Вот упрощенный сценарий: N бизнес-потоков, которым нужны одинаковые исходные данные из одного источника. Данные загружаются с использованием Kafka (обычные конвейеры Kafka) и помещаются в HDFS, где автоматическая проверка качества запускается на нео…
0 ответов

Что замедляет мой массовый импорт PostgreSQL?

Поскольку его легко установить в стабильной Debian, я решил использовать PostgreSQL 9.6 для создания хранилища данных для некоторых данных, которые мне нужно обработать. Первым шагом является загрузка данных в базу данных с минимальными преобразован…
02 янв '18 в 16:47
1 ответ

Elasticsearch Ingest pipe -epoch_millis в формате даты

Я использую API переиндексации в ES 5.4.1, и мне нужно преобразовать длинное поле (которое представляет дату) в поле даты. Таким образом, исходный индекс выглядит так "hits": { "total": 1, "max_score": 1, "hits": [ { "_index": "twitter", "_type": "t…
11 июн '17 в 20:01
1 ответ

Как получить данные в BigQuery из Java-приложения

Я хочу загружать данные в BigQuery из моего Java-приложения. Есть ли какие-либо проблемы с производительностью, если мы используем API BigQuery напрямую? Приложение работает в AWS.
11 дек '17 в 17:51
0 ответов

Какая база данных лучше для реализации API отслеживания? SQL против NoSQL

Мне нужно реализовать решение, позволяющее обмениваться информацией в целях приема через документы JSON. Идея состоит в том, чтобы реализовать REST API, который содержит следующие операции: Встроенные операции для обеих сторон интеграции (настольные…
0 ответов

Как добавить в пакет zipline

У меня есть торговый алгоритм, который я тестирую на zipline. Я успешно принял пакет обыкновенных акций США из CSV-файла. В будущем я хотел бы постоянно тестировать его в конце каждого торгового дня. Поэтому я хотел бы добавить к своему существующем…
21 фев '19 в 02:29
0 ответов

Прием пищи в реальном времени от Кассандры

Для одного из моих вариантов использования мне нужно в потоковом режиме вводить данные из кассандры в мой поток данных. Я изучал архитектуру Cassandra и обнаружил, что Cassandra хранит свои журналы в папке журнала коммитов. Я пытался читать эти журн…
4 ответа

Вставка данных Google Analytics в S3 или Redshift

Я ищу варианты для ввода данных Google Analytics (в том числе исторических данных) в Redshift. Любые предложения, касающиеся инструментов, API приветствуются. Я искал в Интернете и обнаружил, что Stitch является одним из инструментов ETL, помогите м…
0 ответов

Друид хранит 0 или 0.0 как нулевые значения

Версии druid .10.1 из HDP-2.6.5.0 Мы используем загрузку службы индексатора druid-kafka для загрузки данных в druid из тем kafka, и во время этого мы обнаружили, что druid хранит значения метрик, которые имеют 0 или 0.0 как ноль и при получении чере…
0 ответов

Sqoop Job застрял в принятой стадии

У меня запущено несколько заданий Sqoop для извлечения данных из источника данных Oracle. В идеале эти задания выполняются нормально, но иногда я видел, что несколько таблиц застряли на принятой стадии даже после выделения достаточных ресурсов. Расп…
2 ответа

Оптимизация Spark UDF для вставок Graph Database (Neo4j)

Это первая проблема, которую я публикую, поэтому извиняюсь, если мне не хватает информации и посредственного форматирования. Я могу обновить, если требуется. Я постараюсь добавить как можно больше деталей. У меня не очень оптимизированный Spark Job,…
0 ответов

SAP HANA Sqoop Import

Я пытаюсь включить импорт из представления HANA. Я пробовал много способов, и это все еще сохраняется. У кого-нибудь был подобный опыт, а также, пожалуйста, помогите мне выяснить, если я что-то упустил: Sqoop Job: sqoop import --driver com.sap.db.jd…
03 май '18 в 20:53
0 ответов

Прием данных CSV в выпуске Solr

Я новичок в Solr и пытаюсь загрузить CSV-файл в демонстрационную коллекцию. Ниже приведена команда, которую я пытаюсь выполнить. [solr@ambari solr]$ curl http://localhost:8983/solr/fbdemo_shard1_replica1/update/csv --data-binary /tmp/solrdata/331076…
12 мар '17 в 11:47
1 ответ

Spark вытягивает данные в RDD или массив данных или набор данных

Я пытаюсь выразить простым языком, когда искра протягивает данные через драйвер, а затем, когда искре не нужно извлекать данные через драйвер. У меня 3 вопроса - Давайте в один прекрасный день у вас есть файл размером 20 ТБ, сохраненный в HDFS, и из…
1 ответ

Nifi- MergeContent процессор - Mergestrategy

В чем разница между алгоритмом Bin Packing и стратегией слияния дефрагментации в процессоре слияния контента nifi, в сравнении с производительностью
09 янв '18 в 14:47
1 ответ

Вставка GPFdist из плоского файла выдает ошибку 'неверная последовательность байтов для кодировки "UTF8": 0x00' при вставке

Я столкнулся с проблемой в процессе, который я пишу, чтобы получить данные из большого плоского файла. Я предварительно обработал плоский файл с помощью оболочки Python со спецификациями UTF8 следующим образом: wrFile = io.open("outFile","w+",encodi…
2 ответа

Apache Kudu медленная вставка, большое время ожидания

Я использовал Spark Data Source для записи в Kudu из Parquet, и производительность записи ужасна: около 12000 строк / секунд. Каждый ряд примерно 160 байтов. У нас есть 7 узлов куду, 24 ядра + 64 ГБ ОЗУ каждый + 12 дисков SATA каждый. Похоже, что ни…