Описание тега data-ingestion
1
ответ
Задание kafka connect, которое работало в версии 0.9, не работало в 0.10.2
Когда я запускаю работу по подключению kafka, я получаю сообщение об ошибке ниже [2017-04-25 14:56:22,806] ERROR Failed to create job for ./etc/kafka-connect-jdbc/sqlserver.properties (org.apache.kafka.connect.cli.ConnectStandalone:88) [2017-04-25 1…
25 апр '17 в 22:16
0
ответов
Как назвать выходные данные задания Kafka-HDFS-Ingestion, содержащие имена тем Apache Kafka в Apache Gobblin?
Я протестировал Gobblin с Hadoop и Apache Kafka, используя Kafka-HDFS-Ingestion Job. Пример доступен здесь. В Кафке у меня есть 2 темы, и я могу легко помещать сообщения от Кафки в HDFS. bin/kafka-topics.sh --list --zookeeper localhost:2181 Action S…
19 июн '18 в 12:44
2
ответа
Как загрузить большой CSV-файл, проверить каждую строку и обработать данные
Я ищу, чтобы проверить каждую строку файла CSV более 600 миллионов строк и до 30 столбцов (решение должно обрабатывать несколько больших файлов CSV этого диапазона). Столбцы могут быть текстом, датами или суммами. CSV должен быть проверен с 40 прави…
23 апр '18 в 17:02
1
ответ
Прием данных с помощью Kafka и Hadoop - как избежать дублирования данных, которое может возникнуть в результате сбоя проверки качества?
Вот упрощенный сценарий: N бизнес-потоков, которым нужны одинаковые исходные данные из одного источника. Данные загружаются с использованием Kafka (обычные конвейеры Kafka) и помещаются в HDFS, где автоматическая проверка качества запускается на нео…
27 апр '17 в 07:00
0
ответов
Что замедляет мой массовый импорт PostgreSQL?
Поскольку его легко установить в стабильной Debian, я решил использовать PostgreSQL 9.6 для создания хранилища данных для некоторых данных, которые мне нужно обработать. Первым шагом является загрузка данных в базу данных с минимальными преобразован…
02 янв '18 в 16:47
1
ответ
Elasticsearch Ingest pipe -epoch_millis в формате даты
Я использую API переиндексации в ES 5.4.1, и мне нужно преобразовать длинное поле (которое представляет дату) в поле даты. Таким образом, исходный индекс выглядит так "hits": { "total": 1, "max_score": 1, "hits": [ { "_index": "twitter", "_type": "t…
11 июн '17 в 20:01
1
ответ
Как получить данные в BigQuery из Java-приложения
Я хочу загружать данные в BigQuery из моего Java-приложения. Есть ли какие-либо проблемы с производительностью, если мы используем API BigQuery напрямую? Приложение работает в AWS.
11 дек '17 в 17:51
0
ответов
Какая база данных лучше для реализации API отслеживания? SQL против NoSQL
Мне нужно реализовать решение, позволяющее обмениваться информацией в целях приема через документы JSON. Идея состоит в том, чтобы реализовать REST API, который содержит следующие операции: Встроенные операции для обеих сторон интеграции (настольные…
31 янв '19 в 11:31
0
ответов
Как добавить в пакет zipline
У меня есть торговый алгоритм, который я тестирую на zipline. Я успешно принял пакет обыкновенных акций США из CSV-файла. В будущем я хотел бы постоянно тестировать его в конце каждого торгового дня. Поэтому я хотел бы добавить к своему существующем…
21 фев '19 в 02:29
0
ответов
Прием пищи в реальном времени от Кассандры
Для одного из моих вариантов использования мне нужно в потоковом режиме вводить данные из кассандры в мой поток данных. Я изучал архитектуру Cassandra и обнаружил, что Cassandra хранит свои журналы в папке журнала коммитов. Я пытался читать эти журн…
29 янв '19 в 07:00
4
ответа
Вставка данных Google Analytics в S3 или Redshift
Я ищу варианты для ввода данных Google Analytics (в том числе исторических данных) в Redshift. Любые предложения, касающиеся инструментов, API приветствуются. Я искал в Интернете и обнаружил, что Stitch является одним из инструментов ETL, помогите м…
27 фев '19 в 17:37
0
ответов
Друид хранит 0 или 0.0 как нулевые значения
Версии druid .10.1 из HDP-2.6.5.0 Мы используем загрузку службы индексатора druid-kafka для загрузки данных в druid из тем kafka, и во время этого мы обнаружили, что druid хранит значения метрик, которые имеют 0 или 0.0 как ноль и при получении чере…
07 фев '19 в 13:56
0
ответов
Sqoop Job застрял в принятой стадии
У меня запущено несколько заданий Sqoop для извлечения данных из источника данных Oracle. В идеале эти задания выполняются нормально, но иногда я видел, что несколько таблиц застряли на принятой стадии даже после выделения достаточных ресурсов. Расп…
16 окт '18 в 10:01
2
ответа
Оптимизация Spark UDF для вставок Graph Database (Neo4j)
Это первая проблема, которую я публикую, поэтому извиняюсь, если мне не хватает информации и посредственного форматирования. Я могу обновить, если требуется. Я постараюсь добавить как можно больше деталей. У меня не очень оптимизированный Spark Job,…
23 июн '16 в 16:47
0
ответов
SAP HANA Sqoop Import
Я пытаюсь включить импорт из представления HANA. Я пробовал много способов, и это все еще сохраняется. У кого-нибудь был подобный опыт, а также, пожалуйста, помогите мне выяснить, если я что-то упустил: Sqoop Job: sqoop import --driver com.sap.db.jd…
03 май '18 в 20:53
0
ответов
Прием данных CSV в выпуске Solr
Я новичок в Solr и пытаюсь загрузить CSV-файл в демонстрационную коллекцию. Ниже приведена команда, которую я пытаюсь выполнить. [solr@ambari solr]$ curl http://localhost:8983/solr/fbdemo_shard1_replica1/update/csv --data-binary /tmp/solrdata/331076…
12 мар '17 в 11:47
1
ответ
Spark вытягивает данные в RDD или массив данных или набор данных
Я пытаюсь выразить простым языком, когда искра протягивает данные через драйвер, а затем, когда искре не нужно извлекать данные через драйвер. У меня 3 вопроса - Давайте в один прекрасный день у вас есть файл размером 20 ТБ, сохраненный в HDFS, и из…
20 авг '16 в 03:38
1
ответ
Nifi- MergeContent процессор - Mergestrategy
В чем разница между алгоритмом Bin Packing и стратегией слияния дефрагментации в процессоре слияния контента nifi, в сравнении с производительностью
09 янв '18 в 14:47
1
ответ
Вставка GPFdist из плоского файла выдает ошибку 'неверная последовательность байтов для кодировки "UTF8": 0x00' при вставке
Я столкнулся с проблемой в процессе, который я пишу, чтобы получить данные из большого плоского файла. Я предварительно обработал плоский файл с помощью оболочки Python со спецификациями UTF8 следующим образом: wrFile = io.open("outFile","w+",encodi…
24 авг '17 в 16:01
2
ответа
Apache Kudu медленная вставка, большое время ожидания
Я использовал Spark Data Source для записи в Kudu из Parquet, и производительность записи ужасна: около 12000 строк / секунд. Каждый ряд примерно 160 байтов. У нас есть 7 узлов куду, 24 ядра + 64 ГБ ОЗУ каждый + 12 дисков SATA каждый. Похоже, что ни…
13 авг '18 в 04:55