Описание тега data-ingestion

Вопросы с тегом

1 ответ

Задание kafka connect, которое работало в версии 0.9, не работало в 0.10.2

Когда я запускаю работу по подключению kafka, я получаю сообщение об ошибке ниже [2017-04-25 14:56:22,806] ERROR Failed to create job for ./etc/kafka-connect-jdbc/sqlserver.properties (org.apache.kafka.connect.cli.ConnectStandalone:88) [2017-04-25 1…

25 апр '17 в 22:16

0 ответов

Как назвать выходные данные задания Kafka-HDFS-Ingestion, содержащие имена тем Apache Kafka в Apache Gobblin?

Я протестировал Gobblin с Hadoop и Apache Kafka, используя Kafka-HDFS-Ingestion Job. Пример доступен здесь. В Кафке у меня есть 2 темы, и я могу легко помещать сообщения от Кафки в HDFS. bin/kafka-topics.sh --list --zookeeper localhost:2181 Action S…

hdfs bigdata etl data-integration data-ingestion

19 июн '18 в 12:44

2 ответа

Как загрузить большой CSV-файл, проверить каждую строку и обработать данные

Я ищу, чтобы проверить каждую строку файла CSV более 600 миллионов строк и до 30 столбцов (решение должно обрабатывать несколько больших файлов CSV этого диапазона). Столбцы могут быть текстом, датами или суммами. CSV должен быть проверен с 40 прави…

java csv apache-spark hadoop data-ingestion

23 апр '18 в 17:02

1 ответ

Прием данных с помощью Kafka и Hadoop - как избежать дублирования данных, которое может возникнуть в результате сбоя проверки качества?

Вот упрощенный сценарий: N бизнес-потоков, которым нужны одинаковые исходные данные из одного источника. Данные загружаются с использованием Kafka (обычные конвейеры Kafka) и помещаются в HDFS, где автоматическая проверка качества запускается на нео…

validation hadoop apache-kafka etl data-ingestion

27 апр '17 в 07:00

0 ответов

Что замедляет мой массовый импорт PostgreSQL?

Поскольку его легко установить в стабильной Debian, я решил использовать PostgreSQL 9.6 для создания хранилища данных для некоторых данных, которые мне нужно обработать. Первым шагом является загрузка данных в базу данных с минимальными преобразован…

postgresql constraints data-ingestion

02 янв '18 в 16:47

1 ответ

Elasticsearch Ingest pipe -epoch_millis в формате даты

Я использую API переиндексации в ES 5.4.1, и мне нужно преобразовать длинное поле (которое представляет дату) в поле даты. Таким образом, исходный индекс выглядит так "hits": { "total": 1, "max_score": 1, "hits": [ { "_index": "twitter", "_type": "t…

date elasticsearch data-ingestion

11 июн '17 в 20:01

1 ответ

Как получить данные в BigQuery из Java-приложения

Я хочу загружать данные в BigQuery из моего Java-приложения. Есть ли какие-либо проблемы с производительностью, если мы используем API BigQuery напрямую? Приложение работает в AWS.

java google-bigquery data-ingestion

11 дек '17 в 17:51

0 ответов

Какая база данных лучше для реализации API отслеживания? SQL против NoSQL

Мне нужно реализовать решение, позволяющее обмениваться информацией в целях приема через документы JSON. Идея состоит в том, чтобы реализовать REST API, который содержит следующие операции: Встроенные операции для обеих сторон интеграции (настольные…

sql-server amazon-dynamodb azure-cosmosdb amazon-rds data-ingestion

31 янв '19 в 11:31

0 ответов

Как добавить в пакет zipline

У меня есть торговый алгоритм, который я тестирую на zipline. Я успешно принял пакет обыкновенных акций США из CSV-файла. В будущем я хотел бы постоянно тестировать его в конце каждого торгового дня. Поэтому я хотел бы добавить к своему существующем…

data-ingestion zipline

21 фев '19 в 02:29

0 ответов

Прием пищи в реальном времени от Кассандры

Для одного из моих вариантов использования мне нужно в потоковом режиме вводить данные из кассандры в мой поток данных. Я изучал архитектуру Cassandra и обнаружил, что Cassandra хранит свои журналы в папке журнала коммитов. Я пытался читать эти журн…

database cassandra bigdata data-ingestion data-lake

29 янв '19 в 07:00

4 ответа

Вставка данных Google Analytics в S3 или Redshift

Я ищу варианты для ввода данных Google Analytics (в том числе исторических данных) в Redshift. Любые предложения, касающиеся инструментов, API приветствуются. Я искал в Интернете и обнаружил, что Stitch является одним из инструментов ETL, помогите м…

google-analytics amazon-redshift etl google-analytics-firebase google-analytics-v4 data-ingestion

27 фев '19 в 17:37

0 ответов

Друид хранит 0 или 0.0 как нулевые значения

Версии druid .10.1 из HDP-2.6.5.0 Мы используем загрузку службы индексатора druid-kafka для загрузки данных в druid из тем kafka, и во время этого мы обнаружили, что druid хранит значения метрик, которые имеют 0 или 0.0 как ноль и при получении чере…

apache-kafka apache-superset druid data-ingestion superset

07 фев '19 в 13:56

0 ответов

Sqoop Job застрял в принятой стадии

У меня запущено несколько заданий Sqoop для извлечения данных из источника данных Oracle. В идеале эти задания выполняются нормально, но иногда я видел, что несколько таблиц застряли на принятой стадии даже после выделения достаточных ресурсов. Расп…

yarn sqoop hortonworks-data-platform data-ingestion

16 окт '18 в 10:01

2 ответа

Оптимизация Spark UDF для вставок Graph Database (Neo4j)

Это первая проблема, которую я публикую, поэтому извиняюсь, если мне не хватает информации и посредственного форматирования. Я могу обновить, если требуется. Я постараюсь добавить как можно больше деталей. У меня не очень оптимизированный Spark Job,…

scala apache-spark neo4j parallel-processing data-ingestion

23 июн '16 в 16:47

0 ответов

SAP HANA Sqoop Import

Я пытаюсь включить импорт из представления HANA. Я пробовал много способов, и это все еще сохраняется. У кого-нибудь был подобный опыт, а также, пожалуйста, помогите мне выяснить, если я что-то упустил: Sqoop Job: sqoop import --driver com.sap.db.jd…

hadoop sqoop hana data-ingestion sap

03 май '18 в 20:53

0 ответов

Прием данных CSV в выпуске Solr

Я новичок в Solr и пытаюсь загрузить CSV-файл в демонстрационную коллекцию. Ниже приведена команда, которую я пытаюсь выполнить. [solr@ambari solr]$ curl http://localhost:8983/solr/fbdemo_shard1_replica1/update/csv --data-binary /tmp/solrdata/331076…

csv hadoop solr data-ingestion

12 мар '17 в 11:47

1 ответ

Spark вытягивает данные в RDD или массив данных или набор данных

Я пытаюсь выразить простым языком, когда искра протягивает данные через драйвер, а затем, когда искре не нужно извлекать данные через драйвер. У меня 3 вопроса - Давайте в один прекрасный день у вас есть файл размером 20 ТБ, сохраненный в HDFS, и из…

apache-spark hadoop apache-spark-sql spark-dataframe data-ingestion

20 авг '16 в 03:38

1 ответ

Nifi- MergeContent процессор - Mergestrategy

В чем разница между алгоритмом Bin Packing и стратегией слияния дефрагментации в процессоре слияния контента nifi, в сравнении с производительностью

apache-nifi data-ingestion

09 янв '18 в 14:47

1 ответ

Вставка GPFdist из плоского файла выдает ошибку 'неверная последовательность байтов для кодировки "UTF8": 0x00' при вставке

Я столкнулся с проблемой в процессе, который я пишу, чтобы получить данные из большого плоского файла. Я предварительно обработал плоский файл с помощью оболочки Python со спецификациями UTF8 следующим образом: wrFile = io.open("outFile","w+",encodi…

python-3.x postgresql psql greenplum data-ingestion

24 авг '17 в 16:01

2 ответа

Apache Kudu медленная вставка, большое время ожидания

Я использовал Spark Data Source для записи в Kudu из Parquet, и производительность записи ужасна: около 12000 строк / секунд. Каждый ряд примерно 160 байтов. У нас есть 7 узлов куду, 24 ядра + 64 ГБ ОЗУ каждый + 12 дисков SATA каждый. Похоже, что ни…

performance apache-spark kudu data-ingestion apache-kudu

13 авг '18 в 04:55