Описание тега distcp

NoneHadoop tool used for large inter- and intra-cluster copying.
1 ответ

Как я могу перечислить активные задания DISTCP?

Как я могу перечислить активные задания DISTCP? Я выполняю задание distcp между двумя кластерами.hadoop distcp hdfs://x/y /x/y Я хочу запустить это постоянно, но нужно убедиться, что существующие distcp задачи выполнены. Я пробовал следующее на исхо…
02 авг '17 в 10:54
1 ответ

ACL не поддерживаются по крайней мере в одной файловой системе: Distcp HDFS

Согласно документации distcp -> Если указан параметр -pa, DistCp сохраняет разрешения также потому, что ACL - это супер-набор разрешений. но hadoop distcp -pa -delete -update /src/path /dest/path/ не работает с ACL, не поддерживаемыми хотя бы в одн…
24 авг '18 в 11:23
1 ответ

hadoop distcp не создает папку, когда мы передаем один файл

Я сталкиваюсь с нижеприведенными вопросами в hadoop Distcp. Любое предложение или помощь очень приветствуются. Я пытаюсь скопировать данные с платформы Google Cloud на Amazon S3 1) Когда у нас есть несколько файлов для копирования из источника в мес…
1 ответ

Невозможно сделать distcp от s3 до hdfs, используя shell-action в oozie

Я пытаюсь скопировать данные из s3 в hdfs, используя distcp. Ниже приведен мой сценарий оболочки, где я делаю distcp. mkdir.sh hadoop distcp s3n://bucket-name/foldername hdfs://localhost:8020/user/hdfs/data/ The above shell script works fine when i …
30 сен '14 в 15:19
1 ответ

Можно ли distcp файлы (разделенные запятыми), используя distcp между двумя каталогами Hdfs (отдельные кластеры)?

У меня есть необходимость только distcp x количество файлов. Не могу найти способ сделать это. Одна идея состоит в том, чтобы скопировать его во временный каталог и затем разархивировать этот каталог. После завершения я могу удалить этот временный к…
03 май '17 в 00:46
1 ответ

Соединитель HDFS для хранения объектов: не содержит допустимого хоста: полномочия порта

Я настроил HDFS Connector для хранения объектов, как описано здесь: https://docs.us-phoenix-1.oraclecloud.com/Content/API/SDKDocs/hdfsconnector.htm Когда я бегу distcp с помощью следующей команды: hadoop distcp -libjars /usr/lib/oci/oci-hdfs-full-2.…
0 ответов

Загрузить большие тома с S3 на локальный компьютер? - s3distcp

В настоящее время использую distcp Это медленный процесс, который занимает до 4:16 минут на копирование журналов за 1 час, в то время как написанная мной пользовательская функция занимает всего 16 секунд. Учитывая, что Amazon предоставляет s3distcp …
08 июл '15 в 21:26
1 ответ

Регулярное выражение в oozie distcp action

Я пытаюсь скопировать все файлы, которые соответствуют определенным критериям, в папку <action name="copy_mta_c"> <distcp xmlns="uri:oozie:distcp-action:0.2"> <arg>${NAME_NODE}${PATH_COMVERSE}${CURRENT_DATE_NO_DASH}_*/*mta.gz</a…
12 июн '17 в 14:06
2 ответа

Изменить имя файла / местоположение в distcp

У меня есть несколько файлов в папке в формате hdf, имена которых имеют формат filename.yyyy-mm-dd-hh.machinename.gz в формате hdf. Мне нужно перенести их в s3, но я хочу поместить их в yyyy/mm/dd/hh/filename.yyyy-mm-dd-hh.machinename.gz (это будет …
06 апр '16 в 09:18
0 ответов

Временные учетные данные профиля экземпляра distcp s3

Я использую distcp на моем кластере hadoop в AWS. Теперь мы переходим к использованию ролей IAM для узлов кластера. Решение, которое я собирался попробовать, было добавить в мою собственную реализацию org.apache.hadoop.fs.s3native.NativeS3FileSystem…
28 июл '14 в 21:06
1 ответ

Эффективный метод копирования в Hadoop

Существует ли более быстрый или более эффективный способ копирования файлов через HDFS, кроме distcp, Я попробовал как обычный hadoop fs -cp так же как distcp и оба, кажется, дают одинаковую скорость передачи, около 50 Мбит / с. У меня есть 5 ТБ дан…
21 апр '17 в 15:40
1 ответ

Экспорт таблицы кустов в другой кластер hadoop или экспорт кустов в кластере + distcp?

Я хочу экспортировать таблицу кустов из одного кластера Hadoop в другой B. У меня есть 2 подхода: Первый: экспорт в hdfs A (тот же кластер) distcp в hdfs кластера B(другой кластер) импорт в куст кластера B Во-вторых: экспорт в hdfs B(другой кластер)…
23 янв '16 в 13:24
1 ответ

Hadoop - копирование набора данных из внешнего в HDFS напрямую

Я пытаюсь использовать distcp, чтобы скопировать сжатый файл размером ~500 МБ в HDFS, но ошибка времени ожидания подключения: hadoop distcp hftp://s3.amazonaws.com/path/to/file.gz hdfs://namenode/some/hdfs/dir Вот полная ошибка: java.net.SocketTimeo…
30 ноя '18 в 23:36
1 ответ

Hadoop distcp исключение

Мы используем dictcp для копирования данных с CDH4 на CDH5. Когда мы запускаем команду в CDM5-адресате, мы получаем следующее исключение. Пожалуйста, дайте мне знать, если вы уже столкнулись с проблемой и знаете решение. Благодарю. 5/01/05 18:15:47 …
05 янв '15 в 08:36
2 ответа

Использовать искру для копирования данных через кластер hadoop

У меня есть ситуация, когда мне нужно скопировать данные / файлы из PROD в UAT (кластеры hadoop). Для этого я использую 'distcp' сейчас. но это займет вечность. Так как distcp использует map-Reduction под капотом, есть ли способ использовать spark, …
18 авг '16 в 17:10
1 ответ

Нужно ли устанавливать Falcon Prism на отдельную машину, а не на существующие кластеры?

Я пытаюсь понять настройку для распределенного кластера Falcon. У меня есть кластер A и кластер B, оба со своими серверами Falcon (и namenode, oozie, hive и т. Д.). Теперь, чтобы установить Prism, что было бы лучшей идеей? Должен ли я установить его…
0 ответов

Ошибка разрешения доступа distoop в hadoop при выполнении команды distcp с не суперпользователем

Я пытаюсь выполнить межкластерное копирование данных между двумя кластерами, используя hadoop distcp, и команда будет выполнена с использованием пользователя, у которого нет никаких разрешений, только у супер пользователя есть все разрешения для фай…
30 июл '18 в 08:53
1 ответ

Как разграничить файловую систему MAPR и хранилище BLOB-объектов HDInsight

Я пытаюсь выполнить команду distcp ниже, однако она выдает исключение: hadoop distcp date_load=201901* wasb://dev3-spark@clusterdev.blob.core.windows.net/luiz/producao/performance/performance_report Исключением является следующее: Я пытаюсь выполнит…
06 фев '19 в 15:59
4 ответа

Hdfs для s3 Distcp - ключи доступа

Для копирования файла из HDFS в корзину S3 я использовал команду hadoop distcp -Dfs.s3a.access.key=ACCESS_KEY_HERE\ -Dfs.s3a.secret.key=SECRET_KEY_HERE /path/in/hdfs s3a:/BUCKET NAME Но здесь видны ключ доступа и секретный ключ, которые не защищены.…
22 июл '16 в 12:01
0 ответов

Что является более эффективным, чтобы скопировать папку с большим количеством файлов в Amazon S3, используя Hadoop API в java, FileUtil.copy() или DistCp.run()

Я пытаюсь создать копию папки с большим количеством файлов в Amazon S3. И исходный путь, и целевой путь находятся в ведре s3. Но я не знаю, какой вариант более эффективен, FileUtil. опция copy() или опция Distcp.run(). Оба варианта просты в реализац…
10 авг '18 в 10:23