Описание тега hdfs

Описание тега Вопросы с тегом

Распределенная файловая система Hadoop (HDFS) - это система хранения файлов по умолчанию, используемая Apache Hadoop. HDFS создает несколько реплик блоков данных и распределяет их по узлам данных по всему кластеру, чтобы обеспечить надежное вычисление огромных объемов данных на стандартном оборудовании.

2 ответа

Почему я не могу создавать дочерние папки в структуре родительских папок в hadoop hdfs?

У меня возникают проблемы при создании дочерних (рекурсивных) папок в структуре родительских папок в HDFS. Использование Hadoop версии 2.7.1 sample: hadoop fs -mkdir /test/sample / logfiles Если я введу вышеупомянутую команду в терминале, я не смогу…

hadoop hdfs bigdata

16 фев '16 в 07:30

0 ответов

Как удалить конкретный раздел из hdfs с помощью pyspark?

Причина, по которой я планирую удалить конкретный раздел из цели, состоит в том, что у меня есть DF, который содержит данные для разделов в целевом пути и новых разделов. Если я удаляю эти конкретные разделы из целевого пути, я могу просто написать …

pyspark hdfs partitioning

08 авг '18 в 06:00

2 ответа

Глобальные значения в карте hadoop уменьшаются

Мой вариант использования включает в себя обнаружение дефектных элементов... скажем, у меня есть список продуктов с миллионами элементов в формате hdf, помеченный как хороший / дефектный... Я хочу выяснить первые 10 совпадений дефектных элементов и …

hadoop mapreduce hdfs

18 мар '13 в 22:38

0 ответов

Hdfs загрузить Hbase Utility

Я попробовал следующую команду, чтобы загрузить данные из hdfs в таблицу hbase. Задание загружает данные в таблицу hbase, но не в соответствующие столбцы (то есть значение col1 загружается в col2, значение col2 загружается в col5 и т. Д.). Может ли …

hdfs hbase bulk-load

22 янв '18 в 16:50

1 ответ

pandas pytables append: производительность и увеличение размера файла

У меня больше 500 PyTables магазины, которые содержат около 300 МБ данных каждый. Я хотел бы объединить эти файлы в большой магазин, используя панд append как в коде ниже. def merge_hdfs(file_list, merged_store): for file in file_list: store = HDFSt…

python pandas performance hdfs pytables

08 апр '14 в 11:01

2 ответа

JPS выдает пустой вывод, ни один из демонов Hadoop не запускается с start-all.sh, распределенного режима Hadoop Psudo, на 32-битной виртуальной машине, работающей в 64-битной ОС Windows

Я пытаюсь настроить Hadoop2.7.1, Java OpenJDK 7, на 32-битной виртуальной машине, работающей поверх 64-битной ОС. Я настроил все файлы, как указано здесь http://pingax.com/install-hadoop2-6-0-on-ubuntu/ Даже после запуска start-dfs.sh или start-all.…

ubuntu hadoop mapreduce hdfs yarn

22 апр '16 в 07:39

1 ответ

SQL для MapReduce - Как?

У меня сложный запрос, используемый в процессе ETL (на основе SQL). Он слишком велик, чтобы уместиться здесь, но в целом мало внутренних соединений между несколькими таблицами и некоторыми BL с использованием оконных функций и других "вкусностей". М…

hadoop hdfs etl

29 ноя '13 в 12:00

0 ответов

Есть ли способ отключить запись файла.jhist для MapReduce?

У меня небольшой кластер с не очень хорошей сетью. Время от времени долгосрочное задание будет достигать 100% карты и уменьшаться на 100%, а затем завершаться сбоем. Проблема заключается в следующем: в начале задания MapReduce открывает DataStreamer…

hadoop mapreduce hdfs yarn datanode

18 ноя '18 в 19:20

1 ответ

Значение не записано в файл HDFS

Я пытаюсь записать значение в файл на HDFS. Вот код: FileSystem fsys = FileSystem.get(new Configuration()); String fileName = "/user/root/TestData/Parameter.txt"; Path path = new Path(fileName);//(pathOfTestFile); //fstatus.getPath(); FSDataOutputSt…

hadoop mapreduce hdfs

19 июл '12 в 10:14

0 ответов

Почему hadoop поддерживает несколько файловых систем?

Я изучаю hadoop и читаю, что HDFS - это всего лишь одна файловая система, которая поддерживается hadoop. И есть много других файловых систем (например, файловая система Unix) . А поддерживаемую файловую систему по умолчанию можно изменить, изменив э…

hadoop hdfs

16 ноя '17 в 15:09

0 ответов

Сценарии использования mvtolocal в реальном времени в HDFS

В hdfs есть команда mvtolocal. Если мы используем эту команду, данные в формате hdf будут удалены и скопированы на локальный компьютер. Насколько мне известно, данные не должны быть изменены после загрузки в hdfs. В каких случаях / сценариях реально…

hdfs

29 янв '17 в 16:00

1 ответ

ACL не поддерживаются по крайней мере в одной файловой системе: Distcp HDFS

Согласно документации distcp -> Если указан параметр -pa, DistCp сохраняет разрешения также потому, что ACL - это супер-набор разрешений. но hadoop distcp -pa -delete -update /src/path /dest/path/ не работает с ACL, не поддерживаемыми хотя бы в одн…

hadoop hdfs hortonworks-data-platform distcp

24 авг '18 в 11:23

1 ответ

Hadoop namenode Высокая доступность

У меня вопрос по поводу названия узла High Availability. Имя узла так важно, потому что он хранит все метаданные, если он не работает, весь кластер Hadoop также будет недоступен. Итак, есть ли хороший способ приблизиться к узлу имени Высокая доступн…

hadoop hdfs

12 авг '13 в 19:01

0 ответов

Загрузка данных в кафку

Мне нужно принять данные (любой плоский файл) из темы Hadoop в Kafka. Но я нашел только способ ввести данные из локальных в hdfs. Может ли кто-нибудь помочь мне сделать то же самое?

hadoop apache-kafka hdfs

07 ноя '18 в 23:33

5 ответов

Каковы плюсы и минусы формата паркета по сравнению с другими форматами?

Характеристики Apache Parquet: Самоописание Колоночный формат Независимый от языка По сравнению с Avro, Sequence Files, RC File и т. Д. Я хочу краткий обзор форматов. Я уже читал: как Impala работает с форматами файлов Hadoop, он дает некоторое пред…

file hadoop hdfs parquet avro

24 апр '16 в 10:59

1 ответ

Как установить объекты в конфигурации Hadoop

Я пытаюсь установить объект в Configuration conf.set("test",myobject) Но этого не существует. Как установить объект в Configuration и получить то же значение объекта в Mapper?

java hadoop mapreduce hdfs

30 дек '13 в 04:42

5 ответов

Какое максимальное количество файлов разрешено в каталоге HDFS?

Какое максимальное количество файлов и каталогов разрешено в каталоге HDFS (hadoop)?

hadoop filesystems hdfs

15 июн '11 в 13:41

1 ответ

Команда для сохранения файла на HDFS

Вступление Имя узла Hadoop и три узла данных установлены и работают. Следующим шагом является предоставление файла для HDFS. Следующие команды были выполнены: hadoop fs -copyFromLocal ubuntu-14.04-desktop-amd64.iso copyFromLocal: `.': No such file o…

linux file hadoop hdfs

05 июн '14 в 14:09

1 ответ

Создание таблицы HIVE, которая фильтрует данные из CSV-файла в HDFS на основе значения в столбце.

В настоящее время у меня есть файл, который содержит данные, которые должны заполнить 9 различных таблиц. Каждая из этих таблиц имеет различное количество столбцов и типов данных, поэтому мне нужно отфильтровать исходный файл (используя первый столб…

csv hive hdfs hiveql avro

19 июн '17 в 11:18

1 ответ

Как сохранить документ Word в HDFS

Я новичок в Hadoop и хотел узнать, как проще всего сохранить файл текстового документа, который автоматически отправляется в HDFS

hadoop hdfs hadoop-streaming

11 июн '14 в 16:07