Описание тега hdfs
Распределенная файловая система Hadoop (HDFS) - это система хранения файлов по умолчанию, используемая Apache Hadoop. HDFS создает несколько реплик блоков данных и распределяет их по узлам данных по всему кластеру, чтобы обеспечить надежное вычисление огромных объемов данных на стандартном оборудовании.
2
ответа
Почему я не могу создавать дочерние папки в структуре родительских папок в hadoop hdfs?
У меня возникают проблемы при создании дочерних (рекурсивных) папок в структуре родительских папок в HDFS. Использование Hadoop версии 2.7.1 sample: hadoop fs -mkdir /test/sample / logfiles Если я введу вышеупомянутую команду в терминале, я не смогу…
16 фев '16 в 07:30
0
ответов
Как удалить конкретный раздел из hdfs с помощью pyspark?
Причина, по которой я планирую удалить конкретный раздел из цели, состоит в том, что у меня есть DF, который содержит данные для разделов в целевом пути и новых разделов. Если я удаляю эти конкретные разделы из целевого пути, я могу просто написать …
08 авг '18 в 06:00
2
ответа
Глобальные значения в карте hadoop уменьшаются
Мой вариант использования включает в себя обнаружение дефектных элементов... скажем, у меня есть список продуктов с миллионами элементов в формате hdf, помеченный как хороший / дефектный... Я хочу выяснить первые 10 совпадений дефектных элементов и …
18 мар '13 в 22:38
0
ответов
Hdfs загрузить Hbase Utility
Я попробовал следующую команду, чтобы загрузить данные из hdfs в таблицу hbase. Задание загружает данные в таблицу hbase, но не в соответствующие столбцы (то есть значение col1 загружается в col2, значение col2 загружается в col5 и т. Д.). Может ли …
22 янв '18 в 16:50
1
ответ
pandas pytables append: производительность и увеличение размера файла
У меня больше 500 PyTables магазины, которые содержат около 300 МБ данных каждый. Я хотел бы объединить эти файлы в большой магазин, используя панд append как в коде ниже. def merge_hdfs(file_list, merged_store): for file in file_list: store = HDFSt…
08 апр '14 в 11:01
2
ответа
JPS выдает пустой вывод, ни один из демонов Hadoop не запускается с start-all.sh, распределенного режима Hadoop Psudo, на 32-битной виртуальной машине, работающей в 64-битной ОС Windows
Я пытаюсь настроить Hadoop2.7.1, Java OpenJDK 7, на 32-битной виртуальной машине, работающей поверх 64-битной ОС. Я настроил все файлы, как указано здесь http://pingax.com/install-hadoop2-6-0-on-ubuntu/ Даже после запуска start-dfs.sh или start-all.…
22 апр '16 в 07:39
1
ответ
SQL для MapReduce - Как?
У меня сложный запрос, используемый в процессе ETL (на основе SQL). Он слишком велик, чтобы уместиться здесь, но в целом мало внутренних соединений между несколькими таблицами и некоторыми BL с использованием оконных функций и других "вкусностей". М…
29 ноя '13 в 12:00
0
ответов
Есть ли способ отключить запись файла.jhist для MapReduce?
У меня небольшой кластер с не очень хорошей сетью. Время от времени долгосрочное задание будет достигать 100% карты и уменьшаться на 100%, а затем завершаться сбоем. Проблема заключается в следующем: в начале задания MapReduce открывает DataStreamer…
18 ноя '18 в 19:20
1
ответ
Значение не записано в файл HDFS
Я пытаюсь записать значение в файл на HDFS. Вот код: FileSystem fsys = FileSystem.get(new Configuration()); String fileName = "/user/root/TestData/Parameter.txt"; Path path = new Path(fileName);//(pathOfTestFile); //fstatus.getPath(); FSDataOutputSt…
19 июл '12 в 10:14
0
ответов
Почему hadoop поддерживает несколько файловых систем?
Я изучаю hadoop и читаю, что HDFS - это всего лишь одна файловая система, которая поддерживается hadoop. И есть много других файловых систем (например, файловая система Unix) . А поддерживаемую файловую систему по умолчанию можно изменить, изменив э…
16 ноя '17 в 15:09
0
ответов
Сценарии использования mvtolocal в реальном времени в HDFS
В hdfs есть команда mvtolocal. Если мы используем эту команду, данные в формате hdf будут удалены и скопированы на локальный компьютер. Насколько мне известно, данные не должны быть изменены после загрузки в hdfs. В каких случаях / сценариях реально…
29 янв '17 в 16:00
1
ответ
ACL не поддерживаются по крайней мере в одной файловой системе: Distcp HDFS
Согласно документации distcp -> Если указан параметр -pa, DistCp сохраняет разрешения также потому, что ACL - это супер-набор разрешений. но hadoop distcp -pa -delete -update /src/path /dest/path/ не работает с ACL, не поддерживаемыми хотя бы в одн…
24 авг '18 в 11:23
1
ответ
Hadoop namenode Высокая доступность
У меня вопрос по поводу названия узла High Availability. Имя узла так важно, потому что он хранит все метаданные, если он не работает, весь кластер Hadoop также будет недоступен. Итак, есть ли хороший способ приблизиться к узлу имени Высокая доступн…
12 авг '13 в 19:01
0
ответов
Загрузка данных в кафку
Мне нужно принять данные (любой плоский файл) из темы Hadoop в Kafka. Но я нашел только способ ввести данные из локальных в hdfs. Может ли кто-нибудь помочь мне сделать то же самое?
07 ноя '18 в 23:33
5
ответов
Каковы плюсы и минусы формата паркета по сравнению с другими форматами?
Характеристики Apache Parquet: Самоописание Колоночный формат Независимый от языка По сравнению с Avro, Sequence Files, RC File и т. Д. Я хочу краткий обзор форматов. Я уже читал: как Impala работает с форматами файлов Hadoop, он дает некоторое пред…
24 апр '16 в 10:59
1
ответ
Как установить объекты в конфигурации Hadoop
Я пытаюсь установить объект в Configuration conf.set("test",myobject) Но этого не существует. Как установить объект в Configuration и получить то же значение объекта в Mapper?
30 дек '13 в 04:42
5
ответов
Какое максимальное количество файлов разрешено в каталоге HDFS?
Какое максимальное количество файлов и каталогов разрешено в каталоге HDFS (hadoop)?
15 июн '11 в 13:41
1
ответ
Команда для сохранения файла на HDFS
Вступление Имя узла Hadoop и три узла данных установлены и работают. Следующим шагом является предоставление файла для HDFS. Следующие команды были выполнены: hadoop fs -copyFromLocal ubuntu-14.04-desktop-amd64.iso copyFromLocal: `.': No such file o…
05 июн '14 в 14:09
1
ответ
Создание таблицы HIVE, которая фильтрует данные из CSV-файла в HDFS на основе значения в столбце.
В настоящее время у меня есть файл, который содержит данные, которые должны заполнить 9 различных таблиц. Каждая из этих таблиц имеет различное количество столбцов и типов данных, поэтому мне нужно отфильтровать исходный файл (используя первый столб…
19 июн '17 в 11:18
1
ответ
Как сохранить документ Word в HDFS
Я новичок в Hadoop и хотел узнать, как проще всего сохранить файл текстового документа, который автоматически отправляется в HDFS
11 июн '14 в 16:07