Описание тега google-hadoop
The open-source Apache Hadoop framework can be run on Google Cloud Platform for large-scale data processing, using Google Compute Engine VMs and Persistent Disks and optionally incorporating Google's tools and libraries for integrating Hadoop with other cloud services like Google Cloud Storage and BigQuery.
1
ответ
GoogleHadoopFileSystem не может быть приведен к hadoop FileSystem?
Первоначальный вопрос заключался в попытке развернуть спарк 1.4 в Google Cloud. После загрузки и установки SPARK_HADOOP2_TARBALL_URI='gs://my_bucket/my-images/spark-1.4.1-bin-hadoop2.6.tgz' развертывание с помощью bdutil прошло нормально; однако при…
17 июл '15 в 15:07
1
ответ
Соединитель Google Cloud для Hadoop не работает с Pig
Я использую Hadoop с HDFS 2.7.1.2.4 и Pig 0.15.0.2.4 (Hortonworks HDP 2.4) и пытаюсь использовать Google Cloud Storage Connector для Spark и Hadoop (bigdata-interop на GitHub). Это работает правильно, когда я пытаюсь, скажем, hadoop fs -ls gs://buck…
13 апр '16 в 16:40
1
ответ
Hadoop на Google Compute Engine
Я пытаюсь настроить кластер hadoop в Google Compute Engine с помощью функции "Запустить программное обеспечение, запускаемое по клику". Я создал 1 главный и 1 подчиненный узлы и попытался запустить кластер с помощью сценария start-all.sh с главного …
11 ноя '14 в 10:13
2
ответа
Где находится источник datastore-connector-latest.jar? Могу ли я добавить это как зависимость Maven?
Я получил соединители от https://cloud.google.com/hadoop/datastore-connector но я пытаюсь добавить datastore-connector (а также bigquery-connector тоже) как зависимость в пом... я не знаю, возможно ли это. Я не смог найти правильный артефакт и идент…
30 янв '15 в 01:16
1
ответ
Выпускает соединитель Google Cloud Storage на Spark
Я пытаюсь установить облачное хранилище Google на Spark в Mac OS, чтобы выполнить локальное тестирование моего приложения Spark. Я прочитал следующий документ ( https://cloud.google.com/hadoop/google-cloud-storage-connector). Я добавил "gcs-connecto…
02 окт '14 в 10:07
2
ответа
Hive INSERT OVERWRITE в Google Storage, поскольку локальная директория не работает
Я использую следующий Hive Query: hive> INSERT OVERWRITE LOCAL DIRECTORY "gs:// Google/Storage/Directory/Path/Name" поля с разделителями в формате строки, оканчивающиеся на ',' select * from .; Я получаю следующее сообщение об ошибке "Ошибка: сбой з…
25 сен '15 в 09:16
1
ответ
Получение "sudo: неизвестный пользователь: hadoop" и "sudo: невозможно инициализировать ошибку плагина политики" в Google Cloud Platform при работе кластера hadoop
Я пытаюсь развернуть образец приложения Hadoop, предоставленного Google по адресу https://github.com/GoogleCloudPlatform/solutions-google-compute-engine-cluster-for-hadoop на облачной платформе Google. Я следовал всем инструкциям по установке, приве…
04 ноя '14 в 14:32
1
ответ
Изображение Spark 1.4 для Google Cloud?
С bdutil последняя версия tarball, которую я могу найти, находится на spark 1.3.1: гс://spark-dist/spark-1.3.1-bin-hadoop2.6.tgz В Spark 1.4 есть несколько новых функций DataFrame, которые я хочу использовать. Есть ли шанс, что образ Spark 1.4 будет…
16 июл '15 в 23:27
3
ответа
Невозможно подключиться по SSH к виртуальной машине, что вызывает проблемы с установкой Hadoop с использованием bdutil
Я прошел через большинство Вопросов, касающихся этой проблемы на этом сайте, однако, кажется, ничто не помогло мне. По сути, я пытаюсь создать экземпляр Hadoop на моей виртуальной машине с помощью скрипта bdutil, предоставляемого Google, однако проб…
18 сен '14 в 22:10
2
ответа
GCS - Глобальная согласованность с удалением + переименованием
Моя проблема может быть результатом моего недопонимания с глобальной согласованностью в хранилище Google, но так как я не сталкивался с этой проблемой до недавнего времени (середина ноября) и теперь, кажется, ее легко воспроизвести, я хотел получить…
22 дек '15 в 18:54
1
ответ
Как ускорить distcp при передаче данных из Hadoop в Google Cloud Storage
Облако Google предоставляет соединители для работы с Hadoop. ( https://cloud.google.com/hadoop/google-cloud-storage-connector) Используя коннектор, я получаю данные из hdfs в облачное хранилище Google ех) hadoop discp hdfs://${path} gs://${path} но …
23 мар '17 в 11:16
1
ответ
Проблемы с памятью при запуске задания Spark на относительно большом входе
Я управляю искровым кластером с 50 машинами. Каждая машина представляет собой виртуальную машину с 8-ядерным процессором и 50 ГБ памяти (41, кажется, доступен для Spark). Я работаю на нескольких папках ввода, я оцениваю размер сжатого файла ~250 ГБ.…
22 окт '14 в 14:19
1
ответ
Как я могу изменить набор по умолчанию кластера hasoop-enable на основе облака Google после его создания?
После создания кластера hasoop-enable на основе облака Google я хочу сменить контейнер по умолчанию на другой, как я могу это сделать? Я не могу найти ответ в Google Cloud Doscumentation. Спасибо!
27 окт '15 в 17:15
1
ответ
Как использовать бесплатный кредит GCP для развертывания Hadoop?
Как использовать бесплатную пробную версию Google Cloud Platform для тестирования кластера Hadoop? Какие самые важные вещи я должен иметь в виду, если я попробую это? Будет ли взиматься плата во время бесплатной пробной версии Google Cloud Platform?
13 июл '15 в 23:44
1
ответ
Кластер Hadoop на облачной платформе Google не запускается
Я пытаюсь создать кластер Hadoop в облачной платформе Google, используя следующие ресурсы: https://cloud.google.com/solutions/hadoop/ https://github.com/GoogleCloudPlatform/solutions-google-compute-engine-cluster-for-hadoop После настройки кластера …
01 апр '14 в 14:08
1
ответ
Использование ignoreUnknownValues из коннектора Hadoop BigQuery
Я передаю неструктурированные данные о событиях через Hadoop и хочу поместить их в BigQuery. У меня есть схема, которая включает в себя большинство полей, но есть некоторые поля, которые я хочу игнорировать или о которых не знаю. BigQuery имеет поле…
03 фев '15 в 03:01
1
ответ
Google Cloud Hadoop Nodes пока не может быть исправлена
Я запустил следующие команды, ссылаясь на https://cloud.google.com/hadoop/setting-up-a-hadoop-cluster на cygwin. gsutil.cmd mb -p [projectname] gs://[bucketname] ./bdutil -p [projectname] -n 2 -b [bucketname] -e hadoop2_env.sh generate_config config…
19 янв '15 в 23:58
1
ответ
Экземпляры Hadoop на GCE
Я настраиваю кластер hadoop на Google Compute Engine. Но мне трудно понять, как будет работать экземпляр кластера. Я уже много искал, но ничего не дал четкого ответа. При настройке кластера hadoop. Вы создаете образ одного экземпляра, на котором уст…
28 апр '14 в 09:37
3
ответа
URL отслеживания вакансий в Google Compute не работает
Я использую Google Compute Engine для запуска заданий Mapreduce в Hadoop (почти все стандартные конфигурации). Во время выполнения задания я получаю URL-адрес для отслеживания в виде http://project_name:8088/proxy/application_X_Y/, но он не открывае…
28 июл '15 в 16:41
1
ответ
Соединитель BigQuery для pyspark на примере формата ввода Hadoop
У меня есть большой набор данных, хранящийся в таблице BigQuery, и я хотел бы загрузить его в PyDark RDD для обработки данных ETL. Я понял, что BigQuery поддерживает формат ввода / вывода Hadoop https://cloud.google.com/hadoop/writing-with-bigquery-…
14 июл '15 в 08:11