Описание тега google-hadoop

Описание тега Вопросы с тегом

The open-source Apache Hadoop framework can be run on Google Cloud Platform for large-scale data processing, using Google Compute Engine VMs and Persistent Disks and optionally incorporating Google's tools and libraries for integrating Hadoop with other cloud services like Google Cloud Storage and BigQuery.

1 ответ

GoogleHadoopFileSystem не может быть приведен к hadoop FileSystem?

Первоначальный вопрос заключался в попытке развернуть спарк 1.4 в Google Cloud. После загрузки и установки SPARK_HADOOP2_TARBALL_URI='gs://my_bucket/my-images/spark-1.4.1-bin-hadoop2.6.tgz' развертывание с помощью bdutil прошло нормально; однако при…

apache-spark google-hadoop

17 июл '15 в 15:07

1 ответ

Соединитель Google Cloud для Hadoop не работает с Pig

Я использую Hadoop с HDFS 2.7.1.2.4 и Pig 0.15.0.2.4 (Hortonworks HDP 2.4) и пытаюсь использовать Google Cloud Storage Connector для Spark и Hadoop (bigdata-interop на GitHub). Это работает правильно, когда я пытаюсь, скажем, hadoop fs -ls gs://buck…

hadoop apache-pig google-hadoop

13 апр '16 в 16:40

1 ответ

Hadoop на Google Compute Engine

Я пытаюсь настроить кластер hadoop в Google Compute Engine с помощью функции "Запустить программное обеспечение, запускаемое по клику". Я создал 1 главный и 1 подчиненный узлы и попытался запустить кластер с помощью сценария start-all.sh с главного …

hadoop google-compute-engine google-hadoop

11 ноя '14 в 10:13

2 ответа

Где находится источник datastore-connector-latest.jar? Могу ли я добавить это как зависимость Maven?

Я получил соединители от https://cloud.google.com/hadoop/datastore-connector но я пытаюсь добавить datastore-connector (а также bigquery-connector тоже) как зависимость в пом... я не знаю, возможно ли это. Я не смог найти правильный артефакт и идент…

maven google-app-engine hadoop google-compute-engine google-hadoop

30 янв '15 в 01:16

1 ответ

Выпускает соединитель Google Cloud Storage на Spark

Я пытаюсь установить облачное хранилище Google на Spark в Mac OS, чтобы выполнить локальное тестирование моего приложения Spark. Я прочитал следующий документ ( https://cloud.google.com/hadoop/google-cloud-storage-connector). Я добавил "gcs-connecto…

apache-spark google-hadoop

02 окт '14 в 10:07

2 ответа

Hive INSERT OVERWRITE в Google Storage, поскольку локальная директория не работает

Я использую следующий Hive Query: hive> INSERT OVERWRITE LOCAL DIRECTORY "gs:// Google/Storage/Directory/Path/Name" поля с разделителями в формате строки, оканчивающиеся на ',' select * from .; Я получаю следующее сообщение об ошибке "Ошибка: сбой з…

hadoop hive google-cloud-storage google-hadoop

25 сен '15 в 09:16

1 ответ

Получение "sudo: неизвестный пользователь: hadoop" и "sudo: невозможно инициализировать ошибку плагина политики" в Google Cloud Platform при работе кластера hadoop

Я пытаюсь развернуть образец приложения Hadoop, предоставленного Google по адресу https://github.com/GoogleCloudPlatform/solutions-google-compute-engine-cluster-for-hadoop на облачной платформе Google. Я следовал всем инструкциям по установке, приве…

linux google-cloud-platform hadoop google-compute-engine google-hadoop

04 ноя '14 в 14:32

1 ответ

Изображение Spark 1.4 для Google Cloud?

С bdutil последняя версия tarball, которую я могу найти, находится на spark 1.3.1: гс://spark-dist/spark-1.3.1-bin-hadoop2.6.tgz В Spark 1.4 есть несколько новых функций DataFrame, которые я хочу использовать. Есть ли шанс, что образ Spark 1.4 будет…

apache-spark google-hadoop apache-spark-1.4

16 июл '15 в 23:27

3 ответа

Невозможно подключиться по SSH к виртуальной машине, что вызывает проблемы с установкой Hadoop с использованием bdutil

Я прошел через большинство Вопросов, касающихся этой проблемы на этом сайте, однако, кажется, ничто не помогло мне. По сути, я пытаюсь создать экземпляр Hadoop на моей виртуальной машине с помощью скрипта bdutil, предоставляемого Google, однако проб…

google-cloud-platform hadoop ssh google-compute-engine google-hadoop

18 сен '14 в 22:10

2 ответа

GCS - Глобальная согласованность с удалением + переименованием

Моя проблема может быть результатом моего недопонимания с глобальной согласованностью в хранилище Google, но так как я не сталкивался с этой проблемой до недавнего времени (середина ноября) и теперь, кажется, ее легко воспроизвести, я хотел получить…

google-cloud-storage google-hadoop

22 дек '15 в 18:54

1 ответ

Как ускорить distcp при передаче данных из Hadoop в Google Cloud Storage

Облако Google предоставляет соединители для работы с Hadoop. ( https://cloud.google.com/hadoop/google-cloud-storage-connector) Используя коннектор, я получаю данные из hdfs в облачное хранилище Google ех) hadoop discp hdfs://${path} gs://${path} но …

hadoop google-cloud-storage hdfs google-cloud-dataproc google-hadoop

23 мар '17 в 11:16

1 ответ

Проблемы с памятью при запуске задания Spark на относительно большом входе

Я управляю искровым кластером с 50 машинами. Каждая машина представляет собой виртуальную машину с 8-ядерным процессором и 50 ГБ памяти (41, кажется, доступен для Spark). Я работаю на нескольких папках ввода, я оцениваю размер сжатого файла ~250 ГБ.…

apache-spark hadoop google-hadoop

22 окт '14 в 14:19

1 ответ

Как я могу изменить набор по умолчанию кластера hasoop-enable на основе облака Google после его создания?

После создания кластера hasoop-enable на основе облака Google я хочу сменить контейнер по умолчанию на другой, как я могу это сделать? Я не могу найти ответ в Google Cloud Doscumentation. Спасибо!

google-cloud-platform hadoop google-hadoop

27 окт '15 в 17:15

1 ответ

Как использовать бесплатный кредит GCP для развертывания Hadoop?

Как использовать бесплатную пробную версию Google Cloud Platform для тестирования кластера Hadoop? Какие самые важные вещи я должен иметь в виду, если я попробую это? Будет ли взиматься плата во время бесплатной пробной версии Google Cloud Platform?

google-cloud-platform google-hadoop

13 июл '15 в 23:44

1 ответ

Кластер Hadoop на облачной платформе Google не запускается

Я пытаюсь создать кластер Hadoop в облачной платформе Google, используя следующие ресурсы: https://cloud.google.com/solutions/hadoop/ https://github.com/GoogleCloudPlatform/solutions-google-compute-engine-cluster-for-hadoop После настройки кластера …

python google-cloud-platform hadoop google-compute-engine google-hadoop

01 апр '14 в 14:08

1 ответ

Использование ignoreUnknownValues из коннектора Hadoop BigQuery

Я передаю неструктурированные данные о событиях через Hadoop и хочу поместить их в BigQuery. У меня есть схема, которая включает в себя большинство полей, но есть некоторые поля, которые я хочу игнорировать или о которых не знаю. BigQuery имеет поле…

hadoop google-bigquery google-hadoop

03 фев '15 в 03:01

1 ответ

Google Cloud Hadoop Nodes пока не может быть исправлена

Я запустил следующие команды, ссылаясь на https://cloud.google.com/hadoop/setting-up-a-hadoop-cluster на cygwin. gsutil.cmd mb -p [projectname] gs://[bucketname] ./bdutil -p [projectname] -n 2 -b [bucketname] -e hadoop2_env.sh generate_config config…

google-cloud-platform google-cloud-storage cygwin google-hadoop

19 янв '15 в 23:58

1 ответ

Экземпляры Hadoop на GCE

Я настраиваю кластер hadoop на Google Compute Engine. Но мне трудно понять, как будет работать экземпляр кластера. Я уже много искал, но ничего не дал четкого ответа. При настройке кластера hadoop. Вы создаете образ одного экземпляра, на котором уст…

hadoop google-compute-engine cluster-computing google-hadoop

28 апр '14 в 09:37

3 ответа

URL отслеживания вакансий в Google Compute не работает

Я использую Google Compute Engine для запуска заданий Mapreduce в Hadoop (почти все стандартные конфигурации). Во время выполнения задания я получаю URL-адрес для отслеживания в виде http://project_name:8088/proxy/application_X_Y/, но он не открывае…

hadoop mapreduce google-compute-engine google-hadoop

28 июл '15 в 16:41

1 ответ

Соединитель BigQuery для pyspark на примере формата ввода Hadoop

У меня есть большой набор данных, хранящийся в таблице BigQuery, и я хотел бы загрузить его в PyDark RDD для обработки данных ETL. Я понял, что BigQuery поддерживает формат ввода / вывода Hadoop https://cloud.google.com/hadoop/writing-with-bigquery-…

apache-spark pyspark google-bigquery google-cloud-dataproc google-hadoop

14 июл '15 в 08:11