Описание тега google-cloud-dataproc

Google Cloud Dataproc - это управляемый сервис Hadoop MapReduce, Spark, Pig и Hive на платформе Google Cloud Platform. Служба предоставляет режимы доступа GUI, CLI и HTTP API для развертывания / управления кластерами и отправки заданий в кластеры.
1 ответ

Какой регистратор я должен использовать для получения данных в Cloud Logging

Я запускаю задание PySpark с помощью Cloud Dataproc и хочу записывать информацию, используя logging модуль Python. Цель состоит в том, чтобы затем отправить эти журналы в Cloud Logging. Из этого вопроса я узнал, что могу достичь этого, добавив файл …
4 ответа

Как запустить python3 в pysproc Google DataProc

Я хочу запустить задание pyspark через dataproc Google Cloud Platform, но не могу понять, как настроить pyspark для запуска python3 вместо 2.7 по умолчанию. Лучшее, что я смог найти, это добавить эти команды инициализации Однако, когда я ssh в класт…
2 ответа

Как прекратить кластер dataproc, когда он не используется?

У меня есть система, которая принимает задания от пользователей. Эти задания выполняются как искровые задания в dataproc. Днем работает много рабочих мест, а ночью их может и не быть. Мне интересно, как лучше всего завершить кластер во время этих пе…
1 ответ

Поиск отдельных имен файлов при загрузке нескольких файлов в Apache Spark

У меня есть задание Apache Spark, которое загружает несколько файлов для обработки с использованием val inputFile = sc.textFile(inputPath) Это работает нормально. Однако для целей аудита было бы полезно отследить, какая строка пришла из какого файла…
08 июл '16 в 20:23
2 ответа

Передача параметров в задание dataproc pyspark

Как передать параметры в сценарий python, вызываемый при отправке задания pyspark dataproc? Вот cmd, с которым я связывался: gcloud dataproc jobs submit pyspark --cluster my-dataproc \ file:///usr/test-pyspark.py \ --properties=^:^p1="7day":p2="2017…
28 ноя '17 в 20:31
1 ответ

Сбой задания Pyspark в Google Cloud Dataproc

Я создал кластер Dataproc с 1 мастером и 10 узлами. Все они имеют одинаковую конфигурацию процессора и памяти: 32 vCPU, 120 ГБ памяти. Когда я представил работу, которая обрабатывает большой объем данных и расчетов. Работа не удалась. Из журнала я н…
04 июн '18 в 20:44
1 ответ

Клиент Dataproc: googleapiclient: метод для получения списка всех заданий (запущенных, остановленных и т. Д.) В кластере

Мы используем Google Cloud Dataproc для запуска sparkJobs. У нас есть требование получить список всех заданий и их состояний, соответствующих кластеру. Я могу получить статус работы, если я знаю job_id, как показано ниже res = dpclient.dataproc.proj…
3 ответа

ModuleNotFoundError, поскольку сериализатор PySpark не может найти папку библиотеки

У меня следующая структура папок - libfolder - lib1.py - lib2.py - main.py main.py звонки libfolder.lib1.py который затем вызывает libfolder.lib2.py и другие. Все это прекрасно работает на локальной машине, но после развертывания в Dataproc я получа…
0 ответов

Можно ли загрузить данные, сгенерированные скриптом.py, размещенным в Google Dataproc, в локальную базу данных?

Я сейчас работаю над рекомендательной системой и пытаюсь найти оптимальное проектное решение для этой проблемы. Я хочу развернуть свой Python-скрипт с механизмом рекомендации в кластер Spark, предоставленный Google Dataproc. Можно ли загрузить резул…
2 ответа

Как мне динамически обновить cpu/ram/ диск рабочего в dataproc?

Я создал кластер по умолчанию (4 виртуальных ЦП, 15 ГБ ОЗУ) в Google DataProc. Проработав несколько свиноводческих работ, в кластере было 2-3 нездоровых узла. Поэтому я модернизировал vCPU рабочей виртуальной машины (от 4 до 8 vCPU), Ram(от 15 до 30…
22 авг '16 в 06:57
1 ответ

Не удалось вызвать Cloud SQL Metastore. При создании кластера dataproc с помощью предварительного изображения

Я использую Spark для вычисления некоторых данных, а затем отправляю их в Hive. Версия Cloud Dataproc - 1.2 с включенным Hive 2.1. Команда слияния в Hive поддерживается только версией 2.2. Поэтому я должен использовать предварительную версию для кла…
1 ответ

GCP Dataproc - Несогласованные метрики контейнера - пользовательский интерфейс YARN и пользовательский интерфейс Spark

У меня есть кластер GCP Dataproc с 50 рабочими (n1-standard-16 16 VCores 64 ГБ ОЗУ). Кластер имеет планировщик емкости с калькулятором ресурсов по умолчанию. Моя работа Spark имеет следующую конфигурацию spark.executor.cores = 5 spark.executor.memor…
0 ответов

Сбой задания Spark Dataproc из-за невозможности переименовать ошибку в GCS

У меня есть искровая работа, которая выходит из строя из-за следующей ошибки. org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 34338.0 failed 4 times, most recent failure: Lost task 0.3 in stage 34338.0 (TID 61601, …
1 ответ

Pyspark и BigQuery используют два разных идентификатора проекта в Google Dataproc

Я хочу выполнить некоторые задания pyspark, используя Google Dataproc с разными идентификаторами проекта, но пока безуспешно. Я новичок в pyspark и Google Cloud, но я последовал этому примеру и хорошо работает (если набор данных BigQuery либо общедо…
1 ответ

Невозможно импортировать pyspark в кластер dataproc на GCP

Я просто настроил кластер на Google Cloud Platform для запуска некоторых заданий pyspark. Первоначально я использовал ipython.sh (из репозитория github) в качестве сценария инициализации для кластера. Это позволило кластеру хорошо стартовать, однако…
1 ответ

Google Stackdriver теряет связь с Dataproc

Всякий раз, когда я настраивал кластер Google Dataproc с мониторингом Stackdriver и агентом мониторинга, я замечал, что Stackdriver просто теряет соединение всякий раз, когда Dataproc получает работу. В интерфейсе стекового драйвера он имеет значени…
1 ответ

Конфликт зависимости Dataproc - google-api-client

Я создаю библиотеку для извлечения зашифрованных секретов из облачного хранилища (в Scala, с использованием клиентов Java). Я использую следующие библиотеки Google: "com.google.apis" % "google-api-services-cloudkms" % "v1-rev26-1.23.0" exclude("com.…
1 ответ

spark-shell и sparkR в Google DataProc

Я очень новичок в Google DataProc Мы хотим запустить набор кода через spark-shell или sparkR для тестирования. Возможно ли подключиться к кластеру spark и выполнить команды в spark-shell или sparkR в google DataProc? Я проверил документ, и кажется, …
0 ответов

Py4JJavaError - ошибка при отправке задания pyspark в dataproc

Я получаю сообщение об ошибке при попытке отправить задание pyspark в кластер dataproc. Команда отправки в Gcloud: Задания gcloud dataproc отправляют pyspark --cluster test-cluster migrate_db_table.py Но получая ошибку ниже: ("Возникло исключение!!!…
1 ответ

Скрипты инициализации Google Cloud Dataproc для Кассандры

Google Cloud Dataproc предоставляет сценарии инициализации для многих фреймворков, включая Kafka, Zeppelin и т. Д., Для Cassandra не существует сценария по умолчанию, было интересно, есть ли один сценарий уже кем-либо. Спасибо