Описание тега google-cloud-dataproc
Google Cloud Dataproc - это управляемый сервис Hadoop MapReduce, Spark, Pig и Hive на платформе Google Cloud Platform. Служба предоставляет режимы доступа GUI, CLI и HTTP API для развертывания / управления кластерами и отправки заданий в кластеры.
1
ответ
Какой регистратор я должен использовать для получения данных в Cloud Logging
Я запускаю задание PySpark с помощью Cloud Dataproc и хочу записывать информацию, используя logging модуль Python. Цель состоит в том, чтобы затем отправить эти журналы в Cloud Logging. Из этого вопроса я узнал, что могу достичь этого, добавив файл …
15 дек '15 в 10:29
4
ответа
Как запустить python3 в pysproc Google DataProc
Я хочу запустить задание pyspark через dataproc Google Cloud Platform, но не могу понять, как настроить pyspark для запуска python3 вместо 2.7 по умолчанию. Лучшее, что я смог найти, это добавить эти команды инициализации Однако, когда я ssh в класт…
23 авг '17 в 15:33
2
ответа
Как прекратить кластер dataproc, когда он не используется?
У меня есть система, которая принимает задания от пользователей. Эти задания выполняются как искровые задания в dataproc. Днем работает много рабочих мест, а ночью их может и не быть. Мне интересно, как лучше всего завершить кластер во время этих пе…
05 апр '16 в 13:06
1
ответ
Поиск отдельных имен файлов при загрузке нескольких файлов в Apache Spark
У меня есть задание Apache Spark, которое загружает несколько файлов для обработки с использованием val inputFile = sc.textFile(inputPath) Это работает нормально. Однако для целей аудита было бы полезно отследить, какая строка пришла из какого файла…
08 июл '16 в 20:23
2
ответа
Передача параметров в задание dataproc pyspark
Как передать параметры в сценарий python, вызываемый при отправке задания pyspark dataproc? Вот cmd, с которым я связывался: gcloud dataproc jobs submit pyspark --cluster my-dataproc \ file:///usr/test-pyspark.py \ --properties=^:^p1="7day":p2="2017…
28 ноя '17 в 20:31
1
ответ
Сбой задания Pyspark в Google Cloud Dataproc
Я создал кластер Dataproc с 1 мастером и 10 узлами. Все они имеют одинаковую конфигурацию процессора и памяти: 32 vCPU, 120 ГБ памяти. Когда я представил работу, которая обрабатывает большой объем данных и расчетов. Работа не удалась. Из журнала я н…
04 июн '18 в 20:44
1
ответ
Клиент Dataproc: googleapiclient: метод для получения списка всех заданий (запущенных, остановленных и т. Д.) В кластере
Мы используем Google Cloud Dataproc для запуска sparkJobs. У нас есть требование получить список всех заданий и их состояний, соответствующих кластеру. Я могу получить статус работы, если я знаю job_id, как показано ниже res = dpclient.dataproc.proj…
11 июл '16 в 09:26
3
ответа
ModuleNotFoundError, поскольку сериализатор PySpark не может найти папку библиотеки
У меня следующая структура папок - libfolder - lib1.py - lib2.py - main.py main.py звонки libfolder.lib1.py который затем вызывает libfolder.lib2.py и другие. Все это прекрасно работает на локальной машине, но после развертывания в Dataproc я получа…
20 дек '18 в 06:38
0
ответов
Можно ли загрузить данные, сгенерированные скриптом.py, размещенным в Google Dataproc, в локальную базу данных?
Я сейчас работаю над рекомендательной системой и пытаюсь найти оптимальное проектное решение для этой проблемы. Я хочу развернуть свой Python-скрипт с механизмом рекомендации в кластер Spark, предоставленный Google Dataproc. Можно ли загрузить резул…
15 дек '16 в 13:57
2
ответа
Как мне динамически обновить cpu/ram/ диск рабочего в dataproc?
Я создал кластер по умолчанию (4 виртуальных ЦП, 15 ГБ ОЗУ) в Google DataProc. Проработав несколько свиноводческих работ, в кластере было 2-3 нездоровых узла. Поэтому я модернизировал vCPU рабочей виртуальной машины (от 4 до 8 vCPU), Ram(от 15 до 30…
22 авг '16 в 06:57
1
ответ
Не удалось вызвать Cloud SQL Metastore. При создании кластера dataproc с помощью предварительного изображения
Я использую Spark для вычисления некоторых данных, а затем отправляю их в Hive. Версия Cloud Dataproc - 1.2 с включенным Hive 2.1. Команда слияния в Hive поддерживается только версией 2.2. Поэтому я должен использовать предварительную версию для кла…
06 июн '18 в 15:13
1
ответ
GCP Dataproc - Несогласованные метрики контейнера - пользовательский интерфейс YARN и пользовательский интерфейс Spark
У меня есть кластер GCP Dataproc с 50 рабочими (n1-standard-16 16 VCores 64 ГБ ОЗУ). Кластер имеет планировщик емкости с калькулятором ресурсов по умолчанию. Моя работа Spark имеет следующую конфигурацию spark.executor.cores = 5 spark.executor.memor…
25 окт '18 в 06:36
0
ответов
Сбой задания Spark Dataproc из-за невозможности переименовать ошибку в GCS
У меня есть искровая работа, которая выходит из строя из-за следующей ошибки. org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 34338.0 failed 4 times, most recent failure: Lost task 0.3 in stage 34338.0 (TID 61601, …
29 янв '19 в 06:24
1
ответ
Pyspark и BigQuery используют два разных идентификатора проекта в Google Dataproc
Я хочу выполнить некоторые задания pyspark, используя Google Dataproc с разными идентификаторами проекта, но пока безуспешно. Я новичок в pyspark и Google Cloud, но я последовал этому примеру и хорошо работает (если набор данных BigQuery либо общедо…
09 дек '16 в 15:52
1
ответ
Невозможно импортировать pyspark в кластер dataproc на GCP
Я просто настроил кластер на Google Cloud Platform для запуска некоторых заданий pyspark. Первоначально я использовал ipython.sh (из репозитория github) в качестве сценария инициализации для кластера. Это позволило кластеру хорошо стартовать, однако…
19 сен '16 в 15:49
1
ответ
Google Stackdriver теряет связь с Dataproc
Всякий раз, когда я настраивал кластер Google Dataproc с мониторингом Stackdriver и агентом мониторинга, я замечал, что Stackdriver просто теряет соединение всякий раз, когда Dataproc получает работу. В интерфейсе стекового драйвера он имеет значени…
29 авг '16 в 13:43
1
ответ
Конфликт зависимости Dataproc - google-api-client
Я создаю библиотеку для извлечения зашифрованных секретов из облачного хранилища (в Scala, с использованием клиентов Java). Я использую следующие библиотеки Google: "com.google.apis" % "google-api-services-cloudkms" % "v1-rev26-1.23.0" exclude("com.…
09 янв '18 в 12:01
1
ответ
spark-shell и sparkR в Google DataProc
Я очень новичок в Google DataProc Мы хотим запустить набор кода через spark-shell или sparkR для тестирования. Возможно ли подключиться к кластеру spark и выполнить команды в spark-shell или sparkR в google DataProc? Я проверил документ, и кажется, …
24 янв '17 в 05:55
0
ответов
Py4JJavaError - ошибка при отправке задания pyspark в dataproc
Я получаю сообщение об ошибке при попытке отправить задание pyspark в кластер dataproc. Команда отправки в Gcloud: Задания gcloud dataproc отправляют pyspark --cluster test-cluster migrate_db_table.py Но получая ошибку ниже: ("Возникло исключение!!!…
10 окт '18 в 13:15
1
ответ
Скрипты инициализации Google Cloud Dataproc для Кассандры
Google Cloud Dataproc предоставляет сценарии инициализации для многих фреймворков, включая Kafka, Zeppelin и т. Д., Для Cassandra не существует сценария по умолчанию, было интересно, есть ли один сценарий уже кем-либо. Спасибо
19 окт '18 в 14:36