Как Zeppelin интегрирован, чтобы зажечь?

Я очень плохо знаком с распределенной обработкой данных и хотел бы понять, как Zeppelin взаимодействует с искровым кластером? Хотите знать, как zeppelin может извлекать фреймы данных, сгенерированные в предыдущих абзацах, а затем использовать их в текущем коде. Также, что происходит, когда несколько пользователей пытаются использовать один и тот же дирижабль, как в разных ноутбуках, подключенных к одной и той же свече. Как Spark узнает, какое задание нужно запустить первым, и сохраняет ли все кадры данных в памяти?

  • Я также использую пряжу.

1 ответ

Решение

Это выглядит как очень широкий вопрос. Позвольте мне ответить один за другим.

А. Связь с внешним искровым кластером.

Как вы знаете, Zeppelin предоставляет встроенную искру, но она работает на локальной машине, поэтому она не может рассчитывать большие вычисления из-за ограниченности ресурсов.

Чтобы использовать внешнюю искру, вы можете установить SPARK_HOME в conf/zeppelin-env.sh

Иногда вы можете использовать несколько разных искровых кластеров с одним экземпляром Zeppelin. В этом случае вы можете создать несколько искровых интерпретаторов и установить SPARK_HOME для каждой настройки искрового переводчика.

B. Настройки пряжи для Zeppelin

Вы можете указать yarn-client режим в настройках искрового интерпретатора.

Для режима кластера пряжи, пожалуйста, используйте интерпретатор livy

C. Получить данные, созданные в предыдущих абзацах.

  • переменная: по умолчанию каждая переменная может быть доступна. Потому что они разделяют контекст. Так что если вы создаете RDD, затем вы можете получить к нему доступ из других пунктов (даже из предыдущих пунктов)
  • таблица: вы можете создать таблицу, используя RDD а также registerTempTable, Затем просто запросите таблицу в следующем абзаце.

Эти примеры заметок могут помочь

D. Несколько пользователей с одним и тем же искровым кластером

По умолчанию каждый пользователь совместно использует переменную и искры контекста и ресурсов. Как вы знаете, это не очень хорошая идея. Таким образом, Zeppelin поддерживает режим привязки интерпретатора (= аналогично поддержке сеанса), так что действия других пользователей не могут повлиять на мой ноутбук и мой искровой интерпретатор.

Одним словом, у каждого пользователя может быть выделенный процесс интерпретатора искры (JVM) в изолированном режиме. Или они могут совместно использовать контекст искры, не разделяя их переменные в режиме видимости

E. Настройка поддержки нескольких пользователей.

Эти статьи могут помочь вам.

Другие вопросы по тегам