Как Zeppelin интегрирован, чтобы зажечь?
Я очень плохо знаком с распределенной обработкой данных и хотел бы понять, как Zeppelin взаимодействует с искровым кластером? Хотите знать, как zeppelin может извлекать фреймы данных, сгенерированные в предыдущих абзацах, а затем использовать их в текущем коде. Также, что происходит, когда несколько пользователей пытаются использовать один и тот же дирижабль, как в разных ноутбуках, подключенных к одной и той же свече. Как Spark узнает, какое задание нужно запустить первым, и сохраняет ли все кадры данных в памяти?
- Я также использую пряжу.
1 ответ
Это выглядит как очень широкий вопрос. Позвольте мне ответить один за другим.
А. Связь с внешним искровым кластером.
Как вы знаете, Zeppelin предоставляет встроенную искру, но она работает на локальной машине, поэтому она не может рассчитывать большие вычисления из-за ограниченности ресурсов.
Чтобы использовать внешнюю искру, вы можете установить SPARK_HOME
в conf/zeppelin-env.sh
Иногда вы можете использовать несколько разных искровых кластеров с одним экземпляром Zeppelin. В этом случае вы можете создать несколько искровых интерпретаторов и установить SPARK_HOME
для каждой настройки искрового переводчика.
B. Настройки пряжи для Zeppelin
Вы можете указать yarn-client
режим в настройках искрового интерпретатора.
Для режима кластера пряжи, пожалуйста, используйте интерпретатор livy
C. Получить данные, созданные в предыдущих абзацах.
- переменная: по умолчанию каждая переменная может быть доступна. Потому что они разделяют контекст. Так что если вы создаете
RDD
, затем вы можете получить к нему доступ из других пунктов (даже из предыдущих пунктов) - таблица: вы можете создать таблицу, используя
RDD
а такжеregisterTempTable
, Затем просто запросите таблицу в следующем абзаце.
Эти примеры заметок могут помочь
- https://www.zepl.com/viewer/notebooks/aHR0cHM6Ly9yYXcuZ2l0aHVidXNlcmNvbnRlbnQuY29tL2hvcnRvbndvcmtzLWdhbGxlcnkvemVwcGVsaW4tbm90ZWJvb2tzL21hc3Rlci8yQU5UREc4Nzgvbm90ZS5qc29u
- https://www.zepl.com/viewer/notebooks/bm90ZTovL21hZGRpZS9NYWRkaWUtRU1SLVplcHBlbGluLzIzOTcvbm90ZS5qc29u
D. Несколько пользователей с одним и тем же искровым кластером
По умолчанию каждый пользователь совместно использует переменную и искры контекста и ресурсов. Как вы знаете, это не очень хорошая идея. Таким образом, Zeppelin поддерживает режим привязки интерпретатора (= аналогично поддержке сеанса), так что действия других пользователей не могут повлиять на мой ноутбук и мой искровой интерпретатор.
Одним словом, у каждого пользователя может быть выделенный процесс интерпретатора искры (JVM) в изолированном режиме. Или они могут совместно использовать контекст искры, не разделяя их переменные в режиме видимости
E. Настройка поддержки нескольких пользователей.
Эти статьи могут помочь вам.