Spark работает быстрее в автономном режиме, чем в YARN

Требуются некоторые идеи по искровому исполнению на отдельных и пряжи. У нас есть 4-узловый кластер Cloudera, и в настоящее время производительность нашего приложения при работе в режиме YARN меньше, чем половина того, что мы получаем при выполнении в автономном режиме. Кто-нибудь имеет представление о факторах, которые могут способствовать этому.

1 ответ

По сути, ваши данные и кластер слишком малы.

Технологии больших данных действительно предназначены для обработки данных, которые не помещаются в одной системе. Учитывая, что ваш кластер имеет 4 узла, это может быть хорошо для работы с POC, но вы не должны считать это приемлемым для сравнительного анализа вашего приложения.

Чтобы дать вам ориентир, обратитесь к статье Hortonworks BENCHMARK: ВТОРАЯ АНАЛИТИКА С APACHE HIVE И DRUID использует кластер:

  • 10 узлов
  • 2x процессор Intel(R) Xeon(R) E5-2640 v2 @ 2,00 ГГц с 16 процессорами каждый
  • 256 ГБ ОЗУ на узел
  • 6x WDC WD4000FYYZ-0 1K02 4 ТБ дисков SCSI на узел

Это работает до 320 процессорных ядер, 2560 ГБ ОЗУ, 240 ТБ диска.

Еще один эталонный тест из статьи Cloudera Новые эталонные тесты SQL: Apache Impala (инкубационный) Уникально обеспечивает производительность аналитической базы данных, использует кластер из 21 узла, каждый узел которого находится по адресу:

  • Процессор: 2 разъема, всего 12 ядер, процессор Intel Xeon E5-2630L 0 с частотой 2,00 ГГц
  • 12 дисков по 932 ГБ каждый (один для ОС, остальные для HDFS)
  • 384 ГБ памяти

Это работает с 504 ядрами процессора, 8064 ГБ ОЗУ и 231 ТБ диска.

Это должно дать представление о шкале, которая бы квалифицировала вашу систему как надежную для целей бенчмаркинга.

Другие вопросы по тегам