Spark работает быстрее в автономном режиме, чем в YARN

Question

Spark работает быстрее в автономном режиме, чем в YARN

Требуются некоторые идеи по искровому исполнению на отдельных и пряжи. У нас есть 4-узловый кластер Cloudera, и в настоящее время производительность нашего приложения при работе в режиме YARN меньше, чем половина того, что мы получаем при выполнении в автономном режиме. Кто-нибудь имеет представление о факторах, которые могут способствовать этому.

1

performance apache-spark spark-streaming yarn apache-spark-standalone

Источник

user6853837 12 апр '18 в 10:07

1 ответ

Другие вопросы по тегам performance apache-spark spark-streaming yarn apache-spark-standalone

user7852833 13 апр '18 в 18:48 2018-04-13 18:48 · Answer 1 · 2018-04-13 18:48

По сути, ваши данные и кластер слишком малы.

Технологии больших данных действительно предназначены для обработки данных, которые не помещаются в одной системе. Учитывая, что ваш кластер имеет 4 узла, это может быть хорошо для работы с POC, но вы не должны считать это приемлемым для сравнительного анализа вашего приложения.

Чтобы дать вам ориентир, обратитесь к статье Hortonworks BENCHMARK: ВТОРАЯ АНАЛИТИКА С APACHE HIVE И DRUID использует кластер:

10 узлов
2x процессор Intel(R) Xeon(R) E5-2640 v2 @ 2,00 ГГц с 16 процессорами каждый
256 ГБ ОЗУ на узел
6x WDC WD4000FYYZ-0 1K02 4 ТБ дисков SCSI на узел

Это работает до 320 процессорных ядер, 2560 ГБ ОЗУ, 240 ТБ диска.

Еще один эталонный тест из статьи Cloudera Новые эталонные тесты SQL: Apache Impala (инкубационный) Уникально обеспечивает производительность аналитической базы данных, использует кластер из 21 узла, каждый узел которого находится по адресу:

Процессор: 2 разъема, всего 12 ядер, процессор Intel Xeon E5-2630L 0 с частотой 2,00 ГГц
12 дисков по 932 ГБ каждый (один для ОС, остальные для HDFS)
384 ГБ памяти

Это работает с 504 ядрами процессора, 8064 ГБ ОЗУ и 231 ТБ диска.

Это должно дать представление о шкале, которая бы квалифицировала вашу систему как надежную для целей бенчмаркинга.