Spark работает быстрее в автономном режиме, чем в YARN
Требуются некоторые идеи по искровому исполнению на отдельных и пряжи. У нас есть 4-узловый кластер Cloudera, и в настоящее время производительность нашего приложения при работе в режиме YARN меньше, чем половина того, что мы получаем при выполнении в автономном режиме. Кто-нибудь имеет представление о факторах, которые могут способствовать этому.
1 ответ
По сути, ваши данные и кластер слишком малы.
Технологии больших данных действительно предназначены для обработки данных, которые не помещаются в одной системе. Учитывая, что ваш кластер имеет 4 узла, это может быть хорошо для работы с POC, но вы не должны считать это приемлемым для сравнительного анализа вашего приложения.
Чтобы дать вам ориентир, обратитесь к статье Hortonworks BENCHMARK: ВТОРАЯ АНАЛИТИКА С APACHE HIVE И DRUID использует кластер:
- 10 узлов
- 2x процессор Intel(R) Xeon(R) E5-2640 v2 @ 2,00 ГГц с 16 процессорами каждый
- 256 ГБ ОЗУ на узел
- 6x WDC WD4000FYYZ-0 1K02 4 ТБ дисков SCSI на узел
Это работает до 320 процессорных ядер, 2560 ГБ ОЗУ, 240 ТБ диска.
Еще один эталонный тест из статьи Cloudera Новые эталонные тесты SQL: Apache Impala (инкубационный) Уникально обеспечивает производительность аналитической базы данных, использует кластер из 21 узла, каждый узел которого находится по адресу:
- Процессор: 2 разъема, всего 12 ядер, процессор Intel Xeon E5-2630L 0 с частотой 2,00 ГГц
- 12 дисков по 932 ГБ каждый (один для ОС, остальные для HDFS)
- 384 ГБ памяти
Это работает с 504 ядрами процессора, 8064 ГБ ОЗУ и 231 ТБ диска.
Это должно дать представление о шкале, которая бы квалифицировала вашу систему как надежную для целей бенчмаркинга.