Загрузка PetaBytes данных в масштабе

Question

Загрузка PetaBytes данных в масштабе

Мне нужно загрузить петабайты текстовых данных в хранилище (RAM/SSD) в течение секунды.

Ниже приведены некоторые вопросы для решения вышеуказанной проблемы.

1) Практически / теоретически возможно загружать петабайты данных в секунду? 2) Какой будет наилучший подход к проектированию для быстрой загрузки данных в масштабе петабайта за доли секунды. 3) Доступен ли какой-либо подход?

Я могу применять любые технологии, такие как Hadoop, Spark, HPCC и т. Д.

-1

performance apache-spark hadoop bigdata hpcc

Источник

user2264383 09 дек '16 в 07:00

3 ответа

Другие вопросы по тегам performance apache-spark hadoop bigdata hpcc

user868941 09 дек '16 в 07:11 2016-12-09 07:11 · Answer 1 · 2016-12-09 07:11

"петабайт.... в течение секунды". шутки в сторону? Пожалуйста, проверьте википедию Petabyte: это 1.000.000 ГБ!

Также проверьте википедию Пропускная способность памяти. Даже самая быстрая оперативная память не может обрабатывать более нескольких 10 ГБ / с (на практике это намного ниже).

Просто любопытно: каков ваш вариант использования?

user4561194 09 дек '16 в 07:23 2016-12-09 07:23 · Answer 2 · 2016-12-09 07:23

Нет, в настоящее время это технически невозможно. Даже оперативная память не является достаточно быстрой (не говоря уже об очевидных ограничениях емкости). Самые быстрые SSD-диски (M.2), скорость записи которых составляет около 1,2 ГБ / с, а при использовании raid 0 вы можете достичь скорости всего около 3 ГБ / с максимум. Есть и экономические ограничения, так как сами эти диски довольно дороги.
Поэтому, чтобы ответить на ваш вопрос, эти скорости технически невозможны в настоящее время.

user90608 11 сен '17 в 15:52 2017-09-11 15:52 · Answer 3 · 2017-09-11 15:52

С точки зрения HPCC...

Thor предназначен для загрузки данных и поддержки нескольких серверов. Однако самый большой кластер, о котором я слышал, - это около 4000 серверов. Thor предназначен для загрузки большого количества данных в течение длительного времени (даже недели).

С другой стороны, Roxie предназначена для быстрого обслуживания данных, но это не то, о чем вы просите... и при этом не может обслуживать петабайты за секунду.