Загрузка PetaBytes данных в масштабе

Мне нужно загрузить петабайты текстовых данных в хранилище (RAM/SSD) в течение секунды.

Ниже приведены некоторые вопросы для решения вышеуказанной проблемы.

1) Практически / теоретически возможно загружать петабайты данных в секунду? 2) Какой будет наилучший подход к проектированию для быстрой загрузки данных в масштабе петабайта за доли секунды. 3) Доступен ли какой-либо подход?

Я могу применять любые технологии, такие как Hadoop, Spark, HPCC и т. Д.

3 ответа

"петабайт.... в течение секунды". шутки в сторону? Пожалуйста, проверьте википедию Petabyte: это 1.000.000 ГБ!

Также проверьте википедию Пропускная способность памяти. Даже самая быстрая оперативная память не может обрабатывать более нескольких 10 ГБ / с (на практике это намного ниже).

Просто любопытно: каков ваш вариант использования?

Нет, в настоящее время это технически невозможно. Даже оперативная память не является достаточно быстрой (не говоря уже об очевидных ограничениях емкости). Самые быстрые SSD-диски (M.2), скорость записи которых составляет около 1,2 ГБ / с, а при использовании raid 0 вы можете достичь скорости всего около 3 ГБ / с максимум. Есть и экономические ограничения, так как сами эти диски довольно дороги.
Поэтому, чтобы ответить на ваш вопрос, эти скорости технически невозможны в настоящее время.

С точки зрения HPCC...

Thor предназначен для загрузки данных и поддержки нескольких серверов. Однако самый большой кластер, о котором я слышал, - это около 4000 серверов. Thor предназначен для загрузки большого количества данных в течение длительного времени (даже недели).

С другой стороны, Roxie предназначена для быстрого обслуживания данных, но это не то, о чем вы просите... и при этом не может обслуживать петабайты за секунду.

Другие вопросы по тегам