Загрузка PetaBytes данных в масштабе
Мне нужно загрузить петабайты текстовых данных в хранилище (RAM/SSD) в течение секунды.
Ниже приведены некоторые вопросы для решения вышеуказанной проблемы.
1) Практически / теоретически возможно загружать петабайты данных в секунду? 2) Какой будет наилучший подход к проектированию для быстрой загрузки данных в масштабе петабайта за доли секунды. 3) Доступен ли какой-либо подход?
Я могу применять любые технологии, такие как Hadoop, Spark, HPCC и т. Д.
3 ответа
"петабайт.... в течение секунды". шутки в сторону? Пожалуйста, проверьте википедию Petabyte: это 1.000.000 ГБ!
Также проверьте википедию Пропускная способность памяти. Даже самая быстрая оперативная память не может обрабатывать более нескольких 10 ГБ / с (на практике это намного ниже).
Просто любопытно: каков ваш вариант использования?
Нет, в настоящее время это технически невозможно. Даже оперативная память не является достаточно быстрой (не говоря уже об очевидных ограничениях емкости). Самые быстрые SSD-диски (M.2), скорость записи которых составляет около 1,2 ГБ / с, а при использовании raid 0 вы можете достичь скорости всего около 3 ГБ / с максимум. Есть и экономические ограничения, так как сами эти диски довольно дороги.
Поэтому, чтобы ответить на ваш вопрос, эти скорости технически невозможны в настоящее время.
С точки зрения HPCC...
Thor предназначен для загрузки данных и поддержки нескольких серверов. Однако самый большой кластер, о котором я слышал, - это около 4000 серверов. Thor предназначен для загрузки большого количества данных в течение длительного времени (даже недели).
С другой стороны, Roxie предназначена для быстрого обслуживания данных, но это не то, о чем вы просите... и при этом не может обслуживать петабайты за секунду.