Spark2 Datetime поиск эффективной структуры данных

Question

Spark2 Datetime поиск эффективной структуры данных

У меня есть приложение Spark с записями, которые содержат следующую информацию:

Hash - некоторый уникальный идентификатор для элемента
Местоположение - местоположение объекта
От - Дата, когда предмет был впервые замечен в местоположении.
To - Null, если он все еще там, или дата, если предмет перестал быть на месте

Мне нужно только задать один вопрос:

Где был элемент X в дату Y

Каков наиболее эффективный способ индексации этой информации для очень быстрого поиска? Допустим, у меня есть десятки миллиардов записей в день, которые содержат хэши элементов, и мне нужно обогатить эти записи их местоположениями.

Мой упрощенный подход заключается в том, чтобы хранить записи, как указано выше, с разделением по хэшам (хотя их, вероятно, около 10 миллионов) и подключаться к моему большему источнику данных, где хэш-код совпадает, а где дата> От и дата <До. Это сравнение дат, хотя кажется, что оно должно иметь лучшее решение.

Любые предложения о том, как эти данные могут быть сохранены более эффективным способом?

2

apache-spark spark-streaming apache-spark-2.1.1

Источник

user1475461 27 авг '18 в 20:12

0 ответов

Другие вопросы по тегам apache-spark spark-streaming apache-spark-2.1.1