Spark2 Datetime поиск эффективной структуры данных
У меня есть приложение Spark с записями, которые содержат следующую информацию:
- Hash - некоторый уникальный идентификатор для элемента
- Местоположение - местоположение объекта
- От - Дата, когда предмет был впервые замечен в местоположении.
- To - Null, если он все еще там, или дата, если предмет перестал быть на месте
Мне нужно только задать один вопрос:
Где был элемент X в дату Y
Каков наиболее эффективный способ индексации этой информации для очень быстрого поиска? Допустим, у меня есть десятки миллиардов записей в день, которые содержат хэши элементов, и мне нужно обогатить эти записи их местоположениями.
Мой упрощенный подход заключается в том, чтобы хранить записи, как указано выше, с разделением по хэшам (хотя их, вероятно, около 10 миллионов) и подключаться к моему большему источнику данных, где хэш-код совпадает, а где дата> От и дата <До. Это сравнение дат, хотя кажется, что оно должно иметь лучшее решение.
Любые предложения о том, как эти данные могут быть сохранены более эффективным способом?