Spark2 Datetime поиск эффективной структуры данных

У меня есть приложение Spark с записями, которые содержат следующую информацию:

  • Hash - некоторый уникальный идентификатор для элемента
  • Местоположение - местоположение объекта
  • От - Дата, когда предмет был впервые замечен в местоположении.
  • To - Null, если он все еще там, или дата, если предмет перестал быть на месте

Мне нужно только задать один вопрос:

Где был элемент X в дату Y

Каков наиболее эффективный способ индексации этой информации для очень быстрого поиска? Допустим, у меня есть десятки миллиардов записей в день, которые содержат хэши элементов, и мне нужно обогатить эти записи их местоположениями.

Мой упрощенный подход заключается в том, чтобы хранить записи, как указано выше, с разделением по хэшам (хотя их, вероятно, около 10 миллионов) и подключаться к моему большему источнику данных, где хэш-код совпадает, а где дата> От и дата <До. Это сравнение дат, хотя кажется, что оно должно иметь лучшее решение.

Любые предложения о том, как эти данные могут быть сохранены более эффективным способом?

0 ответов

Другие вопросы по тегам