Должен ли я реализовать org.apache.hadoop.fs.AbstractFileSystem или расширенный org.apache.hadoop.fs.FileSystem? [закрыто]

Мы внедряем клиент Spark для прямого доступа к lakeFS . Это уровень хранения, подобный Git (версионному), поверх какого-либо другого хранилища объектов. Мы хотели бы, чтобы наша файловая система предоставляла Spark (и другим инструментам на основе Hadoop) возможность обрабатывать URL-адреса, такие как lakefs://repo/branch/path/to/object.

Упаковка org.apache.hadoop.fs поставляет оба <tcode id="50357512"></tcode> и старше (ссылки намеренно указывают на документы для более старой версии Hadoop, чтобы включить всех наших пользователей). Есть какие-то рекомендации, которые нужно реализовать?

  1. Есть ли у пользователей Spark какие-либо разумные ожидания от того, что текущий код будет полагаться на возможность создания именно (более старого типа)? В частности, знаете ли вы какой-либо код, основанный на FileSystem?
  2. Является ли реализация любого из этих вариантов значительно более надежной (или простой)?
  3. Может ли один и тот же код поддерживать оба типа (предположительно с разными параметрами конфигурации)?

Спасибо за любые указатели!

0 ответов

Другие вопросы по тегам