Должен ли я реализовать org.apache.hadoop.fs.AbstractFileSystem или расширенный org.apache.hadoop.fs.FileSystem? [закрыто]
Мы внедряем клиент Spark для прямого доступа к lakeFS . Это уровень хранения, подобный Git (версионному), поверх какого-либо другого хранилища объектов. Мы хотели бы, чтобы наша файловая система предоставляла Spark (и другим инструментам на основе Hadoop) возможность обрабатывать URL-адреса, такие как
lakefs://repo/branch/path/to/object
.
Упаковка
org.apache.hadoop.fs
поставляет оба
<tcode id="50357512"></tcode> и старше (ссылки намеренно указывают на документы для более старой версии Hadoop, чтобы включить всех наших пользователей). Есть какие-то рекомендации, которые нужно реализовать?
- Есть ли у пользователей Spark какие-либо разумные ожидания от того, что текущий код будет полагаться на возможность создания именно (более старого типа)? В частности, знаете ли вы какой-либо код, основанный на
FileSystem
? - Является ли реализация любого из этих вариантов значительно более надежной (или простой)?
- Может ли один и тот же код поддерживать оба типа (предположительно с разными параметрами конфигурации)?
Спасибо за любые указатели!