Apache Drill - запрос HDFS и SQL
Я пытаюсь изучить Apache Drill. Я не аналитик данных, а просто парень из службы поддержки. Я вижу, что документация по Apache Drill слишком ограничена
Мне нужны некоторые сведения о пользовательском хранилище данных, которое можно использовать с Apache Drill
- Можно ли запрашивать HDFS без Hive, используя Apache Drill, как это делают dfs
- Можно ли запросить СУБД старости, как MySQL и Microsoft SQL
заранее спасибо
Обновить:
Моя защита хранилища HDFS говорит об ошибке (неверное сопоставление JSON)
{
"type":"file",
"enabled":true,
"connection":"hdfs:///",
"workspaces":{
"root":{
"location":"/",
"writable":true,
"storageformat":"null"
}
}
}
Если я заменю hdfs:///
с file:///
Кажется, принять это.
Я скопировал все файлы библиотеки из папки
<drill-path>/jars/3rdparty to <drill-path>/jars/
Не могу заставить его работать. Пожалуйста помоги. Я вовсе не разработчик, я парень из инфраструктуры.
заранее спасибо
2 ответа
- Да.
Детализация непосредственно распознает схему файла на основе метаданных. Ссылка для получения дополнительной информации -
https://cwiki.apache.org/confluence/display/DRILL/Connecting+to+Data+Sources
- Еще нет.
Хотя есть драйвер MapR, который позволяет вам достичь того же, но он по сути не поддерживается в Drill сейчас. Было несколько дискуссий по этому поводу, и это может произойти в ближайшее время.
ДА, возможно, что тренировка может взаимодействовать как с системой Hadoop, так и с системами RDBMS. Фактически у вас могут быть запросы, соединяющие обе системы.
Плагин для хранения HDFS может быть следующим:
{
"type": "file",
"enabled": true,
"connection": "hdfs://xxx.xxx.xxx.xxx:8020/",
"workspaces": {
"root": {
"location": "/user/cloudera",
"writable": true,
"defaultInputFormat": null
},
"tmp": {
"location": "/tmp",
"writable": true,
"defaultInputFormat": null
}
},
"formats": {
"parquet": {
"type": "parquet"
},
"psv": {
"type": "text",
"extensions": [
"tbl"
],
"delimiter": "|"
},
"csv": {
"type": "text",
"extensions": [
"csv"
],
"delimiter": ","
},
"tsv": {
"type": "text",
"extensions": [
"tsv"
],
"delimiter": "\t"
},
"json": {
"type": "json"
}
}
}
URL-адресом подключения будет ваш URL-адрес mapR / Coudera с номером порта 8020 по умолчанию. Вы должны быть в состоянии определить это в конфигурации Hadoop в вашей системе с помощью ключа конфигурации: "fs_defaultfs"