Apache Drill - запрос HDFS и SQL

Я пытаюсь изучить Apache Drill. Я не аналитик данных, а просто парень из службы поддержки. Я вижу, что документация по Apache Drill слишком ограничена

Мне нужны некоторые сведения о пользовательском хранилище данных, которое можно использовать с Apache Drill

  1. Можно ли запрашивать HDFS без Hive, используя Apache Drill, как это делают dfs
  2. Можно ли запросить СУБД старости, как MySQL и Microsoft SQL

заранее спасибо

Обновить:

Моя защита хранилища HDFS говорит об ошибке (неверное сопоставление JSON)

{  
  "type":"file",
  "enabled":true,
  "connection":"hdfs:///",
  "workspaces":{  
    "root":{  
      "location":"/",
      "writable":true,
      "storageformat":"null"
    }
  }
}

Если я заменю hdfs:/// с file:///Кажется, принять это.

Я скопировал все файлы библиотеки из папки

<drill-path>/jars/3rdparty to <drill-path>/jars/

Не могу заставить его работать. Пожалуйста помоги. Я вовсе не разработчик, я парень из инфраструктуры.

заранее спасибо

2 ответа

  1. Да.

Детализация непосредственно распознает схему файла на основе метаданных. Ссылка для получения дополнительной информации -

https://cwiki.apache.org/confluence/display/DRILL/Connecting+to+Data+Sources

  1. Еще нет.

Хотя есть драйвер MapR, который позволяет вам достичь того же, но он по сути не поддерживается в Drill сейчас. Было несколько дискуссий по этому поводу, и это может произойти в ближайшее время.

ДА, возможно, что тренировка может взаимодействовать как с системой Hadoop, так и с системами RDBMS. Фактически у вас могут быть запросы, соединяющие обе системы.

Плагин для хранения HDFS может быть следующим:

{
  "type": "file",
  "enabled": true,
  "connection": "hdfs://xxx.xxx.xxx.xxx:8020/",
  "workspaces": {
    "root": {
      "location": "/user/cloudera",
      "writable": true,
      "defaultInputFormat": null
    },
    "tmp": {
      "location": "/tmp",
      "writable": true,
      "defaultInputFormat": null
    }
  },
  "formats": {
    "parquet": {
      "type": "parquet"
    },
    "psv": {
      "type": "text",
      "extensions": [
        "tbl"
      ],
      "delimiter": "|"
    },
    "csv": {
      "type": "text",
      "extensions": [
        "csv"
      ],
      "delimiter": ","
    },
    "tsv": {
      "type": "text",
      "extensions": [
        "tsv"
      ],
      "delimiter": "\t"
    },
    "json": {
      "type": "json"
    }
  }
}

URL-адресом подключения будет ваш URL-адрес mapR / Coudera с номером порта 8020 по умолчанию. Вы должны быть в состоянии определить это в конфигурации Hadoop в вашей системе с помощью ключа конфигурации: "fs_defaultfs"

Другие вопросы по тегам