Использование ignoreUnknownValues из коннектора Hadoop BigQuery
Я передаю неструктурированные данные о событиях через Hadoop и хочу поместить их в BigQuery. У меня есть схема, которая включает в себя большинство полей, но есть некоторые поля, которые я хочу игнорировать или о которых не знаю.
BigQuery имеет поле конфигурации под названием ignoreUnknownValues, но я не могу понять, как включить его из коннектора Hadoop. Это возможно?
1 ответ
К сожалению, разъем BigQuery для Hadoop в настоящее время не поддерживает это; мы обязательно добавим более гибкие настройки конфигурации в следующем выпуске и прямую поддержку для известных параметров конфигурации, таких как ignoreUnknownValues
, В то же время, если вы готовы к сборке из исходного кода, вы сможете добавить после строки 317 BigQueryRecordWriter.java:
loadConfig.setIgnoreUnknownValues(true);
Тогда ты просто mvn -Phadoop1 package
или же mvn -Phadoop2 package
и загрузите свой нестандартный JAR-файл коннектора BigQuery в какое-то место в GCS, и, наконец, измените BIGQUERY_CONNECTOR_JAR
в вашем bdutil_env.sh
указать на свой пользовательский файл Jar перед повторным развертыванием.