Использование ignoreUnknownValues ​​из коннектора Hadoop BigQuery

Я передаю неструктурированные данные о событиях через Hadoop и хочу поместить их в BigQuery. У меня есть схема, которая включает в себя большинство полей, но есть некоторые поля, которые я хочу игнорировать или о которых не знаю.

BigQuery имеет поле конфигурации под названием ignoreUnknownValues, но я не могу понять, как включить его из коннектора Hadoop. Это возможно?

1 ответ

Решение

К сожалению, разъем BigQuery для Hadoop в настоящее время не поддерживает это; мы обязательно добавим более гибкие настройки конфигурации в следующем выпуске и прямую поддержку для известных параметров конфигурации, таких как ignoreUnknownValues, В то же время, если вы готовы к сборке из исходного кода, вы сможете добавить после строки 317 BigQueryRecordWriter.java:

loadConfig.setIgnoreUnknownValues(true);

Тогда ты просто mvn -Phadoop1 package или же mvn -Phadoop2 package и загрузите свой нестандартный JAR-файл коннектора BigQuery в какое-то место в GCS, и, наконец, измените BIGQUERY_CONNECTOR_JAR в вашем bdutil_env.sh указать на свой пользовательский файл Jar перед повторным развертыванием.

Другие вопросы по тегам