Как создать таблицу с разделением по датам при использовании задачи загрузки в Google BigQuery?

Question

Как создать таблицу с разделением по датам при использовании задачи загрузки в Google BigQuery?

Может ли кто-нибудь объяснить, как создать таблицу с разделами по датам при использовании loadjob в google Bigquery с помощью JobConfig.

https://cloud.google.com/bigquery/docs/creating-column-partitions

Я не мог понять документацию, если бы кто-то мог объяснить на примере, это было бы очень полезно.

Отредактировано: я подумал, что понял объект благодаря @irvifa, но я все еще не могу создать таблицу TimePartitioned, вот код, который я пытаюсь использовать.

import pandas
from google.cloud import bigquery


def load_df(self, df):
  project_id="ProjectID"
  dataset_id="Dataset"
  table_id="TableName"
  table_ref=project_id+"."+dataset_id+"."+table_id
  time_partitioning = bigquery.table.TimePartitioning(field="PartitionColumn")
  job_config = bigquery.LoadJobConfig(
                         schema="Schema",
                         destinationTable=table_ref
                         write_disposition="WRITE_TRUNCATE",
                         timePartitioning=time_partitioning
                         )
  Job = Client.load_table_from_dataframe(df, table_ref, 
                                         job_config=job_config)
  Job.result()

2

python google-bigquery table-partitioning

Источник

user12560657 10 апр '20 в 04:09

2 ответа

Решение

Спасибо irvifa.

Я пытался загрузить фрейм данных и искал LoadJobConfig, но он был очень похож.

Я бы отправил свой ответ на случай, если кому-то понадобится какой-либо пример для LoadJob.

import pandas
from google.cloud import bigquery


def load_df(self, df):
  project_id="ProjectID"
  dataset_id="Dataset"
  table_id="TableName"
  table_ref=project_id+"."+dataset_id+"."+table_id
  time_partitioning = bigquery.table.TimePartitioning(field="PartitionColumn")
  job_config = bigquery.LoadJobConfig(
                         schema="Schema",
                         write_disposition="WRITE_TRUNCATE",
                         time_partitioning=time_partitioning
                         )
  Job = Client.load_table_from_dataframe(df, table_ref, 
                                         job_config=job_config)
  Job.result()

3

Источник

user12560657 11 апр '20 в 02:32

Другие вопросы по тегам python google-bigquery table-partitioning

user4334376 10 апр '20 в 05:30 2020-04-10 05:30 · Accepted Answer · 2020-04-10 05:30

Не знаю, поможет ли это, но вы можете использовать следующий пример для загрузки задания с разделом:

from datetime import datetime, time
from concurrent import futures
import math
from pathlib import Path
from google.cloud import bigquery

def run_query(self, query_job_config):
  time_partitioning = bigquery.table.TimePartitioning(field="partition_date")
  job_config = bigquery.QueryJobConfig()
  job_config.destination = query_job_config['destination_dataset_table']
  job_config.time_partitioning = time_partitioning
  job_config.use_legacy_sql = False
  job_config.allow_large_results = True
  job_config.write_disposition = 'WRITE_APPEND'
  sql = query_job_config['sql']
  query_job = self.client.query(sql, job_config=job_config)
  query_job.result()