Вставка данных Google Analytics в S3 или Redshift

Я ищу варианты для ввода данных Google Analytics (в том числе исторических данных) в Redshift. Любые предложения, касающиеся инструментов, API приветствуются. Я искал в Интернете и обнаружил, что Stitch является одним из инструментов ETL, помогите мне лучше узнать об этой опции и других опциях, если у вас есть.

4 ответа

Решение

У Google Analytics есть API ( Базовый API отчетности). Это хорошо для получения случайных KPI, но из-за ограничений API не подходит для экспорта больших объемов исторических данных.

Для больших дампов данных лучше использовать ссылку на BigQuery ("Ссылка", потому что я хочу избежать слова "интеграция", которое подразумевает более высокий уровень контроля, чем вы на самом деле).

Настроить ссылку на BigQuery довольно просто - вы создаете проект в Google Cloud Console, включаете биллинг (BigQuery предоставляется за плату, он не входит в контракт GA360), добавляете свой адрес электронной почты в качестве владельца BigQuery в "IAM&Admin" перейдите в свою учетную запись GA и введите идентификатор проекта BigQuery в разделе "Администратор GA", "Настройки свойств / Связывание продуктов / Все продукты / Ссылка BigQuery". Процесс описан здесь: https://support.google.com/analytics/answer/3416092

Вы можете выбирать между стандартными обновлениями и обновлением потоковой передачи - последнее поставляется за дополнительную плату, но дает вам данные почти в реальном времени. Первый обновляет данные в BigQuery три раза в день каждые восемь часов.

Экспортированные данные не являются необработанными данными, они уже сессионные (т. Е. В то время как вы получите одну строку для каждого попадания, например, атрибуция трафика для этого попадания будет основана на сеансе).

Вы будете платить три различных вида сборов - один за экспорт в BigQuery, один за хранение и один за фактические запросы. Цены указаны здесь: https://cloud.google.com/bigquery/pricing.

Цены зависят от региона, между прочим. Регион, в котором хранятся данные, также может быть важен, когда речь идет о юридических вопросах - например, если вы должны соблюдать GDPR, ваши данные должны храниться в ЕС. Убедитесь, что вы правильно выбрали регион, потому что перемещение данных между регионами громоздко (вам нужно экспортировать таблицы в хранилище Google Cloud и повторно импортировать их в нужный регион) и довольно дорого.

Вы не можете просто удалить данные и выполнить новый экспорт - при первом экспорте BigQuery будет заполнять данные за последние 13 месяцев, однако это будет происходить только один раз для каждого просмотра. Так что, если вам нужны исторические данные, лучше поймите это правильно, потому что, если вы удалите данные в BQ, вы не получите их обратно.

На самом деле я мало что знаю о Redshift, но согласно вашему комментарию вы хотите отобразить данные в Tableau, и Tableau напрямую подключается к BigQuery.

Мы используем пользовательские SQL-запросы для передачи данных в Tableau (данные Google Analytics хранятся в ежедневных таблицах, а пользовательский SQL представляется наиболее простым способом запроса данных по многим таблицам). BigQuery имеет пользовательский кэш, который длится 24 часа, пока запрос не изменяется, поэтому вы не будете платить за запрос каждый раз, когда открывается отчет. Это все еще хорошая идея, чтобы следить за затратами - стоимость основана не на размере результата, а на количестве данных, которые нужно искать, чтобы получить желаемый результат, поэтому, если вы запрашиваете в течение длительного периода времени и, возможно, сделать несколько объединений, один запрос может стоить десятки евро (умножить на количество пользователей, использующих запрос).

Другой вариант - использовать собственную спецификацию Stitch singing.io и связанные с ней пакеты с открытым исходным кодом:

То, как вы их используете, - это передача данных из другого канала:

      tap-google-analytics -c ga.json | target-redshift -c redshift.json

https://www.scitylana.com/ has a service that can deliver Google Analytics Free data to S3. You can get 3 years or more.

The extraction is done through the API. The schema is hit level and has 100+ dimensions/metrics. Depending on the amount of data in your view, I think this could be done with GA360 too.

Мне нравится инструмент Skyvia: https://skyvia.com/data-integration/integrate-google-analytics-redshift . Он не требует кодирования. С помощью Skyvia я могу создать копию данных отчета Google Analytics в Amazon Redshift и поддерживать ее в актуальном состоянии практически без усилий по настройке. Мне даже не нужно готовить схему — Skyvia может автоматически создать таблицу для данных отчета. Вы можете бесплатно загружать 10000 записей в месяц — мне этого достаточно.