Обновление материализованного представления одновременно вызывает раздувание таблицы
В PostgreSQL 9.5 я решил создать материализованное представление "эффекты" и запланировал ежечасное одновременное обновление, так как я хотел, чтобы оно всегда было доступно:
REFRESH MATERIALIZED VIEW CONCURRENTLY effects;
В начале все работало хорошо, мое материализованное представление обновлялось, а использование дискового пространства оставалось более или менее постоянным.
Проблема
Однако через некоторое время использование диска стало линейно расти.
Я пришел к выводу, что причиной этого роста является материализованное представление, и выполнил запрос из этого ответа, чтобы получить следующий результат:
what | bytes/ct | bytes_pretty | bytes_per_row
-----------------------------------+-------------+--------------+---------------
core_relation_size | 32224567296 | 30 GB | 21140
visibility_map | 991232 | 968 kB | 0
free_space_map | 7938048 | 7752 kB | 5
table_size_incl_toast | 32233504768 | 30 GB | 21146
indexes_size | 22975922176 | 21 GB | 15073
total_size_incl_toast_and_indexes | 55209426944 | 51 GB | 36220
live_rows_in_text_representation | 316152215 | 302 MB | 207
------------------------------ | | |
row_count | 1524278 | |
live_tuples | 676439 | |
dead_tuples | 1524208 | |
(11 rows)
Затем я обнаружил, что в последний раз эта таблица была автоматически очищена два дня назад, с помощью команды:
SELECT relname, n_dead_tup, last_vacuum, last_autovacuum FROM pg_stat_user_tables ORDER BY n_dead_tup desc;
Я решил вручную позвонить vacuum (VERBOSE) effects
, Он работал около получаса и выдает следующий результат:
vacuum (VERBOSE) effects;
INFO: vacuuming "public.effects"
INFO: scanned index "effects_idx" to remove 129523454 row versions
DETAIL: CPU 12.16s/55.76u sec elapsed 119.87 sec
INFO: scanned index "effects_campaign_created_idx" to remove 129523454 row versions
DETAIL: CPU 19.11s/154.59u sec elapsed 337.91 sec
INFO: scanned index "effects_campaign_name_idx" to remove 129523454 row versions
DETAIL: CPU 28.51s/151.16u sec elapsed 315.51 sec
INFO: scanned index "effects_campaign_event_type_idx" to remove 129523454 row versions
DETAIL: CPU 38.60s/373.59u sec elapsed 601.73 sec
INFO: "effects": removed 129523454 row versions in 3865537 pages
DETAIL: CPU 59.02s/36.48u sec elapsed 326.43 sec
INFO: index "effects_idx" now contains 1524208 row versions in 472258 pages
DETAIL: 113679000 index row versions were removed.
463896 index pages have been deleted, 60386 are currently reusable.
CPU 0.00s/0.00u sec elapsed 0.01 sec.
INFO: index "effects_campaign_created_idx" now contains 1524208 row versions in 664910 pages
DETAIL: 121637488 index row versions were removed.
41014 index pages have been deleted, 0 are currently reusable.
CPU 0.00s/0.00u sec elapsed 0.00 sec.
INFO: index "effects_campaign_name_idx" now contains 1524208 row versions in 711391 pages
DETAIL: 125650677 index row versions were removed.
696221 index pages have been deleted, 28150 are currently reusable.
CPU 0.00s/0.00u sec elapsed 0.00 sec.
INFO: index "effects_campaign_event_type_idx" now contains 1524208 row versions in 956018 pages
DETAIL: 127659042 index row versions were removed.
934288 index pages have been deleted, 32105 are currently reusable.
CPU 0.00s/0.00u sec elapsed 0.00 sec.
INFO: "effects": found 0 removable, 493 nonremovable row versions in 3880239 out of 3933663 pages
DETAIL: 0 dead row versions cannot be removed yet.
There were 666922 unused item pointers.
Skipped 0 pages due to buffer pins.
0 pages are entirely empty.
CPU 180.49s/788.60u sec elapsed 1799.42 sec.
INFO: vacuuming "pg_toast.pg_toast_1371723"
INFO: index "pg_toast_1371723_index" now contains 0 row versions in 1 pages
DETAIL: 0 index row versions were removed.
0 index pages have been deleted, 0 are currently reusable.
CPU 0.00s/0.00u sec elapsed 0.00 sec.
INFO: "pg_toast_1371723": found 0 removable, 0 nonremovable row versions in 0 out of 0 pages
DETAIL: 0 dead row versions cannot be removed yet.
There were 0 unused item pointers.
Skipped 0 pages due to buffer pins.
0 pages are entirely empty.
CPU 0.00s/0.00u sec elapsed 0.00 sec.
VACUUM
В этот момент я подумал, что проблема решена, и начал думать, что может помешать автовакууму. Чтобы быть уверенным, я снова запустил запрос, чтобы найти использование пространства этой таблицей, и, к моему удивлению, он не изменился.
Только после того как я позвонил REFRESH MATERIALIZED VIEW effects;
не одновременно. Только теперь результат запроса для проверки размера таблицы был:
what | bytes/ct | bytes_pretty | bytes_per_row
-----------------------------------+-----------+--------------+---------------
core_relation_size | 374005760 | 357 MB | 245
visibility_map | 0 | 0 bytes | 0
free_space_map | 0 | 0 bytes | 0
table_size_incl_toast | 374013952 | 357 MB | 245
indexes_size | 213843968 | 204 MB | 140
total_size_incl_toast_and_indexes | 587857920 | 561 MB | 385
live_rows_in_text_representation | 316175512 | 302 MB | 207
------------------------------ | | |
row_count | 1524385 | |
live_tuples | 676439 | |
dead_tuples | 1524208 | |
(11 rows)
И все вернулось на круги своя...
Вопросы
Проблема решена, но все еще много путаницы
- Может ли кто-нибудь объяснить, с чем я столкнулся?
- Как я мог избежать этого в будущем?
1 ответ
Во-первых, давайте объясним, наворот
REFRESH MATERIALIZED CONCURRENTLY
реализуется в src/backend/commands/matview.c
и комментарий поучителен:
/*
* refresh_by_match_merge
*
* Refresh a materialized view with transactional semantics, while allowing
* concurrent reads.
*
* This is called after a new version of the data has been created in a
* temporary table. It performs a full outer join against the old version of
* the data, producing "diff" results. This join cannot work if there are any
* duplicated rows in either the old or new versions, in the sense that every
* column would compare as equal between the two rows. It does work correctly
* in the face of rows which have at least one NULL value, with all non-NULL
* columns equal. The behavior of NULLs on equality tests and on UNIQUE
* indexes turns out to be quite convenient here; the tests we need to make
* are consistent with default behavior. If there is at least one UNIQUE
* index on the materialized view, we have exactly the guarantee we need.
*
* The temporary table used to hold the diff results contains just the TID of
* the old record (if matched) and the ROW from the new table as a single
* column of complex record type (if matched).
*
* Once we have the diff table, we perform set-based DELETE and INSERT
* operations against the materialized view, and discard both temporary
* tables.
*
* Everything from the generation of the new data to applying the differences
* takes place under cover of an ExclusiveLock, since it seems as though we
* would want to prohibit not only concurrent REFRESH operations, but also
* incremental maintenance. It also doesn't seem reasonable or safe to allow
* SELECT FOR UPDATE or SELECT FOR SHARE on rows being updated or deleted by
* this command.
*/
Таким образом, материализованное представление обновляется путем удаления строк и добавления новых из временной таблицы. Это, конечно, может привести к мертвым кортежам и раздутию таблицы, что подтверждается вашими VACUUM (VERBOSE)
выход.
В некотором смысле, это цена, за которую вы платите CONCURRENTLY
,
Во-вторых, давайте развенчаем миф о том, что VACUUM
не может удалить мертвые кортежи
VACUUM
удалит мертвые строки, но это не может уменьшить раздувание (это может быть сделано с VACUUM (FULL)
, но это заблокирует вид так же, как REFRESH MATERIALIZED VIEW
без CONCURRENTLY
).
Я подозреваю, что запрос, который вы используете для определения количества мертвых кортежей, является лишь оценкой, которая неправильно определяет количество мертвых кортежей.
Пример, который демонстрирует все это
CREATE TABLE tab AS SELECT id, 'row ' || id AS val FROM generate_series(1, 100000) AS id;
-- make sure autovacuum doesn't spoil our demonstration
CREATE MATERIALIZED VIEW tab_v WITH (autovacuum_enabled = off)
AS SELECT * FROM tab;
-- required for CONCURRENTLY
CREATE UNIQUE INDEX ON tab_v (id);
Использовать pgstattuple
расширение для точного измерения раздувания таблицы:
CREATE EXTENSION pgstattuple;
SELECT * FROM pgstattuple('tab_v');
-[ RECORD 1 ]------+--------
table_len | 4431872
tuple_count | 100000
tuple_len | 3788895
tuple_percent | 85.49
dead_tuple_count | 0
dead_tuple_len | 0
dead_tuple_percent | 0
free_space | 16724
free_percent | 0.38
Теперь давайте удалим несколько строк в таблице, обновим и измерим снова:
DELETE FROM tab WHERE id BETWEEN 40001 AND 80000;
REFRESH MATERIALIZED VIEW CONCURRENTLY tab_v;
SELECT * FROM pgstattuple('tab_v');
-[ RECORD 1 ]------+--------
table_len | 4431872
tuple_count | 60000
tuple_len | 2268895
tuple_percent | 51.19
dead_tuple_count | 40000
dead_tuple_len | 1520000
dead_tuple_percent | 34.3
free_space | 16724
free_percent | 0.38
Много мертвых кортежей. VACUUM
избавляется от них:
VACUUM tab_v;
SELECT * FROM pgstattuple('tab_v');
-[ RECORD 1 ]------+--------
table_len | 4431872
tuple_count | 60000
tuple_len | 2268895
tuple_percent | 51.19
dead_tuple_count | 0
dead_tuple_len | 0
dead_tuple_percent | 0
free_space | 1616724
free_percent | 36.48
Мертвые кортежи исчезли, но теперь там много пустого пространства.
Я добавляю в @Laurenz Albe полный ответ, указанный выше. Есть еще одна возможность вздутия живота. Рассмотрим следующий сценарий:
У вас есть представление, которое в большинстве случаев изменяется редко (1000000 записей, 100 записей изменяется на запрос), но при этом вы все равно получаете 500000 мертвых кортежей. Причина этого может быть нулевым в столбце индекса.
Как описано в ответе выше, когда представления материализовались одновременно, копия воссоздается и сравнивается. При сравнении используется обязательный уникальный индекс, но как насчет нулей? нули никогда не равны друг другу в sql. Поэтому, если первичный ключ разрешает нули, записи, которые включают нули, даже если они не были изменены, всегда будут воссозданы и добавлены в таблицу.
Чтобы исправить это, что вы можете сделать, чтобы удалить раздувание, - это добавить дополнительный столбец, который объединит нулевой столбец с некоторым никогда не используемым значением (-1, to_timestamp(0), ...) и использовать этот столбец только для основного индекс