Postgres 9.6 выбирает неверный план запросов после миграции в базу данных под большой нагрузкой

Мы выполняем миграцию очень часто, и то, что начиналось как обычные миграции, заставило Postgres выбрать плохой план запросов, который вызвал очень медленные запросы. Запросы были настолько плохими, что в конечном итоге вырубили наш сайт.

Миграция удалила нулевое ограничение для существующей таблицы. В этом примере он удалял нулевое ограничение на items.store_id,

Индексы на items Таблица:

CREATE INDEX index_items_store_id ON public.items USING btree (store_id)
CREATE INDEX index_items_on_department_id ON public.items USING btree (department_id)
CREATE INDEX index_items_on_deleted_at ON public.items USING btree (deleted_at)
CREATE UNIQUE INDEX items_pkey ON public.items USING btree (id)

Пример запроса:

SELECT "stores".*
  FROM "stores"
 WHERE "stores"."organization_id" = 1337
   AND "stores"."store_status_id" = 1
   AND (EXISTS (SELECT "items".*
                  FROM "items"
                 INNER JOIN "departments"
                    ON "departments"."id" = "items"."department_id"
                 WHERE "items"."deleted_at" IS NULL
                   AND ("items"."department_id" IS NOT NULL)
                   AND (items.store_id = stores.id)
                   AND "items"."job_application_status_id" = 3
                   AND "departments"."department_status_id" = 3));

Плохой план запроса:

Nested Loop  (cost=216890.17..217379.24 rows=192 width=1236)
   ->  HashAggregate  (cost=216889.74..216891.74 rows=200 width=4)
         Group Key: items.store_id
         ->  Merge Join  (cost=2.13..216769.74 rows=48000 width=4)
               Merge Cond: (departments.id = items.department_id)
               ->  Index Scan using departments_pkey on departments  (cost=0.41..10394.19 rows=8925 width=4)
                     Filter: (department_status_id = 3)
               ->  Index Scan using index_items_on_department_id on items  (cost=0.55..309417.94 rows=8 8783 width=8)
                     Index Cond: (department_id IS NOT NULL)
                     Filter: ((deleted_at IS NULL) AND (job_application_status_id = 3))
   ->  Index Scan using stores_pkey on stores  (cost=0.42..2.43 rows=1 width=1236)
         Index Cond: (id = items.store_id)
         Filter: ((organization_id = 1337) AND (store_status_id = 1))

Хороший план запроса:

Nested Loop Semi Join  (cost=1.26..4566.90 rows=21 width=1236)
   ->  Index Scan using index_stores_on_organization_id on stores  (cost=0.42..2236.83 rows=385 width=1236)
         Index Cond: (organization_id = 1337)
         Filter: (store_status_id = 1)
   ->  Nested Loop  (cost=0.84..6.04 rows=1 width=4)
         ->  Index Scan using index_gh_job_app_store_id on items  (cost=0.43..5.46 rows=1 width=8)
               Index Cond: (store_id = stores.id)
               Filter: ((deleted_at IS NULL) AND (department_id IS NOT NULL) AND (job_application_status_id = 3))
         ->  Index Scan using departments_pkey on departments  (cost=0.41..0.57 rows=1 width=4)
               Index Cond: (id = items.department_id)
               Filter: (department_status_id = 3)

После выполнения ANALYZE на items Стол, Postgres выбрал хороший планировщик запросов, и все снова было хорошо. Мы попытались воспроизвести эту миграцию локально и в других промежуточных средах и не смогли воспроизвести. Мы также делали этот тип миграций раньше много раз и никогда не сталкивались с подобными проблемами. Мы подозреваем, что это связано с количеством запросов, которые эта таблица получает в любой момент времени, поэтому ее сложно воспроизвести.

Но у нас нет большого опыта в том, как Postgres выбирает лучший планировщик запросов и как мы можем избежать этого в будущем. Если у кого-то есть идеи о том, почему это произошло или как этого избежать, это будет с благодарностью.

0 ответов

Другие вопросы по тегам