Обучение под надзором или усиленное обучение для оптимизации работы авиалиний?
Я аспирант и начинаю с моей степени магистра. тезис о сбое авиакомпании.
Короче говоря: когда в расписании полетов возникают сбои (например, из-за поломки самолета или закрытия аэропорта из-за погоды), возникает вопрос оптимизации: "Как мы можем исправить расписание с помощью ресурсов, которые у нас есть в короткий промежуток времени, пока минимизация стоимости ". Текущая литература решает эту проблему с помощью эвристики и / или методологии точного решения. Проблема заключается в том, что для такой крупной авиакомпании, как Delta, эти методологии часто занимают слишком много времени (>30 минут).
В моей диссертации я хотел бы изучить возможность использования методов машинного обучения для выбора подсети самолета и экипажа. Эта подсеть может быть решена с помощью точных методов. Это, конечно, приведет к неоптимальному решению, но, надеюсь, оно будет достаточно хорошим. Цель состоит в том, чтобы уменьшить время выполнения решателя, решая меньшую сеть. Моя гипотеза состоит в том, что, предварительно обучив модель прогнозирования в конкретной сети с использованием исторических данных о сбоях, модель сможет прогнозировать подсеть в течение нескольких секунд, когда произойдет новое нарушение.
Теперь возникает вопрос, который будет лучше подходить к проблеме: контролируемое обучение или обучение с подкреплением?
Обучение под наблюдением С помощью SL я мог создать учебный набор, основанный на информации о сети, расписании, самолете, экипаже и сбоях. Используя оптимизатор (например, CPLEX), можно найти оптимальное решение. На основании этого решения все летательные аппараты и члены экипажа в задаче получают "1", если они помогли решить проблему, или "0" в противном случае. Примерами могут быть, например, "расстояние самолета 1 до нарушенного самолета" или "вместимость самолета 1 по сравнению с нарушенным самолетом". На основе сценариев нарушения>5K можно создать набор данных для обучения.
Обучение усилению Награда будет определяться на основе оптимального решения сбоев и решения на основе рекомендуемой подсети агента. Состояние окружающей среды может быть определено местоположением самолета, спецификациями, маршрутами пассажиров и т. Д. Действие будет представлять собой набор рекомендуемых самолетов и экипажа, которые необходимо включить в оптимизацию. Агент будет обучен устранению определенного нарушения до определенного порога, после которого он будет обучен при новом нарушении. Это будет повторяться для>5K сбоев или до тех пор, пока агент не сможет справиться с новыми ситуациями.