Механизм бизнес-правил для фреймов данных pandas [закрыто]
У нас есть система, которая принимает файлы CSV, создает файл конфигурации .json, для которого столбец входного файла представляет, какой столбец представляет список принятых столбцов, загружается в фрейм данных и запускает статический код Python, который «очищает» данные перед сохранением. его в приемлемый формат для других последующих процессов.
Мы находимся в точке, где код, очищающий данные, необходимо настраивать. Правила того, какие данные хороши, а какие нет, могут быть разными для каждого файла CSV или группы файлов CSV, и мы хотим иметь возможность обновлять их. Правила просты и включают в себя такие вещи, как столбец A не может иметь значения вне диапазона, и для любого из значений вне диапазона замените его средним значением всех допустимых значений. Мы также хотели бы представить принятие решений по водопаду (замените значением столбца B, если оно действительно, если не замените вычислением X, если оно действительно, если не замените средним из допустимых значений столбца A). Идея состоит в том, чтобы создать виджет пользовательского интерфейса, чтобы помочь нетехническим пользователям создавать или изменять свои собственные правила для статического количества доступных столбцов, для которых они могут добавлять правила.
Был предложен Drools, но, поскольку он вводит Java, мы искали решения, совместимые с python. PyKE не обновлялся в течение 12 лет, и у бизнес-правил, похоже, есть проблемы с обновлением бизнес-правил на лету (так как несколько файлов CSV с разными правилами могут быть созданы последовательно).
Есть ли какие-нибудь библиотеки, которые нам следует рассмотреть, или лучше создавать такие конфигурации с нуля?