Квантизируйте модель ответов на вопросы Берта для процессора с минимальной задержкой

Как мы можем обучить базовую модель Роберты обучению с учетом квантования? Имеет ли модель квантования минимальную задержку на процессоре? Как мы используем модель Берта для ответа на вопросы в производственной среде.