Почему "-fno-inline" приносит плохую производительность в Clang?
Мы используем clang для компиляции кода IR, а затем выполняем IR в каком-то месте.
По некоторым причинам мы добавляем "-fno-inline" в параметры компиляции, что приводит к очень плохой производительности. До того, как код IR занимает менее 1 мс, после открытия "-fno-inline" код IR занимает более 20 мс.
Насколько я понимаю, inline только исключает стоимость вызовов функций (таких как rbp/rsp push/pop, call/ret).
Я прав? Какие-либо предложения?