Программа быстрее при компиляции с -gdwarf-2

У меня есть программа, которая делает некоторые тяжелые вычисления в одном потоке. Существует отладочная и выпускная сборки, обе с одинаковыми параметрами командной строки, за исключением того, что отладочная версия получает -gdwarf-2. Самое смешное, что версия с символами отладки работает примерно на 10% быстрее, чем версия без символов отладки.

Я проверил файлы в обеих версиях, и нет ничего, что могло бы предложить какие-либо различия. Все разделы (текст, bss, данные) имеют примерно одинаковый размер. Ассемблер, сгенерированный в обоих режимах, выглядит одинаково, за исключением конца. Релиз версия заканчивается чем-то вроде:

num_of_entries:
    .quad   10000
    .local  _ZStL8__ioinit
    .comm   _ZStL8__ioinit,1,1
    .weakref    _ZL28__gthrw___pthread_key_createPjPFvPvE,__pthread_key_create
    .hidden DW.ref.__gxx_personality_v0
    .weak   DW.ref.__gxx_personality_v0
    .section    .data.DW.ref.__gxx_personality_v0,"awG",@progbits,DW.ref.__gxx_personality_v0,comdat
    .align 8
    .type   DW.ref.__gxx_personality_v0, @object
    .size   DW.ref.__gxx_personality_v0, 8
DW.ref.__gxx_personality_v0:
    .quad   __gxx_personality_v0
    .hidden __dso_handle
    .ident  "GCC: (GNU) 4.9.4"
    .section    .note.GNU-stack,"",@progbits

Принимая во внимание, что версия отладки имеет что-то вроде:

num_of_entries:
    .quad   10000
    .local  _ZStL8__ioinit
    .comm   _ZStL8__ioinit,1,1
    .weakref    _ZL28__gthrw___pthread_key_createPjPFvPvE,__pthread_key_create
    .text
.Letext0:
    .section    .text.unlikely
.Letext_cold0:
    .file 29 "/common/pkgs/gcc/4.9.4/include/c++/4.9.4/type_traits"
    .file 30 "/common/pkgs/gcc/4.9.4/include/c++/4.9.4/bits/cpp_type_traits.h"
...
    .file 104 "/common/pkgs/gcc/4.9.4/include/c++/4.9.4/cxxabi.h"
    .section    .debug_info,"",@progbits
.Ldebug_info0:
    .long   0x59e75
    .value  0x2
    .long   .Ldebug_abbrev0
    .byte   0x8
    .uleb128 0x1
    .long   .LASF6801
    .byte   0x4
    .long   .LASF6802
    .long   .LASF6803
    .long   .Ldebug_ranges0+0x75a0
    .quad   0
    .quad   0
    .long   .Ldebug_line0
    .uleb128 0x2
    .string "std"
    .byte   0x36
    .byte   0

Я использую GCC 4.9. Может кто-нибудь дать мне подсказку или посоветовать, что делать?

Обновление: perf stat показывает некоторые интересные цифры:

для версии с символами отладки:

    70,953,691      cache-references
    11,332,829      cache-misses              #   15.972 % of all cache refs
26,489,515,232      cycles
60,272,811,599      instructions              #    2.28  insns per cycle
13,027,834,737      branches
        64,798      faults
             1      migrations
            19      context-switches

   7.181574550 seconds time elapsed

для версии без отладочных символов:

    70,256,938      cache-references
    11,960,752      cache-misses              #   17.024 % of all cache refs
27,858,492,922      cycles
59,522,994,867      instructions              #    2.14  insns per cycle
12,779,462,973      branches
        65,212      faults
             1      migrations
            19      context-switches

   7.550653346 seconds time elapsed

Похоже, что в релизной версии частота кэш-памяти выше, хотя все должно работать одинаково.

0 ответов

Другие вопросы по тегам