Сколько циклов ЦП необходимо для каждой инструкции по сборке?

Я слышал, что в Интернете есть книга Intel, в которой описываются циклы процессора, необходимые для конкретной инструкции по сборке, но я не могу это выяснить (после упорных попыток). Может кто-нибудь показать мне, как найти цикл процессора, пожалуйста?

Вот пример, в приведенном ниже коде mov / lock равен 1 циклу ЦП, а xchg - 3 цикла ЦП.

// This part is Platform dependent!
#ifdef WIN32
inline int CPP_SpinLock::TestAndSet(int* pTargetAddress, 
                                              int nValue)
{
    __asm
    {
        mov edx, dword ptr [pTargetAddress]
        mov eax, nValue
        lock xchg eax, dword ptr [edx]
    }
    // mov = 1 CPU cycle
    // lock = 1 CPU cycle
    // xchg = 3 CPU cycles
}

#endif // WIN32

Кстати, вот URL для кода, который я разместил: http://www.codeproject.com/KB/threads/spinlocks.aspx

5 ответов

Современные процессоры - это сложные звери, использующие конвейерную обработку, суперскалярное выполнение и выполнение не по порядку среди других методов, которые делают анализ производительности трудным... но не невозможным!

Хотя вы больше не можете просто складывать задержки потока инструкций, чтобы получить общее время выполнения, вы все равно можете получить (часто) очень точный анализ поведения некоторого фрагмента кода (особенно цикла), как описано ниже и в другие связанные ресурсы.

Инструкция по времени

Во-первых, вам нужны реальные сроки. Они различаются в зависимости от архитектуры процессора, но лучший ресурс для тайминга x86 в настоящее время - это таблицы инструкций Agner Fog. В этих таблицах описывается не менее тридцати различных микроархитектур, в которых указывается задержка команды, которая представляет собой минимальное / типичное время, которое команда берет из входных данных, готовых к выводу. По словам Агнера:

Задержка: это задержка, которую инструкция генерирует в цепочке зависимостей. Числа являются минимальными значениями. Пропуск кэша, смещение и исключения могут значительно увеличить счетчик часов. Там, где включена поддержка гиперпоточности, использование одинаковых исполнительных блоков в другом потоке приводит к снижению производительности. Денормальные числа, NAN и бесконечность не увеличивают время ожидания. В качестве единицы времени используются такты ядра, а не эталонные такты, заданные счетчиком меток времени.

Так, например, add Задание имеет задержку в один цикл, поэтому, как показано, серия зависимых команд добавления будет иметь задержку 1 цикл на add:

add eax, eax
add eax, eax
add eax, eax
add eax, eax  # total latency of 4 cycles for these 4 adds

Обратите внимание, что это не значит, что add инструкции будут занимать только 1 цикл каждый. Например, если инструкции добавления не были зависимы, возможно, что на современных чипах все 4 инструкции добавления могут выполняться независимо в одном и том же цикле:

add eax, eax
add ebx, ebx
add ecx, ecx
add edx, edx # these 4 instructions might all execute, in parallel in a single cycle

Агнер предоставляет метрику, которая отражает часть этого потенциального параллелизма, называемую обратной пропускной способностью:

Взаимная пропускная способность: среднее количество тактов ядра на одну инструкцию для серии независимых команд одного и того же типа в одном потоке.

За add это указано как 0.25 это означает, что до 4 add инструкции могут выполняться каждый цикл (давая обратную пропускную способность 1 / 4 = 0.25).

Взаимное число пропускной способности также указывает на возможность конвейерной обработки инструкции. Например, на большинстве последних чипов x86 распространенные формы imul Задержка инструкции составляет 3 цикла, и внутренне только один исполнительный модуль может их обработать (в отличие от add который обычно имеет четыре дополнительных модуля). Тем не менее, наблюдаемая пропускная способность для длинной серии независимых imul инструкция 1/ цикл, а не 1 каждые 3 цикла, как вы могли бы ожидать, учитывая задержку 3. Причина в том, что imul блок конвейер: он может начать новый imul каждый цикл, даже если предыдущее умножение еще не завершено.

Это означает серию независимых imul инструкции могут выполняться до 1 за цикл, но ряд зависимых imul инструкции будут выполняться только 1 раз в 3 цикла (начиная со следующего imul не может начать, пока результат предыдущего не будет готов).

Таким образом, с помощью этой информации вы можете начать понимать, как анализировать время выполнения команд на современных процессорах.

Детальный анализ

Тем не менее, выше только царапины на поверхности. Теперь у вас есть несколько способов просмотра серии инструкций (задержка или пропускная способность), и может быть неясно, какой из них использовать.

Кроме того, существуют другие ограничения, не охваченные вышеуказанными числами, такие как тот факт, что определенные команды конкурируют за одни и те же ресурсы в ЦП, и ограничения в других частях конвейера ЦП (такие как декодирование команд), которые могут привести к снижению общая пропускная способность, чем вы рассчитываете, просто взглянув на задержку и пропускную способность. Помимо этого, у вас есть факторы "за пределами ALU", такие как доступ к памяти и прогнозирование ветвлений: целые темы сами по себе - вы можете в основном моделировать их хорошо, но это требует работы. Например, вот недавний пост, в котором в ответе подробно рассматриваются большинство важных факторов.

Покрытие всех деталей увеличило бы размер этого длинного ответа в 10 и более раз, поэтому я просто укажу вам лучшие ресурсы. Agner Fog имеет руководство по оптимизации сборки, которое подробно описывает точный анализ цикла с дюжиной инструкций. См. " 12.7 Пример анализа узких мест в векторных циклах", который начинается на стр. 95 в текущей версии PDF.

Основная идея заключается в том, что вы создаете таблицу с одной строкой на инструкцию и отмечаете ресурсы выполнения, которые каждый использует. Это позволяет увидеть любые узкие места в пропускной способности. Кроме того, вам нужно проверить цикл на наличие переносимых зависимостей, чтобы выяснить, ограничивает ли какая-либо из них пропускную способность (см. " 12.16 Анализ зависимостей" для сложного случая).

Если вы не хотите делать это вручную, Intel выпустила анализатор кода архитектуры Intel, который представляет собой инструмент, который автоматизирует этот анализ. В настоящее время он не обновлялся после Skylake, но результаты для Kaby Lake все еще в значительной степени приемлемы, поскольку микроархитектура не сильно изменилась, и поэтому время остается сопоставимым. Этот ответ детализирован и дает пример выходных данных, а руководство пользователя не так уж и плохо (хотя по сравнению с новейшими версиями оно устарело).

Другие источники

Agner обычно предоставляет синхронизацию для новых архитектур вскоре после их выпуска, но вы также можете проверить instlatx64 для аналогично организованных синхронизаций в InstLatX86 а также InstLatX64 Результаты. Результаты охватывают множество интересных старых фишек, и новые фишки обычно появляются довольно быстро. Результаты в основном согласуются с результатами Агнера, за некоторыми исключениями. Вы также можете найти задержку памяти и другие значения на этой странице.

Вы можете даже получить результаты синхронизации непосредственно от Intel в их руководстве по оптимизации IA32 и Intel 64 в Приложении C: ПРОСТОЯ ИНСТРУКЦИЯ И ПРОБЛЕМЫ. Лично я предпочитаю версию Агнера, потому что они более полные, часто приходят до обновления руководства Intel, и их проще использовать, так как они предоставляют электронную таблицу и PDF-версию.

Наконец, вики-тег x86 имеет множество ресурсов по оптимизации x86, включая ссылки на другие примеры того, как выполнить точный цикл анализа последовательностей кода.

Если вы хотите глубже изучить тип "анализа потоков данных", описанный выше, я бы порекомендовал "Вихревое введение в графики потоков данных".

Учитывая конвейерную обработку, обработку не по порядку, микрокод, многоядерные процессоры и т. Д., Нет никакой гарантии, что конкретный раздел кода сборки займет ровно x циклов ЦП / тактовый цикл / любые циклы.

Если такая ссылка существует, она сможет предоставить общие обобщения только для конкретной архитектуры, и в зависимости от того, как реализован микрокод, вы можете обнаружить, что Pentium M отличается от Core 2 Duo, который отличается от двухъядерного AMD., так далее.

Обратите внимание, что эта статья была обновлена ​​в 2000 году и написана ранее. Даже Pentium 4 трудно определить с точки зрения синхронизации команд - PIII, PII и оригинальный Pentium были проще, и упомянутые тексты, вероятно, основывались на тех более ранних процессорах, которые имели более четко определенную синхронизацию команд.

В наши дни люди обычно используют статистический анализ для оценки времени кода.

То, что другие ответы говорят о невозможности точно предсказать производительность кода, работающего на современном процессоре, верно, но это не означает, что задержки неизвестны или что их знание бесполезно.

Точные задержки для процессоров Intel и AMD перечислены в таблицах инструкций Agner Fog. См. Также Справочное руководство по оптимизации архитектур Intel® 64 и IA-32, а также задержки и пропускную способность команд для процессоров AMD и Intel x86 (из недавно удаленного ответа Can Berk Güder, содержащего только ссылки). AMD также имеет на своем веб-сайте руководства в формате pdf со своими официальными ценностями.

Для (микро) оптимизации узких циклов знание задержек для каждой инструкции может помочь при ручном планировании вашего кода. Программист может сделать много оптимизаций, которые компилятор не может (потому что компилятор не может гарантировать, что это не изменит смысл программы).

Конечно, это все еще требует, чтобы вы знали много других подробностей о процессоре, например, насколько он конвейерен, сколько инструкций он может выдать за цикл, количество исполнительных блоков и так далее. И, конечно, эти цифры различаются для разных процессоров. Но вы часто можете прийти к разумному среднему значению, которое более или менее работает для всех процессоров.

Однако стоит отметить, что для оптимизации даже нескольких строк кода на этом уровне необходимо проделать большую работу. И легко сделать что-то, что оказывается пессимизацией. Современные процессоры чрезвычайно сложны, и они очень стараются добиться хорошей производительности из-за плохого кода. Но есть также случаи, когда они не могут эффективно работать, или когда вы думаете, что вы умны и делаете эффективный код, и это приводит к замедлению работы процессора.

Редактировать Смотря в руководстве по оптимизации Intel, таблица C-13: первый столбец является типом инструкции, затем есть количество столбцов для задержки для каждого CPUID. CPUID указывает, к какому семейству процессоров применяются числа, и они описаны в других местах документа. Задержка определяет, сколько циклов требуется, прежде чем станет доступен результат инструкции, так что это число, которое вы ищете.

Столбцы пропускной способности показывают, сколько команд этого типа может быть выполнено за цикл.

Посмотрев на таблицу xchg в этой таблице, мы увидим, что в зависимости от семейства процессоров требуется 1-3 цикла, а mov - 0,5-1. Они предназначены для регистрационных форм инструкций, а не для lock xchg с памятью, которая намного медленнее. И что еще более важно, очень переменная задержка и влияние на окружающий код (намного медленнее, когда есть конфликт с другим ядром), поэтому смотреть только в лучшем случае - ошибка. (Я не посмотрел, что означает каждый CPUID, но я полагаю, что.5 предназначены для Pentium 4, который запускал некоторые компоненты чипа с двойной скоростью, позволяя ему делать вещи в половинных циклах)

Однако я не совсем понимаю, для чего вы планируете использовать эту информацию, но если вы знаете точное семейство ЦП, на котором выполняется код, то сложение задержки покажет минимальное количество циклов, необходимое для выполнения этой последовательности инструкций.,

Измерение и подсчет циклов ЦП больше не имеет смысла для x86.

Прежде всего, спросите себя, на какой процессор вы рассчитываете циклы? Core-2? Атлон? Pentium-M? Атом? Все эти процессоры выполняют код x86, но все они имеют разное время выполнения. Выполнение даже варьируется между различными степпингами одного и того же процессора.

Последним x86, где подсчет циклов имел смысл, был Pentium-Pro.

Также учтите, что внутри процессора большинство инструкций транскодируются в микрокод и выполняются не по порядку внутренним исполнительным модулем, который даже удаленно не похож на x86. Производительность одной инструкции ЦП зависит от того, сколько ресурсов доступно во внутренней исполнительной единице.

Таким образом, время для инструкции зависит не только от самой инструкции, но и от окружающего кода.

В любом случае: Вы можете оценить использование ресурсов пропускной способности и задержку инструкций для разных процессоров. Соответствующую информацию можно найти на сайтах Intel и AMD.

Агнер Фог имеет очень хорошее резюме на своем сайте. Посмотрите таблицы инструкций для задержки, пропускной способности и количества операций. Посмотрите PDF-файл микроархитектуры, чтобы узнать, как их интерпретировать.

http://www.agner.org/optimize

Но учтите, что xchg-с памятью не имеет предсказуемой производительности, даже если вы смотрите только на одну модель процессора. Даже в случае отсутствия конфликтов, когда строка кэша уже перегрета в L1D-кэше, полный барьер памяти будет означать, что его влияние во многом зависит от нагрузки и сохранения по другим адресам в окружающем коде.


Кстати, поскольку ваш пример кода является базовым строительным блоком структуры данных без блокировки: рассматривали ли вы вопрос об использовании встроенных функций компилятора? На win32 вы можете включить intrin.h и использовать такие функции, как _InterlockedExchange.

Это даст вам лучшее время выполнения, потому что компилятор может встроить инструкции. Встроенный ассемблер всегда вынуждает компилятор отключать оптимизацию вокруг asm-кода.

lock xchg eax, dword ptr [edx]

Обратите внимание, что блокировка блокирует память для выборки памяти для всех ядер, это может занять 100 циклов на некоторых многоядерных системах, а также необходимо очистить строку кэша. Это также остановит трубопровод. Так что я не буду беспокоиться об остальном.

Таким образом, оптимальная производительность возвращается к настройке ваших алгоритмов критических областей.

Обратите внимание на одно ядро, вы можете изменить это, сняв блокировку, но это необходимо для многоядерности.

Другие вопросы по тегам