Описание тега memory-bandwidth
3
ответа
Может ли использование указателей вызвать засорение памяти?
Предположим, у меня есть эти структуры в c++: class A{ public: B b; } class B{ public: C c; } class C{ public: double x; double y; double z; double s; function Usize(){ s = sqrt(pow(x,2) + pow(y,2) + pow(z,2)); } } Будет ли доступ к значениям в c в …
21 янв '12 в 08:31
0
ответов
Сколько обращений к памяти требуется для рендеринга текстур с помощью OpenGL?
Используя OpenGL, я хочу рассчитать необходимую пропускную способность для рендеринга кадра. Предполагая худший сценарий, у меня есть (1) кадровый буфер и (2) 8 текстур, которые являются полноэкранными, и текстуры в конечном итоге покрывают весь экр…
26 мар '18 в 23:06
1
ответ
CUDA: производительность памяти, что такое пропускная способность глобальной памяти
Я узнаю об оптимизации CUDA. Я нашел презентацию по этой ссылке: Оптимизация CUDA Паулиуса Микикявичюса. В этой презентации они говорят о МАКСИМАЛЬНАЯ ГЛОБАЛЬНАЯ ПАМЯТЬ ПАМЯТИ говорят, что объединение глобальной памяти улучшит пропускную способность…
02 ноя '11 в 05:44
0
ответов
Характеризуя вычисления, которые получают выгоду от загрузки / хранения cuda с использованием смещений по сравнению с использованием векторов
Следующий фрагмент кода иллюстрирует два способа загрузки и хранения данных, один с использованием смещений, а другой с использованием вектора. На иллюстрации вычисление просто умножить на 2. __global__ foo( ..., int *d_i, int *d_o, ...){ #ifdef LOA…
15 фев '19 в 21:19
1
ответ
Сколько данных может быть загружено за цикл с GDDR5?
nVidia GTX980 имеет пропускную способность 224 ГБ / с и тактовую частоту памяти 7 Гбит / с. Его ширина шины составляет 256 бит. Можем ли мы рассчитать, сколько данных max/min можно загружать параллельно с GDDR5? Можно ли получить ответ от деления 22…
06 июл '16 в 15:20
0
ответов
Почему пропускная способность для отправки MPI между сокетами больше пропускной способности памяти?
Я провел тест osu_mbw_mr (из микробенчур OSU) на узле Haswell в Кори в NERSC и получил странные результаты, которые я не смог объяснить. Узел имеет два сокета, каждый из которых имеет 16-ядерный процессор Intel Xeon E5-2698 v3. Два процессора связан…
12 дек '17 в 17:25
1
ответ
Двунаправленность SDRAM - считаются ли считывания и записи одинаковыми в "официальных" показателях пропускной способности?
Может ли SDRAM загружать и хранить одновременно? Если да, то как хранение и загрузка одновременно влияют на пропускную способность? Общая пропускная способность, как сумма пропускной способности хранилища и нагрузки, уменьшается при выполнении обоих…
30 июн '15 в 14:43
2
ответа
Способ измерения пропускной способности памяти для определенной инструкции или строки кода в CUDA?
Есть ли способ измерения пропускной способности памяти для определенной инструкции памяти или строки кода в CUDA? (nvprof может выводить пропускную способность памяти для всего ядра.) Если функция clock() является единственным способом сделать это, …
11 июл '17 в 04:57
2
ответа
Насколько распараллеливание помогает производительности, если программа связана с памятью?
Я распараллелил программу на Java. На Mac с 4 ядрами ниже указано время для разного количества потоков. threads # 1 2 4 8 16 time 2597192200 1915988600 2086557400 2043377000 1931178200 На сервере Linux с двумя сокетами, каждый с 4 ядрами, ниже измер…
17 авг '12 в 01:28
1
ответ
Когда мне нужно умножить на 2, чтобы вычислить пропускную способность памяти
Я учусь вычислять пропускную способность памяти на следующем примере: Я не знаю, что означает двойная скорость передачи данных? какой параметр GPU решит это? PCle это полный дуплекс? Двойной слот? уровень DDR, такой как DDR3/DDR5? или другой?
02 июл '18 в 08:27
1
ответ
Модель линии крыши: расчет эксплуатационной интенсивности
Скажем, у меня есть такая игрушечная петля float x[N]; float y[N]; for (int i = 1; i < N-1; i++) y[i] = a*(x[i-1] - x[i] + x[i+1]) И я предполагаю, что моя строка кэша составляет 64 байта (то есть достаточно большой). Тогда у меня будет (на кадр)…
22 ноя '16 в 22:54
8
ответов
Как повысить производительность memcpy
Резюме: Похоже, что memcpy не может передавать более 2 ГБ / с в моей системе в реальном или тестовом приложении. Что я могу сделать, чтобы получить более быстрые копии из памяти в память? Полная информация: Как часть приложения для сбора данных (с и…
23 ноя '10 в 20:33
1
ответ
Эффективная пропускная способность памяти при расширенном доступе к памяти
Предположим, у меня есть ядро, которое выполняет быстрый доступ к памяти следующим образом: __global__ void strideExample (float *outputData, float *inputData, int stride=2) { int index = (blockIdx.x * blockDim.x + threadIdx.x) * stride; outputData[…
17 ноя '16 в 06:15
3
ответа
Как получить пропускную способность памяти от тактовой частоты памяти / скорости памяти
К вашему сведению, вот характеристики, которые я получил от Nvidia http://www.geforce.com/hardware/desktop-gpus/geforce-gtx-680/specifications http://www.geforce.com/hardware/desktop-gpus/geforce-gtx-titan/specifications Обратите внимание, что скоро…
24 фев '13 в 19:49
2
ответа
Что конкретно помечает строку кэша x86 как грязную - любая запись или требуется явное изменение?
Этот вопрос специально нацелен на современные когерентные архитектуры x86-64 - я ценю, что ответ может отличаться на других процессорах. Если я записываю в память, протокол MESI требует, чтобы строка кэша сначала читалась в кэш, а затем изменялась в…
21 ноя '17 в 16:04
0
ответов
Расчет фактического флопа / ядра при использовании фактической пропускной способности памяти
Я хочу рассчитать фактическое количество mflop / s / core, используя следующую информацию: Я измерил фактический объем пропускной способности памяти каждого ядра в 1 узле, который составляет 4371 МБ / с. Я также измерил mflop / s / core на одном узл…
28 июл '16 в 13:40
0
ответов
Может ли префикс блокировки x86 на не кэшируемой памяти вызвать отказ в обслуживании в пропускной способности памяти?
Может ли инструкция с префиксом блокировки не использовать остальные процессоры (виртуальные машины) для пропускной способности памяти в виртуализированной среде? Например, рассмотрим следующий кусок кода loop: lock inc dword [rax] jmp loop Теперь п…
30 май '18 в 19:18
1
ответ
CUDA bandwidthTest, чтобы получить достижимый пик
Я хочу знать, насколько хороши мои ядра CUDA с точки зрения использования полосы пропускания памяти. Я запускаю их на Tesla K40c с включенным ECC. Является ли результат, данный bandwidthTest Полезность хорошее приближение к достижимому пику? Иначе, …
05 июн '14 в 15:49
0
ответов
Как использование памяти в Windows влияет на производительность
Я использую Windows 10 с 4 ГБ памяти DDR3 1066 на мобильной архитектуре Intel второго поколения i5. В основном я работаю в OSX, и память всегда была для меня проблемой, потому что я предпочитаю открывать много вкладок. Я заметил на OSX, что использо…
06 дек '17 в 03:56
2
ответа
Как рассчитать пропускную способность памяти в данной (Linux) системе из оболочки?
Я хочу написать скрипт / команду оболочки, которая использует общедоступные двоичные файлы, /sys файловая система или другие средства для расчета теоретической максимальной пропускной способности для оперативной памяти, доступной на данном компьютер…
20 июл '18 в 13:48