Описание тега sse2

Описание тега Вопросы с тегом

NoneX 86 Streaming SIMD Extensions 2 добавляет поддержку упакованных целых чисел и чисел с плавающей запятой двойной точности в 128-байтовых векторных регистрах XMM. Он всегда поддерживается на x86-64 и поддерживается на всех процессорах x86 с 2003 года или новее.

1 ответ

Оптимальный способ хранения двойных SSE2/AVX/AVX512 как плавающих с использованием встроенных функций

Мне часто нужно использовать double по соображениям точности, но я хочу сохранить результаты как плавающие. Какой оптимальный способ? Я в настоящее время использую: SSE2: _mm_store_sd((double*)dst, _mm_castps_pd(_mm_cvtpd_ps(xmm))); AVX: _mm_storeu_…

18 окт '18 в 09:45

6 ответов

Как оптимизировать цикл?

У меня есть следующая функция узкого места. typedef unsigned char byte; void CompareArrays(const byte * p1Start, const byte * p1End, const byte * p2, byte * p3) { const byte b1 = 128-30; const byte b2 = 128+30; for (const byte * p1 = p1Start; p1 != …

c++ assembly optimization intrinsics sse2

21 окт '10 в 11:40

1 ответ

Добавление массива SIMD для произвольной длины массива

Я учусь использовать возможности SIMD, переписывая свою личную библиотеку обработки изображений с использованием векторных встроенных функций. Одна базовая функция - это простой массив +=то есть void arrayAdd(unsigned char* A, unsigned char* B, size…

arrays c simd sse sse2

16 апр '12 в 00:57

3 ответа

NumPy вызывая sse2 через ctypes

Вкратце, я пытаюсь вызвать общую библиотеку из python, а точнее из numpy. Общая библиотека реализована в C с использованием инструкций sse2. Включая оптимизацию, то есть собирая библиотеку с -O2 или -O1, я сталкиваюсь со странными ошибками при вызов…

python numpy ctypes sse2

15 июн '10 в 12:39

0 ответов

GCC std::sin ошибка векторизации?

Следующий код (с -O3 -ffast-math): #include <cmath> float a[4]; void sin1() { for(unsigned i = 0; i < 4; i++) a[i] = sinf(a[i]); } Компилирует векторизованную версию sinf (_ZGVbN4v_sinf): sin1(): sub rsp, 8 movaps xmm0, XMMWORD PTR a[rip] c…

c++ gcc vectorization sse2

03 авг '17 в 08:31

2 ответа

Как загрузить 16 8-битных данных и объединить их в 4 без знака int?

Есть ли какой-нибудь элегантный способ загрузить 16 8-битных данных и объединить их в 4 unsigned int? как следует: загрузить следующий массив (16 epi8) с помощью _mm_load_si128() в __m128i 0x00, 0x11, 0x22, 0x33, 0x44, 0x55, 0x66, 0x77, 0x88, 0x99, …

assembly sse intrinsics sse2

22 фев '12 в 16:26

1 ответ

Как скопировать байты в регистр xmm0

У меня есть следующий код, который работает нормально, но кажется неэффективным, учитывая конечный результат, требующий только данные в xmm0 mov rcx, 16 ; get first word, up to 16 bytes mov rdi, CMD ; ...and put it in CMD mov rsi, CMD_BLOCK @@: lods…

assembly x86 sse sse2 sse4

18 сен '16 в 01:16

2 ответа

Добавление двух типов __m128 через инфраструктуру ускорения

Мне нужно добавить / Mul / Sub два __m128 (плавающие) переменные с использованием Accelerate framework. Но я не могу найти функцию для этого. Все функции ускорения фреймворка занимают int__vector__ введите вместо float__vector__ тип. Я нахожу функци…

accelerate-framework sse2

20 апр '12 в 16:44

3 ответа

Как загрузить 96 бит из памяти в регистр XMM?

Скажем, у меня есть указатель на память в rsiи я хотел бы загрузить 12-байтовое значение, указанное в младшие 96 бит xmm0, Мне все равно, что происходит с старшими 32 битами. Какой эффективный способ сделать это? (Дополнительный вопрос: лучшее, что …

assembly intel sse sse2 sse4

12 апр '16 в 04:04

2 ответа

Ускорить умножение матриц с помощью SSE2

Я хочу знать, как ускорить умножение матриц на SSE2 вот мой код int mat_mult_simd(double *a, double *b, double *c, int n) { __m128d c1,c2,a1,a2,b1; for(int i=0; i<n/2; i++){ for(int j=0; j<n/2; j++){ c1 = _mm_load_pd(c+(2*j*n)+(i+2)); c2 = _mm…

c matrix simd intrinsics sse2

04 июн '14 в 08:10

3 ответа

Почему я не могу удалить _mm_empty()?

У меня есть функция C++ с некоторыми инструкциями SSE2. Проблема в том, что я получаю следующую ошибку компоновщика при компиляции этого кода с помощью Microsoft Visual C++: неразрешенный внешний символ _m_empty, указанный в функции "void * __cdecl …

c++ sse sse2 mmx

16 дек '15 в 09:25

3 ответа

SIMD: Почему преобразование цветов SSE RGB в YUV имеет ту же скорость, что и реализация C++?

Я только что попытался оптимизировать конвертер RGB в YUV420. Использование таблицы поиска привело к увеличению скорости, как и арифметика с фиксированной точкой. Однако я ожидал реальной выгоды, используя инструкции SSE. Моя первая попытка привела …

c++ optimization rgb yuv sse2

28 янв '11 в 14:08

1 ответ

Быстрое копирование каждого второго байта в новую область памяти

Мне нужен быстрый способ скопировать каждый второй байт в новую область памяти malloc. У меня есть необработанное изображение с данными RGB и 16 битами на канал (48 бит), и я хочу создать изображение RGB с 8 битами на канал (24 бита). Есть ли более …

c performance sse memcpy sse2

28 сен '17 в 11:28

1 ответ

Два 32-разрядных целых числа со знаком и умножение с использованием SSE2

Как я могу умножить два 32-разрядных целых числа со знаком, используя набор инструкций SSE2?

sse2

16 май '13 в 17:46

1 ответ

Оптимизировать без выравнивания SSE2/AVX2 XOR

В моем коде я должен обрабатывать "разоблачение" пакетов веб-сокетов, что по сути означает, что XOR не выравнивает данные произвольной длины. Благодаря SO ( разоблачение данных Websocket / многобайтовый xor) я уже выяснил, как (надеюсь) ускорить это…

c optimization memory-alignment avx2 sse2

24 июл '13 в 16:26

2 ответа

Оптимизация кода SSE2

Я использую встроенные функции SSE2 для оптимизации узких мест моего приложения и у меня следующий вопрос: ddata = _mm_xor_si128(_mm_xor_si128( _mm_sll_epi32(xdata, 0x7u), _mm_srl_epi32(tdata, 0x19u)), xdata); На Microsoft C++ Compiler это не скомпи…

c++ simd sse intrinsics sse2

03 ноя '11 в 13:33

2 ответа

Альтернатива ручному исправлению выравнивания данных sse2 на 16-байтовой границе

Есть ли альтернатива следующей ручной починке: // excerpt adapted from SIMDTest in // http://www.mccauslandcenter.sc.edu/mricro/obsolete/graphics/simdtest.zip // var lAdblRAp, lArraySz, lAdblRA, Doublep: LongInt; begin // ... GetMem(lAdblRAp,(lArray…

delphi windows-7 32-bit memory-alignment sse2

23 фев '12 в 06:07

1 ответ

Могу ли я сразу переместить 256-битную память из регистров YMM?

Могу ли я сразу переместить 256-битную память из регистров YMM? Если я хочу заполнить регистр xmm, я использую встроенный asm в gcc: "movlpd mytest_1(%rip),%xmm1 \n\t" "movhpd mytest_1+8(%rip),%xmm1 \n\t" Можно ли сделать это проще? Кроме того: та ж…

avx sse2

10 сен '17 в 16:35

2 ответа

Умножение вектора с плавающей запятой на sse/sse2

Я должен реализовать матрично-векторное умножение, используя sse / sse2. Вектор и матрица большие. Матрица двойная, вектор с плавающей точкой. Дело в том, что все вычисления, которые я должен делать для чисел с плавающей запятой - когда я получаю да…

matrix vector sse sse2

28 фев '11 в 07:45

1 ответ

SSE работает медленно после использования AVX

У меня странная проблема с некоторыми кодами SSE2 и AVX, над которыми я работал. Я строю свое приложение, используя GCC, который обнаруживает функцию процессора во время выполнения. Объектные файлы создаются с отдельными флагами для каждой функции Ц…

c++ gcc x86 avx sse2

15 окт '15 в 13:16