Как эффективно де-перемежать биты (обратный Мортон)
Этот вопрос: Как деинтерлейсировать биты (UnMortonizing?) Имеет хороший ответ для извлечения одной из двух половин числа Мортона (только нечетные биты), но мне нужно решение, которое извлекает обе части (нечетные биты и четные биты) за как можно меньшее количество операций.
Для моего использования мне нужно было бы взять 32-битное целое число и извлечь две 16-битные целые, где один - четные биты, а другой - нечетные биты, сдвинутые вправо на 1 бит, например
input, z: 11101101 01010111 11011011 01101110
output, x: 11100001 10110111 // odd bits shifted right by 1
y: 10111111 11011010 // even bits
Кажется, существует множество решений, использующих сдвиги и маски с магическими числами для генерации чисел Мортона (т.е. чередования битов), например, чередование битов по двоичным магическим числам, но я пока не нашел ничего для того, чтобы сделать обратное (то есть устранение чередования),
ОБНОВИТЬ
Перечитав раздел "Восхищение Хакера", посвященный идеальным перемешкам / растасовкам, я нашел несколько полезных примеров, которые я адаптировал следующим образом:
// morton1 - extract even bits
uint32_t morton1(uint32_t x)
{
x = x & 0x55555555;
x = (x | (x >> 1)) & 0x33333333;
x = (x | (x >> 2)) & 0x0F0F0F0F;
x = (x | (x >> 4)) & 0x00FF00FF;
x = (x | (x >> 8)) & 0x0000FFFF;
return x;
}
// morton2 - extract odd and even bits
void morton2(uint32_t *x, uint32_t *y, uint32_t z)
{
*x = morton1(z);
*y = morton1(z >> 1);
}
Я думаю, что это все еще можно улучшить, как в его нынешней скалярной форме, так и за счет использования SIMD, поэтому я по-прежнему заинтересован в лучших решениях (либо скалярных, либо SIMD).
6 ответов
Если ваш процессор эффективно обрабатывает 64-битные числа, вы можете объединить операции...
int64 w = (z &0xAAAAAAAA)<<31 | (z &0x55555555 )
w = (w | (w >> 1)) & 0x3333333333333333;
w = (w | (w >> 2)) & 0x0F0F0F0F0F0F0F0F;
...
Код для Intel Haswell и более поздних процессоров. Вы можете использовать набор инструкций BMI2, который содержит инструкции pext и pdep. Они могут (помимо прочего) использоваться для создания ваших функций.
#include <immintrin.h>
#include <stdint.h>
// on GCC, compile with option -mbmi2, requires Haswell or better.
uint64_t xy_to_morton (uint32_t x, uint32_t y)
{
return _pdep_u32(x, 0x55555555) | _pdep_u32(y,0xaaaaaaaa);
}
uint64_t morton_to_xy (uint64_t m, uint32_t *x, uint32_t *y)
{
*x = _pext_u64(m, 0x5555555555555555);
*y = _pext_u64(m, 0xaaaaaaaaaaaaaaaa);
}
В случае, если кто-то использует трибоновые коды в 3d, ему нужно читать один бит каждые 3, а вот 64-битная функция здесь, которую я использовал:
uint64_t morton3(uint64_t x) {
x = x & 0x9249249249249249;
x = (x | (x >> 2)) & 0x30c30c30c30c30c3;
x = (x | (x >> 4)) & 0xf00f00f00f00f00f;
x = (x | (x >> 8)) & 0x00ff0000ff0000ff;
x = (x | (x >> 16)) & 0xffff00000000ffff;
x = (x | (x >> 32)) & 0x00000000ffffffff;
return x;
}
uint64_t bits;
uint64_t x = morton3(bits)
uint64_t y = morton3(bits>>1)
uint64_t z = morton3(bits>>2)
Вы можете извлечь 8 чередующихся битов, умножив их так:
uint8_t deinterleave_even(uint16_t x) {
return ((x & 0x5555) * 0xC00030000C0003 & 0x0600180060008001) * 0x0101010101010101 >> 56;
}
uint8_t deinterleave_odd(uint16_t x) {
return ((x & 0xAAAA) * 0xC00030000C0003 & 0x03000C003000C000) * 0x0101010101010101 >> 56;
}
Объединить их для 32-битных и более битов должно быть тривиально.
Я не хотел ограничиваться целым числом фиксированного размера и составлением списков похожих команд с жестко закодированными константами, поэтому я разработал решение C++11, которое использует шаблонное метапрограммирование для генерации функций и констант. Код сборки, сгенерированный с -O3
кажется настолько узким, насколько это возможно без использования ИМТ:
andl $0x55555555, %eax
movl %eax, %ecx
shrl %ecx
orl %eax, %ecx
andl $0x33333333, %ecx
movl %ecx, %eax
shrl $2, %eax
orl %ecx, %eax
andl $0xF0F0F0F, %eax
movl %eax, %ecx
shrl $4, %ecx
orl %eax, %ecx
movzbl %cl, %esi
shrl $8, %ecx
andl $0xFF00, %ecx
orl %ecx, %esi
TL; DR исходное репо и живое демо.
Реализация
В основном каждый шаг в morton1
Функция работает путем сдвига и добавления к последовательности констант, которые выглядят так:
0b0101010101010101
(попеременно 1 и 0)0b0011001100110011
(попеременно 2x 1 и 0)0b0000111100001111
(попеременно 4x 1 и 0)0b0000000011111111
(чередуются 8x 1 и 0)
Если бы мы должны были использовать D
размеры, у нас будет шаблон с D-1
нули и 1
один. Таким образом, чтобы сгенерировать их, достаточно сгенерировать последовательные и применить некоторые побитовые или:
/// @brief Generates 0b1...1 with @tparam n ones
template <class T, unsigned n>
using n_ones = std::integral_constant<T, (~static_cast<T>(0) >> (sizeof(T) * 8 - n))>;
/// @brief Performs `@tparam input | (@tparam input << @tparam width` @tparam repeat times.
template <class T, T input, unsigned width, unsigned repeat>
struct lshift_add :
public lshift_add<T, lshift_add<T, input, width, 1>::value, width, repeat - 1> {
};
/// @brief Specialization for 1 repetition, just does the shift-and-add operation.
template <class T, T input, unsigned width>
struct lshift_add<T, input, width, 1> : public std::integral_constant<T,
(input & n_ones<T, width>::value) | (input << (width < sizeof(T) * 8 ? width : 0))> {
};
Теперь, когда мы можем генерировать константы во время компиляции для произвольных измерений со следующим:
template <class T, unsigned step, unsigned dimensions = 2u>
using mask = lshift_add<T, n_ones<T, 1 << step>::value, dimensions * (1 << step), sizeof(T) * 8 / (2 << step)>;
Используя один и тот же тип рекурсии, мы можем генерировать функции для каждого из этапов алгоритма. x = (x | (x >> K)) & M
:
template <class T, unsigned step, unsigned dimensions>
struct deinterleave {
static T work(T input) {
input = deinterleave<T, step - 1, dimensions>::work(input);
return (input | (input >> ((dimensions - 1) * (1 << (step - 1))))) & mask<T, step, dimensions>::value;
}
};
// Omitted specialization for step 0, where there is just a bitwise and
Осталось ответить на вопрос "сколько шагов нам нужно?". Это зависит также от количества измерений. В общем, k
шаги вычисляют 2^k - 1
выходные биты; максимальное количество значащих битов для каждого измерения определяется как z = sizeof(T) * 8 / dimensions
поэтому достаточно взять 1 + log_2 z
шаги. Проблема сейчас в том, что нам нужно это как constexpr
чтобы использовать его в качестве параметра шаблона. Лучший способ обойти это - определить log2
через метапрограммирование:
template <unsigned arg>
struct log2 : public std::integral_constant<unsigned, log2<(arg >> 1)>::value + 1> {};
template <>
struct log2<1u> : public std::integral_constant<unsigned, 0u> {};
/// @brief Helper constexpr which returns the number of steps needed to fully interleave a type @tparam T.
template <class T, unsigned dimensions>
using num_steps = std::integral_constant<unsigned, log2<sizeof(T) * 8 / dimensions>::value + 1>;
И, наконец, мы можем выполнить один единственный вызов:
/// @brief Helper function which combines @see deinterleave and @see num_steps into a single call.
template <class T, unsigned dimensions>
T deinterleave_first(T n) {
return deinterleave<T, num_steps<T, dimensions>::value - 1, dimensions>::work(n);
}
Если вам нужна скорость, вы можете использовать поиск по таблице для однобайтового преобразования одновременно (двухбайтовая таблица быстрее, но слишком большая). Процедура сделана в Delphi IDE, но ассемблер / алгоритм такой же.
const
MortonTableLookup : array[byte] of byte = ($00, $01, $10, $11, $12, ... ;
procedure DeinterleaveBits(Input: cardinal);
//In: eax
//Out: dx = EvenBits; ax = OddBits;
asm
movzx ecx, al //Use 0th byte
mov dl, byte ptr[MortonTableLookup + ecx]
//
shr eax, 8
movzx ecx, ah //Use 2th byte
mov dh, byte ptr[MortonTableLookup + ecx]
//
shl edx, 16
movzx ecx, al //Use 1th byte
mov dl, byte ptr[MortonTableLookup + ecx]
//
shr eax, 8
movzx ecx, ah //Use 3th byte
mov dh, byte ptr[MortonTableLookup + ecx]
//
mov ecx, edx
and ecx, $F0F0F0F0
mov eax, ecx
rol eax, 12
or eax, ecx
rol edx, 4
and edx, $F0F0F0F0
mov ecx, edx
rol ecx, 12
or edx, ecx
end;