Vetorização SSE & AVX

menotti

180K views

GitHub

Open Source Your Knowledge, Become a Contributor

Technology knowledge has to be shared and made accessible for free. Join the movement.

Create Content

Previous: Primeiro código AVX: cálculo SQRT Next: Mascaramento e carga condicional

Frameworks C++ SSE & AVX

Complexidade de funções intrínsecas

Trabalhar diretamente com funções intrínsecas pode ser complicado de ser codificado e mantido. O problema é que os nomes intrínsecos são longos e as operações aritméticas são escritas na notação de função: add(a,b) ao invés de a+b. O código a seguir é dificil de ler:

x = _mm256_div_ps(_mm256_add_ps(b , _mm256_sqrt_ps(_mm256_sub_ps(_mm256_mul_ps(b , b) , _mm256_mul_ps(_mm256_mul_ps(a , c),_mm256_set1_ps(4.0f))))) , _mm256_mul_ps(a,_mm256_set1_ps(2.0f)));

Muito simples, correto? Por outro lado, essa versão empacotada é muito legível:

x = (b + sqrt( b*b - a*c*4.0f))/(a*2.0f);

É como trabalhar com pontos flutuantes (floats). Você apenas precisa se lembrar que essas variáveis são vetores. Como você pode notar, o empacotamento permite operações aritméticas de um vetor com um valor escalar (vetor * escalar = vetor).

Frameworks C++ para computação SIMD

Existem frameworks que agrupam tipos de dados vetoriais dentro de novas classes. Em seguida, sobrecarregam os operadores aritméticos, lógicos e de atribuição para simplificar os cálculos. Entre outros, você pode usar esses dois frameworks:

Biblioteca de classes vetoriais C++ de Agner Fog's. Completo e atualizado regularmente. Inclui funções trigonométricas.
Ambiente Multicore Unificado. É a biblioteca mais recente. Eu não usei pessoalmente.

Frameworks de tamanho reduzido

Infelizmente, essas dois frameworks são enormes, pelo menos para programação competitiva onde o código é limitado a cem KBs ou menos. Nos casos em que você tem limitações no tamanho do código, você precisará reduzir para uma versão menor de um desses frameworks.

Eu tenho alguns empacotadores de vetor com tamanho reduzido, focados apenas em um ou dois tipos (por exemplo, __m256 8x float e __m128i 8x short, para trabalhar com um tamanho de vetor de 8, tanto em floats (pontos flutuantes) quanto em números inteiros).

Empacotar vetores menores

#pragma GCC optimize("O3","unroll-loops","omit-frame-pointer","inline") //Optimization flags
#pragma GCC option("arch=native","tune=native","no-zeroupper") //Enable AVX
#pragma GCC target("avx") //Enable AVX
#include <x86intrin.h>    //AVX/SSE Extensions
#include <bits/stdc++.h>  //All main STD libraries
#include "v8i.h"          //AVX 8x float vectors
#include "v8f.h"          //SSE 8x short vectors
#include "vconvert.h"     //Vector short <-> float conversions
#include "vrandom.h"      //Pseudo-random numbers
using namespace std;
 
int main()
{
    v8i a(250);
    v8i b(1,-3,-4,6,20,250,-4003,4);
    cout << "Wrapper Tests: Integer Vectors" <<endl;
    cout << "a   :"<<a<<endl;
    cout << "b   :"<<b<<endl;
    cout << "a+b :"<<a+b<<endl;
    cout << "a-b :"<<a-b<<endl;
    cout << "a*b :"<<a*b<<endl; //Overflow!!!!! Remember that v8i is only 16-bit signed
    cout << "a/b :"<<a/b<<endl; //emulated, slow
    cout << "a>b :"<<(a>b)<<endl; //true is -1, because it's a mask with all 16 bits set to 1.
    cout << "a==b:"<<(a==b)<<endl;
    cout << "Irandom(1,1348):"<<(Irandom<1,1348>())<<endl;    
    cout <<endl;
    v8f c(15.1f);
    v8f d(1.4f,3.3f,-12.5f,-33.4f,7.9f,-70.2f,15.1f,22.6f);    
    cout << "Wrapper Tests: Float Vectors" <<endl;    
    cout << "c   :"<<c<<endl;
    cout << "d   :"<<d<<endl;
    cout << "c+d :"<<c+d<<endl;
    cout << "c-d :"<<c-d<<endl;
    cout << "c*d :"<<c*d<<endl; 
    cout << "c/d :"<<c/d<<endl;
    cout << "c>d :"<<(c>d)<<endl; //true is -nan, because it's a mask with all 32 bits set to 1.
    cout << "c==d:"<<(c==d)<<endl;
    cout << "Frandom(1,1348):"<<(Frandom<1,1348>())<<endl;    
    return 0;
}

Mesmo sendo uma versão reduzida, cada declaração de tipo de dados vetorial ocupa até 150 linhas em média (mais algumas funções auxiliares). Por favor, use esses empacotadores como referência para as suas próprias versões, pois elas podem conter bugs.

As classes empacotadas podem adicionar sobrecarga às chamadas, reduzindo o seu desempenho. Mas, na minha opinião, trabalhar diretamente com as funções intrínsecas dificilmente será mantido, além de ser embaraçoso e propenso a erros. A partir de agora, usarei classes empacotadas para abstrair o código dos intrínsecos fundamentais.

Em todas os frameworks vetoriais, você encontrará algumas funções especiais. Essas funções especiais serão amplamente usadas nas lições a seguir. Se você não entender à primeira vista, não se preocupe. Você eventualmente entenderá a lógica por trás deles.

Funções baseadas em mesclagem: A mesclagem é o processo de carregar condicionalmente valores vetoriais com base em uma máscara. Isso será explicado melhor nas lições a seguir. Em ambos, no empacotamento de Agner Fog e no meu empacotamento, as funções derivadas são:

if_select(mask,value_true,value_false): Carga condicional de um vetor baseado em uma máscara. Se mask for verdadeiro para um componente vetorial, value_true é retornado, ou value_false caso contrário. É um if "fake".
if_add(mask,value,add_when_true): Adição condicional. Retorna value + (mask? add_when_true:0), para cada componente vetorial.
if_sub, if_mul, if_div: Semelhante a if_add, apenas com uma operação aritmética diferente.

Funções horizontais: O horizontal significa que essas funções operam dentro de uma única variável vetorial, calculando algum valor lógico ou aritmético.

horizontal_or(mask): Se qualquer componente vetorial em mask for verdadeiro. Retorna um booleano.
horizontal_add(vector): Retorna a soma de todos os componentes do vetor. O valor retornado é um número (float ou double ou int, dependendo do tipo de vetor).

NOTE: Agner Fog usa classes diferentes para máscaras (com sufixo b), enquanto eu uso as mesmas classes de vetores para simplificar e reduzir o código.

Open Source Your Knowledge: become a Contributor and help others learn. Create New Content

Open Source Your Knowledge, Become a Contributor

6/9 Frameworks C++ SSE/AVX

Frameworks C++ SSE & AVX

Complexidade de funções intrínsecas

Frameworks C++ para computação SIMD

Frameworks de tamanho reduzido

Parallelism on single Core with .NET C# and SIMD / AVX. First Example.

Introdução ao SYCL

Introdução ao OpenCL

Apprendre le C++