d6/d9f/avx2f__types_8h_source.html

#ifndef AMPGEN_AVX_TYPES

#define AMPGEN_AVX_TYPES 1


#include <immintrin.h>

#include <array>

#include <iostream>

#include <complex>

#include <omp.h>

#include <cmath>

#include "AmpGen/Complex.h"


#if USE_MVEC

  extern "C" void    _ZGVdN8vvv_sincos(__m256 x, __m256i ptrs, __m256i ptrc);

#define libmvec_alias(F, O) \

  extern "C" __m256 _ZGVcN8v_##F(__m256 x);             \

  inline real_v O( const real_v& v ){ return _ZGVcN8v_##F(v) ; }

#else


#define libmvec_alias(F, O) \

  inline real_v O( const real_v& v ){ auto arr = v.to_ptr(); return real_v(  \

      std::F(arr[0]), std::F(arr[1]), std::F(arr[2]), std::F(arr[3]),          \

      std::F(arr[4]), std::F(arr[5]), std::F(arr[6]), std::F(arr[7]) ) ; }


#endif


namespace AmpGen {


  namespace AVX2f {


    struct real_v {

      __m256 data;

      static constexpr unsigned size = 8 ;

      typedef float scalar_type;

      real_v() = default;

      real_v(__m256 data ) : data(data) {}

      real_v(const int& f ) : real_v(scalar_type(f)) {}

      real_v(const scalar_type& f ) : data( _mm256_set1_ps(f) ) {}

      real_v(const double& f )      : data( _mm256_set1_ps( scalar_type(f) )) {}

      explicit real_v(const scalar_type* f )      : data( _mm256_loadu_ps( f ) ) {}


      real_v(const scalar_type& x0, const scalar_type& x1, const scalar_type& x2, const scalar_type& x3,

          const scalar_type& x4, const scalar_type& x5, const scalar_type& x6, const scalar_type& x7)

      {

        data = _mm256_set_ps(x7,x6,x5,x4,x3,x2,x1,x0);

      }


      void store( scalar_type* ptr ) const { _mm256_storeu_ps( ptr, data ); }

      std::array<scalar_type, 8> to_array() const { std::array<scalar_type, 8> b; store( &b[0] ); return b; }

      const scalar_type* to_ptr() const { return reinterpret_cast<const scalar_type*>( &data ) ; }

            scalar_type* to_ptr() { return reinterpret_cast<scalar_type*>( &data ) ; }

      scalar_type at(const unsigned i) const { return to_ptr()[i] ; }

      operator __m256() const { return data ; }

      inline real_v operator+=(const real_v& rhs );

      inline real_v operator-=(const real_v& rhs );

      inline real_v operator*=(const real_v& rhs );

      inline real_v operator/=(const real_v& rhs );

      inline __m256i to_int() const { return _mm256_cvtps_epi32(data); }

    };


    inline real_v operator+( const real_v& lhs, const real_v& rhs ) { return _mm256_add_ps(lhs, rhs); }

    inline real_v operator-( const real_v& lhs, const real_v& rhs ) { return _mm256_sub_ps(lhs, rhs); }

    inline real_v operator*( const real_v& lhs, const real_v& rhs ) { return _mm256_mul_ps(lhs, rhs); }

    inline real_v operator/( const real_v& lhs, const real_v& rhs ) { return _mm256_div_ps(lhs, rhs); }

    inline real_v operator-( const real_v& x ) { return -1.f * x; }

    inline real_v operator&( const real_v& lhs, const real_v& rhs ) { return _mm256_and_ps( lhs, rhs ); }

    inline real_v operator|( const real_v& lhs, const real_v& rhs ) { return _mm256_or_ps( lhs, rhs ); }

    inline real_v operator^( const real_v& lhs, const real_v& rhs ) { return _mm256_xor_ps( lhs, rhs ); }

    inline real_v operator&&( const real_v& lhs, const real_v& rhs ) { return _mm256_and_ps( lhs, rhs ); }

    inline real_v operator||( const real_v& lhs, const real_v& rhs ) { return _mm256_or_ps( lhs, rhs ); }

    inline real_v operator!( const real_v& x ) { return x ^ _mm256_castsi256_ps( _mm256_set1_epi32( -1 ) ); }

    inline real_v operator<( const real_v& lhs, const real_v& rhs ) { return _mm256_cmp_ps( lhs, rhs, _CMP_LT_OS ); }

    inline real_v operator>( const real_v& lhs, const real_v& rhs ) { return _mm256_cmp_ps( lhs, rhs, _CMP_GT_OS ); }

    inline real_v operator<=( const real_v& lhs, const real_v& rhs ) { return _mm256_cmp_ps( lhs, rhs, _CMP_LE_OS ); }

    inline real_v operator>=( const real_v& lhs, const real_v& rhs ) { return _mm256_cmp_ps( lhs, rhs, _CMP_GE_OS ); }

    inline real_v operator==( const real_v& lhs, const real_v& rhs ){ return _mm256_cmp_ps( lhs, rhs, _CMP_EQ_OS ); }

    inline real_v sqrt( const real_v& v ) { return _mm256_sqrt_ps(v); }

    inline real_v real_v::operator+=(const real_v& rhs ){ *this = *this + rhs; return *this; }

    inline real_v real_v::operator-=(const real_v& rhs ){ *this = *this - rhs; return *this; }

    inline real_v real_v::operator*=(const real_v& rhs ){ *this = *this * rhs; return *this; }

    inline real_v real_v::operator/=(const real_v& rhs ){ *this = *this / rhs; return *this; }

    libmvec_alias(sinf, sin)

    libmvec_alias(cosf, cos)

    libmvec_alias(expf, exp)

    libmvec_alias(logf, log)


    inline std::array<int32_t, real_v::size> store( const __m256i& v )

    {

      alignas(32) std::array<int32_t, real_v::size> rt;

       _mm256_store_si256( (__m256i*)&rt[0], v);

       return rt;

    }


    inline void sincos( const real_v& v, real_v& s, real_v& c )

    {

      s = sin(v);

      c = cos(v);

    }


    inline std::pair<real_v, real_v> sincos( const real_v& v )

    {

      std::pair<real_v, real_v> rt;

      sincos( v, rt.first, rt.second );

      return rt;

    }


    inline real_v tan( const real_v& v )

    {

      auto [s,c] = sincos( v );

      return s / c ;

    }


    inline real_v abs   ( const real_v& v ) { return v & _mm256_castsi256_ps( _mm256_set1_epi32( 0x7FFFFFFF ) ); }

    inline real_v select(const real_v& mask, const real_v& a, const real_v& b ) { return _mm256_blendv_ps( b, a, mask ); }

    inline real_v select(const bool& mask   , const real_v& a, const real_v& b ) { return mask ? a : b; }

    inline real_v sign  ( const real_v& v){ return select( v > 0., +1., -1. ); }

    inline real_v fmadd ( const real_v& a, const real_v& b, const real_v& c ) { return _mm256_fmadd_ps(a, b, c); }

    inline real_v remainder( const real_v& a, const real_v& b ){ return a - real_v(_mm256_round_ps(a/b, _MM_FROUND_TO_NEG_INF)) * b; }


    inline real_v atan2( const real_v& y, const real_v& x ){

      const auto* bx = x.to_ptr();

      const auto* by = y.to_ptr();

      real_v rt;

      for( unsigned i = 0 ; i != real_v::size ; ++i ) rt.to_ptr()[i] = std::atan2( by[i] , bx[i] );

      return rt;

    }


    inline real_v gather( const double* base_addr, const real_v& offsets)

    {

      std::array<float, real_v::size> tmp;

      auto ptr = store( offsets.to_int() );

   //   int32_t* ptr = (int32_t*)(&ints);

      for( int i = 0 ; i != real_v::size; ++i ) tmp[i] = real_v::scalar_type( base_addr[ptr[i]] );

      return real_v( tmp.data() );

    }


    inline real_v fmod( const real_v& a, const real_v& b )

    {

      auto r = remainder( abs(a), abs(b) );

      return select( a > 0., r, -r );

    }


    inline std::ostream& operator<<( std::ostream& os, const real_v& obj ) {

      auto buffer = obj.to_array();

      for( unsigned i = 0 ; i != real_v::size; ++i ) os << buffer[i] << " ";

      return os;

    }


    using complex_v = Complex<real_v>;

    inline complex_v select(const real_v& mask, const complex_v& a, const complex_v& b ) { return complex_v( select(mask, a.real(), b.real()), select(mask, a.imag(), b.imag() ) ) ; }

    inline complex_v select(const real_v& mask, const real_v&   a, const complex_v& b ) { return complex_v( select(mask, a   , b.real()), select(mask, 0.f, b.imag()) ); }

    inline complex_v select(const real_v& mask, const complex_v& a, const real_v& b   ) { return complex_v( select(mask, a.real(), b )  , select(mask, a.imag(), 0.f) ); }

    inline complex_v select(const bool& mask   , const complex_v& a, const complex_v& b ) { return mask ? a : b; }

    #pragma omp declare reduction(+: real_v: \

    omp_out = omp_out + omp_in)

    #pragma omp declare reduction(+: complex_v: \

    omp_out = omp_out + omp_in)

  }


}


#endif

Complex.h

libmvec_alias
#define libmvec_alias(F)
Definition arm128d_types.h:20

AmpGen::AVX2f
Definition avx2f_types.h:25

AmpGen::AVX2f::operator&
real_v operator&(const real_v &lhs, const real_v &rhs)
Definition avx2f_types.h:60

AmpGen::AVX2f::operator-
real_v operator-(const real_v &lhs, const real_v &rhs)
Definition avx2f_types.h:56

AmpGen::AVX2f::sqrt
real_v sqrt(const real_v &v)
Definition avx2f_types.h:71

AmpGen::AVX2f::operator+
real_v operator+(const real_v &lhs, const real_v &rhs)
Definition avx2f_types.h:55

AmpGen::AVX2f::operator||
real_v operator||(const real_v &lhs, const real_v &rhs)
Definition avx2f_types.h:64

AmpGen::AVX2f::abs
real_v abs(const real_v &v)
Definition avx2f_types.h:104

AmpGen::AVX2f::sincos
void sincos(const real_v &v, real_v &s, real_v &c)
Definition avx2f_types.h:87

AmpGen::AVX2f::operator==
real_v operator==(const real_v &lhs, const real_v &rhs)
Definition avx2f_types.h:70

AmpGen::AVX2f::fmadd
real_v fmadd(const real_v &a, const real_v &b, const real_v &c)
Definition avx2f_types.h:108

AmpGen::AVX2f::select
real_v select(const real_v &mask, const real_v &a, const real_v &b)
Definition avx2f_types.h:105

AmpGen::AVX2f::operator/
real_v operator/(const real_v &lhs, const real_v &rhs)
Definition avx2f_types.h:58

AmpGen::AVX2f::sin
real_v sin(const real_v &v)
Definition avx2f_types.h:76

AmpGen::AVX2f::fmod
real_v fmod(const real_v &a, const real_v &b)
Definition avx2f_types.h:127

AmpGen::AVX2f::complex_v
Complex< real_v > complex_v
Definition avx2f_types.h:139

AmpGen::AVX2f::tan
real_v tan(const real_v &v)
Definition avx2f_types.h:98

AmpGen::AVX2f::operator>=
real_v operator>=(const real_v &lhs, const real_v &rhs)
Definition avx2f_types.h:69

AmpGen::AVX2f::operator!
real_v operator!(const real_v &x)
Definition avx2f_types.h:65

AmpGen::AVX2f::operator^
real_v operator^(const real_v &lhs, const real_v &rhs)
Definition avx2f_types.h:62

AmpGen::AVX2f::store
std::array< int32_t, real_v::size > store(const __m256i &v)
Definition avx2f_types.h:80

AmpGen::AVX2f::operator*
real_v operator*(const real_v &lhs, const real_v &rhs)
Definition avx2f_types.h:57

AmpGen::AVX2f::operator<<
std::ostream & operator<<(std::ostream &os, const real_v &obj)
Definition avx2f_types.h:133

AmpGen::AVX2f::exp
real_v exp(const real_v &v)
Definition avx2f_types.h:78

AmpGen::AVX2f::operator|
real_v operator|(const real_v &lhs, const real_v &rhs)
Definition avx2f_types.h:61

AmpGen::AVX2f::cos
real_v cos(const real_v &v)
Definition avx2f_types.h:77

AmpGen::AVX2f::operator>
real_v operator>(const real_v &lhs, const real_v &rhs)
Definition avx2f_types.h:67

AmpGen::AVX2f::log
real_v log(const real_v &v)
Definition avx2f_types.h:79

AmpGen::AVX2f::gather
real_v gather(const double *base_addr, const real_v &offsets)
Definition avx2f_types.h:117

AmpGen::AVX2f::operator<
real_v operator<(const real_v &lhs, const real_v &rhs)
Definition avx2f_types.h:66

AmpGen::AVX2f::remainder
real_v remainder(const real_v &a, const real_v &b)
Definition avx2f_types.h:109

AmpGen::AVX2f::operator&&
real_v operator&&(const real_v &lhs, const real_v &rhs)
Definition avx2f_types.h:63

AmpGen::AVX2f::sign
real_v sign(const real_v &v)
Definition avx2f_types.h:107

AmpGen::AVX2f::atan2
real_v atan2(const real_v &y, const real_v &x)
Definition avx2f_types.h:110

AmpGen::AVX2f::operator<=
real_v operator<=(const real_v &lhs, const real_v &rhs)
Definition avx2f_types.h:68

AmpGen
Definition AddCPConjugate.h:2

AmpGen::real_v
AVX::real_v real_v
Definition utils.h:46

AmpGen::AVX2f::real_v
Definition avx2f_types.h:26

AmpGen::AVX2f::real_v::real_v
real_v(__m256 data)
Definition avx2f_types.h:31

AmpGen::AVX2f::real_v::operator/=
real_v operator/=(const real_v &rhs)
Definition avx2f_types.h:75

AmpGen::AVX2f::real_v::operator+=
real_v operator+=(const real_v &rhs)
Definition avx2f_types.h:72

AmpGen::AVX2f::real_v::to_ptr
const scalar_type * to_ptr() const
Definition avx2f_types.h:44

AmpGen::AVX2f::real_v::real_v
real_v(const scalar_type &f)
Definition avx2f_types.h:33

AmpGen::AVX2f::real_v::real_v
real_v(const scalar_type &x0, const scalar_type &x1, const scalar_type &x2, const scalar_type &x3, const scalar_type &x4, const scalar_type &x5, const scalar_type &x6, const scalar_type &x7)
Definition avx2f_types.h:36

AmpGen::AVX2f::real_v::real_v
real_v(const double &f)
Definition avx2f_types.h:34

AmpGen::AVX2f::real_v::at
scalar_type at(const unsigned i) const
Definition avx2f_types.h:46

AmpGen::AVX2f::real_v::store
void store(scalar_type *ptr) const
Definition avx2f_types.h:42

AmpGen::AVX2f::real_v::to_ptr
scalar_type * to_ptr()
Definition avx2f_types.h:45

AmpGen::AVX2f::real_v::to_array
std::array< scalar_type, 8 > to_array() const
Definition avx2f_types.h:43

AmpGen::AVX2f::real_v::operator*=
real_v operator*=(const real_v &rhs)
Definition avx2f_types.h:74

AmpGen::AVX2f::real_v::real_v
real_v(const scalar_type *f)
Definition avx2f_types.h:35

AmpGen::AVX2f::real_v::operator-=
real_v operator-=(const real_v &rhs)
Definition avx2f_types.h:73

AmpGen::AVX2f::real_v::real_v
real_v()=default

AmpGen::AVX2f::real_v::data
__m256 data
Definition avx2f_types.h:27

AmpGen::AVX2f::real_v::to_int
__m256i to_int() const
Definition avx2f_types.h:52

AmpGen::AVX2f::real_v::size
static constexpr unsigned size
Definition avx2f_types.h:28

AmpGen::AVX2f::real_v::scalar_type
float scalar_type
Definition avx2f_types.h:29

AmpGen::AVX2f::real_v::real_v
real_v(const int &f)
Definition avx2f_types.h:32

AmpGen::Complex
Definition Complex.h:8

AmpGen::Complex::real
real_t real() const
Definition Complex.h:24

AmpGen::Complex::imag
real_t imag() const
Definition Complex.h:25