libcuml/nightly/arima__common_8h_source.html

 /*

  * Copyright (c) 2020-2024, NVIDIA CORPORATION.

  *

  * Licensed under the Apache License, Version 2.0 (the "License");

  * you may not use this file except in compliance with the License.

  * You may obtain a copy of the License at

  *

  *     http://www.apache.org/licenses/LICENSE-2.0

  *

  * Unless required by applicable law or agreed to in writing, software

  * distributed under the License is distributed on an "AS IS" BASIS,

  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

  * See the License for the specific language governing permissions and

  * limitations under the License.

  */


 #pragma once


 #include <raft/util/cudart_utils.hpp>


 #include <rmm/mr/device/per_device_resource.hpp>


 #include <cuda_runtime.h>

 #include <thrust/execution_policy.h>

 #include <thrust/for_each.h>

 #include <thrust/iterator/counting_iterator.h>


 #include <algorithm>


 namespace ML {


 struct ARIMAOrder {

   int p;  // Basic order

   int d;

   int q;

   int P;  // Seasonal order

   int D;

   int Q;

   int s;       // Seasonal period

   int k;       // Fit intercept?

   int n_exog;  // Number of exogenous regressors


   inline int n_diff() const { return d + s * D; }

   inline int n_phi() const { return p + s * P; }

   inline int n_theta() const { return q + s * Q; }

   inline int r() const { return std::max(n_phi(), n_theta() + 1); }

   inline int rd() const { return n_diff() + r(); }

   inline int complexity() const { return p + P + q + Q + k + n_exog + 1; }

   inline bool need_diff() const { return static_cast<bool>(d + D); }

 };


 template <typename DataT>

 struct ARIMAParams {

   DataT* mu     = nullptr;

   DataT* beta   = nullptr;

   DataT* ar     = nullptr;

   DataT* ma     = nullptr;

   DataT* sar    = nullptr;

   DataT* sma    = nullptr;

   DataT* sigma2 = nullptr;


   void allocate(const ARIMAOrder& order, int batch_size, cudaStream_t stream, bool tr = false)

   {

     rmm::mr::device_memory_resource* rmm_alloc = rmm::mr::get_current_device_resource();

     if (order.k && !tr) mu = (DataT*)rmm_alloc->allocate(batch_size * sizeof(DataT), stream);

     if (order.n_exog && !tr)

       beta = (DataT*)rmm_alloc->allocate(order.n_exog * batch_size * sizeof(DataT), stream);

     if (order.p) ar = (DataT*)rmm_alloc->allocate(order.p * batch_size * sizeof(DataT), stream);

     if (order.q) ma = (DataT*)rmm_alloc->allocate(order.q * batch_size * sizeof(DataT), stream);

     if (order.P) sar = (DataT*)rmm_alloc->allocate(order.P * batch_size * sizeof(DataT), stream);

     if (order.Q) sma = (DataT*)rmm_alloc->allocate(order.Q * batch_size * sizeof(DataT), stream);

     sigma2 = (DataT*)rmm_alloc->allocate(batch_size * sizeof(DataT), stream);

   }


   void deallocate(const ARIMAOrder& order, int batch_size, cudaStream_t stream, bool tr = false)

   {

     rmm::mr::device_memory_resource* rmm_alloc = rmm::mr::get_current_device_resource();

     if (order.k && !tr) rmm_alloc->deallocate(mu, batch_size * sizeof(DataT), stream);

     if (order.n_exog && !tr)

       rmm_alloc->deallocate(beta, order.n_exog * batch_size * sizeof(DataT), stream);

     if (order.p) rmm_alloc->deallocate(ar, order.p * batch_size * sizeof(DataT), stream);

     if (order.q) rmm_alloc->deallocate(ma, order.q * batch_size * sizeof(DataT), stream);

     if (order.P) rmm_alloc->deallocate(sar, order.P * batch_size * sizeof(DataT), stream);

     if (order.Q) rmm_alloc->deallocate(sma, order.Q * batch_size * sizeof(DataT), stream);

     rmm_alloc->deallocate(sigma2, batch_size * sizeof(DataT), stream);

   }


   void pack(const ARIMAOrder& order, int batch_size, DataT* param_vec, cudaStream_t stream) const

   {

     int N         = order.complexity();

     auto counting = thrust::make_counting_iterator(0);

     // The device lambda can't capture structure members...

     const DataT *_mu = mu, *_beta = beta, *_ar = ar, *_ma = ma, *_sar = sar, *_sma = sma,

                 *_sigma2 = sigma2;

     thrust::for_each(

       thrust::cuda::par.on(stream), counting, counting + batch_size, [=] __device__(int bid) {

         DataT* param = param_vec + bid * N;

         if (order.k) {

           *param = _mu[bid];

           param++;

         }

         for (int i = 0; i < order.n_exog; i++) {

           param[i] = _beta[order.n_exog * bid + i];

         }

         param += order.n_exog;

         for (int ip = 0; ip < order.p; ip++) {

           param[ip] = _ar[order.p * bid + ip];

         }

         param += order.p;

         for (int iq = 0; iq < order.q; iq++) {

           param[iq] = _ma[order.q * bid + iq];

         }

         param += order.q;

         for (int iP = 0; iP < order.P; iP++) {

           param[iP] = _sar[order.P * bid + iP];

         }

         param += order.P;

         for (int iQ = 0; iQ < order.Q; iQ++) {

           param[iQ] = _sma[order.Q * bid + iQ];

         }

         param += order.Q;

         *param = _sigma2[bid];

       });

   }


   void unpack(const ARIMAOrder& order, int batch_size, const DataT* param_vec, cudaStream_t stream)

   {

     int N         = order.complexity();

     auto counting = thrust::make_counting_iterator(0);

     // The device lambda can't capture structure members...

     DataT *_mu = mu, *_beta = beta, *_ar = ar, *_ma = ma, *_sar = sar, *_sma = sma,

           *_sigma2 = sigma2;

     thrust::for_each(

       thrust::cuda::par.on(stream), counting, counting + batch_size, [=] __device__(int bid) {

         const DataT* param = param_vec + bid * N;

         if (order.k) {

           _mu[bid] = *param;

           param++;

         }

         for (int i = 0; i < order.n_exog; i++) {

           _beta[order.n_exog * bid + i] = param[i];

         }

         param += order.n_exog;

         for (int ip = 0; ip < order.p; ip++) {

           _ar[order.p * bid + ip] = param[ip];

         }

         param += order.p;

         for (int iq = 0; iq < order.q; iq++) {

           _ma[order.q * bid + iq] = param[iq];

         }

         param += order.q;

         for (int iP = 0; iP < order.P; iP++) {

           _sar[order.P * bid + iP] = param[iP];

         }

         param += order.P;

         for (int iQ = 0; iQ < order.Q; iQ++) {

           _sma[order.Q * bid + iQ] = param[iQ];

         }

         param += order.Q;

         _sigma2[bid] = *param;

       });

   }

 };


 template <typename T, int ALIGN = 256>

 struct ARIMAMemory {

   T *params_mu, *params_beta, *params_ar, *params_ma, *params_sar, *params_sma, *params_sigma2,

     *Tparams_ar, *Tparams_ma, *Tparams_sar, *Tparams_sma, *Tparams_sigma2, *d_params, *d_Tparams,

     *Z_dense, *R_dense, *T_dense, *RQR_dense, *RQ_dense, *P_dense, *alpha_dense, *ImT_dense,

     *ImT_inv_dense, *v_tmp_dense, *m_tmp_dense, *K_dense, *TP_dense, *pred, *y_diff, *exog_diff,

     *loglike, *loglike_base, *loglike_pert, *x_pert, *I_m_AxA_dense, *I_m_AxA_inv_dense, *Ts_dense,

     *RQRs_dense, *Ps_dense;

   T **Z_batches, **R_batches, **T_batches, **RQR_batches, **RQ_batches, **P_batches,

     **alpha_batches, **ImT_batches, **ImT_inv_batches, **v_tmp_batches, **m_tmp_batches,

     **K_batches, **TP_batches, **I_m_AxA_batches, **I_m_AxA_inv_batches, **Ts_batches,

     **RQRs_batches, **Ps_batches;

   int *ImT_inv_P, *ImT_inv_info, *I_m_AxA_P, *I_m_AxA_info;


   size_t size;


  protected:

   char* buf;


   template <bool assign, typename ValType>

   inline void append_buffer(ValType*& ptr, size_t n_elem)

   {

     if (assign) { ptr = reinterpret_cast<ValType*>(buf + size); }

     size += ((n_elem * sizeof(ValType) + ALIGN - 1) / ALIGN) * ALIGN;

   }


   template <bool assign>

   inline void buf_offsets(const ARIMAOrder& order,

                           int batch_size,

                           int n_obs,

                           char* in_buf = nullptr)

   {

     buf  = in_buf;

     size = 0;


     int r      = order.r();

     int rd     = order.rd();

     int N      = order.complexity();

     int n_diff = order.n_diff();


     append_buffer<assign>(params_mu, order.k * batch_size);

     append_buffer<assign>(params_beta, order.n_exog * batch_size);

     append_buffer<assign>(params_ar, order.p * batch_size);

     append_buffer<assign>(params_ma, order.q * batch_size);

     append_buffer<assign>(params_sar, order.P * batch_size);

     append_buffer<assign>(params_sma, order.Q * batch_size);

     append_buffer<assign>(params_sigma2, batch_size);


     append_buffer<assign>(Tparams_ar, order.p * batch_size);

     append_buffer<assign>(Tparams_ma, order.q * batch_size);

     append_buffer<assign>(Tparams_sar, order.P * batch_size);

     append_buffer<assign>(Tparams_sma, order.Q * batch_size);

     append_buffer<assign>(Tparams_sigma2, batch_size);


     append_buffer<assign>(d_params, N * batch_size);

     append_buffer<assign>(d_Tparams, N * batch_size);

     append_buffer<assign>(Z_dense, rd * batch_size);

     append_buffer<assign>(Z_batches, batch_size);

     append_buffer<assign>(R_dense, rd * batch_size);

     append_buffer<assign>(R_batches, batch_size);

     append_buffer<assign>(T_dense, rd * rd * batch_size);

     append_buffer<assign>(T_batches, batch_size);

     append_buffer<assign>(RQ_dense, rd * batch_size);

     append_buffer<assign>(RQ_batches, batch_size);

     append_buffer<assign>(RQR_dense, rd * rd * batch_size);

     append_buffer<assign>(RQR_batches, batch_size);

     append_buffer<assign>(P_dense, rd * rd * batch_size);

     append_buffer<assign>(P_batches, batch_size);

     append_buffer<assign>(alpha_dense, rd * batch_size);

     append_buffer<assign>(alpha_batches, batch_size);

     append_buffer<assign>(ImT_dense, r * r * batch_size);

     append_buffer<assign>(ImT_batches, batch_size);

     append_buffer<assign>(ImT_inv_dense, r * r * batch_size);

     append_buffer<assign>(ImT_inv_batches, batch_size);

     append_buffer<assign>(ImT_inv_P, r * batch_size);

     append_buffer<assign>(ImT_inv_info, batch_size);

     append_buffer<assign>(v_tmp_dense, rd * batch_size);

     append_buffer<assign>(v_tmp_batches, batch_size);

     append_buffer<assign>(m_tmp_dense, rd * rd * batch_size);

     append_buffer<assign>(m_tmp_batches, batch_size);

     append_buffer<assign>(K_dense, rd * batch_size);

     append_buffer<assign>(K_batches, batch_size);

     append_buffer<assign>(TP_dense, rd * rd * batch_size);

     append_buffer<assign>(TP_batches, batch_size);


     append_buffer<assign>(pred, n_obs * batch_size);

     append_buffer<assign>(y_diff, n_obs * batch_size);

     append_buffer<assign>(exog_diff, n_obs * order.n_exog * batch_size);

     append_buffer<assign>(loglike, batch_size);

     append_buffer<assign>(loglike_base, batch_size);

     append_buffer<assign>(loglike_pert, batch_size);

     append_buffer<assign>(x_pert, N * batch_size);


     if (n_diff > 0) {

       append_buffer<assign>(Ts_dense, r * r * batch_size);

       append_buffer<assign>(Ts_batches, batch_size);

       append_buffer<assign>(RQRs_dense, r * r * batch_size);

       append_buffer<assign>(RQRs_batches, batch_size);

       append_buffer<assign>(Ps_dense, r * r * batch_size);

       append_buffer<assign>(Ps_batches, batch_size);

     }


     if (r <= 5) {

       // Note: temp mem for the direct Lyapunov solver grows very quickly!

       // This solver is used iff the condition above is satisfied

       append_buffer<assign>(I_m_AxA_dense, r * r * r * r * batch_size);

       append_buffer<assign>(I_m_AxA_batches, batch_size);

       append_buffer<assign>(I_m_AxA_inv_dense, r * r * r * r * batch_size);

       append_buffer<assign>(I_m_AxA_inv_batches, batch_size);

       append_buffer<assign>(I_m_AxA_P, r * r * batch_size);

       append_buffer<assign>(I_m_AxA_info, batch_size);

     }

   }


   ARIMAMemory(const ARIMAOrder& order, int batch_size, int n_obs)

   {

     buf_offsets<false>(order, batch_size, n_obs);

   }


  public:

   ARIMAMemory(const ARIMAOrder& order, int batch_size, int n_obs, char* in_buf)

   {

     buf_offsets<true>(order, batch_size, n_obs, in_buf);

   }


   static size_t compute_size(const ARIMAOrder& order, int batch_size, int n_obs)

   {

     ARIMAMemory temp(order, batch_size, n_obs);

     return temp.size;

   }

 };


 }  // namespace ML

ML::Solver::max
math_t max(math_t a, math_t b)
Definition: learning_rate.h:27

ML
Definition: dbscan.hpp:30

ML::ARIMAMemory
Definition: arima_common.h:217

ML::ARIMAMemory::x_pert
T * x_pert
Definition: arima_common.h:222

ML::ARIMAMemory::Tparams_sar
T * Tparams_sar
Definition: arima_common.h:219

ML::ARIMAMemory::K_dense
T * K_dense
Definition: arima_common.h:221

ML::ARIMAMemory::buf_offsets
void buf_offsets(const ARIMAOrder &order, int batch_size, int n_obs, char *in_buf=nullptr)
Definition: arima_common.h:243

ML::ARIMAMemory::R_batches
T ** R_batches
Definition: arima_common.h:224

ML::ARIMAMemory::RQ_batches
T ** RQ_batches
Definition: arima_common.h:224

ML::ARIMAMemory::params_mu
T * params_mu
Definition: arima_common.h:218

ML::ARIMAMemory::T_dense
T * T_dense
Definition: arima_common.h:220

ML::ARIMAMemory::Ps_batches
T ** Ps_batches
Definition: arima_common.h:227

ML::ARIMAMemory::alpha_dense
T * alpha_dense
Definition: arima_common.h:220

ML::ARIMAMemory::ImT_inv_P
int * ImT_inv_P
Definition: arima_common.h:228

ML::ARIMAMemory::Z_dense
T * Z_dense
Definition: arima_common.h:220

ML::ARIMAMemory::d_params
T * d_params
Definition: arima_common.h:219

ML::ARIMAMemory::loglike_base
T * loglike_base
Definition: arima_common.h:222

ML::ARIMAMemory::ImT_inv_dense
T * ImT_inv_dense
Definition: arima_common.h:221

ML::ARIMAMemory::Tparams_sma
T * Tparams_sma
Definition: arima_common.h:219

ML::ARIMAMemory::compute_size
static size_t compute_size(const ARIMAOrder &order, int batch_size, int n_obs)
Definition: arima_common.h:355

ML::ARIMAMemory::y_diff
T * y_diff
Definition: arima_common.h:221

ML::ARIMAMemory::TP_dense
T * TP_dense
Definition: arima_common.h:221

ML::ARIMAMemory::Tparams_ar
T * Tparams_ar
Definition: arima_common.h:219

ML::ARIMAMemory::RQRs_dense
T * RQRs_dense
Definition: arima_common.h:223

ML::ARIMAMemory::ImT_batches
T ** ImT_batches
Definition: arima_common.h:225

ML::ARIMAMemory::T_batches
T ** T_batches
Definition: arima_common.h:224

ML::ARIMAMemory::I_m_AxA_inv_dense
T * I_m_AxA_inv_dense
Definition: arima_common.h:222

ML::ARIMAMemory::pred
T * pred
Definition: arima_common.h:221

ML::ARIMAMemory::ImT_dense
T * ImT_dense
Definition: arima_common.h:220

ML::ARIMAMemory::ImT_inv_info
int * ImT_inv_info
Definition: arima_common.h:228

ML::ARIMAMemory::alpha_batches
T ** alpha_batches
Definition: arima_common.h:225

ML::ARIMAMemory::params_sma
T * params_sma
Definition: arima_common.h:218

ML::ARIMAMemory::Ps_dense
T * Ps_dense
Definition: arima_common.h:223

ML::ARIMAMemory::P_batches
T ** P_batches
Definition: arima_common.h:224

ML::ARIMAMemory::loglike_pert
T * loglike_pert
Definition: arima_common.h:222

ML::ARIMAMemory::m_tmp_batches
T ** m_tmp_batches
Definition: arima_common.h:225

ML::ARIMAMemory::Z_batches
T ** Z_batches
Definition: arima_common.h:224

ML::ARIMAMemory::I_m_AxA_P
int * I_m_AxA_P
Definition: arima_common.h:228

ML::ARIMAMemory::m_tmp_dense
T * m_tmp_dense
Definition: arima_common.h:221

ML::ARIMAMemory::params_sar
T * params_sar
Definition: arima_common.h:218

ML::ARIMAMemory::K_batches
T ** K_batches
Definition: arima_common.h:226

ML::ARIMAMemory::RQR_dense
T * RQR_dense
Definition: arima_common.h:220

ML::ARIMAMemory::size
size_t size
Definition: arima_common.h:230

ML::ARIMAMemory::I_m_AxA_inv_batches
T ** I_m_AxA_inv_batches
Definition: arima_common.h:226

ML::ARIMAMemory::d_Tparams
T * d_Tparams
Definition: arima_common.h:219

ML::ARIMAMemory::ImT_inv_batches
T ** ImT_inv_batches
Definition: arima_common.h:225

ML::ARIMAMemory::I_m_AxA_dense
T * I_m_AxA_dense
Definition: arima_common.h:222

ML::ARIMAMemory::v_tmp_dense
T * v_tmp_dense
Definition: arima_common.h:221

ML::ARIMAMemory::Tparams_ma
T * Tparams_ma
Definition: arima_common.h:219

ML::ARIMAMemory::params_beta
T * params_beta
Definition: arima_common.h:218

ML::ARIMAMemory::I_m_AxA_info
int * I_m_AxA_info
Definition: arima_common.h:228

ML::ARIMAMemory::P_dense
T * P_dense
Definition: arima_common.h:220

ML::ARIMAMemory::v_tmp_batches
T ** v_tmp_batches
Definition: arima_common.h:225

ML::ARIMAMemory::I_m_AxA_batches
T ** I_m_AxA_batches
Definition: arima_common.h:226

ML::ARIMAMemory::params_ar
T * params_ar
Definition: arima_common.h:218

ML::ARIMAMemory::buf
char * buf
Definition: arima_common.h:233

ML::ARIMAMemory::ARIMAMemory
ARIMAMemory(const ARIMAOrder &order, int batch_size, int n_obs)
Definition: arima_common.h:331

ML::ARIMAMemory::append_buffer
void append_buffer(ValType *&ptr, size_t n_elem)
Definition: arima_common.h:236

ML::ARIMAMemory::R_dense
T * R_dense
Definition: arima_common.h:220

ML::ARIMAMemory::RQRs_batches
T ** RQRs_batches
Definition: arima_common.h:227

ML::ARIMAMemory::loglike
T * loglike
Definition: arima_common.h:222

ML::ARIMAMemory::exog_diff
T * exog_diff
Definition: arima_common.h:221

ML::ARIMAMemory::RQ_dense
T * RQ_dense
Definition: arima_common.h:220

ML::ARIMAMemory::params_sigma2
T * params_sigma2
Definition: arima_common.h:218

ML::ARIMAMemory::RQR_batches
T ** RQR_batches
Definition: arima_common.h:224

ML::ARIMAMemory::ARIMAMemory
ARIMAMemory(const ARIMAOrder &order, int batch_size, int n_obs, char *in_buf)
Definition: arima_common.h:344

ML::ARIMAMemory::Tparams_sigma2
T * Tparams_sigma2
Definition: arima_common.h:219

ML::ARIMAMemory::TP_batches
T ** TP_batches
Definition: arima_common.h:226

ML::ARIMAMemory::Ts_dense
T * Ts_dense
Definition: arima_common.h:222

ML::ARIMAMemory::params_ma
T * params_ma
Definition: arima_common.h:218

ML::ARIMAMemory::Ts_batches
T ** Ts_batches
Definition: arima_common.h:226

ML::ARIMAOrder
Definition: arima_common.h:35

ML::ARIMAOrder::p
int p
Definition: arima_common.h:36

ML::ARIMAOrder::s
int s
Definition: arima_common.h:42

ML::ARIMAOrder::n_phi
int n_phi() const
Definition: arima_common.h:47

ML::ARIMAOrder::P
int P
Definition: arima_common.h:39

ML::ARIMAOrder::r
int r() const
Definition: arima_common.h:49

ML::ARIMAOrder::n_exog
int n_exog
Definition: arima_common.h:44

ML::ARIMAOrder::rd
int rd() const
Definition: arima_common.h:50

ML::ARIMAOrder::D
int D
Definition: arima_common.h:40

ML::ARIMAOrder::complexity
int complexity() const
Definition: arima_common.h:51

ML::ARIMAOrder::q
int q
Definition: arima_common.h:38

ML::ARIMAOrder::need_diff
bool need_diff() const
Definition: arima_common.h:52

ML::ARIMAOrder::n_theta
int n_theta() const
Definition: arima_common.h:48

ML::ARIMAOrder::Q
int Q
Definition: arima_common.h:41

ML::ARIMAOrder::d
int d
Definition: arima_common.h:37

ML::ARIMAOrder::k
int k
Definition: arima_common.h:43

ML::ARIMAOrder::n_diff
int n_diff() const
Definition: arima_common.h:46

ML::ARIMAParams
Definition: arima_common.h:62

ML::ARIMAParams::mu
DataT * mu
Definition: arima_common.h:63

ML::ARIMAParams::sma
DataT * sma
Definition: arima_common.h:68

ML::ARIMAParams::beta
DataT * beta
Definition: arima_common.h:64

ML::ARIMAParams::deallocate
void deallocate(const ARIMAOrder &order, int batch_size, cudaStream_t stream, bool tr=false)
Definition: arima_common.h:102

ML::ARIMAParams::unpack
void unpack(const ARIMAOrder &order, int batch_size, const DataT *param_vec, cudaStream_t stream)
Definition: arima_common.h:171

ML::ARIMAParams::ma
DataT * ma
Definition: arima_common.h:66

ML::ARIMAParams::allocate
void allocate(const ARIMAOrder &order, int batch_size, cudaStream_t stream, bool tr=false)
Definition: arima_common.h:80

ML::ARIMAParams::ar
DataT * ar
Definition: arima_common.h:65

ML::ARIMAParams::sar
DataT * sar
Definition: arima_common.h:67

ML::ARIMAParams::sigma2
DataT * sigma2
Definition: arima_common.h:69

ML::ARIMAParams::pack
void pack(const ARIMAOrder &order, int batch_size, DataT *param_vec, cudaStream_t stream) const
Definition: arima_common.h:124