From 11a96e0d59a07b3616a52663bf85a1d61015645c Mon Sep 17 00:00:00 2001
From: "Yu-Hsiang M. Tsai" <yhmtsai@gmail.com>
Date: Tue, 29 Oct 2024 01:04:27 +0100
Subject: [PATCH 1/3] batch with half

---
 .../base/batch_multi_vector_kernels.cpp       | 13 ++---
 common/cuda_hip/matrix/batch_csr_kernels.cpp  |  8 +--
 .../cuda_hip/matrix/batch_dense_kernels.cpp   | 12 +++--
 common/cuda_hip/matrix/batch_ell_kernels.cpp  |  8 +--
 core/base/batch_instantiation.hpp             |  2 +-
 core/base/batch_multi_vector.cpp              | 27 ++++++++--
 core/device_hooks/common_kernels.inc.cpp      | 53 +++++++++++--------
 core/log/batch_logger.cpp                     |  4 +-
 core/matrix/batch_csr.cpp                     | 29 ++++++++--
 core/matrix/batch_dense.cpp                   | 28 ++++++++--
 core/matrix/batch_ell.cpp                     | 29 ++++++++--
 core/matrix/batch_identity.cpp                |  3 +-
 core/preconditioner/batch_jacobi.cpp          |  2 +-
 core/solver/batch_bicgstab.cpp                |  2 +-
 core/solver/batch_cg.cpp                      |  2 +-
 core/solver/batch_dispatch.hpp                | 42 +++++++++++++--
 cuda/preconditioner/batch_jacobi_kernels.cu   |  4 +-
 dpcpp/base/batch_multi_vector_kernels.dp.cpp  | 13 ++---
 dpcpp/base/batch_multi_vector_kernels.hpp     | 41 --------------
 dpcpp/matrix/batch_csr_kernels.dp.cpp         |  8 +--
 dpcpp/matrix/batch_dense_kernels.dp.cpp       | 12 +++--
 dpcpp/matrix/batch_ell_kernels.dp.cpp         |  8 +--
 dpcpp/preconditioner/batch_block_jacobi.hpp   |  7 ++-
 .../batch_jacobi_kernels.dp.cpp               |  4 +-
 .../batch_jacobi_kernels.hip.cpp              |  4 +-
 .../ginkgo/core/base/batch_multi_vector.hpp   | 36 ++++++++++---
 include/ginkgo/core/base/types.hpp            | 11 ++++
 include/ginkgo/core/log/logger.hpp            | 12 +++++
 include/ginkgo/core/matrix/batch_csr.hpp      | 35 ++++++++++--
 include/ginkgo/core/matrix/batch_dense.hpp    | 33 ++++++++++--
 include/ginkgo/core/matrix/batch_ell.hpp      | 35 ++++++++++--
 omp/base/batch_multi_vector_kernels.cpp       | 13 ++---
 omp/matrix/batch_csr_kernels.cpp              |  8 +--
 omp/matrix/batch_dense_kernels.cpp            | 12 +++--
 omp/matrix/batch_ell_kernels.cpp              |  8 +--
 omp/preconditioner/batch_jacobi_kernels.cpp   |  4 +-
 reference/base/batch_multi_vector_kernels.cpp | 13 ++---
 reference/matrix/batch_csr_kernels.cpp        |  8 +--
 reference/matrix/batch_dense_kernels.cpp      | 12 +++--
 reference/matrix/batch_ell_kernels.cpp        |  8 +--
 .../preconditioner/batch_jacobi_kernels.cpp   |  4 +-
 41 files changed, 426 insertions(+), 191 deletions(-)
diff --git a/common/cuda_hip/base/batch_multi_vector_kernels.cpp b/common/cuda_hip/base/batch_multi_vector_kernels.cpp
index 8154dc440df..8ff88ddc73b 100644
--- a/common/cuda_hip/base/batch_multi_vector_kernels.cpp
+++ b/common/cuda_hip/base/batch_multi_vector_kernels.cpp
@@ -55,7 +55,7 @@ void scale(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_SCALE_KERNEL);
 
 
@@ -81,7 +81,7 @@ void add_scaled(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_ADD_SCALED_KERNEL);
 
 
@@ -101,7 +101,7 @@ void compute_dot(std::shared_ptr<const DefaultExecutor> exec,
         x_ub, y_ub, res_ub, [] __device__(auto val) { return val; });
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_COMPUTE_DOT_KERNEL);
 
 
@@ -121,7 +121,7 @@ void compute_conj_dot(std::shared_ptr<const DefaultExecutor> exec,
         x_ub, y_ub, res_ub, [] __device__(auto val) { return conj(val); });
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_COMPUTE_CONJ_DOT_KERNEL);
 
 
@@ -139,7 +139,7 @@ void compute_norm2(std::shared_ptr<const DefaultExecutor> exec,
         x_ub, res_ub);
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_COMPUTE_NORM2_KERNEL);
 
 
@@ -156,7 +156,8 @@ void copy(std::shared_ptr<const DefaultExecutor> exec,
             x_ub, result_ub);
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_MULTI_VECTOR_COPY_KERNEL);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_MULTI_VECTOR_COPY_KERNEL);
 
 
 }  // namespace batch_multi_vector
diff --git a/common/cuda_hip/matrix/batch_csr_kernels.cpp b/common/cuda_hip/matrix/batch_csr_kernels.cpp
index d48cdbaf32a..0db100363b8 100644
--- a/common/cuda_hip/matrix/batch_csr_kernels.cpp
+++ b/common/cuda_hip/matrix/batch_csr_kernels.cpp
@@ -46,7 +46,7 @@ void simple_apply(std::shared_ptr<const DefaultExecutor> exec,
 }
 
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_CSR_SIMPLE_APPLY_KERNEL);
 
 
@@ -72,7 +72,7 @@ void advanced_apply(std::shared_ptr<const DefaultExecutor> exec,
         alpha_ub, mat_ub, b_ub, beta_ub, x_ub);
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_CSR_ADVANCED_APPLY_KERNEL);
 
 
@@ -91,7 +91,7 @@ void scale(std::shared_ptr<const DefaultExecutor> exec,
             mat_ub);
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_CSR_SCALE_KERNEL);
 
 
@@ -110,7 +110,7 @@ void add_scaled_identity(std::shared_ptr<const DefaultExecutor> exec,
         alpha_ub, beta_ub, mat_ub);
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_CSR_ADD_SCALED_IDENTITY_KERNEL);
 
 
diff --git a/common/cuda_hip/matrix/batch_dense_kernels.cpp b/common/cuda_hip/matrix/batch_dense_kernels.cpp
index ee4d87abaa3..e0f1fc5e8dc 100644
--- a/common/cuda_hip/matrix/batch_dense_kernels.cpp
+++ b/common/cuda_hip/matrix/batch_dense_kernels.cpp
@@ -45,7 +45,7 @@ void simple_apply(std::shared_ptr<const DefaultExecutor> exec,
         mat_ub, b_ub, x_ub);
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_DENSE_SIMPLE_APPLY_KERNEL);
 
 
@@ -71,7 +71,7 @@ void advanced_apply(std::shared_ptr<const DefaultExecutor> exec,
         alpha_ub, mat_ub, b_ub, beta_ub, x_ub);
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_DENSE_ADVANCED_APPLY_KERNEL);
 
 
@@ -90,7 +90,8 @@ void scale(std::shared_ptr<const DefaultExecutor> exec,
             mat_ub);
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_DENSE_SCALE_KERNEL);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_DENSE_SCALE_KERNEL);
 
 
 template <typename ValueType>
@@ -108,7 +109,8 @@ void scale_add(std::shared_ptr<const DefaultExecutor> exec,
         alpha_ub, mat_ub, in_out_ub);
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_DENSE_SCALE_ADD_KERNEL);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_DENSE_SCALE_ADD_KERNEL);
 
 
 template <typename ValueType>
@@ -126,7 +128,7 @@ void add_scaled_identity(std::shared_ptr<const DefaultExecutor> exec,
         alpha_ub, beta_ub, mat_ub);
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_DENSE_ADD_SCALED_IDENTITY_KERNEL);
 
 
diff --git a/common/cuda_hip/matrix/batch_ell_kernels.cpp b/common/cuda_hip/matrix/batch_ell_kernels.cpp
index 38d34707d45..dddb53e34ff 100644
--- a/common/cuda_hip/matrix/batch_ell_kernels.cpp
+++ b/common/cuda_hip/matrix/batch_ell_kernels.cpp
@@ -46,7 +46,7 @@ void simple_apply(std::shared_ptr<const DefaultExecutor> exec,
 }
 
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_ELL_SIMPLE_APPLY_KERNEL);
 
 
@@ -72,7 +72,7 @@ void advanced_apply(std::shared_ptr<const DefaultExecutor> exec,
         alpha_ub, mat_ub, b_ub, beta_ub, x_ub);
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_ELL_ADVANCED_APPLY_KERNEL);
 
 
@@ -91,7 +91,7 @@ void scale(std::shared_ptr<const DefaultExecutor> exec,
             mat_ub);
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_ELL_SCALE_KERNEL);
 
 
@@ -110,7 +110,7 @@ void add_scaled_identity(std::shared_ptr<const DefaultExecutor> exec,
         alpha_ub, beta_ub, mat_ub);
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_ELL_ADD_SCALED_IDENTITY_KERNEL);
 
 
diff --git a/core/base/batch_instantiation.hpp b/core/base/batch_instantiation.hpp
index dbcccefb469..652d4cd7ff7 100644
--- a/core/base/batch_instantiation.hpp
+++ b/core/base/batch_instantiation.hpp
@@ -45,7 +45,7 @@ namespace batch {
 #define GKO_INSTANTIATE_FOR_BATCH_VALUE_MATRIX_PRECONDITIONER(...) \
     GKO_CALL(GKO_BATCH_INSTANTIATE_MATRIX,                         \
              GKO_BATCH_INSTANTIATE_PRECONDITIONER,                 \
-             GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_VARGS, __VA_ARGS__)
+             GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_VARGS_WITH_HALF, __VA_ARGS__)
 
 
 }  // namespace batch
diff --git a/core/base/batch_multi_vector.cpp b/core/base/batch_multi_vector.cpp
index f4485377f25..1eb3cd8f60d 100644
--- a/core/base/batch_multi_vector.cpp
+++ b/core/base/batch_multi_vector.cpp
@@ -281,7 +281,7 @@ void MultiVector<ValueType>::compute_norm2(
 
 template <typename ValueType>
 void MultiVector<ValueType>::convert_to(
-    MultiVector<next_precision<ValueType>>* result) const
+    MultiVector<next_precision_with_half<ValueType>>* result) const
 {
     result->values_ = this->values_;
     result->set_size(this->get_size());
@@ -290,14 +290,35 @@ void MultiVector<ValueType>::convert_to(
 
 template <typename ValueType>
 void MultiVector<ValueType>::move_to(
-    MultiVector<next_precision<ValueType>>* result)
+    MultiVector<next_precision_with_half<ValueType>>* result)
 {
     this->convert_to(result);
 }
 
 
+#if GINKGO_ENABLE_HALF
+template <typename ValueType>
+void MultiVector<ValueType>::convert_to(
+    MultiVector<next_precision_with_half<next_precision_with_half<ValueType>>>*
+        result) const
+{
+    result->values_ = this->values_;
+    result->set_size(this->get_size());
+}
+
+
+template <typename ValueType>
+void MultiVector<ValueType>::move_to(
+    MultiVector<next_precision_with_half<next_precision_with_half<ValueType>>>*
+        result)
+{
+    this->convert_to(result);
+}
+#endif
+
+
 #define GKO_DECLARE_BATCH_MULTI_VECTOR(_type) class MultiVector<_type>
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_MULTI_VECTOR);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(GKO_DECLARE_BATCH_MULTI_VECTOR);
 
 
 }  // namespace batch
diff --git a/core/device_hooks/common_kernels.inc.cpp b/core/device_hooks/common_kernels.inc.cpp
index 7215a17aec5..3f6cc9ab1bc 100644
--- a/core/device_hooks/common_kernels.inc.cpp
+++ b/core/device_hooks/common_kernels.inc.cpp
@@ -362,12 +362,15 @@ GKO_STUB_VALUE_AND_LOCAL_GLOBAL_INDEX_TYPE(GKO_DECLARE_SEPARATE_LOCAL_NONLOCAL);
 namespace batch_multi_vector {
 
 
-GKO_STUB_VALUE_TYPE(GKO_DECLARE_BATCH_MULTI_VECTOR_SCALE_KERNEL);
-GKO_STUB_VALUE_TYPE(GKO_DECLARE_BATCH_MULTI_VECTOR_ADD_SCALED_KERNEL);
-GKO_STUB_VALUE_TYPE(GKO_DECLARE_BATCH_MULTI_VECTOR_COMPUTE_DOT_KERNEL);
-GKO_STUB_VALUE_TYPE(GKO_DECLARE_BATCH_MULTI_VECTOR_COMPUTE_CONJ_DOT_KERNEL);
-GKO_STUB_VALUE_TYPE(GKO_DECLARE_BATCH_MULTI_VECTOR_COMPUTE_NORM2_KERNEL);
-GKO_STUB_VALUE_TYPE(GKO_DECLARE_BATCH_MULTI_VECTOR_COPY_KERNEL);
+GKO_STUB_VALUE_TYPE_WITH_HALF(GKO_DECLARE_BATCH_MULTI_VECTOR_SCALE_KERNEL);
+GKO_STUB_VALUE_TYPE_WITH_HALF(GKO_DECLARE_BATCH_MULTI_VECTOR_ADD_SCALED_KERNEL);
+GKO_STUB_VALUE_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_MULTI_VECTOR_COMPUTE_DOT_KERNEL);
+GKO_STUB_VALUE_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_MULTI_VECTOR_COMPUTE_CONJ_DOT_KERNEL);
+GKO_STUB_VALUE_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_MULTI_VECTOR_COMPUTE_NORM2_KERNEL);
+GKO_STUB_VALUE_TYPE_WITH_HALF(GKO_DECLARE_BATCH_MULTI_VECTOR_COPY_KERNEL);
 
 
 }  // namespace batch_multi_vector
@@ -376,10 +379,13 @@ GKO_STUB_VALUE_TYPE(GKO_DECLARE_BATCH_MULTI_VECTOR_COPY_KERNEL);
 namespace batch_csr {
 
 
-GKO_STUB_VALUE_AND_INT32_TYPE(GKO_DECLARE_BATCH_CSR_SIMPLE_APPLY_KERNEL);
-GKO_STUB_VALUE_AND_INT32_TYPE(GKO_DECLARE_BATCH_CSR_ADVANCED_APPLY_KERNEL);
-GKO_STUB_VALUE_AND_INT32_TYPE(GKO_DECLARE_BATCH_CSR_SCALE_KERNEL);
-GKO_STUB_VALUE_AND_INT32_TYPE(GKO_DECLARE_BATCH_CSR_ADD_SCALED_IDENTITY_KERNEL);
+GKO_STUB_VALUE_AND_INT32_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_CSR_SIMPLE_APPLY_KERNEL);
+GKO_STUB_VALUE_AND_INT32_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_CSR_ADVANCED_APPLY_KERNEL);
+GKO_STUB_VALUE_AND_INT32_TYPE_WITH_HALF(GKO_DECLARE_BATCH_CSR_SCALE_KERNEL);
+GKO_STUB_VALUE_AND_INT32_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_CSR_ADD_SCALED_IDENTITY_KERNEL);
 
 
 }  // namespace batch_csr
@@ -388,11 +394,12 @@ GKO_STUB_VALUE_AND_INT32_TYPE(GKO_DECLARE_BATCH_CSR_ADD_SCALED_IDENTITY_KERNEL);
 namespace batch_dense {
 
 
-GKO_STUB_VALUE_TYPE(GKO_DECLARE_BATCH_DENSE_SIMPLE_APPLY_KERNEL);
-GKO_STUB_VALUE_TYPE(GKO_DECLARE_BATCH_DENSE_ADVANCED_APPLY_KERNEL);
-GKO_STUB_VALUE_TYPE(GKO_DECLARE_BATCH_DENSE_SCALE_KERNEL);
-GKO_STUB_VALUE_TYPE(GKO_DECLARE_BATCH_DENSE_SCALE_ADD_KERNEL);
-GKO_STUB_VALUE_TYPE(GKO_DECLARE_BATCH_DENSE_ADD_SCALED_IDENTITY_KERNEL);
+GKO_STUB_VALUE_TYPE_WITH_HALF(GKO_DECLARE_BATCH_DENSE_SIMPLE_APPLY_KERNEL);
+GKO_STUB_VALUE_TYPE_WITH_HALF(GKO_DECLARE_BATCH_DENSE_ADVANCED_APPLY_KERNEL);
+GKO_STUB_VALUE_TYPE_WITH_HALF(GKO_DECLARE_BATCH_DENSE_SCALE_KERNEL);
+GKO_STUB_VALUE_TYPE_WITH_HALF(GKO_DECLARE_BATCH_DENSE_SCALE_ADD_KERNEL);
+GKO_STUB_VALUE_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_DENSE_ADD_SCALED_IDENTITY_KERNEL);
 
 
 }  // namespace batch_dense
@@ -401,10 +408,13 @@ GKO_STUB_VALUE_TYPE(GKO_DECLARE_BATCH_DENSE_ADD_SCALED_IDENTITY_KERNEL);
 namespace batch_ell {
 
 
-GKO_STUB_VALUE_AND_INT32_TYPE(GKO_DECLARE_BATCH_ELL_SIMPLE_APPLY_KERNEL);
-GKO_STUB_VALUE_AND_INT32_TYPE(GKO_DECLARE_BATCH_ELL_ADVANCED_APPLY_KERNEL);
-GKO_STUB_VALUE_AND_INT32_TYPE(GKO_DECLARE_BATCH_ELL_SCALE_KERNEL);
-GKO_STUB_VALUE_AND_INT32_TYPE(GKO_DECLARE_BATCH_ELL_ADD_SCALED_IDENTITY_KERNEL);
+GKO_STUB_VALUE_AND_INT32_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_ELL_SIMPLE_APPLY_KERNEL);
+GKO_STUB_VALUE_AND_INT32_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_ELL_ADVANCED_APPLY_KERNEL);
+GKO_STUB_VALUE_AND_INT32_TYPE_WITH_HALF(GKO_DECLARE_BATCH_ELL_SCALE_KERNEL);
+GKO_STUB_VALUE_AND_INT32_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_ELL_ADD_SCALED_IDENTITY_KERNEL);
 
 
 }  // namespace batch_ell
@@ -941,9 +951,10 @@ namespace batch_jacobi {
 GKO_STUB_INDEX_TYPE(
     GKO_DECLARE_BATCH_BLOCK_JACOBI_COMPUTE_CUMULATIVE_BLOCK_STORAGE);
 GKO_STUB_INDEX_TYPE(GKO_DECLARE_BATCH_BLOCK_JACOBI_FIND_ROW_BLOCK_MAP);
-GKO_STUB_VALUE_AND_INT32_TYPE(
+GKO_STUB_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_BLOCK_JACOBI_EXTRACT_PATTERN_KERNEL);
-GKO_STUB_VALUE_AND_INT32_TYPE(GKO_DECLARE_BATCH_BLOCK_JACOBI_COMPUTE_KERNEL);
+GKO_STUB_VALUE_AND_INT32_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_BLOCK_JACOBI_COMPUTE_KERNEL);
 
 
 }  // namespace batch_jacobi
diff --git a/core/log/batch_logger.cpp b/core/log/batch_logger.cpp
index f274019016f..86c6ea647f2 100644
--- a/core/log/batch_logger.cpp
+++ b/core/log/batch_logger.cpp
@@ -65,7 +65,7 @@ log_data<ValueType>::log_data(std::shared_ptr<const Executor> exec,
 
 #define GKO_DECLARE_LOG_DATA(_type) struct log_data<_type>
 
-GKO_INSTANTIATE_FOR_EACH_NON_COMPLEX_VALUE_TYPE(GKO_DECLARE_LOG_DATA);
+GKO_INSTANTIATE_FOR_EACH_NON_COMPLEX_VALUE_TYPE_WITH_HALF(GKO_DECLARE_LOG_DATA);
 
 #undef GKO_DECLARE_LOG_DATA
 
@@ -92,7 +92,7 @@ void BatchConvergence<ValueType>::on_batch_solver_completed(
 
 
 #define GKO_DECLARE_BATCH_CONVERGENCE(_type) class BatchConvergence<_type>
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_CONVERGENCE);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(GKO_DECLARE_BATCH_CONVERGENCE);
 
 
 }  // namespace log
diff --git a/core/matrix/batch_csr.cpp b/core/matrix/batch_csr.cpp
index 1b1dc22a6c4..141c5b86d02 100644
--- a/core/matrix/batch_csr.cpp
+++ b/core/matrix/batch_csr.cpp
@@ -246,7 +246,7 @@ void Csr<ValueType, IndexType>::add_scaled_identity(
 
 template <typename ValueType, typename IndexType>
 void Csr<ValueType, IndexType>::convert_to(
-    Csr<next_precision<ValueType>, IndexType>* result) const
+    Csr<next_precision_with_half<ValueType>, IndexType>* result) const
 {
     result->values_ = this->values_;
     result->col_idxs_ = this->col_idxs_;
@@ -257,14 +257,37 @@ void Csr<ValueType, IndexType>::convert_to(
 
 template <typename ValueType, typename IndexType>
 void Csr<ValueType, IndexType>::move_to(
-    Csr<next_precision<ValueType>, IndexType>* result)
+    Csr<next_precision_with_half<ValueType>, IndexType>* result)
 {
     this->convert_to(result);
 }
 
 
+#if GINKGO_ENABLE_HALF
+template <typename ValueType, typename IndexType>
+void Csr<ValueType, IndexType>::convert_to(
+    Csr<next_precision_with_half<next_precision_with_half<ValueType>>,
+        IndexType>* result) const
+{
+    result->values_ = this->values_;
+    result->col_idxs_ = this->col_idxs_;
+    result->row_ptrs_ = this->row_ptrs_;
+    result->set_size(this->get_size());
+}
+
+
+template <typename ValueType, typename IndexType>
+void Csr<ValueType, IndexType>::move_to(
+    Csr<next_precision_with_half<next_precision_with_half<ValueType>>,
+        IndexType>* result)
+{
+    this->convert_to(result);
+}
+#endif
+
+
 #define GKO_DECLARE_BATCH_CSR_MATRIX(ValueType) class Csr<ValueType, int32>
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_CSR_MATRIX);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(GKO_DECLARE_BATCH_CSR_MATRIX);
 
 
 }  // namespace matrix
diff --git a/core/matrix/batch_dense.cpp b/core/matrix/batch_dense.cpp
index 6390a4c7ad0..0c1838abb56 100644
--- a/core/matrix/batch_dense.cpp
+++ b/core/matrix/batch_dense.cpp
@@ -245,7 +245,7 @@ void Dense<ValueType>::add_scaled_identity(
 
 template <typename ValueType>
 void Dense<ValueType>::convert_to(
-    Dense<next_precision<ValueType>>* result) const
+    Dense<next_precision_with_half<ValueType>>* result) const
 {
     result->values_ = this->values_;
     result->set_size(this->get_size());
@@ -253,14 +253,36 @@ void Dense<ValueType>::convert_to(
 
 
 template <typename ValueType>
-void Dense<ValueType>::move_to(Dense<next_precision<ValueType>>* result)
+void Dense<ValueType>::move_to(
+    Dense<next_precision_with_half<ValueType>>* result)
 {
     this->convert_to(result);
 }
 
 
+#if GINKGO_ENABLE_HALF
+template <typename ValueType>
+void Dense<ValueType>::convert_to(
+    Dense<next_precision_with_half<next_precision_with_half<ValueType>>>*
+        result) const
+{
+    result->values_ = this->values_;
+    result->set_size(this->get_size());
+}
+
+
+template <typename ValueType>
+void Dense<ValueType>::move_to(
+    Dense<next_precision_with_half<next_precision_with_half<ValueType>>>*
+        result)
+{
+    this->convert_to(result);
+}
+#endif
+
+
 #define GKO_DECLARE_BATCH_DENSE_MATRIX(_type) class Dense<_type>
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_DENSE_MATRIX);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(GKO_DECLARE_BATCH_DENSE_MATRIX);
 
 
 }  // namespace matrix
diff --git a/core/matrix/batch_ell.cpp b/core/matrix/batch_ell.cpp
index 3722c41de60..3b829d3ba4c 100644
--- a/core/matrix/batch_ell.cpp
+++ b/core/matrix/batch_ell.cpp
@@ -266,7 +266,7 @@ void Ell<ValueType, IndexType>::add_scaled_identity(
 
 template <typename ValueType, typename IndexType>
 void Ell<ValueType, IndexType>::convert_to(
-    Ell<next_precision<ValueType>, IndexType>* result) const
+    Ell<next_precision_with_half<ValueType>, IndexType>* result) const
 {
     result->values_ = this->values_;
     result->col_idxs_ = this->col_idxs_;
@@ -277,14 +277,37 @@ void Ell<ValueType, IndexType>::convert_to(
 
 template <typename ValueType, typename IndexType>
 void Ell<ValueType, IndexType>::move_to(
-    Ell<next_precision<ValueType>, IndexType>* result)
+    Ell<next_precision_with_half<ValueType>, IndexType>* result)
 {
     this->convert_to(result);
 }
 
 
+#if GINKGO_ENABLE_HALF
+template <typename ValueType, typename IndexType>
+void Ell<ValueType, IndexType>::convert_to(
+    Ell<next_precision_with_half<next_precision_with_half<ValueType>>,
+        IndexType>* result) const
+{
+    result->values_ = this->values_;
+    result->col_idxs_ = this->col_idxs_;
+    result->num_elems_per_row_ = this->num_elems_per_row_;
+    result->set_size(this->get_size());
+}
+
+
+template <typename ValueType, typename IndexType>
+void Ell<ValueType, IndexType>::move_to(
+    Ell<next_precision_with_half<next_precision_with_half<ValueType>>,
+        IndexType>* result)
+{
+    this->convert_to(result);
+}
+#endif
+
+
 #define GKO_DECLARE_BATCH_ELL_MATRIX(ValueType) class Ell<ValueType, int32>
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_ELL_MATRIX);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(GKO_DECLARE_BATCH_ELL_MATRIX);
 
 
 }  // namespace matrix
diff --git a/core/matrix/batch_identity.cpp b/core/matrix/batch_identity.cpp
index 2220120d00b..6ee2d55f6fe 100644
--- a/core/matrix/batch_identity.cpp
+++ b/core/matrix/batch_identity.cpp
@@ -113,7 +113,8 @@ void Identity<ValueType>::apply_impl(const MultiVector<ValueType>* alpha,
 
 
 #define GKO_DECLARE_BATCH_IDENTITY_MATRIX(ValueType) class Identity<ValueType>
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_IDENTITY_MATRIX);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_IDENTITY_MATRIX);
 
 
 }  // namespace matrix
diff --git a/core/preconditioner/batch_jacobi.cpp b/core/preconditioner/batch_jacobi.cpp
index e4382de38ec..53809a82a5a 100644
--- a/core/preconditioner/batch_jacobi.cpp
+++ b/core/preconditioner/batch_jacobi.cpp
@@ -175,7 +175,7 @@ void Jacobi<ValueType, IndexType>::generate_precond(
 
 
 #define GKO_DECLARE_BATCH_JACOBI(_type) class Jacobi<_type, int32>
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_JACOBI);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(GKO_DECLARE_BATCH_JACOBI);
 
 
 }  // namespace preconditioner
diff --git a/core/solver/batch_bicgstab.cpp b/core/solver/batch_bicgstab.cpp
index 73fc0a2c852..fa467c98976 100644
--- a/core/solver/batch_bicgstab.cpp
+++ b/core/solver/batch_bicgstab.cpp
@@ -68,7 +68,7 @@ void Bicgstab<ValueType>::solver_apply(
 
 
 #define GKO_DECLARE_BATCH_BICGSTAB(_type) class Bicgstab<_type>
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_BICGSTAB);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(GKO_DECLARE_BATCH_BICGSTAB);
 
 
 }  // namespace solver
diff --git a/core/solver/batch_cg.cpp b/core/solver/batch_cg.cpp
index 13a5afffcaa..c7c4da5085a 100644
--- a/core/solver/batch_cg.cpp
+++ b/core/solver/batch_cg.cpp
@@ -69,7 +69,7 @@ void Cg<ValueType>::solver_apply(
 
 
 #define GKO_DECLARE_BATCH_CG(_type) class Cg<_type>
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_CG);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(GKO_DECLARE_BATCH_CG);
 
 
 }  // namespace solver
diff --git a/core/solver/batch_dispatch.hpp b/core/solver/batch_dispatch.hpp
index d76bc72d489..570b717d7d6 100644
--- a/core/solver/batch_dispatch.hpp
+++ b/core/solver/batch_dispatch.hpp
@@ -86,6 +86,23 @@ using DeviceValueType = gko::kernels::hip::hip_type<ValueType>;
 #include "dpcpp/stop/batch_criteria.hpp"
 
 
+namespace gko {
+namespace kernels {
+namespace dpcpp {
+
+
+template <typename T>
+inline std::decay_t<T> as_device_type(T val)
+{
+    return val;
+}
+
+
+}  // namespace dpcpp
+}  // namespace kernels
+}  // namespace gko
+
+
 namespace gko {
 namespace batch {
 namespace solver {
@@ -115,6 +132,23 @@ using DeviceValueType = ValueType;
 #include "reference/stop/batch_criteria.hpp"
 
 
+namespace gko {
+namespace kernels {
+namespace host {
+
+
+template <typename T>
+inline std::decay_t<T> as_device_type(T val)
+{
+    return val;
+}
+
+
+}  // namespace host
+}  // namespace kernels
+}  // namespace gko
+
+
 namespace gko {
 namespace batch {
 namespace solver {
@@ -205,7 +239,7 @@ enum class log_type { simple_convergence_completion };
     GKO_CALL(GKO_BATCH_INSTANTIATE_MATRIX_BATCH, GKO_BATCH_INSTANTIATE_LOGGER, \
              GKO_BATCH_INSTANTIATE_DEVICE_PRECONDITIONER,                      \
              GKO_BATCH_INSTANTIATE_STOP,                                       \
-             GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_VARGS, __VA_ARGS__)
+             GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_VARGS_WITH_HALF, __VA_ARGS__)
 
 
 /**
@@ -226,6 +260,7 @@ class batch_solver_dispatch {
     using value_type = ValueType;
     using device_value_type = DeviceValueType<ValueType>;
     using real_type = remove_complex<value_type>;
+    using device_real_type = DeviceValueType<real_type>;
 
     batch_solver_dispatch(
         const KernelCaller& kernel_caller, const SettingsType& settings,
@@ -316,8 +351,9 @@ class batch_solver_dispatch {
     {
         if (logger_type_ ==
             log::detail::log_type::simple_convergence_completion) {
-            device::batch_log::SimpleFinalLogger<real_type> logger(
-                log_data.res_norms.get_data(), log_data.iter_counts.get_data());
+            device::batch_log::SimpleFinalLogger<device_real_type> logger(
+                device::as_device_type(log_data.res_norms.get_data()),
+                log_data.iter_counts.get_data());
             dispatch_on_preconditioner(logger, amat, b_item, x_item);
         } else {
             GKO_NOT_IMPLEMENTED;
diff --git a/cuda/preconditioner/batch_jacobi_kernels.cu b/cuda/preconditioner/batch_jacobi_kernels.cu
index 2ac5717308a..30bbc8fd2e7 100644
--- a/cuda/preconditioner/batch_jacobi_kernels.cu
+++ b/cuda/preconditioner/batch_jacobi_kernels.cu
@@ -99,7 +99,7 @@ void extract_common_blocks_pattern(
         blocks_pattern);
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_BLOCK_JACOBI_EXTRACT_PATTERN_KERNEL);
 
 
@@ -156,7 +156,7 @@ void compute_block_jacobi(
         cumulative_block_storage, block_pointers, blocks_pattern, blocks);
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_BLOCK_JACOBI_COMPUTE_KERNEL);
 
 
diff --git a/dpcpp/base/batch_multi_vector_kernels.dp.cpp b/dpcpp/base/batch_multi_vector_kernels.dp.cpp
index 1d38a165956..6f1f3467e4a 100644
--- a/dpcpp/base/batch_multi_vector_kernels.dp.cpp
+++ b/dpcpp/base/batch_multi_vector_kernels.dp.cpp
@@ -102,7 +102,7 @@ void scale(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_SCALE_KERNEL);
 
 
@@ -161,7 +161,7 @@ void add_scaled(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_ADD_SCALED_KERNEL);
 
 
@@ -230,7 +230,7 @@ void compute_dot(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_COMPUTE_DOT_KERNEL);
 
 
@@ -275,7 +275,7 @@ void compute_conj_dot(std::shared_ptr<const DefaultExecutor> exec,
     });
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_COMPUTE_CONJ_DOT_KERNEL);
 
 
@@ -334,7 +334,7 @@ void compute_norm2(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_COMPUTE_NORM2_KERNEL);
 
 
@@ -372,7 +372,8 @@ void copy(std::shared_ptr<const DefaultExecutor> exec,
     });
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_MULTI_VECTOR_COPY_KERNEL);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_MULTI_VECTOR_COPY_KERNEL);
 
 
 }  // namespace batch_multi_vector
diff --git a/dpcpp/base/batch_multi_vector_kernels.hpp b/dpcpp/base/batch_multi_vector_kernels.hpp
index 74abaeda86f..96ada23f42c 100644
--- a/dpcpp/base/batch_multi_vector_kernels.hpp
+++ b/dpcpp/base/batch_multi_vector_kernels.hpp
@@ -65,25 +65,6 @@ __dpct_inline__ void add_scaled_kernel(
 }
 
 
-template <typename ValueType>
-__dpct_inline__ void single_rhs_compute_conj_dot(
-    const int num_rows, const ValueType* const __restrict__ x,
-    const ValueType* const __restrict__ y, ValueType& result,
-    sycl::nd_item<3> item_ct1)
-{
-    const auto group = item_ct1.get_group();
-    const auto group_size = item_ct1.get_local_range().size();
-    const auto tid = item_ct1.get_local_linear_id();
-
-    ValueType val = zero<ValueType>();
-
-    for (int r = tid; r < num_rows; r += group_size) {
-        val += conj(x[r]) * y[r];
-    }
-    result = sycl::reduce_over_group(group, val, sycl::plus<>());
-}
-
-
 template <int tile_size = config::warp_size, typename ValueType>
 __dpct_inline__ void single_rhs_compute_conj_dot_sg(
     const int num_rows, const ValueType* const __restrict__ x,
@@ -174,28 +155,6 @@ __dpct_inline__ void single_rhs_compute_norm2_sg(
 }
 
 
-template <typename ValueType>
-__dpct_inline__ void single_rhs_compute_norm2(
-    const int num_rows, const ValueType* const __restrict__ x,
-    gko::remove_complex<ValueType>& result, sycl::nd_item<3> item_ct1)
-{
-    const auto group = item_ct1.get_group();
-    const auto group_size = item_ct1.get_local_range().size();
-    const auto tid = item_ct1.get_local_linear_id();
-
-    using real_type = typename gko::remove_complex<ValueType>;
-    real_type val = zero<real_type>();
-
-    for (int r = tid; r < num_rows; r += group_size) {
-        val += squared_norm(x[r]);
-    }
-
-    val = sycl::reduce_over_group(group, val, sycl::plus<>());
-
-    result = sqrt(val);
-}
-
-
 template <typename ValueType>
 __dpct_inline__ void compute_norm2_kernel(
     const gko::batch::multi_vector::batch_item<const ValueType>& x,
diff --git a/dpcpp/matrix/batch_csr_kernels.dp.cpp b/dpcpp/matrix/batch_csr_kernels.dp.cpp
index 1759a959299..ae5122ec7f9 100644
--- a/dpcpp/matrix/batch_csr_kernels.dp.cpp
+++ b/dpcpp/matrix/batch_csr_kernels.dp.cpp
@@ -73,7 +73,7 @@ void simple_apply(std::shared_ptr<const DefaultExecutor> exec,
     });
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_CSR_SIMPLE_APPLY_KERNEL);
 
 
@@ -127,7 +127,7 @@ void advanced_apply(std::shared_ptr<const DefaultExecutor> exec,
     });
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_CSR_ADVANCED_APPLY_KERNEL);
 
 
@@ -173,7 +173,7 @@ void scale(std::shared_ptr<const DefaultExecutor> exec,
     });
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_CSR_SCALE_KERNEL);
 
 
@@ -215,7 +215,7 @@ void add_scaled_identity(std::shared_ptr<const DefaultExecutor> exec,
     });
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_CSR_ADD_SCALED_IDENTITY_KERNEL);
 
 
diff --git a/dpcpp/matrix/batch_dense_kernels.dp.cpp b/dpcpp/matrix/batch_dense_kernels.dp.cpp
index 43974589abb..6c0e4b4eb44 100644
--- a/dpcpp/matrix/batch_dense_kernels.dp.cpp
+++ b/dpcpp/matrix/batch_dense_kernels.dp.cpp
@@ -76,7 +76,7 @@ void simple_apply(std::shared_ptr<const DefaultExecutor> exec,
     });
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_DENSE_SIMPLE_APPLY_KERNEL);
 
 
@@ -129,7 +129,7 @@ void advanced_apply(std::shared_ptr<const DefaultExecutor> exec,
     });
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_DENSE_ADVANCED_APPLY_KERNEL);
 
 
@@ -173,7 +173,8 @@ void scale(std::shared_ptr<const DefaultExecutor> exec,
     });
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_DENSE_SCALE_KERNEL);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_DENSE_SCALE_KERNEL);
 
 
 template <typename ValueType>
@@ -215,7 +216,8 @@ void scale_add(std::shared_ptr<const DefaultExecutor> exec,
     });
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_DENSE_SCALE_ADD_KERNEL);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_DENSE_SCALE_ADD_KERNEL);
 
 
 template <typename ValueType>
@@ -256,7 +258,7 @@ void add_scaled_identity(std::shared_ptr<const DefaultExecutor> exec,
     });
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_DENSE_ADD_SCALED_IDENTITY_KERNEL);
 
 
diff --git a/dpcpp/matrix/batch_ell_kernels.dp.cpp b/dpcpp/matrix/batch_ell_kernels.dp.cpp
index d9b819b101e..b4e2627a494 100644
--- a/dpcpp/matrix/batch_ell_kernels.dp.cpp
+++ b/dpcpp/matrix/batch_ell_kernels.dp.cpp
@@ -73,7 +73,7 @@ void simple_apply(std::shared_ptr<const DefaultExecutor> exec,
     });
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_ELL_SIMPLE_APPLY_KERNEL);
 
 
@@ -127,7 +127,7 @@ void advanced_apply(std::shared_ptr<const DefaultExecutor> exec,
     });
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_ELL_ADVANCED_APPLY_KERNEL);
 
 
@@ -170,7 +170,7 @@ void scale(std::shared_ptr<const DefaultExecutor> exec,
     });
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_ELL_SCALE_KERNEL);
 
 
@@ -212,7 +212,7 @@ void add_scaled_identity(std::shared_ptr<const DefaultExecutor> exec,
     });
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_ELL_ADD_SCALED_IDENTITY_KERNEL);
 
 
diff --git a/dpcpp/preconditioner/batch_block_jacobi.hpp b/dpcpp/preconditioner/batch_block_jacobi.hpp
index a7431f919a5..04c21f97991 100644
--- a/dpcpp/preconditioner/batch_block_jacobi.hpp
+++ b/dpcpp/preconditioner/batch_block_jacobi.hpp
@@ -129,8 +129,11 @@ class BlockJacobi final {
                 sum += block_val * r[dense_block_col + idx_start];
             }
 
-            // reduction
-            sum = sycl::reduce_over_group(sg, sum, sycl::plus<>());
+            // reduction (it does not support half)
+            // sum = sycl::reduce_over_group(sg, sum, sycl::plus<>());
+            for (int i = sg_size / 2; i > 0; i /= 2) {
+                sum += sg.shuffle_down(sum, i);
+            }
 
             if (sg_tid == 0) {
                 z[row_idx] = sum;
diff --git a/dpcpp/preconditioner/batch_jacobi_kernels.dp.cpp b/dpcpp/preconditioner/batch_jacobi_kernels.dp.cpp
index 7721359716c..3a63466ef5d 100644
--- a/dpcpp/preconditioner/batch_jacobi_kernels.dp.cpp
+++ b/dpcpp/preconditioner/batch_jacobi_kernels.dp.cpp
@@ -104,7 +104,7 @@ void extract_common_blocks_pattern(
     });
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_BLOCK_JACOBI_EXTRACT_PATTERN_KERNEL);
 
 
@@ -173,7 +173,7 @@ void compute_block_jacobi(
         cumulative_block_storage, block_pointers, blocks_pattern, blocks, exec);
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_BLOCK_JACOBI_COMPUTE_KERNEL);
 
 
diff --git a/hip/preconditioner/batch_jacobi_kernels.hip.cpp b/hip/preconditioner/batch_jacobi_kernels.hip.cpp
index fdd57a95127..2424a035cf4 100644
--- a/hip/preconditioner/batch_jacobi_kernels.hip.cpp
+++ b/hip/preconditioner/batch_jacobi_kernels.hip.cpp
@@ -101,7 +101,7 @@ void extract_common_blocks_pattern(
         blocks_pattern);
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_BLOCK_JACOBI_EXTRACT_PATTERN_KERNEL);
 
 
@@ -159,7 +159,7 @@ void compute_block_jacobi(
         cumulative_block_storage, block_pointers, blocks_pattern, blocks);
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_BLOCK_JACOBI_COMPUTE_KERNEL);
 
 
diff --git a/include/ginkgo/core/base/batch_multi_vector.hpp b/include/ginkgo/core/base/batch_multi_vector.hpp
index d04e9562fce..bd641f057a1 100644
--- a/include/ginkgo/core/base/batch_multi_vector.hpp
+++ b/include/ginkgo/core/base/batch_multi_vector.hpp
@@ -52,16 +52,22 @@ template <typename ValueType = default_precision>
 class MultiVector
     : public EnablePolymorphicObject<MultiVector<ValueType>>,
       public EnablePolymorphicAssignment<MultiVector<ValueType>>,
-      public ConvertibleTo<MultiVector<next_precision<ValueType>>> {
+#if GINKGO_ENABLE_HALF
+      public ConvertibleTo<MultiVector<
+          next_precision_with_half<next_precision_with_half<ValueType>>>>,
+#endif
+      public ConvertibleTo<MultiVector<next_precision_with_half<ValueType>>> {
     friend class EnablePolymorphicObject<MultiVector>;
     friend class MultiVector<to_complex<ValueType>>;
-    friend class MultiVector<next_precision<ValueType>>;
+    friend class MultiVector<previous_precision_with_half<ValueType>>;
 
 public:
     using EnablePolymorphicAssignment<MultiVector>::convert_to;
     using EnablePolymorphicAssignment<MultiVector>::move_to;
-    using ConvertibleTo<MultiVector<next_precision<ValueType>>>::convert_to;
-    using ConvertibleTo<MultiVector<next_precision<ValueType>>>::move_to;
+    using ConvertibleTo<
+        MultiVector<next_precision_with_half<ValueType>>>::convert_to;
+    using ConvertibleTo<
+        MultiVector<next_precision_with_half<ValueType>>>::move_to;
 
     using value_type = ValueType;
     using index_type = int32;
@@ -78,10 +84,28 @@ class MultiVector
     static std::unique_ptr<MultiVector> create_with_config_of(
         ptr_param<const MultiVector> other);
 
+    void convert_to(MultiVector<next_precision_with_half<ValueType>>* result)
+        const override;
+
+    void move_to(
+        MultiVector<next_precision_with_half<ValueType>>* result) override;
+
+#if GINKGO_ENABLE_HALF
+    friend class MultiVector<
+        previous_precision_with_half<previous_precision_with_half<ValueType>>>;
+    using ConvertibleTo<MultiVector<next_precision_with_half<
+        next_precision_with_half<ValueType>>>>::convert_to;
+    using ConvertibleTo<MultiVector<next_precision_with_half<
+        next_precision_with_half<ValueType>>>>::move_to;
+
     void convert_to(
-        MultiVector<next_precision<ValueType>>* result) const override;
+        MultiVector<
+            next_precision_with_half<next_precision_with_half<ValueType>>>*
+            result) const override;
 
-    void move_to(MultiVector<next_precision<ValueType>>* result) override;
+    void move_to(MultiVector<next_precision_with_half<
+                     next_precision_with_half<ValueType>>>* result) override;
+#endif
 
     /**
      * Creates a mutable view (of matrix::Dense type) of one item of the Batch
diff --git a/include/ginkgo/core/base/types.hpp b/include/ginkgo/core/base/types.hpp
index 5e1fb2a14e3..4f1166de223 100644
--- a/include/ginkgo/core/base/types.hpp
+++ b/include/ginkgo/core/base/types.hpp
@@ -490,6 +490,11 @@ GKO_ATTRIBUTES constexpr bool operator!=(precision_reduction x,
     template GKO_INDIRECT(_macro(double, __VA_ARGS__))
 #endif
 
+#define GKO_INSTANTIATE_FOR_EACH_NON_COMPLEX_VALUE_TYPE_VARGS_WITH_HALF( \
+    _macro, ...)                                                         \
+    GKO_INDIRECT(GKO_ADAPT_HF(template _macro(half, __VA_ARGS__)));      \
+    GKO_INSTANTIATE_FOR_EACH_NON_COMPLEX_VALUE_TYPE_VARGS(_macro, __VA_ARGS__)
+
 
 /**
  * Instantiates a template for each non-complex value type compiled by Ginkgo.
@@ -517,6 +522,12 @@ GKO_ATTRIBUTES constexpr bool operator!=(precision_reduction x,
     template GKO_INDIRECT(_macro(std::complex<double>, __VA_ARGS__))
 #endif
 
+#define GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_VARGS_WITH_HALF(_macro, ...) \
+    GKO_INDIRECT(GKO_ADAPT_HF(template _macro(half, __VA_ARGS__)));      \
+    GKO_INDIRECT(                                                        \
+        GKO_ADAPT_HF(template _macro(std::complex<half>, __VA_ARGS__))); \
+    GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_VARGS(_macro, __VA_ARGS__)
+
 
 /**
  * Instantiates a template for each value and scalar type compiled by Ginkgo.
diff --git a/include/ginkgo/core/log/logger.hpp b/include/ginkgo/core/log/logger.hpp
index dd9d30249e9..b05b15fcc0c 100644
--- a/include/ginkgo/core/log/logger.hpp
+++ b/include/ginkgo/core/log/logger.hpp
@@ -18,6 +18,7 @@
 
 namespace gko {
 
+class half;
 
 /* Eliminate circular dependencies the hard way */
 template <typename ValueType>
@@ -579,6 +580,17 @@ public:                                                              \
         const array<int>& iters, const array<float>& residual_norms) const
     {}
 
+    /**
+     * Batch solver's event that records the iteration count and the residual
+     * norm.
+     *
+     * @param iters  the array of iteration counts.
+     * @param residual_norms  the array storing the residual norms.
+     */
+    virtual void on_batch_solver_completed(
+        const array<int>& iters, const array<gko::half>& residual_norms) const
+    {}
+
 public:
 #undef GKO_LOGGER_REGISTER_EVENT
 
diff --git a/include/ginkgo/core/matrix/batch_csr.hpp b/include/ginkgo/core/matrix/batch_csr.hpp
index e431454063d..49eb5e4d7cd 100644
--- a/include/ginkgo/core/matrix/batch_csr.hpp
+++ b/include/ginkgo/core/matrix/batch_csr.hpp
@@ -46,10 +46,16 @@ namespace matrix {
 template <typename ValueType = default_precision, typename IndexType = int32>
 class Csr final
     : public EnableBatchLinOp<Csr<ValueType, IndexType>>,
-      public ConvertibleTo<Csr<next_precision<ValueType>, IndexType>> {
+#if GINKGO_ENABLE_HALF
+      public ConvertibleTo<
+          Csr<next_precision_with_half<next_precision_with_half<ValueType>>,
+              IndexType>>,
+#endif
+      public ConvertibleTo<
+          Csr<next_precision_with_half<ValueType>, IndexType>> {
     friend class EnablePolymorphicObject<Csr, BatchLinOp>;
     friend class Csr<to_complex<ValueType>, IndexType>;
-    friend class Csr<next_precision<ValueType>, IndexType>;
+    friend class Csr<previous_precision_with_half<ValueType>, IndexType>;
     static_assert(std::is_same<IndexType, int32>::value,
                   "IndexType must be a 32 bit integer");
 
@@ -63,10 +69,31 @@ class Csr final
     using absolute_type = remove_complex<Csr>;
     using complex_type = to_complex<Csr>;
 
+    void convert_to(Csr<next_precision_with_half<ValueType>, IndexType>* result)
+        const override;
+
+    void move_to(
+        Csr<next_precision_with_half<ValueType>, IndexType>* result) override;
+
+#if GINKGO_ENABLE_HALF
+    friend class Csr<
+        previous_precision_with_half<previous_precision_with_half<ValueType>>,
+        IndexType>;
+    using ConvertibleTo<
+        Csr<next_precision_with_half<next_precision_with_half<ValueType>>,
+            IndexType>>::convert_to;
+    using ConvertibleTo<
+        Csr<next_precision_with_half<next_precision_with_half<ValueType>>,
+            IndexType>>::move_to;
+
     void convert_to(
-        Csr<next_precision<ValueType>, IndexType>* result) const override;
+        Csr<next_precision_with_half<next_precision_with_half<ValueType>>,
+            IndexType>* result) const override;
 
-    void move_to(Csr<next_precision<ValueType>, IndexType>* result) override;
+    void move_to(
+        Csr<next_precision_with_half<next_precision_with_half<ValueType>>,
+            IndexType>* result) override;
+#endif
 
     /**
      * Creates a mutable view (of matrix::Csr type) of one item of the
diff --git a/include/ginkgo/core/matrix/batch_dense.hpp b/include/ginkgo/core/matrix/batch_dense.hpp
index 5ea7c3ee128..c1340e482f4 100644
--- a/include/ginkgo/core/matrix/batch_dense.hpp
+++ b/include/ginkgo/core/matrix/batch_dense.hpp
@@ -45,11 +45,16 @@ namespace matrix {
  * @ingroup BatchLinOp
  */
 template <typename ValueType = default_precision>
-class Dense final : public EnableBatchLinOp<Dense<ValueType>>,
-                    public ConvertibleTo<Dense<next_precision<ValueType>>> {
+class Dense final
+    : public EnableBatchLinOp<Dense<ValueType>>,
+#if GINKGO_ENABLE_HALF
+      public ConvertibleTo<
+          Dense<next_precision_with_half<next_precision_with_half<ValueType>>>>,
+#endif
+      public ConvertibleTo<Dense<next_precision_with_half<ValueType>>> {
     friend class EnablePolymorphicObject<Dense, BatchLinOp>;
     friend class Dense<to_complex<ValueType>>;
-    friend class Dense<next_precision<ValueType>>;
+    friend class Dense<previous_precision_with_half<ValueType>>;
 
 public:
     using EnableBatchLinOp<Dense>::convert_to;
@@ -62,9 +67,27 @@ class Dense final : public EnableBatchLinOp<Dense<ValueType>>,
     using absolute_type = remove_complex<Dense>;
     using complex_type = to_complex<Dense>;
 
-    void convert_to(Dense<next_precision<ValueType>>* result) const override;
+    void convert_to(
+        Dense<next_precision_with_half<ValueType>>* result) const override;
 
-    void move_to(Dense<next_precision<ValueType>>* result) override;
+    void move_to(Dense<next_precision_with_half<ValueType>>* result) override;
+
+#if GINKGO_ENABLE_HALF
+    friend class Dense<
+        previous_precision_with_half<previous_precision_with_half<ValueType>>>;
+    using ConvertibleTo<Dense<next_precision_with_half<
+        next_precision_with_half<ValueType>>>>::convert_to;
+    using ConvertibleTo<Dense<next_precision_with_half<
+        next_precision_with_half<ValueType>>>>::move_to;
+
+    void convert_to(
+        Dense<next_precision_with_half<next_precision_with_half<ValueType>>>*
+            result) const override;
+
+    void move_to(
+        Dense<next_precision_with_half<next_precision_with_half<ValueType>>>*
+            result) override;
+#endif
 
     /**
      * Creates a mutable view (of gko::matrix::Dense type) of one item of the
diff --git a/include/ginkgo/core/matrix/batch_ell.hpp b/include/ginkgo/core/matrix/batch_ell.hpp
index b760cee795a..872b8ce2db9 100644
--- a/include/ginkgo/core/matrix/batch_ell.hpp
+++ b/include/ginkgo/core/matrix/batch_ell.hpp
@@ -51,10 +51,16 @@ namespace matrix {
 template <typename ValueType = default_precision, typename IndexType = int32>
 class Ell final
     : public EnableBatchLinOp<Ell<ValueType, IndexType>>,
-      public ConvertibleTo<Ell<next_precision<ValueType>, IndexType>> {
+#if GINKGO_ENABLE_HALF
+      public ConvertibleTo<
+          Ell<next_precision_with_half<next_precision_with_half<ValueType>>,
+              IndexType>>,
+#endif
+      public ConvertibleTo<
+          Ell<next_precision_with_half<ValueType>, IndexType>> {
     friend class EnablePolymorphicObject<Ell, BatchLinOp>;
     friend class Ell<to_complex<ValueType>, IndexType>;
-    friend class Ell<next_precision<ValueType>, IndexType>;
+    friend class Ell<previous_precision_with_half<ValueType>, IndexType>;
     static_assert(std::is_same<IndexType, int32>::value,
                   "IndexType must be a 32 bit integer");
 
@@ -68,10 +74,31 @@ class Ell final
     using absolute_type = remove_complex<Ell>;
     using complex_type = to_complex<Ell>;
 
+    void convert_to(Ell<next_precision_with_half<ValueType>, IndexType>* result)
+        const override;
+
+    void move_to(
+        Ell<next_precision_with_half<ValueType>, IndexType>* result) override;
+
+#if GINKGO_ENABLE_HALF
+    friend class Ell<
+        previous_precision_with_half<previous_precision_with_half<ValueType>>,
+        IndexType>;
+    using ConvertibleTo<
+        Ell<next_precision_with_half<next_precision_with_half<ValueType>>,
+            IndexType>>::convert_to;
+    using ConvertibleTo<
+        Ell<next_precision_with_half<next_precision_with_half<ValueType>>,
+            IndexType>>::move_to;
+
     void convert_to(
-        Ell<next_precision<ValueType>, IndexType>* result) const override;
+        Ell<next_precision_with_half<next_precision_with_half<ValueType>>,
+            IndexType>* result) const override;
 
-    void move_to(Ell<next_precision<ValueType>, IndexType>* result) override;
+    void move_to(
+        Ell<next_precision_with_half<next_precision_with_half<ValueType>>,
+            IndexType>* result) override;
+#endif
 
     /**
      * Creates a mutable view (of matrix::Ell type) of one item of the
diff --git a/omp/base/batch_multi_vector_kernels.cpp b/omp/base/batch_multi_vector_kernels.cpp
index 5b57921ab8f..bbae1b0b85d 100644
--- a/omp/base/batch_multi_vector_kernels.cpp
+++ b/omp/base/batch_multi_vector_kernels.cpp
@@ -37,7 +37,7 @@ void scale(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_SCALE_KERNEL);
 
 
@@ -59,7 +59,7 @@ void add_scaled(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_ADD_SCALED_KERNEL);
 
 
@@ -81,7 +81,7 @@ void compute_dot(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_COMPUTE_DOT_KERNEL);
 
 
@@ -103,7 +103,7 @@ void compute_conj_dot(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_COMPUTE_CONJ_DOT_KERNEL);
 
 
@@ -122,7 +122,7 @@ void compute_norm2(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_COMPUTE_NORM2_KERNEL);
 
 
@@ -141,7 +141,8 @@ void copy(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_MULTI_VECTOR_COPY_KERNEL);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_MULTI_VECTOR_COPY_KERNEL);
 
 
 }  // namespace batch_multi_vector
diff --git a/omp/matrix/batch_csr_kernels.cpp b/omp/matrix/batch_csr_kernels.cpp
index d4ea6cbd642..b55253e9d4e 100644
--- a/omp/matrix/batch_csr_kernels.cpp
+++ b/omp/matrix/batch_csr_kernels.cpp
@@ -41,7 +41,7 @@ void simple_apply(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_CSR_SIMPLE_APPLY_KERNEL);
 
 
@@ -71,7 +71,7 @@ void advanced_apply(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_CSR_ADVANCED_APPLY_KERNEL);
 
 
@@ -98,7 +98,7 @@ void scale(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_CSR_SCALE_KERNEL);
 
 
@@ -122,7 +122,7 @@ void add_scaled_identity(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_CSR_ADD_SCALED_IDENTITY_KERNEL);
 
 
diff --git a/omp/matrix/batch_dense_kernels.cpp b/omp/matrix/batch_dense_kernels.cpp
index cd4a7f05b4a..ea7da295bb4 100644
--- a/omp/matrix/batch_dense_kernels.cpp
+++ b/omp/matrix/batch_dense_kernels.cpp
@@ -41,7 +41,7 @@ void simple_apply(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_DENSE_SIMPLE_APPLY_KERNEL);
 
 
@@ -71,7 +71,7 @@ void advanced_apply(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_DENSE_ADVANCED_APPLY_KERNEL);
 
 
@@ -98,7 +98,8 @@ void scale(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_DENSE_SCALE_KERNEL);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_DENSE_SCALE_KERNEL);
 
 
 template <typename ValueType>
@@ -121,7 +122,8 @@ void scale_add(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_DENSE_SCALE_ADD_KERNEL);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_DENSE_SCALE_ADD_KERNEL);
 
 
 template <typename ValueType>
@@ -144,7 +146,7 @@ void add_scaled_identity(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_DENSE_ADD_SCALED_IDENTITY_KERNEL);
 
 
diff --git a/omp/matrix/batch_ell_kernels.cpp b/omp/matrix/batch_ell_kernels.cpp
index 8b1239565a1..74b8d94cfc8 100644
--- a/omp/matrix/batch_ell_kernels.cpp
+++ b/omp/matrix/batch_ell_kernels.cpp
@@ -41,7 +41,7 @@ void simple_apply(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_ELL_SIMPLE_APPLY_KERNEL);
 
 
@@ -71,7 +71,7 @@ void advanced_apply(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_ELL_ADVANCED_APPLY_KERNEL);
 
 
@@ -98,7 +98,7 @@ void scale(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_ELL_SCALE_KERNEL);
 
 
@@ -122,7 +122,7 @@ void add_scaled_identity(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_ELL_ADD_SCALED_IDENTITY_KERNEL);
 
 
diff --git a/omp/preconditioner/batch_jacobi_kernels.cpp b/omp/preconditioner/batch_jacobi_kernels.cpp
index 58fb2602075..99036fd628f 100644
--- a/omp/preconditioner/batch_jacobi_kernels.cpp
+++ b/omp/preconditioner/batch_jacobi_kernels.cpp
@@ -74,7 +74,7 @@ void extract_common_blocks_pattern(
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_BLOCK_JACOBI_EXTRACT_PATTERN_KERNEL);
 
 
@@ -102,7 +102,7 @@ void compute_block_jacobi(
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_BLOCK_JACOBI_COMPUTE_KERNEL);
 
 
diff --git a/reference/base/batch_multi_vector_kernels.cpp b/reference/base/batch_multi_vector_kernels.cpp
index d7fbf3ce214..4f48a0b6f94 100644
--- a/reference/base/batch_multi_vector_kernels.cpp
+++ b/reference/base/batch_multi_vector_kernels.cpp
@@ -35,7 +35,7 @@ void scale(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_SCALE_KERNEL);
 
 
@@ -56,7 +56,7 @@ void add_scaled(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_ADD_SCALED_KERNEL);
 
 
@@ -77,7 +77,7 @@ void compute_dot(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_COMPUTE_DOT_KERNEL);
 
 
@@ -98,7 +98,7 @@ void compute_conj_dot(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_COMPUTE_CONJ_DOT_KERNEL);
 
 
@@ -116,7 +116,7 @@ void compute_norm2(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_MULTI_VECTOR_COMPUTE_NORM2_KERNEL);
 
 
@@ -134,7 +134,8 @@ void copy(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_MULTI_VECTOR_COPY_KERNEL);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_MULTI_VECTOR_COPY_KERNEL);
 
 
 }  // namespace batch_multi_vector
diff --git a/reference/matrix/batch_csr_kernels.cpp b/reference/matrix/batch_csr_kernels.cpp
index d3304ab9795..c277d4f0738 100644
--- a/reference/matrix/batch_csr_kernels.cpp
+++ b/reference/matrix/batch_csr_kernels.cpp
@@ -39,7 +39,7 @@ void simple_apply(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_CSR_SIMPLE_APPLY_KERNEL);
 
 
@@ -68,7 +68,7 @@ void advanced_apply(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_CSR_ADVANCED_APPLY_KERNEL);
 
 
@@ -94,7 +94,7 @@ void scale(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_CSR_SCALE_KERNEL);
 
 
@@ -117,7 +117,7 @@ void add_scaled_identity(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_CSR_ADD_SCALED_IDENTITY_KERNEL);
 
 
diff --git a/reference/matrix/batch_dense_kernels.cpp b/reference/matrix/batch_dense_kernels.cpp
index 599af30ecfb..9c92fb54056 100644
--- a/reference/matrix/batch_dense_kernels.cpp
+++ b/reference/matrix/batch_dense_kernels.cpp
@@ -39,7 +39,7 @@ void simple_apply(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_DENSE_SIMPLE_APPLY_KERNEL);
 
 
@@ -68,7 +68,7 @@ void advanced_apply(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_DENSE_ADVANCED_APPLY_KERNEL);
 
 
@@ -94,7 +94,8 @@ void scale(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_DENSE_SCALE_KERNEL);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_DENSE_SCALE_KERNEL);
 
 
 template <typename ValueType>
@@ -116,7 +117,8 @@ void scale_add(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(GKO_DECLARE_BATCH_DENSE_SCALE_ADD_KERNEL);
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
+    GKO_DECLARE_BATCH_DENSE_SCALE_ADD_KERNEL);
 
 
 template <typename ValueType>
@@ -138,7 +140,7 @@ void add_scaled_identity(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_DENSE_ADD_SCALED_IDENTITY_KERNEL);
 
 
diff --git a/reference/matrix/batch_ell_kernels.cpp b/reference/matrix/batch_ell_kernels.cpp
index 1a4855f389f..bc0eb61e30d 100644
--- a/reference/matrix/batch_ell_kernels.cpp
+++ b/reference/matrix/batch_ell_kernels.cpp
@@ -39,7 +39,7 @@ void simple_apply(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_ELL_SIMPLE_APPLY_KERNEL);
 
 
@@ -68,7 +68,7 @@ void advanced_apply(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_ELL_ADVANCED_APPLY_KERNEL);
 
 
@@ -94,7 +94,7 @@ void scale(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_ELL_SCALE_KERNEL);
 
 
@@ -117,7 +117,7 @@ void add_scaled_identity(std::shared_ptr<const DefaultExecutor> exec,
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_ELL_ADD_SCALED_IDENTITY_KERNEL);
 
 
diff --git a/reference/preconditioner/batch_jacobi_kernels.cpp b/reference/preconditioner/batch_jacobi_kernels.cpp
index f994c8c448b..3f6d75cca29 100644
--- a/reference/preconditioner/batch_jacobi_kernels.cpp
+++ b/reference/preconditioner/batch_jacobi_kernels.cpp
@@ -70,7 +70,7 @@ void extract_common_blocks_pattern(
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_BLOCK_JACOBI_EXTRACT_PATTERN_KERNEL);
 
 
@@ -96,7 +96,7 @@ void compute_block_jacobi(
     }
 }
 
-GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE(
+GKO_INSTANTIATE_FOR_EACH_VALUE_AND_INT32_TYPE_WITH_HALF(
     GKO_DECLARE_BATCH_BLOCK_JACOBI_COMPUTE_KERNEL);
 
 

From 8efb1f5870f7ed4bfe3cdecabaf782c89629397b Mon Sep 17 00:00:00 2001
From: "Yu-Hsiang M. Tsai" <yhmtsai@gmail.com>
Date: Tue, 29 Oct 2024 01:06:15 +0100
Subject: [PATCH 2/3] batch test with half

---
 core/test/base/batch_multi_vector.cpp         |  3 ++-
 core/test/matrix/batch_csr.cpp                |  2 +-
 core/test/matrix/batch_dense.cpp              |  2 +-
 core/test/matrix/batch_ell.cpp                |  2 +-
 core/test/matrix/batch_identity.cpp           |  3 ++-
 core/test/solver/batch_bicgstab.cpp           |  3 ++-
 core/test/solver/batch_cg.cpp                 |  2 +-
 core/test/utils/batch_helpers.hpp             |  2 +-
 .../test/base/batch_multi_vector_kernels.cpp  | 11 ++++----
 reference/test/matrix/batch_csr_kernels.cpp   |  2 +-
 reference/test/matrix/batch_dense_kernels.cpp |  2 +-
 reference/test/matrix/batch_ell_kernels.cpp   |  2 +-
 .../test/solver/batch_bicgstab_kernels.cpp    | 27 ++++++++++++-------
 reference/test/solver/batch_cg_kernels.cpp    | 22 ++++++++++++---
 14 files changed, 56 insertions(+), 29 deletions(-)

diff --git a/core/test/base/batch_multi_vector.cpp b/core/test/base/batch_multi_vector.cpp
index 3798f30ce65..7a9606bc710 100644
--- a/core/test/base/batch_multi_vector.cpp
+++ b/core/test/base/batch_multi_vector.cpp
@@ -64,7 +64,8 @@ class MultiVector : public ::testing::Test {
     std::unique_ptr<gko::matrix::Dense<value_type>> dense_mtx;
 };
 
-TYPED_TEST_SUITE(MultiVector, gko::test::ValueTypes, TypenameNameGenerator);
+TYPED_TEST_SUITE(MultiVector, gko::test::ValueTypesWithHalf,
+                 TypenameNameGenerator);
 
 
 TYPED_TEST(MultiVector, CanBeEmpty)
diff --git a/core/test/matrix/batch_csr.cpp b/core/test/matrix/batch_csr.cpp
index 57cae53d646..3a1871ba583 100644
--- a/core/test/matrix/batch_csr.cpp
+++ b/core/test/matrix/batch_csr.cpp
@@ -114,7 +114,7 @@ class Csr : public ::testing::Test {
     std::unique_ptr<CsrMtx> sp_csr_mtx;
 };
 
-TYPED_TEST_SUITE(Csr, gko::test::ValueTypes, TypenameNameGenerator);
+TYPED_TEST_SUITE(Csr, gko::test::ValueTypesWithHalf, TypenameNameGenerator);
 
 
 TYPED_TEST(Csr, KnowsItsSizeAndValues)
diff --git a/core/test/matrix/batch_dense.cpp b/core/test/matrix/batch_dense.cpp
index 334df5c0e93..23542114746 100644
--- a/core/test/matrix/batch_dense.cpp
+++ b/core/test/matrix/batch_dense.cpp
@@ -68,7 +68,7 @@ class Dense : public ::testing::Test {
     std::unique_ptr<gko::matrix::Dense<value_type>> dense_mtx;
 };
 
-TYPED_TEST_SUITE(Dense, gko::test::ValueTypes, TypenameNameGenerator);
+TYPED_TEST_SUITE(Dense, gko::test::ValueTypesWithHalf, TypenameNameGenerator);
 
 
 TYPED_TEST(Dense, KnowsItsSizeAndValues)
diff --git a/core/test/matrix/batch_ell.cpp b/core/test/matrix/batch_ell.cpp
index 11f6381a43d..ae047ecfa90 100644
--- a/core/test/matrix/batch_ell.cpp
+++ b/core/test/matrix/batch_ell.cpp
@@ -92,7 +92,7 @@ class Ell : public ::testing::Test {
     std::unique_ptr<EllMtx> sp_ell_mtx;
 };
 
-TYPED_TEST_SUITE(Ell, gko::test::ValueTypes, TypenameNameGenerator);
+TYPED_TEST_SUITE(Ell, gko::test::ValueTypesWithHalf, TypenameNameGenerator);
 
 
 TYPED_TEST(Ell, KnowsItsSizeAndValues)
diff --git a/core/test/matrix/batch_identity.cpp b/core/test/matrix/batch_identity.cpp
index dd7a3675110..765f9f30938 100644
--- a/core/test/matrix/batch_identity.cpp
+++ b/core/test/matrix/batch_identity.cpp
@@ -49,7 +49,8 @@ class Identity : public ::testing::Test {
     std::unique_ptr<gko::batch::MultiVector<value_type>> mvec;
 };
 
-TYPED_TEST_SUITE(Identity, gko::test::ValueTypes, TypenameNameGenerator);
+TYPED_TEST_SUITE(Identity, gko::test::ValueTypesWithHalf,
+                 TypenameNameGenerator);
 
 
 TYPED_TEST(Identity, KnowsItsSizeAndValues)
diff --git a/core/test/solver/batch_bicgstab.cpp b/core/test/solver/batch_bicgstab.cpp
index cd9446d07b2..0b50f7f6e92 100644
--- a/core/test/solver/batch_bicgstab.cpp
+++ b/core/test/solver/batch_bicgstab.cpp
@@ -50,7 +50,8 @@ class BatchBicgstab : public ::testing::Test {
     std::unique_ptr<gko::batch::BatchLinOp> solver;
 };
 
-TYPED_TEST_SUITE(BatchBicgstab, gko::test::ValueTypes, TypenameNameGenerator);
+TYPED_TEST_SUITE(BatchBicgstab, gko::test::ValueTypesWithHalf,
+                 TypenameNameGenerator);
 
 
 TYPED_TEST(BatchBicgstab, FactoryKnowsItsExecutor)
diff --git a/core/test/solver/batch_cg.cpp b/core/test/solver/batch_cg.cpp
index 1e97c765f8a..b517c931adf 100644
--- a/core/test/solver/batch_cg.cpp
+++ b/core/test/solver/batch_cg.cpp
@@ -50,7 +50,7 @@ class BatchCg : public ::testing::Test {
     std::unique_ptr<gko::batch::BatchLinOp> solver;
 };
 
-TYPED_TEST_SUITE(BatchCg, gko::test::ValueTypes, TypenameNameGenerator);
+TYPED_TEST_SUITE(BatchCg, gko::test::ValueTypesWithHalf, TypenameNameGenerator);
 
 
 TYPED_TEST(BatchCg, FactoryKnowsItsExecutor)
diff --git a/core/test/utils/batch_helpers.hpp b/core/test/utils/batch_helpers.hpp
index 15c4d7560d9..790034b724c 100644
--- a/core/test/utils/batch_helpers.hpp
+++ b/core/test/utils/batch_helpers.hpp
@@ -137,7 +137,7 @@ std::unique_ptr<MatrixType> generate_diag_dominant_batch_matrix(
                     static_cast<size_type>(num_cols)},
         {}};
     auto engine = std::default_random_engine(42);
-    auto rand_diag_dist = std::normal_distribution<real_type>(20.0, 1.0);
+    auto rand_diag_dist = std::normal_distribution<>(20.0, 1.0);
     for (int row = 0; row < num_rows; ++row) {
         std::uniform_int_distribution<index_type> rand_nnz_dist{1, row + 1};
         const auto k = rand_nnz_dist(engine);
diff --git a/reference/test/base/batch_multi_vector_kernels.cpp b/reference/test/base/batch_multi_vector_kernels.cpp
index 694ae491ef4..a860c3c4b24 100644
--- a/reference/test/base/batch_multi_vector_kernels.cpp
+++ b/reference/test/base/batch_multi_vector_kernels.cpp
@@ -96,7 +96,8 @@ class MultiVector : public ::testing::Test {
     std::default_random_engine rand_engine;
 };
 
-TYPED_TEST_SUITE(MultiVector, gko::test::ValueTypes, TypenameNameGenerator);
+TYPED_TEST_SUITE(MultiVector, gko::test::ValueTypesWithHalf,
+                 TypenameNameGenerator);
 
 
 TYPED_TEST(MultiVector, ScalesData)
@@ -342,7 +343,7 @@ TYPED_TEST(MultiVector, ConvertsToPrecision)
 {
     using MultiVector = typename TestFixture::Mtx;
     using T = typename TestFixture::value_type;
-    using OtherT = typename gko::next_precision<T>;
+    using OtherT = typename gko::next_precision_with_half<T>;
     using OtherMultiVector = typename gko::batch::MultiVector<OtherT>;
     auto tmp = OtherMultiVector::create(this->exec);
     auto res = MultiVector::create(this->exec);
@@ -366,7 +367,7 @@ TYPED_TEST(MultiVector, MovesToPrecision)
 {
     using MultiVector = typename TestFixture::Mtx;
     using T = typename TestFixture::value_type;
-    using OtherT = typename gko::next_precision<T>;
+    using OtherT = typename gko::next_precision_with_half<T>;
     using OtherMultiVector = typename gko::batch::MultiVector<OtherT>;
     auto tmp = OtherMultiVector::create(this->exec);
     auto res = MultiVector::create(this->exec);
@@ -390,7 +391,7 @@ TYPED_TEST(MultiVector, ConvertsEmptyToPrecision)
 {
     using MultiVector = typename TestFixture::Mtx;
     using T = typename TestFixture::value_type;
-    using OtherT = typename gko::next_precision<T>;
+    using OtherT = typename gko::next_precision_with_half<T>;
     using OtherMultiVector = typename gko::batch::MultiVector<OtherT>;
     auto empty = OtherMultiVector::create(this->exec);
     auto res = MultiVector::create(this->exec);
@@ -405,7 +406,7 @@ TYPED_TEST(MultiVector, MovesEmptyToPrecision)
 {
     using MultiVector = typename TestFixture::Mtx;
     using T = typename TestFixture::value_type;
-    using OtherT = typename gko::next_precision<T>;
+    using OtherT = typename gko::next_precision_with_half<T>;
     using OtherMultiVector = typename gko::batch::MultiVector<OtherT>;
     auto empty = OtherMultiVector::create(this->exec);
     auto res = MultiVector::create(this->exec);
diff --git a/reference/test/matrix/batch_csr_kernels.cpp b/reference/test/matrix/batch_csr_kernels.cpp
index 920bb67696b..85e461b933e 100644
--- a/reference/test/matrix/batch_csr_kernels.cpp
+++ b/reference/test/matrix/batch_csr_kernels.cpp
@@ -78,7 +78,7 @@ class Csr : public ::testing::Test {
     std::ranlux48 rand_engine;
 };
 
-TYPED_TEST_SUITE(Csr, gko::test::ValueTypes, TypenameNameGenerator);
+TYPED_TEST_SUITE(Csr, gko::test::ValueTypesWithHalf, TypenameNameGenerator);
 
 
 TYPED_TEST(Csr, AppliesToBatchMultiVector)
diff --git a/reference/test/matrix/batch_dense_kernels.cpp b/reference/test/matrix/batch_dense_kernels.cpp
index 50c1909959f..23f747c24cb 100644
--- a/reference/test/matrix/batch_dense_kernels.cpp
+++ b/reference/test/matrix/batch_dense_kernels.cpp
@@ -77,7 +77,7 @@ class Dense : public ::testing::Test {
 };
 
 
-TYPED_TEST_SUITE(Dense, gko::test::ValueTypes, TypenameNameGenerator);
+TYPED_TEST_SUITE(Dense, gko::test::ValueTypesWithHalf, TypenameNameGenerator);
 
 
 TYPED_TEST(Dense, AppliesToBatchMultiVector)
diff --git a/reference/test/matrix/batch_ell_kernels.cpp b/reference/test/matrix/batch_ell_kernels.cpp
index a2c9ef4e83c..5e2b377eda0 100644
--- a/reference/test/matrix/batch_ell_kernels.cpp
+++ b/reference/test/matrix/batch_ell_kernels.cpp
@@ -79,7 +79,7 @@ class Ell : public ::testing::Test {
 };
 
 
-TYPED_TEST_SUITE(Ell, gko::test::ValueTypes, TypenameNameGenerator);
+TYPED_TEST_SUITE(Ell, gko::test::ValueTypesWithHalf, TypenameNameGenerator);
 
 
 TYPED_TEST(Ell, AppliesToBatchMultiVector)
diff --git a/reference/test/solver/batch_bicgstab_kernels.cpp b/reference/test/solver/batch_bicgstab_kernels.cpp
index c7b36ba875c..468b38a561b 100644
--- a/reference/test/solver/batch_bicgstab_kernels.cpp
+++ b/reference/test/solver/batch_bicgstab_kernels.cpp
@@ -75,7 +75,7 @@ class BatchBicgstab : public ::testing::Test {
         solve_lambda;
 };
 
-TYPED_TEST_SUITE(BatchBicgstab, gko::test::RealValueTypes,
+TYPED_TEST_SUITE(BatchBicgstab, gko::test::RealValueTypesWithHalf,
                  TypenameNameGenerator);
 
 
@@ -111,8 +111,13 @@ TYPED_TEST(BatchBicgstab, StencilSystemLoggerLogsResidual)
         ASSERT_LE(
             res_log_array[i] / this->linear_system.host_rhs_norm->at(i, 0, 0),
             this->solver_settings.residual_tol);
-        ASSERT_NEAR(res_log_array[i], res.host_res_norm->get_const_values()[i],
-                    10 * this->eps);
+        if (!std::is_same<real_type, gko::half>::value) {
+            // There is no guarantee of this condition. We disable this check in
+            // half.
+            ASSERT_NEAR(res_log_array[i],
+                        res.host_res_norm->get_const_values()[i],
+                        10 * this->eps);
+        }
     }
 }
 
@@ -131,7 +136,7 @@ TYPED_TEST(BatchBicgstab, StencilSystemLoggerLogsIterations)
 
     auto iter_array = res.log_data->iter_counts.get_const_data();
     for (size_t i = 0; i < this->num_batch_items; i++) {
-        ASSERT_EQ(iter_array[i], ref_iters);
+        ASSERT_LE(iter_array[i], ref_iters);
     }
 }
 
@@ -142,7 +147,7 @@ TYPED_TEST(BatchBicgstab, CanSolveDenseSystem)
     using real_type = gko::remove_complex<value_type>;
     using Solver = typename TestFixture::solver_type;
     using Mtx = typename TestFixture::Mtx;
-    const real_type tol = 1e-5;
+    const real_type tol = 1e-4;
     const int max_iters = 1000;
     auto solver_factory =
         Solver::build()
@@ -167,7 +172,7 @@ TYPED_TEST(BatchBicgstab, CanSolveDenseSystem)
     for (size_t i = 0; i < num_batch_items; i++) {
         ASSERT_LE(res.host_res_norm->get_const_values()[i] /
                       linear_system.host_rhs_norm->get_const_values()[i],
-                  tol);
+                  tol * 10);
     }
 }
 
@@ -179,7 +184,7 @@ TYPED_TEST(BatchBicgstab, ApplyLogsResAndIters)
     using Solver = typename TestFixture::solver_type;
     using Mtx = typename TestFixture::Mtx;
     using Logger = gko::batch::log::BatchConvergence<value_type>;
-    const real_type tol = 1e-5;
+    const real_type tol = 1e-4;
     const int max_iters = 1000;
     auto solver_factory =
         Solver::build()
@@ -222,7 +227,7 @@ TYPED_TEST(BatchBicgstab, CanSolveEllSystem)
     using real_type = gko::remove_complex<value_type>;
     using Solver = typename TestFixture::solver_type;
     using Mtx = typename TestFixture::EllMtx;
-    const real_type tol = 1e-5;
+    const real_type tol = 1e-4;
     const int max_iters = 1000;
     auto solver_factory =
         Solver::build()
@@ -258,7 +263,7 @@ TYPED_TEST(BatchBicgstab, CanSolveCsrSystem)
     using real_type = gko::remove_complex<value_type>;
     using Solver = typename TestFixture::solver_type;
     using Mtx = typename TestFixture::CsrMtx;
-    const real_type tol = 1e-5;
+    const real_type tol = 1e-4;
     const int max_iters = 1000;
     auto solver_factory =
         Solver::build()
@@ -294,6 +299,10 @@ TYPED_TEST(BatchBicgstab, CanSolveDenseHpdSystem)
     using real_type = gko::remove_complex<value_type>;
     using Solver = typename TestFixture::solver_type;
     using Mtx = typename TestFixture::Mtx;
+    // Need to design a better random system. With different random value
+    // distribution, the solver can not solve the hpd matrix even with single
+    // precision
+    SKIP_IF_HALF(value_type);
     const real_type tol = 1e-5;
     const int max_iters = 1000;
     auto solver_factory =
diff --git a/reference/test/solver/batch_cg_kernels.cpp b/reference/test/solver/batch_cg_kernels.cpp
index 86efa158fb5..2619614278e 100644
--- a/reference/test/solver/batch_cg_kernels.cpp
+++ b/reference/test/solver/batch_cg_kernels.cpp
@@ -75,7 +75,8 @@ class BatchCg : public ::testing::Test {
         solve_lambda;
 };
 
-TYPED_TEST_SUITE(BatchCg, gko::test::RealValueTypes, TypenameNameGenerator);
+TYPED_TEST_SUITE(BatchCg, gko::test::RealValueTypesWithHalf,
+                 TypenameNameGenerator);
 
 
 TYPED_TEST(BatchCg, SolvesStencilSystem)
@@ -87,7 +88,7 @@ TYPED_TEST(BatchCg, SolvesStencilSystem)
     for (size_t i = 0; i < this->num_batch_items; i++) {
         ASSERT_LE(res.host_res_norm->get_const_values()[i] /
                       this->linear_system.host_rhs_norm->get_const_values()[i],
-                  this->solver_settings.residual_tol);
+                  5 * this->solver_settings.residual_tol);
     }
     GKO_ASSERT_BATCH_MTX_NEAR(res.x, this->linear_system.exact_sol,
                               this->eps * 10);
@@ -108,8 +109,13 @@ TYPED_TEST(BatchCg, StencilSystemLoggerLogsResidual)
         ASSERT_LE(
             res_log_array[i] / this->linear_system.host_rhs_norm->at(i, 0, 0),
             this->solver_settings.residual_tol);
-        ASSERT_NEAR(res_log_array[i], res.host_res_norm->get_const_values()[i],
-                    10 * this->eps);
+        if (!std::is_same<real_type, gko::half>::value) {
+            // There is no guarantee of this condition. We disable this check in
+            // half.
+            ASSERT_NEAR(res_log_array[i],
+                        res.host_res_norm->get_const_values()[i],
+                        10 * this->eps);
+        }
     }
 }
 
@@ -140,6 +146,10 @@ TYPED_TEST(BatchCg, ApplyLogsResAndIters)
     using Solver = typename TestFixture::solver_type;
     using Mtx = typename TestFixture::Mtx;
     using Logger = gko::batch::log::BatchConvergence<value_type>;
+    // Need to design a better random system. With different random value
+    // distribution, the solver can not solve the hpd matrix even with single
+    // precision
+    SKIP_IF_HALF(value_type);
     const real_type tol = 1e-6;
     const int max_iters = 1000;
     auto solver_factory =
@@ -181,6 +191,10 @@ TYPED_TEST(BatchCg, CanSolveHpdSystem)
     using real_type = gko::remove_complex<value_type>;
     using Solver = typename TestFixture::solver_type;
     using Mtx = typename TestFixture::Mtx;
+    // Need to design a better random system. With different random value
+    // distribution, the solver can not solve the hpd matrix even with single
+    // precision
+    SKIP_IF_HALF(value_type);
     const real_type tol = 1e-6;
     const int max_iters = 1000;
     auto solver_factory =

From ac078f2304ed310ab43a47567ee25e21856d7f73 Mon Sep 17 00:00:00 2001
From: "Yu-Hsiang M. Tsai" <yhmtsai@gmail.com>
Date: Wed, 20 Nov 2024 18:21:17 +0100
Subject: [PATCH 3/3] cuda/hip batch changes

---
 .../cuda_hip/solver/batch_bicgstab_launch.hpp |  4 +--
 common/cuda_hip/solver/batch_cg_launch.hpp    | 26 +++++++++---------
 cuda/solver/batch_bicgstab_kernels.cu         | 22 +++++++--------
 cuda/solver/batch_bicgstab_launch.cuh         | 27 ++++++++++---------
 cuda/solver/batch_cg_kernels.cu               | 14 +++++-----
 cuda/solver/batch_cg_launch.cuh               | 13 ++++-----
 hip/solver/batch_bicgstab_kernels.hip.cpp     | 22 +++++++--------
 hip/solver/batch_cg_kernels.hip.cpp           | 14 +++++-----
 8 files changed, 72 insertions(+), 70 deletions(-)

diff --git a/common/cuda_hip/solver/batch_bicgstab_launch.hpp b/common/cuda_hip/solver/batch_bicgstab_launch.hpp
index 3886c33bcd5..df7eaaa2f1b 100644
--- a/common/cuda_hip/solver/batch_bicgstab_launch.hpp
+++ b/common/cuda_hip/solver/batch_bicgstab_launch.hpp
@@ -38,11 +38,11 @@ void launch_apply_kernel(
 
 #define GKO_DECLARE_BATCH_BICGSTAB_LAUNCH(_vtype, _n_shared, _prec_shared, \
                                           mat_t, log_t, pre_t, stop_t)     \
-    void launch_apply_kernel<device_type<_vtype>, _n_shared, _prec_shared, \
+    void launch_apply_kernel<_vtype, _n_shared, _prec_shared,              \
                              stop_t<device_type<_vtype>>>(                 \
         std::shared_ptr<const DefaultExecutor> exec,                       \
         const gko::kernels::batch_bicgstab::storage_config& sconf,         \
-        const settings<remove_complex<device_type<_vtype>>>& settings,     \
+        const settings<remove_complex<_vtype>>& settings,                  \
         log_t<gko::remove_complex<device_type<_vtype>>>& logger,           \
         pre_t<device_type<_vtype>>& prec,                                  \
         const mat_t<const device_type<_vtype>>& mat,                       \
diff --git a/common/cuda_hip/solver/batch_cg_launch.hpp b/common/cuda_hip/solver/batch_cg_launch.hpp
index 4306dc2bfab..9fe05f62558 100644
--- a/common/cuda_hip/solver/batch_cg_launch.hpp
+++ b/common/cuda_hip/solver/batch_cg_launch.hpp
@@ -36,19 +36,19 @@ void launch_apply_kernel(
     device_type<ValueType>* const __restrict__ workspace_data,
     const int& block_size, const size_t& shared_size);
 
-#define GKO_DECLARE_BATCH_CG_LAUNCH(_vtype, _n_shared, _prec_shared, mat_t,   \
-                                    log_t, pre_t, stop_t)                     \
-    void launch_apply_kernel<device_type<_vtype>, _n_shared, _prec_shared,    \
-                             stop_t<device_type<_vtype>>>(                    \
-        std::shared_ptr<const DefaultExecutor> exec,                          \
-        const gko::kernels::batch_cg::storage_config& sconf,                  \
-        const settings<remove_complex<_vtype>>& settings,                     \
-        log_t<device_type<gko::remove_complex<device_type<_vtype>>>>& logger, \
-        pre_t<device_type<_vtype>>& prec,                                     \
-        const mat_t<const device_type<_vtype>>& mat,                          \
-        const device_type<_vtype>* const __restrict__ b_values,               \
-        device_type<_vtype>* const __restrict__ x_values,                     \
-        device_type<_vtype>* const __restrict__ workspace_data,               \
+#define GKO_DECLARE_BATCH_CG_LAUNCH(_vtype, _n_shared, _prec_shared, mat_t, \
+                                    log_t, pre_t, stop_t)                   \
+    void launch_apply_kernel<_vtype, _n_shared, _prec_shared,               \
+                             stop_t<device_type<_vtype>>>(                  \
+        std::shared_ptr<const DefaultExecutor> exec,                        \
+        const gko::kernels::batch_cg::storage_config& sconf,                \
+        const settings<remove_complex<_vtype>>& settings,                   \
+        log_t<gko::remove_complex<device_type<_vtype>>>& logger,            \
+        pre_t<device_type<_vtype>>& prec,                                   \
+        const mat_t<const device_type<_vtype>>& mat,                        \
+        const device_type<_vtype>* const __restrict__ b_values,             \
+        device_type<_vtype>* const __restrict__ x_values,                   \
+        device_type<_vtype>* const __restrict__ workspace_data,             \
         const int& block_size, const size_t& shared_size)
 
 #define GKO_INSTANTIATE_BATCH_CG_LAUNCH_0_FALSE \
diff --git a/cuda/solver/batch_bicgstab_kernels.cu b/cuda/solver/batch_bicgstab_kernels.cu
index 74d312c95ef..52398093ac2 100644
--- a/cuda/solver/batch_bicgstab_kernels.cu
+++ b/cuda/solver/batch_bicgstab_kernels.cu
@@ -72,58 +72,58 @@ public:
         // Template parameters launch_apply_kernel<StopType, n_shared,
         // prec_shared>
         if (sconf.prec_shared) {
-            launch_apply_kernel<cuda_value_type, 9, true, StopType>(
+            launch_apply_kernel<ValueType, 9, true, StopType>(
                 exec_, sconf, settings_, logger, prec, mat, b.values, x.values,
                 workspace_data, block_size, shared_size);
         } else {
             switch (sconf.n_shared) {
             case 0:
-                launch_apply_kernel<cuda_value_type, 0, false, StopType>(
+                launch_apply_kernel<ValueType, 0, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 1:
-                launch_apply_kernel<cuda_value_type, 1, false, StopType>(
+                launch_apply_kernel<ValueType, 1, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 2:
-                launch_apply_kernel<cuda_value_type, 2, false, StopType>(
+                launch_apply_kernel<ValueType, 2, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 3:
-                launch_apply_kernel<cuda_value_type, 3, false, StopType>(
+                launch_apply_kernel<ValueType, 3, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 4:
-                launch_apply_kernel<cuda_value_type, 4, false, StopType>(
+                launch_apply_kernel<ValueType, 4, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 5:
-                launch_apply_kernel<cuda_value_type, 5, false, StopType>(
+                launch_apply_kernel<ValueType, 5, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 6:
-                launch_apply_kernel<cuda_value_type, 6, false, StopType>(
+                launch_apply_kernel<ValueType, 6, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 7:
-                launch_apply_kernel<cuda_value_type, 7, false, StopType>(
+                launch_apply_kernel<ValueType, 7, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 8:
-                launch_apply_kernel<cuda_value_type, 8, false, StopType>(
+                launch_apply_kernel<ValueType, 8, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 9:
-                launch_apply_kernel<cuda_value_type, 9, false, StopType>(
+                launch_apply_kernel<ValueType, 9, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
diff --git a/cuda/solver/batch_bicgstab_launch.cuh b/cuda/solver/batch_bicgstab_launch.cuh
index b4e8753ccca..81c71aa91e7 100644
--- a/cuda/solver/batch_bicgstab_launch.cuh
+++ b/cuda/solver/batch_bicgstab_launch.cuh
@@ -31,13 +31,13 @@ template <typename StopType, typename PrecType, typename LogType,
 int get_num_threads_per_block(std::shared_ptr<const DefaultExecutor> exec,
                               const int num_rows);
 
-#define GKO_DECLARE_BATCH_BICGSTAB_GET_NUM_THREADS_PER_BLOCK(               \
-    _vtype, mat_t, log_t, pre_t, stop_t)                                    \
-    int get_num_threads_per_block<                                          \
-        stop_t<cuda_type<_vtype>>, pre_t<cuda_type<_vtype>>,                \
-        log_t<gko::remove_complex<_vtype>>, mat_t<const cuda_type<_vtype>>, \
-        cuda_type<_vtype>>(std::shared_ptr<const DefaultExecutor> exec,     \
-                           const int num_rows)
+#define GKO_DECLARE_BATCH_BICGSTAB_GET_NUM_THREADS_PER_BLOCK( \
+    _vtype, mat_t, log_t, pre_t, stop_t)                      \
+    int get_num_threads_per_block<                            \
+        stop_t<cuda_type<_vtype>>, pre_t<cuda_type<_vtype>>,  \
+        log_t<gko::remove_complex<cuda_type<_vtype>>>,        \
+        mat_t<const cuda_type<_vtype>>, cuda_type<_vtype>>(   \
+        std::shared_ptr<const DefaultExecutor> exec, const int num_rows)
 
 #define GKO_INSTANTIATE_BATCH_BICGSTAB_GET_NUM_THREADS_PER_BLOCK \
     GKO_BATCH_INSTANTIATE(GKO_DECLARE_BATCH_BICGSTAB_GET_NUM_THREADS_PER_BLOCK)
@@ -47,12 +47,13 @@ template <typename StopType, typename PrecType, typename LogType,
           typename BatchMatrixType, typename ValueType>
 int get_max_dynamic_shared_memory(std::shared_ptr<const DefaultExecutor> exec);
 
-#define GKO_DECLARE_BATCH_BICGSTAB_GET_MAX_DYNAMIC_SHARED_MEMORY(           \
-    _vtype, mat_t, log_t, pre_t, stop_t)                                    \
-    int get_max_dynamic_shared_memory<                                      \
-        stop_t<cuda_type<_vtype>>, pre_t<cuda_type<_vtype>>,                \
-        log_t<gko::remove_complex<_vtype>>, mat_t<const cuda_type<_vtype>>, \
-        cuda_type<_vtype>>(std::shared_ptr<const DefaultExecutor> exec)
+#define GKO_DECLARE_BATCH_BICGSTAB_GET_MAX_DYNAMIC_SHARED_MEMORY( \
+    _vtype, mat_t, log_t, pre_t, stop_t)                          \
+    int get_max_dynamic_shared_memory<                            \
+        stop_t<cuda_type<_vtype>>, pre_t<cuda_type<_vtype>>,      \
+        log_t<gko::remove_complex<cuda_type<_vtype>>>,            \
+        mat_t<const cuda_type<_vtype>>, cuda_type<_vtype>>(       \
+        std::shared_ptr<const DefaultExecutor> exec)
 
 #define GKO_INSTANTIATE_BATCH_BICGSTAB_GET_MAX_DYNAMIC_SHARED_MEMORY \
     GKO_BATCH_INSTANTIATE(                                           \
diff --git a/cuda/solver/batch_cg_kernels.cu b/cuda/solver/batch_cg_kernels.cu
index e1aec94852b..d3d93a0af6d 100644
--- a/cuda/solver/batch_cg_kernels.cu
+++ b/cuda/solver/batch_cg_kernels.cu
@@ -73,38 +73,38 @@ public:
         // Template parameters launch_apply_kernel<ValueType, n_shared,
         // prec_shared, StopType>
         if (sconf.prec_shared) {
-            launch_apply_kernel<cuda_value_type, 5, true, StopType>(
+            launch_apply_kernel<ValueType, 5, true, StopType>(
                 exec_, sconf, settings_, logger, prec, mat, b.values, x.values,
                 workspace_data, block_size, shared_size);
         } else {
             switch (sconf.n_shared) {
             case 0:
-                launch_apply_kernel<cuda_value_type, 0, false, StopType>(
+                launch_apply_kernel<ValueType, 0, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 1:
-                launch_apply_kernel<cuda_value_type, 1, false, StopType>(
+                launch_apply_kernel<ValueType, 1, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 2:
-                launch_apply_kernel<cuda_value_type, 2, false, StopType>(
+                launch_apply_kernel<ValueType, 2, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 3:
-                launch_apply_kernel<cuda_value_type, 3, false, StopType>(
+                launch_apply_kernel<ValueType, 3, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 4:
-                launch_apply_kernel<cuda_value_type, 4, false, StopType>(
+                launch_apply_kernel<ValueType, 4, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 5:
-                launch_apply_kernel<cuda_value_type, 5, false, StopType>(
+                launch_apply_kernel<ValueType, 5, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
diff --git a/cuda/solver/batch_cg_launch.cuh b/cuda/solver/batch_cg_launch.cuh
index 94d948cf202..7747cea0252 100644
--- a/cuda/solver/batch_cg_launch.cuh
+++ b/cuda/solver/batch_cg_launch.cuh
@@ -47,12 +47,13 @@ template <typename StopType, typename PrecType, typename LogType,
           typename BatchMatrixType, typename ValueType>
 int get_max_dynamic_shared_memory(std::shared_ptr<const DefaultExecutor> exec);
 
-#define GKO_DECLARE_BATCH_CG_GET_MAX_DYNAMIC_SHARED_MEMORY(                 \
-    _vtype, mat_t, log_t, pre_t, stop_t)                                    \
-    int get_max_dynamic_shared_memory<                                      \
-        stop_t<cuda_type<_vtype>>, pre_t<cuda_type<_vtype>>,                \
-        log_t<gko::remove_complex<_vtype>>, mat_t<const cuda_type<_vtype>>, \
-        cuda_type<_vtype>>(std::shared_ptr<const DefaultExecutor> exec)
+#define GKO_DECLARE_BATCH_CG_GET_MAX_DYNAMIC_SHARED_MEMORY(  \
+    _vtype, mat_t, log_t, pre_t, stop_t)                     \
+    int get_max_dynamic_shared_memory<                       \
+        stop_t<cuda_type<_vtype>>, pre_t<cuda_type<_vtype>>, \
+        log_t<gko::remove_complex<cuda_type<_vtype>>>,       \
+        mat_t<const cuda_type<_vtype>>, cuda_type<_vtype>>(  \
+        std::shared_ptr<const DefaultExecutor> exec)
 
 #define GKO_INSTANTIATE_BATCH_CG_GET_MAX_DYNAMIC_SHARED_MEMORY \
     GKO_BATCH_INSTANTIATE(GKO_DECLARE_BATCH_CG_GET_MAX_DYNAMIC_SHARED_MEMORY)
diff --git a/hip/solver/batch_bicgstab_kernels.hip.cpp b/hip/solver/batch_bicgstab_kernels.hip.cpp
index 66d6130cfd0..2aede809427 100644
--- a/hip/solver/batch_bicgstab_kernels.hip.cpp
+++ b/hip/solver/batch_bicgstab_kernels.hip.cpp
@@ -96,58 +96,58 @@ class kernel_caller {
         // Template parameters launch_apply_kernel<StopType, n_shared,
         // prec_shared)
         if (sconf.prec_shared) {
-            launch_apply_kernel<hip_value_type, 9, true, StopType>(
+            launch_apply_kernel<ValueType, 9, true, StopType>(
                 exec_, sconf, settings_, logger, prec, mat, b.values, x.values,
                 workspace_data, block_size, shared_size);
         } else {
             switch (sconf.n_shared) {
             case 0:
-                launch_apply_kernel<hip_value_type, 0, false, StopType>(
+                launch_apply_kernel<ValueType, 0, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 1:
-                launch_apply_kernel<hip_value_type, 1, false, StopType>(
+                launch_apply_kernel<ValueType, 1, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 2:
-                launch_apply_kernel<hip_value_type, 2, false, StopType>(
+                launch_apply_kernel<ValueType, 2, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 3:
-                launch_apply_kernel<hip_value_type, 3, false, StopType>(
+                launch_apply_kernel<ValueType, 3, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 4:
-                launch_apply_kernel<hip_value_type, 4, false, StopType>(
+                launch_apply_kernel<ValueType, 4, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 5:
-                launch_apply_kernel<hip_value_type, 5, false, StopType>(
+                launch_apply_kernel<ValueType, 5, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 6:
-                launch_apply_kernel<hip_value_type, 6, false, StopType>(
+                launch_apply_kernel<ValueType, 6, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 7:
-                launch_apply_kernel<hip_value_type, 7, false, StopType>(
+                launch_apply_kernel<ValueType, 7, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 8:
-                launch_apply_kernel<hip_value_type, 8, false, StopType>(
+                launch_apply_kernel<ValueType, 8, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 9:
-                launch_apply_kernel<hip_value_type, 9, false, StopType>(
+                launch_apply_kernel<ValueType, 9, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
diff --git a/hip/solver/batch_cg_kernels.hip.cpp b/hip/solver/batch_cg_kernels.hip.cpp
index f36974aae06..b6d3580585e 100644
--- a/hip/solver/batch_cg_kernels.hip.cpp
+++ b/hip/solver/batch_cg_kernels.hip.cpp
@@ -98,38 +98,38 @@ class kernel_caller {
         // Template parameters launch_apply_kernel<ValueType, n_shared,
         // prec_shared, StopType>
         if (sconf.prec_shared) {
-            launch_apply_kernel<hip_value_type, 5, true, StopType>(
+            launch_apply_kernel<ValueType, 5, true, StopType>(
                 exec_, sconf, settings_, logger, prec, mat, b.values, x.values,
                 workspace_data, block_size, shared_size);
         } else {
             switch (sconf.n_shared) {
             case 0:
-                launch_apply_kernel<hip_value_type, 0, false, StopType>(
+                launch_apply_kernel<ValueType, 0, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 1:
-                launch_apply_kernel<hip_value_type, 1, false, StopType>(
+                launch_apply_kernel<ValueType, 1, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 2:
-                launch_apply_kernel<hip_value_type, 2, false, StopType>(
+                launch_apply_kernel<ValueType, 2, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 3:
-                launch_apply_kernel<hip_value_type, 3, false, StopType>(
+                launch_apply_kernel<ValueType, 3, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 4:
-                launch_apply_kernel<hip_value_type, 4, false, StopType>(
+                launch_apply_kernel<ValueType, 4, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;
             case 5:
-                launch_apply_kernel<hip_value_type, 5, false, StopType>(
+                launch_apply_kernel<ValueType, 5, false, StopType>(
                     exec_, sconf, settings_, logger, prec, mat, b.values,
                     x.values, workspace_data, block_size, shared_size);
                 break;