diff --git a/.travis.yml b/.travis.yml
index 51679af620..eee7674fe7 100644
--- a/.travis.yml
+++ b/.travis.yml
@@ -149,7 +149,7 @@ matrix:
 
     - &test-macos
       os: osx
-      osx_image: xcode8.3
+      osx_image: xcode10.1
       before_script:
         - COMMON_FLAGS="DYNAMIC_ARCH=1 TARGET=NEHALEM NUM_THREADS=32"
         - brew update
@@ -160,6 +160,7 @@ matrix:
         - BTYPE="BINARY=64 INTERFACE64=1"
 
     - <<: *test-macos
+      osx_image: xcode8.3
       env:
         - BTYPE="BINARY=32"
 
diff --git a/CMakeLists.txt b/CMakeLists.txt
index 812e6bf6f2..a27c1c0fc9 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -42,6 +42,19 @@ endif()
 
 #######
 
+if(MSVC AND MSVC_STATIC_CRT)
+    set(CompilerFlags
+            CMAKE_CXX_FLAGS
+            CMAKE_CXX_FLAGS_DEBUG
+            CMAKE_CXX_FLAGS_RELEASE
+            CMAKE_C_FLAGS
+            CMAKE_C_FLAGS_DEBUG
+            CMAKE_C_FLAGS_RELEASE
+            )
+    foreach(CompilerFlag ${CompilerFlags})
+      string(REPLACE "/MD" "/MT" ${CompilerFlag} "${${CompilerFlag}}")
+    endforeach()
+endif()
 
 message(WARNING "CMake support is experimental. It does not yet support all build options and may not produce the same Makefiles that OpenBLAS ships with.")
 
@@ -62,10 +75,10 @@ endif ()
 
 set(SUBDIRS	${BLASDIRS})
 if (NOT NO_LAPACK)
-  list(APPEND SUBDIRS lapack)
   if(BUILD_RELAPACK)
     list(APPEND SUBDIRS relapack/src)
   endif()
+  list(APPEND SUBDIRS lapack)
 endif ()
 
 # set which float types we want to build for
@@ -134,7 +147,7 @@ endif ()
 
 # Only generate .def for dll on MSVC and always produce pdb files for debug and release
 if(MSVC)
-  if (${CMAKE_MAJOR_VERSION}.${CMAKE_MINOR_VERSION} LESS 3.4)
+  if (${CMAKE_MAJOR_VERSION}.${CMAKE_MINOR_VERSION} VERSION_LESS 3.4)
     set(OpenBLAS_DEF_FILE "${PROJECT_BINARY_DIR}/openblas.def")
   endif()
   set(CMAKE_C_FLAGS_RELEASE "${CMAKE_C_FLAGS_RELEASE} /Zi")
@@ -149,15 +162,9 @@ if (${DYNAMIC_ARCH})
   endforeach()
 endif ()
 
-# Only build shared libs for MSVC
-if (MSVC)
-  set(BUILD_SHARED_LIBS ON)
-endif()
-
-
 # add objects to the openblas lib
 add_library(${OpenBLAS_LIBNAME} ${LA_SOURCES} ${LAPACKE_SOURCES} ${RELA_SOURCES} ${TARGET_OBJS} ${OpenBLAS_DEF_FILE})
-target_include_directories(${OpenBLAS_LIBNAME} INTERFACE $<INSTALL_INTERFACE:include>)
+target_include_directories(${OpenBLAS_LIBNAME} INTERFACE $<INSTALL_INTERFACE:include/openblas${SUFFIX64}>)
 
 # Android needs to explicitly link against libm
 if(ANDROID)
@@ -166,7 +173,7 @@ endif()
 
 # Handle MSVC exports
 if(MSVC AND BUILD_SHARED_LIBS)
-  if (${CMAKE_MAJOR_VERSION}.${CMAKE_MINOR_VERSION} LESS 3.4)
+  if (${CMAKE_MAJOR_VERSION}.${CMAKE_MINOR_VERSION} VERSION_LESS 3.4)
     include("${PROJECT_SOURCE_DIR}/cmake/export.cmake")
   else()
     # Creates verbose .def file (51KB vs 18KB)
@@ -217,6 +224,14 @@ set_target_properties(${OpenBLAS_LIBNAME} PROPERTIES
   SOVERSION ${OpenBLAS_MAJOR_VERSION}
 )
 
+if (BUILD_SHARED_LIBS AND BUILD_RELAPACK)
+  if (NOT MSVC)
+    target_link_libraries(${OpenBLAS_LIBNAME} "-Wl,-allow-multiple-definition")
+  else()
+    target_link_libraries(${OpenBLAS_LIBNAME} "/FORCE:MULTIPLE")
+  endif()
+endif()
+
 if (BUILD_SHARED_LIBS AND NOT ${SYMBOLPREFIX}${SYMBOLSUFIX} STREQUAL "")
 if (NOT DEFINED ARCH)
   set(ARCH_IN "x86_64")
@@ -314,7 +329,7 @@ install (FILES ${OPENBLAS_CONFIG_H} DESTINATION ${CMAKE_INSTALL_INCLUDEDIR})
 if(NOT NOFORTRAN)
   message(STATUS "Generating f77blas.h in ${CMAKE_INSTALL_INCLUDEDIR}")
 
-  set(F77BLAS_H ${CMAKE_BINARY_DIR}/f77blas.h)
+  set(F77BLAS_H ${CMAKE_BINARY_DIR}/generated/f77blas.h)
   file(WRITE  ${F77BLAS_H} "#ifndef OPENBLAS_F77BLAS_H\n")
   file(APPEND ${F77BLAS_H} "#define OPENBLAS_F77BLAS_H\n")
   file(APPEND ${F77BLAS_H} "#include \"openblas_config.h\"\n")
@@ -327,10 +342,11 @@ endif()
 if(NOT NO_CBLAS)
 	message (STATUS "Generating cblas.h in ${CMAKE_INSTALL_INCLUDEDIR}")
 
+	set(CBLAS_H ${CMAKE_BINARY_DIR}/generated/cblas.h)
 	file(READ ${CMAKE_CURRENT_SOURCE_DIR}/cblas.h CBLAS_H_CONTENTS)
 	string(REPLACE "common" "openblas_config" CBLAS_H_CONTENTS_NEW "${CBLAS_H_CONTENTS}")
-	file(WRITE ${CMAKE_BINARY_DIR}/cblas.tmp "${CBLAS_H_CONTENTS_NEW}")
-	install (FILES ${CMAKE_BINARY_DIR}/cblas.tmp DESTINATION ${CMAKE_INSTALL_INCLUDEDIR} RENAME cblas.h)
+	file(WRITE ${CBLAS_H} "${CBLAS_H_CONTENTS_NEW}")
+	install (FILES ${CBLAS_H} DESTINATION ${CMAKE_INSTALL_INCLUDEDIR})
 endif()
 
 if(NOT NO_LAPACKE)
diff --git a/Makefile b/Makefile
index 21096f893c..273fde33ed 100644
--- a/Makefile
+++ b/Makefile
@@ -96,7 +96,7 @@ endif
 	@echo
 
 shared :
-ifndef NO_SHARED
+ifneq ($(NO_SHARED), 1)
 ifeq ($(OSNAME), $(filter $(OSNAME),Linux SunOS Android Haiku))
 	@$(MAKE) -C exports so
 	@ln -fs $(LIBSONAME) $(LIBPREFIX).so
diff --git a/Makefile.arm64 b/Makefile.arm64
index cd16dbfaed..4d10ff6844 100644
--- a/Makefile.arm64
+++ b/Makefile.arm64
@@ -38,3 +38,8 @@ ifeq ($(CORE), THUNDERX2T99)
 CCOMMON_OPT += -march=armv8.1-a -mtune=thunderx2t99
 FCOMMON_OPT += -march=armv8.1-a -mtune=thunderx2t99
 endif
+
+ifeq ($(CORE), TSV110)
+CCOMMON_OPT += -march=armv8.2-a -mtune=tsv110
+FCOMMON_OPT += -march=armv8.2-a -mtune=tsv110
+endif
diff --git a/Makefile.install b/Makefile.install
index 069c96c6aa..fefecd98d5 100644
--- a/Makefile.install
+++ b/Makefile.install
@@ -58,14 +58,14 @@ ifndef NO_LAPACKE
 endif
 
 #for install static library
-ifndef NO_STATIC
+ifneq ($(NO_STATIC),1)
 	@echo Copying the static library to $(DESTDIR)$(OPENBLAS_LIBRARY_DIR)
 	@install -pm644 $(LIBNAME) "$(DESTDIR)$(OPENBLAS_LIBRARY_DIR)"
 	@cd "$(DESTDIR)$(OPENBLAS_LIBRARY_DIR)" ; \
 	ln -fs $(LIBNAME) $(LIBPREFIX).$(LIBSUFFIX)
 endif
 #for install shared library
-ifndef NO_SHARED
+ifneq ($(NO_SHARED),1)
 	@echo Copying the shared library to $(DESTDIR)$(OPENBLAS_LIBRARY_DIR)
 ifeq ($(OSNAME), $(filter $(OSNAME),Linux SunOS Android Haiku))
 	@install -pm755 $(LIBSONAME) "$(DESTDIR)$(OPENBLAS_LIBRARY_DIR)"
@@ -106,14 +106,14 @@ ifndef NO_LAPACKE
 endif
 
 #for install static library
-ifndef NO_STATIC
+ifneq ($(NO_STATIC),1)
 	@echo Copying the static library to $(DESTDIR)$(OPENBLAS_LIBRARY_DIR)
 	@installbsd -c -m 644 $(LIBNAME) "$(DESTDIR)$(OPENBLAS_LIBRARY_DIR)"
 	@cd "$(DESTDIR)$(OPENBLAS_LIBRARY_DIR)" ; \
 	ln -fs $(LIBNAME) $(LIBPREFIX).$(LIBSUFFIX)
 endif
 #for install shared library
-ifndef NO_SHARED
+ifneq ($(NO_SHARED),1)
 	@echo Copying the shared library to $(DESTDIR)$(OPENBLAS_LIBRARY_DIR)
 	@installbsd -c -m 755 $(LIBSONAME) "$(DESTDIR)$(OPENBLAS_LIBRARY_DIR)"
 	@cd "$(DESTDIR)$(OPENBLAS_LIBRARY_DIR)" ; \
@@ -138,7 +138,7 @@ endif
 	@echo "SET(OpenBLAS_VERSION \"${VERSION}\")" > "$(DESTDIR)$(OPENBLAS_CMAKE_DIR)/$(OPENBLAS_CMAKE_CONFIG)"
 	@echo "SET(OpenBLAS_INCLUDE_DIRS ${OPENBLAS_INCLUDE_DIR})" >> "$(DESTDIR)$(OPENBLAS_CMAKE_DIR)/$(OPENBLAS_CMAKE_CONFIG)"
 
-ifndef NO_SHARED
+ifneq ($(NO_SHARED),1)
 #ifeq logical or
 ifeq ($(OSNAME), $(filter $(OSNAME),Linux FreeBSD NetBSD OpenBSD DragonFly))
 	@echo "SET(OpenBLAS_LIBRARIES ${OPENBLAS_LIBRARY_DIR}/$(LIBPREFIX).so)" >> "$(DESTDIR)$(OPENBLAS_CMAKE_DIR)/$(OPENBLAS_CMAKE_CONFIG)"
diff --git a/Makefile.rule b/Makefile.rule
index 7c128fb498..8f72c5a79c 100644
--- a/Makefile.rule
+++ b/Makefile.rule
@@ -48,6 +48,8 @@ VERSION = 0.3.6.dev
 # HOSTCC = gcc
 
 # If you need 32bit binary, define BINARY=32, otherwise define BINARY=64
+# Please note that AVX is not available on 32-bit.
+# Setting BINARY=32 disables AVX/AVX2/AVX-512.
 # BINARY=64
 
 # About threaded BLAS. It will be automatically detected if you don't
@@ -57,7 +59,7 @@ VERSION = 0.3.6.dev
 # USE_THREAD = 0
 
 # If you're going to use this library with OpenMP, please comment it in.
-# This flag is always set for POWER8. Don't modify the flag 
+# This flag is always set for POWER8. Don't set USE_OPENMP = 0 if you're targeting POWER8.
 # USE_OPENMP = 1
 
 # The OpenMP scheduler to use - by default this is "static" and you
@@ -68,36 +70,45 @@ VERSION = 0.3.6.dev
 # allow you to select the scheduler from the environment variable OMP_SCHEDULE
 # CCOMMON_OPT += -DOMP_SCHED=dynamic
 
-# You can define maximum number of threads. Basically it should be
-# less than actual number of cores. If you don't specify one, it's
-# automatically detected by the the script.
+# You can define the maximum number of threads. Basically it should be less
+# than or equal to the number of CPU threads. If you don't specify one, it's
+# automatically detected by the build system.
+# If SMT (aka. HT) is enabled on the system, it may or may not be beneficial to 
+# restrict NUM_THREADS to the number of physical cores. By default, the automatic 
+# detection includes logical CPUs, thus allowing the use of SMT.
+# Users may opt at runtime to use less than NUM_THREADS threads.
+#
+# Note for package maintainers: you can build OpenBLAS with a large NUM_THREADS
+# value (eg. 32-256) if you expect your users to use that many threads. Due to the way
+# some internal structures are allocated, using a large NUM_THREADS value has a RAM
+# footprint penalty, even if users reduce the actual number of threads at runtime.
 # NUM_THREADS = 24
 
 # If you have enabled USE_OPENMP and your application would call
-# OpenBLAS's calculation API from multi threads, please comment it in.
-# This flag defines how many instances of OpenBLAS's calculation API can 
-# actually run in parallel. If more threads call OpenBLAS's calculation API,
+# OpenBLAS's calculation API from multiple threads, please comment this in.
+# This flag defines how many instances of OpenBLAS's calculation API can actually
+# run in parallel. If more than NUM_PARALLEL threads call OpenBLAS's calculation API,
 # they need to wait for the preceding API calls to finish or risk data corruption.
 # NUM_PARALLEL = 2
 
-# if you don't need to install the static library, please comment it in.
+# If you don't need to install the static library, please comment this in.
 # NO_STATIC = 1
 
-# if you don't need generate the shared library, please comment it in.
+# If you don't need to generate the shared library, please comment this in.
 # NO_SHARED = 1
 
-# If you don't need CBLAS interface, please comment it in.
+# If you don't need the CBLAS interface, please comment this in.
 # NO_CBLAS = 1
 
-# If you only want CBLAS interface without installing Fortran compiler,
-# please comment it in.
+# If you only want the CBLAS interface without installing a Fortran compiler,
+# please comment this in.
 # ONLY_CBLAS = 1
 
-# If you don't need LAPACK, please comment it in.
-# If you set NO_LAPACK=1, the library automatically sets NO_LAPACKE=1.
+# If you don't need LAPACK, please comment this in.
+# If you set NO_LAPACK=1, the build system automatically sets NO_LAPACKE=1.
 # NO_LAPACK = 1
 
-# If you don't need LAPACKE (C Interface to LAPACK), please comment it in.
+# If you don't need LAPACKE (C Interface to LAPACK), please comment this in.
 # NO_LAPACKE = 1
 
 # Build LAPACK Deprecated functions since LAPACK 3.6.0
@@ -106,7 +117,7 @@ BUILD_LAPACK_DEPRECATED = 1
 # Build RecursiveLAPACK on top of LAPACK
 # BUILD_RELAPACK = 1
 
-# If you want to use legacy threaded Level 3 implementation.
+# If you want to use the legacy threaded Level 3 implementation.
 # USE_SIMPLE_THREADED_LEVEL3 = 1
 
 # If you want to use the new, still somewhat experimental code that uses
@@ -116,8 +127,8 @@ BUILD_LAPACK_DEPRECATED = 1
 # USE_TLS = 1
 
 # If you want to drive whole 64bit region by BLAS. Not all Fortran
-# compiler supports this. It's safe to keep comment it out if you
-# are not sure(equivalent to "-i8" option).
+# compilers support this. It's safe to keep this commented out if you
+# are not sure. (This is equivalent to the "-i8" ifort option).
 # INTERFACE64 = 1
 
 # Unfortunately most of kernel won't give us high quality buffer.
@@ -125,10 +136,18 @@ BUILD_LAPACK_DEPRECATED = 1
 # but it will consume time. If you don't like it, you can disable one.
 NO_WARMUP = 1
 
-# If you want to disable CPU/Memory affinity on Linux.
+# Comment this in if you want to disable OpenBLAS's CPU/Memory affinity handling.
+# This feature is only implemented on Linux, and is always disabled on other platforms.
+# Enabling affinity handling may improve performance, especially on NUMA systems, but 
+# it may conflict with certain applications that also try to manage affinity.
+# This conflict can result in threads of the application calling OpenBLAS ending up locked
+# to the same core(s) as OpenBLAS, possibly binding all threads to a single core.
+# For this reason, affinity handling is disabled by default. Can be safely enabled if nothing
+# else modifies affinity settings.
+# Note: enabling affinity has been known to cause problems with NumPy and R
 NO_AFFINITY = 1
 
-# if you are compiling for Linux and you have more than 16 numa nodes or more than 256 cpus
+# If you are compiling for Linux and you have more than 16 numa nodes or more than 256 cpus
 # BIGNUMA = 1
 
 # Don't use AVX kernel on Sandy Bridge. It is compatible with old compilers
@@ -180,7 +199,7 @@ NO_AFFINITY = 1
 # been reported to be optimal for certain workloads (50 is the recommended value for Julia).
 # GEMM_MULTITHREAD_THRESHOLD = 4
 
-# If you need santy check by comparing reference BLAS. It'll be very
+# If you need sanity check by comparing results to reference BLAS. It'll be very
 # slow (Not implemented yet).
 # SANITY_CHECK = 1
 
diff --git a/Makefile.system b/Makefile.system
index 20d4f64920..53f89b2fa6 100644
--- a/Makefile.system
+++ b/Makefile.system
@@ -95,6 +95,9 @@ endif
 ifeq ($(TARGET), ZEN)
 GETARCH_FLAGS := -DFORCE_BARCELONA
 endif
+ifeq ($(TARGET), ARMV8)
+GETARCH_FLAGS := -DFORCE_ARMV7
+endif
 endif
 
 
@@ -152,7 +155,8 @@ GETARCH_FLAGS	+= -DNO_AVX
 endif
 
 ifeq ($(BINARY), 32)
-GETARCH_FLAGS	+= -DNO_AVX
+GETARCH_FLAGS	+= -DNO_AVX -DNO_AVX2 -DNO_AVX512
+NO_AVX512 = 1
 endif
 
 ifeq ($(NO_AVX2), 1)
diff --git a/Makefile.zarch b/Makefile.zarch
index 9ec9dc79fc..47ea1eb717 100644
--- a/Makefile.zarch
+++ b/Makefile.zarch
@@ -4,3 +4,7 @@ CCOMMON_OPT += -march=z13 -mzvector
 FCOMMON_OPT += -march=z13 -mzvector
 endif
 
+ifeq ($(CORE), Z14)
+CCOMMON_OPT += -march=z14 -mzvector
+FCOMMON_OPT += -march=z14 -mzvector
+endif
diff --git a/TargetList.txt b/TargetList.txt
index 44e539c095..6a57bf1af7 100644
--- a/TargetList.txt
+++ b/TargetList.txt
@@ -91,7 +91,9 @@ CORTEXA73
 FALKOR
 THUNDERX
 THUNDERX2T99
+TSV110
 
 9.System Z:
 ZARCH_GENERIC
 Z13
+Z14
diff --git a/appveyor.yml b/appveyor.yml
index 141d3a130c..44a616aaaf 100644
--- a/appveyor.yml
+++ b/appveyor.yml
@@ -53,9 +53,9 @@ before_build:
   - ps: if (-Not (Test-Path .\build)) { mkdir build }
   - cd build
   - if [%COMPILER%]==[cl] cmake -G "Visual Studio 15 2017 Win64" ..
-  - if [%WITH_FORTRAN%]==[no] cmake -G "Ninja" -DCMAKE_CXX_COMPILER=clang-cl -DCMAKE_C_COMPILER=clang-cl ..
+  - if [%WITH_FORTRAN%]==[no] cmake -G "Ninja" -DCMAKE_CXX_COMPILER=clang-cl -DCMAKE_C_COMPILER=clang-cl -DMSVC_STATIC_CRT=ON ..
   - if [%WITH_FORTRAN%]==[yes] cmake -G "Ninja" -DCMAKE_CXX_COMPILER=clang-cl -DCMAKE_C_COMPILER=clang-cl -DCMAKE_Fortran_COMPILER=flang -DBUILD_WITHOUT_LAPACK=no -DNOFORTRAN=0 ..
-  - if [%DYNAMIC_ARCH%]==[ON] cmake -DDYNAMIC_ARCH=ON ..
+  - if [%DYNAMIC_ARCH%]==[ON] cmake -DDYNAMIC_ARCH=ON -DDYNAMIC_LIST='CORE2;NEHALEM;SANDYBRIDGE;BULLDOZER;HASWELL' ..
 
 build_script:
   - cmake --build .
diff --git a/benchmark/scripts/R/deig.R b/benchmark/scripts/R/deig.R
index ece727fb37..c6d541dcf2 100755
--- a/benchmark/scripts/R/deig.R
+++ b/benchmark/scripts/R/deig.R
@@ -2,6 +2,8 @@
 
 argv <- commandArgs(trailingOnly = TRUE)
 
+if (!is.null(options("matprod")[[1]])) options(matprod = "blas")
+
 nfrom <- 128
 nto <- 2048
 nstep <- 128
@@ -19,7 +21,6 @@ if (length(argv) > 0) {
       loops <- as.numeric(argv[z])
     }
   }
-
 }
 
 p <- Sys.getenv("OPENBLAS_LOOPS")
@@ -27,29 +28,21 @@ if (p != "") {
   loops <- as.numeric(p)
 }
 
-
-cat(sprintf(
-  "From %.0f To %.0f Step=%.0f Loops=%.0f\n",
-  nfrom,
-  nto,
-  nstep,
-  loops
-))
+cat(sprintf("From %.0f To %.0f Step=%.0f Loops=%.0f\n", nfrom, nto, nstep, loops))
 cat(sprintf("      SIZE             Flops                   Time\n"))
 
 n <- nfrom
 while (n <= nto) {
-  A <- matrix(rnorm(n * n), ncol = n, nrow = n)
+  A <- matrix(rnorm(n * n), nrow = n)
   ev <- 0
   z <- system.time(for (l in 1:loops) {
     ev <- eigen(A)
   })
 
-  mflops <- (26.66 * n * n * n) * loops / (z[3] * 1.0e6)
+  mflops <- (26.66 * n * n * n) * loops / (z[3] * 1e+06)
 
   st <- sprintf("%.0fx%.0f :", n, n)
   cat(sprintf("%20s %10.2f MFlops %10.6f sec\n", st, mflops, z[3]))
 
   n <- n + nstep
-
 }
diff --git a/benchmark/scripts/R/dgemm.R b/benchmark/scripts/R/dgemm.R
index 75297dfb83..d7c3e81084 100755
--- a/benchmark/scripts/R/dgemm.R
+++ b/benchmark/scripts/R/dgemm.R
@@ -2,6 +2,8 @@
 
 argv <- commandArgs(trailingOnly = TRUE)
 
+if (!is.null(options("matprod")[[1]])) options(matprod = "blas")
+
 nfrom <- 128
 nto <- 2048
 nstep <- 128
@@ -19,7 +21,6 @@ if (length(argv) > 0) {
       loops <- as.numeric(argv[z])
     }
   }
-
 }
 
 p <- Sys.getenv("OPENBLAS_LOOPS")
@@ -27,26 +28,13 @@ if (p != "") {
   loops <- as.numeric(p)
 }
 
-
-cat(sprintf(
-  "From %.0f To %.0f Step=%.0f Loops=%.0f\n",
-  nfrom,
-  nto,
-  nstep,
-  loops
-))
+cat(sprintf("From %.0f To %.0f Step=%.0f Loops=%.0f\n", nfrom, nto, nstep, loops))
 cat(sprintf("      SIZE             Flops                   Time\n"))
 
 n <- nfrom
 while (n <= nto) {
-  A <- matrix(runif(n * n),
-              ncol = n,
-              nrow = n,
-              byrow = TRUE)
-  B <- matrix(runif(n * n),
-              ncol = n,
-              nrow = n,
-              byrow = TRUE)
+  A <- matrix(runif(n * n), nrow = n)
+  B <- matrix(runif(n * n), nrow = n)
   C <- 1
 
   z <- system.time(for (l in 1:loops) {
@@ -54,11 +42,10 @@ while (n <= nto) {
     l <- l + 1
   })
 
-  mflops <- (2.0 * n * n * n) * loops / (z[3] * 1.0e6)
+  mflops <- (2.0 * n * n * n) * loops / (z[3] * 1e+06)
 
   st <- sprintf("%.0fx%.0f :", n, n)
   cat(sprintf("%20s %10.2f MFlops %10.6f sec\n", st, mflops, z[3]))
 
   n <- n + nstep
-
 }
diff --git a/benchmark/scripts/R/dsolve.R b/benchmark/scripts/R/dsolve.R
index a3fb78da71..46301570bc 100755
--- a/benchmark/scripts/R/dsolve.R
+++ b/benchmark/scripts/R/dsolve.R
@@ -2,6 +2,8 @@
 
 argv <- commandArgs(trailingOnly = TRUE)
 
+if (!is.null(options("matprod")[[1]])) options(matprod = "blas")
+
 nfrom <- 128
 nto <- 2048
 nstep <- 128
@@ -19,7 +21,6 @@ if (length(argv) > 0) {
       loops <- as.numeric(argv[z])
     }
   }
-
 }
 
 p <- Sys.getenv("OPENBLAS_LOOPS")
@@ -27,31 +28,22 @@ if (p != "") {
   loops <- as.numeric(p)
 }
 
-
-cat(sprintf(
-  "From %.0f To %.0f Step=%.0f Loops=%.0f\n",
-  nfrom,
-  nto,
-  nstep,
-  loops
-))
+cat(sprintf("From %.0f To %.0f Step=%.0f Loops=%.0f\n", nfrom, nto, nstep, loops))
 cat(sprintf("      SIZE             Flops                   Time\n"))
 
 n <- nfrom
 while (n <= nto) {
-  A <- matrix(rnorm(n * n), ncol = n, nrow = n)
-  B <- matrix(rnorm(n * n), ncol = n, nrow = n)
+  A <- matrix(rnorm(n * n), nrow = n)
+  B <- matrix(rnorm(n * n), nrow = n)
 
   z <- system.time(for (l in 1:loops) {
     solve(A, B)
   })
 
-  mflops <-
-    (2.0 / 3.0 * n * n * n + 2.0 * n * n * n) * loops / (z[3] * 1.0e6)
+  mflops <- (8.0 / 3 * n * n * n) * loops / (z[3] * 1e+06)
 
   st <- sprintf("%.0fx%.0f :", n, n)
   cat(sprintf("%20s %10.2f MFlops %10.6f sec\n", st, mflops, z[3]))
 
   n <- n + nstep
-
 }
diff --git a/c_check b/c_check
index 9dc237bebc..d93b756d53 100644
--- a/c_check
+++ b/c_check
@@ -1,7 +1,7 @@
 #!/usr/bin/perl
 
-use File::Basename;
-use File::Temp qw(tempfile);
+#use File::Basename;
+# use File::Temp qw(tempfile);
 
 # Checking cross compile
 $hostos   = `uname -s | sed -e s/\-.*//`;    chop($hostos);
@@ -12,7 +12,7 @@ $hostarch = "arm64" if ($hostarch eq "aarch64");
 $hostarch = "power" if ($hostarch =~ /^(powerpc|ppc).*/);
 $hostarch = "zarch" if ($hostarch eq "s390x");
 
-$tmpf = new File::Temp( UNLINK => 1 );
+#$tmpf = new File::Temp( UNLINK => 1 );
 $binary = $ENV{"BINARY"};
 
 $makefile = shift(@ARGV);
@@ -31,12 +31,25 @@ if ($?) {
 
 $cross_suffix = "";
 
-if (dirname($compiler_name) ne ".") {
-    $cross_suffix .= dirname($compiler_name) . "/";
-}
+eval "use File::Basename";
+if ($@){ 
+    warn "could not load PERL module File::Basename, emulating its functionality";
+    my $dirnam = substr($compiler_name, 0, rindex($compiler_name, "/")-1 );
+    if ($dirnam ne ".") {
+	$cross_suffix .= $dirnam . "/";
+    }
+    my $basnam = substr($compiler_name, rindex($compiler_name,"/")+1, length($compiler_name)-rindex($compiler_name,"/")-1);
+	if ($basnam =~ /([^\s]*-)(.*)/) {
+	$cross_suffix .= $1;
+    }
+} else {
+    if (dirname($compiler_name) ne ".") {
+	$cross_suffix .= dirname($compiler_name) . "/";
+    }
 
-if (basename($compiler_name) =~ /([^\s]*-)(.*)/) {
-    $cross_suffix .= $1;
+    if (basename($compiler_name) =~ /([^\s]*-)(.*)/) {
+	$cross_suffix .= $1;
+    }
 }
 
 $compiler = "";
@@ -171,20 +184,26 @@ if ($?) {
 
 $have_msa = 0;
 if (($architecture eq "mips") || ($architecture eq "mips64")) {
-    $code = '"addvi.b $w0, $w1, 1"';
-    $msa_flags = "-mmsa -mfp64 -msched-weight -mload-store-pairs";
-    print $tmpf "#include <msa.h>\n\n";
-    print $tmpf "void main(void){ __asm__ volatile($code); }\n";
-
-    $args = "$msa_flags -o $tmpf.o -x c $tmpf";
-    my @cmd = ("$compiler_name $args");
-    system(@cmd) == 0;
-    if ($? != 0) {
-        $have_msa = 0;
+    eval "use File::Temp qw(tempfile)";
+    if ($@){ 
+	warn "could not load PERL module File::Temp, so could not check MSA capatibility";
     } else {
-        $have_msa = 1;
+	$tmpf = new File::Temp( UNLINK => 1 );
+	$code = '"addvi.b $w0, $w1, 1"';
+	$msa_flags = "-mmsa -mfp64 -msched-weight -mload-store-pairs";
+	print $tmpf "#include <msa.h>\n\n";
+	print $tmpf "void main(void){ __asm__ volatile($code); }\n";
+
+	$args = "$msa_flags -o $tmpf.o -x c $tmpf";
+	my @cmd = ("$compiler_name $args");
+	system(@cmd) == 0;
+	if ($? != 0) {
+	    $have_msa = 0;
+	} else {
+	    $have_msa = 1;
+	}
+	unlink("$tmpf.o");
     }
-    unlink("$tmpf.o");
 }
 
 $architecture = x86    if ($data =~ /ARCH_X86/);
@@ -204,17 +223,25 @@ $binformat    = bin64  if ($data =~ /BINARY_64/);
 
 $no_avx512= 0;
 if (($architecture eq "x86") || ($architecture eq "x86_64")) {
-    $code = '"vbroadcastss -4 * 4(%rsi), %zmm2"';
-    print $tmpf "#include <immintrin.h>\n\nint main(void){ __asm__ volatile($code); }\n";
-    $args = " -march=skylake-avx512 -o $tmpf.o -x c $tmpf";
-    my @cmd = ("$compiler_name $args >/dev/null 2>/dev/null");
-    system(@cmd) == 0;
-    if ($? != 0) {
-	$no_avx512 = 1;
-    } else {
+    eval "use File::Temp qw(tempfile)";
+    if ($@){ 
+	warn "could not load PERL module File::Temp, so could not check compiler compatibility with AVX512";
 	$no_avx512 = 0;
+    } else {
+#	$tmpf = new File::Temp( UNLINK => 1 );
+	($fh,$tmpf) = tempfile( UNLINK => 1 );
+	$code = '"vbroadcastss -4 * 4(%rsi), %zmm2"';
+	print $tmpf "#include <immintrin.h>\n\nint main(void){ __asm__ volatile($code); }\n";
+	$args = " -march=skylake-avx512 -c -o $tmpf.o -x c $tmpf";
+	my @cmd = ("$compiler_name $args >/dev/null 2>/dev/null");
+	system(@cmd) == 0;
+	if ($? != 0) {
+	    $no_avx512 = 1;
+	} else {
+	    $no_avx512 = 0;
+	}
+	unlink("tmpf.o");
     }
-    unlink("tmpf.o");
 }
 
 $data = `$compiler_name -S ctest1.c && grep globl ctest1.s | head -n 1 && rm -f ctest1.s`;
diff --git a/cmake/arch.cmake b/cmake/arch.cmake
index 63fb86fa21..470ea2a8f3 100644
--- a/cmake/arch.cmake
+++ b/cmake/arch.cmake
@@ -74,6 +74,9 @@ if (DYNAMIC_ARCH)
     if (NOT NO_AVX512)
       set(DYNAMIC_CORE ${DYNAMIC_CORE} SKYLAKEX)
     endif ()
+    if (DYNAMIC_LIST)
+	set(DYNAMIC_CORE PRESCOTT ${DYNAMIC_LIST})
+    endif ()
   endif ()
 
   if (NOT DYNAMIC_CORE)
diff --git a/cmake/system.cmake b/cmake/system.cmake
index a060d98cb0..7fda2adb92 100644
--- a/cmake/system.cmake
+++ b/cmake/system.cmake
@@ -39,6 +39,9 @@ if (DEFINED BINARY AND DEFINED TARGET AND BINARY EQUAL 32)
   if (${TARGET} STREQUAL "BULLDOZER" OR ${TARGET} STREQUAL "PILEDRIVER" OR ${TARGET} STREQUAL "ZEN")
     set(TARGET "BARCELONA")
   endif ()
+  if (${TARGET} STREQUAL "ARMV8" OR ${TARGET} STREQUAL "CORTEXA57" OR ${TARGET} STREQUAL "CORTEXA53")
+    set(TARGET "ARMV7")
+  endif ()
 endif ()
 
 if (DEFINED TARGET)
@@ -184,6 +187,13 @@ if (DYNAMIC_ARCH)
   endif ()
 endif ()
 
+if (DYNAMIC_LIST)
+  set(CCOMMON_OPT "${CCOMMON_OPT} -DDYNAMIC_LIST")
+  foreach(DCORE ${DYNAMIC_LIST})
+    set(CCOMMON_OPT "${CCOMMON_OPT} -DDYN_${DCORE}")
+  endforeach ()
+endif ()
+
 if (NO_LAPACK)
   set(CCOMMON_OPT "${CCOMMON_OPT} -DNO_LAPACK")
   #Disable LAPACK C interface
diff --git a/cmake/system_check.cmake b/cmake/system_check.cmake
index 6b602c1b0f..f30a946b49 100644
--- a/cmake/system_check.cmake
+++ b/cmake/system_check.cmake
@@ -39,7 +39,11 @@ elseif(CMAKE_SYSTEM_PROCESSOR MATCHES "ppc.*|power.*|Power.*")
 elseif(CMAKE_SYSTEM_PROCESSOR MATCHES "mips64.*")
   set(MIPS64 1)
 elseif(CMAKE_SYSTEM_PROCESSOR MATCHES "amd64.*|x86_64.*|AMD64.*")
-  set(X86_64 1)
+  if("${CMAKE_SIZEOF_VOID_P}" EQUAL "8")
+    set(X86_64 1)
+  else()
+    set(X86 1)
+  endif()
 elseif(CMAKE_SYSTEM_PROCESSOR MATCHES "i686.*|i386.*|x86.*|amd64.*|AMD64.*")
   set(X86 1)
 elseif(CMAKE_SYSTEM_PROCESSOR MATCHES "^(arm.*|ARM.*)")
@@ -78,7 +82,7 @@ endif()
 
 if (X86_64 OR X86)
   file(WRITE ${PROJECT_BINARY_DIR}/avx512.tmp "#include <immintrin.h>\n\nint main(void){ __asm__ volatile(\"vbroadcastss -4 * 4(%rsi), %zmm2\"); }")
-execute_process(COMMAND ${CMAKE_C_COMPILER} -march=skylake-avx512 -v -o ${PROJECT_BINARY_DIR}/avx512.o -x c ${PROJECT_BINARY_DIR}/avx512.tmp OUTPUT_QUIET ERROR_QUIET RESULT_VARIABLE NO_AVX512)
+execute_process(COMMAND ${CMAKE_C_COMPILER} -march=skylake-avx512 -c -v -o ${PROJECT_BINARY_DIR}/avx512.o -x c ${PROJECT_BINARY_DIR}/avx512.tmp OUTPUT_QUIET ERROR_QUIET RESULT_VARIABLE NO_AVX512)
 if (NO_AVX512 EQUAL 1)
 set (CCOMMON_OPT "${CCOMMON_OPT} -DNO_AVX512")
 endif()
diff --git a/common.h b/common.h
index b30a71ff1a..239b2a850c 100644
--- a/common.h
+++ b/common.h
@@ -444,7 +444,7 @@ please https://github.com/xianyi/OpenBLAS/issues/246
 typedef char env_var_t[MAX_PATH];
 #define readenv(p, n) 0
 #else
-#ifdef OS_WINDOWS
+#if defined(OS_WINDOWS) && !defined(OS_CYGWIN_NT)
 typedef char env_var_t[MAX_PATH];
 #define readenv(p, n) GetEnvironmentVariable((LPCTSTR)(n), (LPTSTR)(p), sizeof(p))
 #else
diff --git a/common_power.h b/common_power.h
index ddbee9412f..889205c75c 100644
--- a/common_power.h
+++ b/common_power.h
@@ -241,7 +241,7 @@ static inline int blas_quickdivide(blasint x, blasint y){
 #define HAVE_PREFETCH
 #endif
 
-#if defined(POWER3) || defined(POWER6) || defined(PPCG4) || defined(CELL) || defined(POWER8)  || defined(POWER9)
+#if defined(POWER3) || defined(POWER6) || defined(PPCG4) || defined(CELL) || defined(POWER8) || defined(POWER9) || ( defined(PPC970) && defined(OS_DARWIN) )
 #define DCBT_ARG	0
 #else
 #define DCBT_ARG	8
@@ -598,9 +598,14 @@ REALNAME:;\
 #ifndef __64BIT__
 #define PROLOGUE \
 	.machine "any";\
+	.toc;\
 	.globl .REALNAME;\
+	.globl REALNAME;\
+	.csect REALNAME[DS],3;\
+REALNAME:;\
+	.long .REALNAME, TOC[tc0], 0;\
 	.csect .text[PR],5;\
-.REALNAME:;
+.REALNAME:
 
 #define EPILOGUE \
 _section_.text:;\
@@ -611,9 +616,14 @@ _section_.text:;\
 
 #define PROLOGUE \
 	.machine "any";\
+	.toc;\
 	.globl .REALNAME;\
+	.globl REALNAME;\
+	.csect REALNAME[DS],3;\
+REALNAME:;\
+	.llong .REALNAME, TOC[tc0], 0;\
 	.csect .text[PR], 5;\
-.REALNAME:;
+.REALNAME:
 
 #define EPILOGUE \
 _section_.text:;\
diff --git a/common_x86.h b/common_x86.h
index 4f538c948e..3fdffe2a85 100644
--- a/common_x86.h
+++ b/common_x86.h
@@ -187,7 +187,7 @@ static __inline int blas_quickdivide(unsigned int x, unsigned int y){
 	
   y = blas_quick_divide_table[y];
 
-  __asm__ __volatile__  ("mull %0" :"=d" (result) :"a"(x), "0" (y));
+  __asm__ __volatile__  ("mull %0" :"=d" (result), "+a"(x): "0" (y));
 
   return result;
 #endif
diff --git a/common_x86_64.h b/common_x86_64.h
index f27c1e9be8..718a81050b 100644
--- a/common_x86_64.h
+++ b/common_x86_64.h
@@ -210,7 +210,7 @@ static __inline int blas_quickdivide(unsigned int x, unsigned int y){
 	
   y = blas_quick_divide_table[y];
 
-  __asm__ __volatile__  ("mull %0" :"=d" (result) :"a"(x), "0" (y));
+  __asm__ __volatile__  ("mull %0" :"=d" (result), "+a"(x) : "0" (y));
 
   return result;
 }
diff --git a/cpuid_arm64.c b/cpuid_arm64.c
index 5077d7b11c..a5e731d747 100644
--- a/cpuid_arm64.c
+++ b/cpuid_arm64.c
@@ -39,6 +39,8 @@
 // Cavium
 #define CPU_THUNDERX      7
 #define CPU_THUNDERX2T99  8
+//Hisilicon
+#define CPU_TSV110        9
 
 static char *cpuname[] = {
   "UNKNOWN",
@@ -49,7 +51,8 @@ static char *cpuname[] = {
   "CORTEXA73",
   "FALKOR",
   "THUNDERX",
-  "THUNDERX2T99"
+  "THUNDERX2T99",
+  "TSV110"
 };
 
 static char *cpuname_lower[] = {
@@ -61,7 +64,8 @@ static char *cpuname_lower[] = {
   "cortexa73",
   "falkor",
   "thunderx",
-  "thunderx2t99"
+  "thunderx2t99",
+  "tsv110"
 };
 
 int get_feature(char *search)
@@ -145,6 +149,9 @@ int detect(void)
 			return CPU_THUNDERX;
     else if (strstr(cpu_implementer, "0x43") && strstr(cpu_part, "0x0af"))
 			return CPU_THUNDERX2T99;
+    // HiSilicon
+    else if (strstr(cpu_implementer, "0x48") && strstr(cpu_part, "0xd01"))
+                        return CPU_TSV110;
 	}
 
 	p = (char *) NULL ;
@@ -286,6 +293,21 @@ void get_cpuconfig(void)
 			printf("#define DTB_DEFAULT_ENTRIES  64       \n");
 			printf("#define DTB_SIZE             4096     \n");
 			break;
+			
+		case CPU_TSV110:
+			printf("#define TSV110                        \n");
+			printf("#define L1_CODE_SIZE         65536    \n");
+			printf("#define L1_CODE_LINESIZE     64       \n");
+			printf("#define L1_CODE_ASSOCIATIVE  4        \n");
+			printf("#define L1_DATA_SIZE         65536    \n");
+			printf("#define L1_DATA_LINESIZE     64       \n");
+			printf("#define L1_DATA_ASSOCIATIVE  4        \n");
+			printf("#define L2_SIZE              524228   \n");
+			printf("#define L2_LINESIZE          64       \n");
+			printf("#define L2_ASSOCIATIVE       8        \n");
+			printf("#define DTB_DEFAULT_ENTRIES  64       \n");
+			printf("#define DTB_SIZE             4096     \n");
+			break;	
 	}
 }
 
diff --git a/cpuid_x86.c b/cpuid_x86.c
index 7260140330..884d4b78ae 100644
--- a/cpuid_x86.c
+++ b/cpuid_x86.c
@@ -228,7 +228,7 @@ int support_avx2(){
 }
 
 int support_avx512(){
-#ifndef NO_AVX512
+#if !defined(NO_AVX) && !defined(NO_AVX512)
   int eax, ebx, ecx, edx;
   int ret=0;
 
@@ -1359,6 +1359,8 @@ int get_cpuname(void){
 	    return CPUTYPE_NEHALEM;
 	case 12:
 	    // Apollo Lake
+	case 15:
+	    // Denverton		
 	    return CPUTYPE_NEHALEM;
 	}
 	break;
@@ -1376,9 +1378,9 @@ int get_cpuname(void){
         }
       break;  
       case 9:
-      case 8: 
+      case 8:      
         switch (model) {
-	case 14: // Kaby Lake
+	case 14: // Kaby Lake and refreshes
           if(support_avx2())
             return CPUTYPE_HASWELL;
           if(support_avx())
diff --git a/cpuid_zarch.c b/cpuid_zarch.c
index e0d9221f31..896ed94f5d 100644
--- a/cpuid_zarch.c
+++ b/cpuid_zarch.c
@@ -27,9 +27,9 @@
 
 #include <string.h>
 
-#define CPU_GENERIC    	0
-#define CPU_Z13       	1
-#define CPU_Z14       	2
+#define CPU_GENERIC     0
+#define CPU_Z13         1
+#define CPU_Z14         2
 
 static char *cpuname[] = {
   "ZARCH_GENERIC",
@@ -64,10 +64,8 @@ int detect(void)
 
   if (strstr(p, "2964")) return CPU_Z13;
   if (strstr(p, "2965")) return CPU_Z13;
-
-  /* detect z14, but fall back to z13 */
-  if (strstr(p, "3906")) return CPU_Z13;
-  if (strstr(p, "3907")) return CPU_Z13;
+  if (strstr(p, "3906")) return CPU_Z14;
+  if (strstr(p, "3907")) return CPU_Z14;
 
   return CPU_GENERIC;
 }
@@ -116,7 +114,14 @@ void get_cpuconfig(void)
 	  break;
 	case CPU_Z14:
 	  printf("#define Z14\n");
+	  printf("#define L1_DATA_SIZE 131072\n");
+	  printf("#define L1_DATA_LINESIZE 256\n");
+	  printf("#define L1_DATA_ASSOCIATIVE 8\n");
+	  printf("#define L2_SIZE 4194304\n");
+	  printf("#define L2_LINESIZE 256\n");
+	  printf("#define L2_ASSOCIATIVE 8\n");
 	  printf("#define DTB_DEFAULT_ENTRIES 64\n");
+	  printf("#define DTB_SIZE 4096\n");
 	  break;
 	}
 }
diff --git a/ctest.c b/ctest.c
index 0571e9e028..5e869b901f 100644
--- a/ctest.c
+++ b/ctest.c
@@ -113,7 +113,7 @@ ARCH_X86
 ARCH_X86_64
 #endif
 
-#if defined(__powerpc___) || defined(__PPC__) || defined(_POWER)
+#if defined(__powerpc___) || defined(__PPC__) || defined(_POWER) || defined(__POWERPC__)
 ARCH_POWER
 #endif
 
diff --git a/driver/level2/trmv_thread.c b/driver/level2/trmv_thread.c
index 24b881a93b..43eeb40d25 100644
--- a/driver/level2/trmv_thread.c
+++ b/driver/level2/trmv_thread.c
@@ -346,7 +346,7 @@ int CNAME(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG incx, FLOAT *bu
 
     range_m[MAX_CPU_NUMBER - num_cpu - 1] = range_m[MAX_CPU_NUMBER - num_cpu] - width;
     range_n[num_cpu] = num_cpu * (((m + 15) & ~15) + 16);
-    if (range_n[num_cpu] > m) range_n[num_cpu] = m;
+    if (range_n[num_cpu] > m * num_cpu) range_n[num_cpu] = m * num_cpu;
 
     queue[num_cpu].mode    = mode;
     queue[num_cpu].routine = trmv_kernel;
@@ -386,7 +386,7 @@ int CNAME(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG incx, FLOAT *bu
 
     range_m[num_cpu + 1] = range_m[num_cpu] + width;
     range_n[num_cpu] = num_cpu * (((m + 15) & ~15) + 16);
-    if (range_n[num_cpu] > m) range_n[num_cpu] = m;
+    if (range_n[num_cpu] > m * num_cpu) range_n[num_cpu] = m * num_cpu;
 
     queue[num_cpu].mode    = mode;
     queue[num_cpu].routine = trmv_kernel;
diff --git a/driver/others/blas_server_win32.c b/driver/others/blas_server_win32.c
index bae344c593..0b38ee3658 100644
--- a/driver/others/blas_server_win32.c
+++ b/driver/others/blas_server_win32.c
@@ -461,13 +461,18 @@ int BLASFUNC(blas_thread_shutdown)(void){
     SetEvent(pool.killed);
 
     for(i = 0; i < blas_num_threads - 1; i++){
+      // Could also just use WaitForMultipleObjects
       WaitForSingleObject(blas_threads[i], 5);  //INFINITE);
 #ifndef OS_WINDOWSSTORE
 // TerminateThread is only available with WINAPI_DESKTOP and WINAPI_SYSTEM not WINAPI_APP in UWP
       TerminateThread(blas_threads[i],0);
 #endif
+      CloseHandle(blas_threads[i]);
     }
 
+    CloseHandle(pool.filled);
+    CloseHandle(pool.killed);
+
     blas_server_avail = 0;
   }
 
diff --git a/driver/others/dynamic.c b/driver/others/dynamic.c
index 99c9254acb..045fc65b8c 100644
--- a/driver/others/dynamic.c
+++ b/driver/others/dynamic.c
@@ -322,7 +322,7 @@ int support_avx2(){
 }
 
 int support_avx512(){
-#ifndef NO_AVX512
+#if !defined(NO_AVX) && !defined(NO_AVX512)
   int eax, ebx, ecx, edx;
   int ret=0;
 
@@ -566,8 +566,8 @@ static gotoblas_t *get_coretype(void){
 	    return &gotoblas_NEHALEM; //OS doesn't support AVX. Use old kernels.
 	  }
 	}
-	//Apollo Lake
-	if (model == 12) { 
+	//Apollo Lake or Denverton
+	if (model == 12 || model == 15) { 
 	  return &gotoblas_NEHALEM;
 	}	
 	return NULL;
diff --git a/driver/others/memory.c b/driver/others/memory.c
index 72d3e173cf..ac8545f350 100644
--- a/driver/others/memory.c
+++ b/driver/others/memory.c
@@ -198,45 +198,68 @@ int get_num_procs(void);
 #else
 int get_num_procs(void) {
   static int nums = 0;
-cpu_set_t *cpusetp;
-size_t size;
-int ret;
-int i,n;
+  cpu_set_t cpuset,*cpusetp;
+  size_t size;
+  int ret;
+
+#if defined(__GLIBC_PREREQ)
+#if !__GLIBC_PREREQ(2, 7)
+  int i;
+#if !__GLIBC_PREREQ(2, 6)
+  int n;
+#endif
+#endif
+#endif
 
   if (!nums) nums = sysconf(_SC_NPROCESSORS_CONF);
 #if !defined(OS_LINUX)
-     return nums;
+  return nums;
 #endif
 
 #if !defined(__GLIBC_PREREQ)
-   return nums;
+  return nums;
 #else
  #if !__GLIBC_PREREQ(2, 3)
-   return nums;
+  return nums;
  #endif
 
  #if !__GLIBC_PREREQ(2, 7)
-  ret = sched_getaffinity(0,sizeof(cpu_set_t), cpusetp);
+  ret = sched_getaffinity(0,sizeof(cpuset), &cpuset);
   if (ret!=0) return nums;
   n=0;
   #if !__GLIBC_PREREQ(2, 6)
   for (i=0;i<nums;i++)
-     if (CPU_ISSET(i,cpusetp)) n++;
+     if (CPU_ISSET(i,cpuset)) n++;
   nums=n;
   #else
-  nums = CPU_COUNT(sizeof(cpu_set_t),cpusetp);
+  nums = CPU_COUNT(sizeof(cpuset),&cpuset);
   #endif
   return nums;
  #else
-  cpusetp = CPU_ALLOC(nums);
-  if (cpusetp == NULL) return nums;
-  size = CPU_ALLOC_SIZE(nums);
-  ret = sched_getaffinity(0,size,cpusetp);
-  if (ret!=0) return nums;
-  ret = CPU_COUNT_S(size,cpusetp);
-  if (ret > 0 && ret < nums) nums = ret;
-  CPU_FREE(cpusetp);
-  return nums;
+  if (nums >= CPU_SETSIZE) {
+    cpusetp = CPU_ALLOC(nums);
+      if (cpusetp == NULL) {
+        return nums;
+      }
+    size = CPU_ALLOC_SIZE(nums);
+    ret = sched_getaffinity(0,size,cpusetp);
+    if (ret!=0) {
+      CPU_FREE(cpusetp);
+      return nums;
+    }
+    ret = CPU_COUNT_S(size,cpusetp);
+    if (ret > 0 && ret < nums) nums = ret;	
+    CPU_FREE(cpusetp);
+    return nums;
+  } else {
+    ret = sched_getaffinity(0,sizeof(cpuset),&cpuset);
+    if (ret!=0) {
+      return nums;
+    }
+    ret = CPU_COUNT(&cpuset);
+    if (ret > 0 && ret < nums) nums = ret;	
+    return nums;
+  }
  #endif
 #endif
 }
@@ -1290,6 +1313,13 @@ void blas_memory_free_nolock(void * map_address) {
   free(map_address);
 }
 
+#ifdef SMP
+void blas_thread_memory_cleanup(void) {
+    blas_memory_cleanup((void*)get_memory_table());
+}
+#endif
+
+
 void blas_shutdown(void){
 #ifdef SMP
   BLASFUNC(blas_thread_shutdown)();
@@ -1299,7 +1329,7 @@ void blas_shutdown(void){
   /* Only cleanupIf we were built for threading and TLS was initialized */
   if (local_storage_key)
 #endif
-    blas_memory_cleanup((void*)get_memory_table());
+    blas_thread_memory_cleanup();
 
 #ifdef SEEK_ADDRESS
   base_address      = 0UL;
@@ -1529,7 +1559,7 @@ BOOL APIENTRY DllMain(HMODULE hModule, DWORD  ul_reason_for_call, LPVOID lpReser
       break;
     case DLL_THREAD_DETACH:
 #if defined(SMP)
-      blas_memory_cleanup((void*)get_memory_table());
+      blas_thread_memory_cleanup();
 #endif
       break;
     case DLL_PROCESS_DETACH:
@@ -1603,9 +1633,11 @@ void gotoblas_dummy_for_PGI(void) {
 #endif
 
 #else
+/* USE_TLS / COMPILE_TLS not set */
+
 #include <errno.h>
 
-#ifdef OS_WINDOWS
+#if defined(OS_WINDOWS) && !defined(OS_CYGWIN_NT)
 #define ALLOC_WINDOWS
 #ifndef MEM_LARGE_PAGES
 #define MEM_LARGE_PAGES  0x20000000
@@ -1619,7 +1651,7 @@ void gotoblas_dummy_for_PGI(void) {
 #include <stdio.h>
 #include <fcntl.h>
 
-#ifndef OS_WINDOWS
+#if !defined(OS_WINDOWS) || defined(OS_CYGWIN_NT)
 #include <sys/mman.h>
 #ifndef NO_SYSV_IPC
 #include <sys/shm.h>
@@ -1639,7 +1671,7 @@ void gotoblas_dummy_for_PGI(void) {
 #include <sys/resource.h>
 #endif
 
-#if defined(OS_FREEBSD) || defined(OS_DARWIN)
+#if defined(OS_FREEBSD) || defined(OS_OPENBSD) || defined(OS_DRAGONFLY) || defined(OS_DARWIN)
 #include <sys/sysctl.h>
 #include <sys/resource.h>
 #endif
@@ -1678,9 +1710,12 @@ void gotoblas_dummy_for_PGI(void) {
 #elif (defined(OS_DARWIN) || defined(OS_SUNOS)) && defined(C_GCC)
 #define CONSTRUCTOR	__attribute__ ((constructor))
 #define DESTRUCTOR	__attribute__ ((destructor))
-#else
+#elif __GNUC__ && INIT_PRIORITY && ((GCC_VERSION >= 40300) || (CLANG_VERSION >= 20900))
 #define CONSTRUCTOR	__attribute__ ((constructor(101)))
 #define DESTRUCTOR	__attribute__ ((destructor(101)))
+#else
+#define CONSTRUCTOR	__attribute__ ((constructor))
+#define DESTRUCTOR	__attribute__ ((destructor))
 #endif
 
 #ifdef DYNAMIC_ARCH
@@ -1704,45 +1739,70 @@ void goto_set_num_threads(int num_threads) {};
 int get_num_procs(void);
 #else
 int get_num_procs(void) {
+
   static int nums = 0;
-cpu_set_t *cpusetp;
-size_t size;
-int ret;
-int i,n;
+  cpu_set_t cpuset,*cpusetp;
+  size_t size;
+  int ret;
+
+#if defined(__GLIBC_PREREQ)
+#if !__GLIBC_PREREQ(2, 7)
+  int i;
+#if !__GLIBC_PREREQ(2, 6)
+  int n;
+#endif
+#endif
+#endif
 
   if (!nums) nums = sysconf(_SC_NPROCESSORS_CONF);
 #if !defined(OS_LINUX)
-     return nums;
+  return nums;
 #endif
 
 #if !defined(__GLIBC_PREREQ)
-   return nums;
+  return nums;
 #else
  #if !__GLIBC_PREREQ(2, 3)
-   return nums;
+  return nums;
  #endif
 
  #if !__GLIBC_PREREQ(2, 7)
-  ret = sched_getaffinity(0,sizeof(cpu_set_t), cpusetp);
+  ret = sched_getaffinity(0,sizeof(cpuset), &cpuset);
   if (ret!=0) return nums;
   n=0;
   #if !__GLIBC_PREREQ(2, 6)
   for (i=0;i<nums;i++)
-     if (CPU_ISSET(i,cpusetp)) n++;
+     if (CPU_ISSET(i,cpuset)) n++;
   nums=n;
   #else
-  nums = CPU_COUNT(sizeof(cpu_set_t),cpusetp);
+  nums = CPU_COUNT(sizeof(cpuset),&cpuset);
   #endif
   return nums;
  #else
-  cpusetp = CPU_ALLOC(nums);
-  if (cpusetp == NULL) return nums;
-  size = CPU_ALLOC_SIZE(nums);
-  ret = sched_getaffinity(0,size,cpusetp);
-  if (ret!=0) return nums;
-  nums = CPU_COUNT_S(size,cpusetp);
-  CPU_FREE(cpusetp);
-  return nums;
+  if (nums >= CPU_SETSIZE) {
+    cpusetp = CPU_ALLOC(nums);
+      if (cpusetp == NULL) {
+        return nums;
+      }
+    size = CPU_ALLOC_SIZE(nums);
+    ret = sched_getaffinity(0,size,cpusetp);
+    if (ret!=0) {
+      CPU_FREE(cpusetp);
+      return nums;
+    }
+    ret = CPU_COUNT_S(size,cpusetp);
+    if (ret > 0 && ret < nums) nums = ret;	
+    CPU_FREE(cpusetp);
+    return nums;
+  } else {
+    ret = sched_getaffinity(0,sizeof(cpuset),&cpuset);
+    if (ret!=0) {
+      return nums;
+    }
+    ret = CPU_COUNT(&cpuset);
+    if (ret > 0 && ret < nums) nums = ret;	
+    return nums;
+  }
  #endif
 #endif
 }
@@ -1756,7 +1816,7 @@ int get_num_procs(void) {
   return nums;
 }
 #endif
-	
+
 #ifdef OS_HAIKU
 int get_num_procs(void) {
   static int nums = 0;
@@ -1793,7 +1853,7 @@ int get_num_procs(void) {
 
 #endif
 
-#if defined(OS_FREEBSD)
+#if defined(OS_FREEBSD) || defined(OS_OPENBSD) || defined(OS_DRAGONFLY)
 
 int get_num_procs(void) {
 
@@ -1870,7 +1930,7 @@ void openblas_fork_handler()
   //   http://gcc.gnu.org/bugzilla/show_bug.cgi?id=60035
   // In the mean time build with USE_OPENMP=0 or link against another
   // implementation of OpenMP.
-#if !(defined(OS_WINDOWS) || defined(OS_ANDROID)) && defined(SMP_SERVER)
+#if !((defined(OS_WINDOWS) && !defined(OS_CYGWIN_NT)) || defined(OS_ANDROID)) && defined(SMP_SERVER)
   int err;
   err = pthread_atfork ((void (*)(void)) BLASFUNC(blas_thread_shutdown), NULL, NULL);
   if(err != 0)
@@ -1883,7 +1943,7 @@ extern int openblas_goto_num_threads_env();
 extern int openblas_omp_num_threads_env();
 
 int blas_get_cpu_number(void){
-#if defined(OS_LINUX) || defined(OS_WINDOWS) || defined(OS_FREEBSD) || defined(OS_DARWIN) || defined(OS_ANDROID)
+#if defined(OS_LINUX) || defined(OS_WINDOWS) || defined(OS_FREEBSD) || defined(OS_OPENBSD) || defined(OS_DRAGONFLY) || defined(OS_DARWIN) || defined(OS_ANDROID)
   int max_num;
 #endif
   int blas_goto_num   = 0;
@@ -1891,11 +1951,11 @@ int blas_get_cpu_number(void){
 
   if (blas_num_threads) return blas_num_threads;
 
-#if defined(OS_LINUX) || defined(OS_WINDOWS) || defined(OS_FREEBSD) || defined(OS_DARWIN) || defined(OS_ANDROID)
+#if defined(OS_LINUX) || defined(OS_WINDOWS) || defined(OS_FREEBSD) || defined(OS_OPENBSD) || defined(OS_DRAGONFLY) || defined(OS_DARWIN) || defined(OS_ANDROID)
   max_num = get_num_procs();
 #endif
 
-  blas_goto_num = 0;
+  // blas_goto_num = 0;
 #ifndef USE_OPENMP
   blas_goto_num=openblas_num_threads_env();
   if (blas_goto_num < 0) blas_goto_num = 0;
@@ -1907,7 +1967,7 @@ int blas_get_cpu_number(void){
 
 #endif
 
-  blas_omp_num = 0;
+  // blas_omp_num = 0;
   blas_omp_num=openblas_omp_num_threads_env();
   if (blas_omp_num < 0) blas_omp_num = 0;
 
@@ -1915,7 +1975,7 @@ int blas_get_cpu_number(void){
   else if (blas_omp_num > 0) blas_num_threads = blas_omp_num;
   else blas_num_threads = MAX_CPU_NUMBER;
 
-#if defined(OS_LINUX) || defined(OS_WINDOWS) || defined(OS_FREEBSD) || defined(OS_DARWIN) || defined(OS_ANDROID)
+#if defined(OS_LINUX) || defined(OS_WINDOWS) || defined(OS_FREEBSD) || defined(OS_OPENBSD) || defined(OS_DRAGONFLY) || defined(OS_DARWIN) || defined(OS_ANDROID)
   if (blas_num_threads > max_num) blas_num_threads = max_num;
 #endif
 
@@ -2002,11 +2062,15 @@ static void *alloc_mmap(void *address){
   }
 
   if (map_address != (void *)-1) {
+#if defined(SMP) && !defined(USE_OPENMP)
     LOCK_COMMAND(&alloc_lock);
+#endif    
     release_info[release_pos].address = map_address;
     release_info[release_pos].func    = alloc_mmap_free;
     release_pos ++;
+#if defined(SMP) && !defined(USE_OPENMP)
     UNLOCK_COMMAND(&alloc_lock);
+#endif    
   }
 
 #ifdef OS_LINUX
@@ -2148,14 +2212,18 @@ static void *alloc_mmap(void *address){
 #if defined(OS_LINUX) && !defined(NO_WARMUP)
   }
 #endif
-  LOCK_COMMAND(&alloc_lock);
 
   if (map_address != (void *)-1) {
+#if defined(SMP) && !defined(USE_OPENMP)
+    LOCK_COMMAND(&alloc_lock);
+#endif
     release_info[release_pos].address = map_address;
     release_info[release_pos].func    = alloc_mmap_free;
     release_pos ++;
+#if defined(SMP) && !defined(USE_OPENMP)
+    UNLOCK_COMMAND(&alloc_lock);
+#endif
   }
-  UNLOCK_COMMAND(&alloc_lock);
 
   return map_address;
 }
@@ -2523,7 +2591,7 @@ void *blas_memory_alloc(int procpos){
 
   int position;
 #if defined(WHEREAMI) && !defined(USE_OPENMP)
-  int mypos;
+  int mypos = 0;
 #endif
 
   void *map_address;
@@ -2554,6 +2622,11 @@ void *blas_memory_alloc(int procpos){
     NULL,
   };
   void *(**func)(void *address);
+
+#if defined(USE_OPENMP)
+  if (!memory_initialized) {
+#endif
+
   LOCK_COMMAND(&alloc_lock);
 
   if (!memory_initialized) {
@@ -2589,6 +2662,9 @@ void *blas_memory_alloc(int procpos){
 
   }
   UNLOCK_COMMAND(&alloc_lock);
+#if defined(USE_OPENMP)
+  }
+#endif
 
 #ifdef DEBUG
   printf("Alloc Start ...\n");
@@ -2603,13 +2679,17 @@ void *blas_memory_alloc(int procpos){
 
   do {
     if (!memory[position].used && (memory[position].pos == mypos)) {
+#if defined(SMP) && !defined(USE_OPENMP)
       LOCK_COMMAND(&alloc_lock);
-//      blas_lock(&memory[position].lock);
-
+#else      
+      blas_lock(&memory[position].lock);
+#endif
       if (!memory[position].used) goto allocation;
-
+#if defined(SMP) && !defined(USE_OPENMP)
       UNLOCK_COMMAND(&alloc_lock);
-//      blas_unlock(&memory[position].lock);
+#else
+      blas_unlock(&memory[position].lock);
+#endif      
     }
 
     position ++;
@@ -2621,21 +2701,26 @@ void *blas_memory_alloc(int procpos){
 
   position = 0;
 
+#if defined(SMP) && !defined(USE_OPENMP)
   LOCK_COMMAND(&alloc_lock);
+#endif
   do {
-/*    if (!memory[position].used) { */
-/*      blas_lock(&memory[position].lock);*/
-
+#if defined(USE_OPENMP)	  
+    if (!memory[position].used) { 
+      blas_lock(&memory[position].lock);
+#endif
       if (!memory[position].used) goto allocation;
       
-/*      blas_unlock(&memory[position].lock);*/
-/*    } */
-
+#if defined(USE_OPENMP)
+      blas_unlock(&memory[position].lock);      
+    }
+#endif
     position ++;
 
   } while (position < NUM_BUFFERS);
-  UNLOCK_COMMAND(&alloc_lock);
-
+#if defined(SMP) && !defined(USE_OPENMP)
+  UNLOCK_COMMAND(&alloc_lock);	
+#endif
   goto error;
 
   allocation :
@@ -2645,10 +2730,11 @@ void *blas_memory_alloc(int procpos){
 #endif
 
   memory[position].used = 1;
-
+#if defined(SMP) && !defined(USE_OPENMP)
   UNLOCK_COMMAND(&alloc_lock);
-/*  blas_unlock(&memory[position].lock);*/
-
+#else
+  blas_unlock(&memory[position].lock);	
+#endif
   if (!memory[position].addr) {
     do {
 #ifdef DEBUG
@@ -2693,9 +2779,13 @@ void *blas_memory_alloc(int procpos){
 
     } while ((BLASLONG)map_address == -1);
 
+#if defined(SMP) && !defined(USE_OPENMP)
     LOCK_COMMAND(&alloc_lock);
+#endif    
     memory[position].addr = map_address;
+#if defined(SMP) && !defined(USE_OPENMP)
     UNLOCK_COMMAND(&alloc_lock);
+#endif
 
 #ifdef DEBUG
     printf("  Mapping Succeeded. %p(%d)\n", (void *)memory[position].addr, position);
@@ -2749,8 +2839,9 @@ void blas_memory_free(void *free_area){
 #endif
 
   position = 0;
+#if defined(SMP) && !defined(USE_OPENMP)
   LOCK_COMMAND(&alloc_lock);
-
+#endif
   while ((position < NUM_BUFFERS) && (memory[position].addr != free_area))
     position++;
 
@@ -2764,7 +2855,9 @@ void blas_memory_free(void *free_area){
   WMB;
 
   memory[position].used = 0;
+#if defined(SMP) && !defined(USE_OPENMP)
   UNLOCK_COMMAND(&alloc_lock);
+#endif
 
 #ifdef DEBUG
   printf("Unmap Succeeded.\n\n");
@@ -2779,8 +2872,9 @@ void blas_memory_free(void *free_area){
   for (position = 0; position < NUM_BUFFERS; position++)
     printf("%4ld  %p : %d\n", position, memory[position].addr, memory[position].used);
 #endif
+#if defined(SMP) && !defined(USE_OPENMP)
   UNLOCK_COMMAND(&alloc_lock);
-
+#endif
   return;
 }
 
diff --git a/exports/Makefile b/exports/Makefile
index 3a5f77db3d..b1348bd4ac 100644
--- a/exports/Makefile
+++ b/exports/Makefile
@@ -141,6 +141,14 @@ else
 	$(OBJCOPY) --redefine-syms objcopy.def ../$(LIBNAME) ../$(LIBNAME).renamed
 ../$(LIBSONAME) : ../$(LIBNAME).renamed linktest.c
 endif
+
+ifeq ($(F_COMPILER), INTEL)
+	$(FC) $(FFLAGS) $(LDFLAGS) -shared -o ../$(LIBSONAME) \
+	-Wl,--whole-archive $< -Wl,--no-whole-archive \
+	-Wl,-soname,$(INTERNALNAME) $(EXTRALIB)
+	$(CC) $(CFLAGS) $(LDFLAGS) -w -o linktest linktest.c ../$(LIBSONAME) $(FEXTRALIB) && echo OK.
+else
+
 ifneq ($(C_COMPILER), LSB)
 	$(CC) $(CFLAGS) $(LDFLAGS) -shared -o ../$(LIBSONAME) \
 	-Wl,--whole-archive $< -Wl,--no-whole-archive \
@@ -152,6 +160,7 @@ else
 	-Wl,--whole-archive $< -Wl,--no-whole-archive \
 	-Wl,-soname,$(INTERNALNAME) $(EXTRALIB)
 	$(FC) $(CFLAGS) $(LDFLAGS) -w -o linktest linktest.c ../$(LIBSONAME) $(FEXTRALIB) && echo OK.
+endif
 endif
 	rm -f linktest
 
diff --git a/exports/dllinit.c b/exports/dllinit.c
index 02ff092e99..4a05c0e146 100644
--- a/exports/dllinit.c
+++ b/exports/dllinit.c
@@ -40,15 +40,25 @@
 
 void gotoblas_init(void);
 void gotoblas_quit(void);
+#if defined(SMP) && defined(USE_TLS)
+void blas_thread_memory_cleanup(void);
+#endif
 
 BOOL APIENTRY DllMain(HINSTANCE hInst, DWORD reason, LPVOID reserved) {
-
-  if (reason == DLL_PROCESS_ATTACH) {
-    gotoblas_init();
-  }
-
-  if (reason == DLL_PROCESS_DETACH) {
-    gotoblas_quit();
+  switch(reason) {
+      case DLL_PROCESS_ATTACH:
+        gotoblas_init();
+        break;
+      case DLL_PROCESS_DETACH:
+        gotoblas_quit();
+        break;
+      case DLL_THREAD_ATTACH:
+        break;
+      case DLL_THREAD_DETACH:
+#if defined(SMP) && defined(USE_TLS)
+        blas_thread_memory_cleanup();
+#endif
+        break;
   }
 
   return TRUE;
diff --git a/getarch.c b/getarch.c
index 34d46905ac..4d960356c2 100644
--- a/getarch.c
+++ b/getarch.c
@@ -91,6 +91,10 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 #include <unistd.h>
 #endif
 
+#if (( defined(__GNUC__)  && __GNUC__   > 6 && defined(__AVX2__)) || (defined(__clang__) && __clang_major__ >= 6))
+#else
+#define NO_AVX512
+#endif
 /* #define FORCE_P2		*/
 /* #define FORCE_KATMAI		*/
 /* #define FORCE_COPPERMINE	*/
@@ -327,6 +331,20 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 #endif
 
 #ifdef FORCE_SKYLAKEX
+#ifdef NO_AVX512
+#define FORCE
+#define FORCE_INTEL
+#define ARCHITECTURE    "X86"
+#define SUBARCHITECTURE "HASWELL"
+#define ARCHCONFIG   "-DHASWELL " \
+		     "-DL1_DATA_SIZE=32768 -DL1_DATA_LINESIZE=64 " \
+		     "-DL2_SIZE=262144 -DL2_LINESIZE=64 " \
+		     "-DDTB_DEFAULT_ENTRIES=64 -DDTB_SIZE=4096 " \
+		     "-DHAVE_CMOV -DHAVE_MMX -DHAVE_SSE -DHAVE_SSE2 -DHAVE_SSE3 -DHAVE_SSSE3 -DHAVE_SSE4_1 -DHAVE_SSE4_2 -DHAVE_AVX " \
+                     "-DFMA3"
+#define LIBNAME   "haswell"
+#define CORENAME  "HASWELL"
+#else
 #define FORCE
 #define FORCE_INTEL
 #define ARCHITECTURE    "X86"
@@ -340,6 +358,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 #define LIBNAME   "skylakex"
 #define CORENAME  "SKYLAKEX"
 #endif
+#endif
 
 #ifdef FORCE_ATOM
 #define FORCE
@@ -1058,6 +1077,23 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 #else
 #endif
 
+#ifdef FORCE_TSV110
+#define FORCE
+#define ARCHITECTURE    "ARM64"
+#define SUBARCHITECTURE "TSV110"
+#define SUBDIRNAME      "arm64"
+#define ARCHCONFIG   "-DTSV110 " \
+       "-DL1_CODE_SIZE=65536  -DL1_CODE_LINESIZE=64 -DL1_CODE_ASSOCIATIVE=4 " \
+       "-DL1_DATA_SIZE=65536  -DL1_DATA_LINESIZE=64 -DL1_DATA_ASSOCIATIVE=4 " \
+       "-DL2_SIZE=524288 -DL2_LINESIZE=64 -DL2_ASSOCIATIVE=8 " \
+       "-DDTB_DEFAULT_ENTRIES=64 -DDTB_SIZE=4096 " \
+       "-DHAVE_VFPV4 -DHAVE_VFPV3 -DHAVE_VFP -DHAVE_NEON -DARMV8"
+#define LIBNAME   "tsv110"
+#define CORENAME  "TSV110"
+#else
+#endif
+
+
 #ifdef FORCE_ZARCH_GENERIC
 #define FORCE
 #define ARCHITECTURE    "ZARCH"
@@ -1078,6 +1114,16 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 #define CORENAME  "Z13"
 #endif
 
+#ifdef FORCE_Z14
+#define FORCE
+#define ARCHITECTURE    "ZARCH"
+#define SUBARCHITECTURE "Z14"
+#define ARCHCONFIG   "-DZ14 " \
+       "-DDTB_DEFAULT_ENTRIES=64"
+#define LIBNAME   "z14"
+#define CORENAME  "Z14"
+#endif
+
 #ifndef FORCE
 
 #ifdef USER_TARGET
diff --git a/interface/trmv.c b/interface/trmv.c
index 7c40ae976f..2e52527a3c 100644
--- a/interface/trmv.c
+++ b/interface/trmv.c
@@ -218,11 +218,8 @@ void CNAME(enum CBLAS_ORDER order, enum CBLAS_UPLO Uplo,
   buffer = (FLOAT *)blas_memory_alloc(1);
 
 #ifdef SMP
-/*  nthreads = num_cpu_avail(2);
+  nthreads = num_cpu_avail(2);
 
-FIXME trmv_thread was found to be broken, see issue 1332 */
-  nthreads = 1;
-  
   if (nthreads == 1) {
 #endif
 
diff --git a/interface/trsm.c b/interface/trsm.c
index 5c2750e791..f2da285de2 100644
--- a/interface/trsm.c
+++ b/interface/trsm.c
@@ -81,6 +81,12 @@
 #endif
 #endif
 
+#ifndef COMPLEX
+#define SMP_FACTOR 256
+#else
+#define SMP_FACTOR 128
+#endif
+
 static int (*trsm[])(blas_arg_t *, BLASLONG *, BLASLONG *, FLOAT *, FLOAT *, BLASLONG) = {
 #ifndef TRMM
   TRSM_LNUU, TRSM_LNUN, TRSM_LNLU, TRSM_LNLN,
@@ -366,11 +372,15 @@ void CNAME(enum CBLAS_ORDER order,
   mode |= (trans << BLAS_TRANSA_SHIFT);
   mode |= (side  << BLAS_RSIDE_SHIFT);
 
-  if ( args.m < 2*GEMM_MULTITHREAD_THRESHOLD )
+/*
+  if ( args.m < 2 * GEMM_MULTITHREAD_THRESHOLD )
 	args.nthreads = 1;
   else
-	if ( args.n < 2*GEMM_MULTITHREAD_THRESHOLD )
+	if ( args.n < 2 * GEMM_MULTITHREAD_THRESHOLD )
 		args.nthreads = 1;
+*/
+  if ( args.m * args.n < SMP_FACTOR * GEMM_MULTITHREAD_THRESHOLD)
+	args.nthreads = 1;
   else
 	args.nthreads = num_cpu_avail(3);
 		
diff --git a/interface/ztrmv.c b/interface/ztrmv.c
index 0e16632e06..4c47e9e913 100644
--- a/interface/ztrmv.c
+++ b/interface/ztrmv.c
@@ -239,9 +239,6 @@ void CNAME(enum CBLAS_ORDER order, enum CBLAS_UPLO Uplo,
   } else
       nthreads = 1;
 
-/* FIXME TRMV multithreading appears to be broken, see issue 1332*/
-  nthreads = 1;
-
   if(nthreads > 1) {
     buffer_size = n > 16 ? 0 : n * 4 + 40;
   }
diff --git a/kernel/Makefile.L3 b/kernel/Makefile.L3
index db9fccd30a..f83def47b4 100644
--- a/kernel/Makefile.L3
+++ b/kernel/Makefile.L3
@@ -24,7 +24,7 @@ ifeq ($(TARGET), LOONGSON3B)
 USE_TRMM = 1
 endif
 
-ifeq ($(TARGET), GENERIC)
+ifeq ($(CORE), GENERIC)
 USE_TRMM = 1
 endif
 
@@ -52,6 +52,10 @@ ifeq ($(ARCH), zarch)
 USE_TRMM = 1
 endif
 
+ifeq ($(CORE), Z14)
+USE_TRMM = 1
+endif
+
 
 
 
diff --git a/kernel/arm/imin.c b/kernel/arm/imin.c
index 598cba3871..ffc65226ed 100644
--- a/kernel/arm/imin.c
+++ b/kernel/arm/imin.c
@@ -53,7 +53,7 @@ BLASLONG CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x)
 
 	while(i < n)
 	{
-		if( x[ix] > minf )
+		if( x[ix] < minf )
 		{
 			min = i;
 			minf = x[ix];
diff --git a/kernel/arm64/KERNEL.TSV110 b/kernel/arm64/KERNEL.TSV110
new file mode 100644
index 0000000000..04d6940d7a
--- /dev/null
+++ b/kernel/arm64/KERNEL.TSV110
@@ -0,0 +1,175 @@
+SAMINKERNEL  = ../arm/amin.c
+DAMINKERNEL  = ../arm/amin.c
+CAMINKERNEL  = ../arm/zamin.c
+ZAMINKERNEL  = ../arm/zamin.c
+
+SMAXKERNEL   = ../arm/max.c
+DMAXKERNEL   = ../arm/max.c
+
+SMINKERNEL   = ../arm/min.c
+DMINKERNEL   = ../arm/min.c
+
+ISAMINKERNEL = ../arm/iamin.c
+IDAMINKERNEL = ../arm/iamin.c
+ICAMINKERNEL = ../arm/izamin.c
+IZAMINKERNEL = ../arm/izamin.c
+
+ISMAXKERNEL  = ../arm/imax.c
+IDMAXKERNEL  = ../arm/imax.c
+
+ISMINKERNEL  = ../arm/imin.c
+IDMINKERNEL  = ../arm/imin.c
+
+STRMMKERNEL	= ../generic/trmmkernel_4x4.c
+DTRMMKERNEL	= ../generic/trmmkernel_2x2.c
+CTRMMKERNEL	= ../generic/ztrmmkernel_2x2.c
+ZTRMMKERNEL	= ../generic/ztrmmkernel_2x2.c
+
+STRSMKERNEL_LN	=  ../generic/trsm_kernel_LN.c
+STRSMKERNEL_LT	=  ../generic/trsm_kernel_LT.c
+STRSMKERNEL_RN	=  ../generic/trsm_kernel_RN.c
+STRSMKERNEL_RT	=  ../generic/trsm_kernel_RT.c
+
+DTRSMKERNEL_LN	= ../generic/trsm_kernel_LN.c
+DTRSMKERNEL_LT	= ../generic/trsm_kernel_LT.c
+DTRSMKERNEL_RN	= ../generic/trsm_kernel_RN.c
+DTRSMKERNEL_RT	= ../generic/trsm_kernel_RT.c
+
+CTRSMKERNEL_LN	= ../generic/trsm_kernel_LN.c
+CTRSMKERNEL_LT	= ../generic/trsm_kernel_LT.c
+CTRSMKERNEL_RN	= ../generic/trsm_kernel_RN.c
+CTRSMKERNEL_RT	= ../generic/trsm_kernel_RT.c
+
+ZTRSMKERNEL_LN	= ../generic/trsm_kernel_LN.c
+ZTRSMKERNEL_LT	= ../generic/trsm_kernel_LT.c
+ZTRSMKERNEL_RN	= ../generic/trsm_kernel_RN.c
+ZTRSMKERNEL_RT	= ../generic/trsm_kernel_RT.c
+
+SAMAXKERNEL  = amax.S
+DAMAXKERNEL  = amax.S
+CAMAXKERNEL  = zamax.S
+ZAMAXKERNEL  = zamax.S
+
+ISAMAXKERNEL = iamax.S
+IDAMAXKERNEL = iamax.S
+ICAMAXKERNEL = izamax.S
+IZAMAXKERNEL = izamax.S
+
+SASUMKERNEL  = asum.S
+DASUMKERNEL  = asum.S
+CASUMKERNEL  = casum.S
+ZASUMKERNEL  = zasum.S
+
+SAXPYKERNEL  = axpy.S
+DAXPYKERNEL  = axpy.S
+CAXPYKERNEL  = zaxpy.S
+ZAXPYKERNEL  = zaxpy.S
+
+SCOPYKERNEL  = copy.S
+DCOPYKERNEL  = copy.S
+CCOPYKERNEL  = copy.S
+ZCOPYKERNEL  = copy.S
+
+SDOTKERNEL   = dot.S
+DDOTKERNEL   = dot.S
+CDOTKERNEL   = zdot.S
+ZDOTKERNEL   = zdot.S
+DSDOTKERNEL  = dot.S
+
+SNRM2KERNEL  = nrm2.S
+DNRM2KERNEL  = nrm2.S
+CNRM2KERNEL  = znrm2.S
+ZNRM2KERNEL  = znrm2.S
+
+SROTKERNEL   = rot.S
+DROTKERNEL   = rot.S
+CROTKERNEL   = zrot.S
+ZROTKERNEL   = zrot.S
+
+SSCALKERNEL  = scal.S
+DSCALKERNEL  = scal.S
+CSCALKERNEL  = zscal.S
+ZSCALKERNEL  = zscal.S
+
+SSWAPKERNEL  = swap.S
+DSWAPKERNEL  = swap.S
+CSWAPKERNEL  = swap.S
+ZSWAPKERNEL  = swap.S
+
+SGEMVNKERNEL = gemv_n.S
+DGEMVNKERNEL = gemv_n.S
+CGEMVNKERNEL = zgemv_n.S
+ZGEMVNKERNEL = zgemv_n.S
+
+SGEMVTKERNEL = gemv_t.S
+DGEMVTKERNEL = gemv_t.S
+CGEMVTKERNEL = zgemv_t.S
+ZGEMVTKERNEL = zgemv_t.S
+
+SGEMMKERNEL    =  sgemm_kernel_$(SGEMM_UNROLL_M)x$(SGEMM_UNROLL_N).S
+STRMMKERNEL    =  strmm_kernel_$(SGEMM_UNROLL_M)x$(SGEMM_UNROLL_N).S
+ifneq ($(SGEMM_UNROLL_M), $(SGEMM_UNROLL_N))
+SGEMMINCOPY    =  ../generic/gemm_ncopy_$(SGEMM_UNROLL_M).c
+SGEMMITCOPY    =  ../generic/gemm_tcopy_$(SGEMM_UNROLL_M).c
+SGEMMINCOPYOBJ =  sgemm_incopy$(TSUFFIX).$(SUFFIX)
+SGEMMITCOPYOBJ =  sgemm_itcopy$(TSUFFIX).$(SUFFIX)
+endif
+SGEMMONCOPY    =  ../generic/gemm_ncopy_$(SGEMM_UNROLL_N).c
+SGEMMOTCOPY    =  ../generic/gemm_tcopy_$(SGEMM_UNROLL_N).c
+SGEMMONCOPYOBJ =  sgemm_oncopy$(TSUFFIX).$(SUFFIX)
+SGEMMOTCOPYOBJ =  sgemm_otcopy$(TSUFFIX).$(SUFFIX)
+
+DGEMMKERNEL    =  dgemm_kernel_$(DGEMM_UNROLL_M)x$(DGEMM_UNROLL_N).S
+DTRMMKERNEL    =  dtrmm_kernel_$(DGEMM_UNROLL_M)x$(DGEMM_UNROLL_N).S
+
+ifneq ($(DGEMM_UNROLL_M), $(DGEMM_UNROLL_N))
+
+ifeq ($(DGEMM_UNROLL_M), 8)
+DGEMMINCOPY    =  dgemm_ncopy_$(DGEMM_UNROLL_M).S
+DGEMMITCOPY    =  dgemm_tcopy_$(DGEMM_UNROLL_M).S
+else
+DGEMMINCOPY    =  ../generic/gemm_ncopy_$(DGEMM_UNROLL_M).c
+DGEMMITCOPY    =  ../generic/gemm_tcopy_$(DGEMM_UNROLL_M).c
+endif
+
+DGEMMINCOPYOBJ =  dgemm_incopy$(TSUFFIX).$(SUFFIX)
+DGEMMITCOPYOBJ =  dgemm_itcopy$(TSUFFIX).$(SUFFIX)
+endif
+
+ifeq ($(DGEMM_UNROLL_N), 4)
+DGEMMONCOPY    =  dgemm_ncopy_$(DGEMM_UNROLL_N).S
+DGEMMOTCOPY    =  dgemm_tcopy_$(DGEMM_UNROLL_N).S
+else
+DGEMMONCOPY    =  ../generic/gemm_ncopy_$(DGEMM_UNROLL_N).c
+DGEMMOTCOPY    =  ../generic/gemm_tcopy_$(DGEMM_UNROLL_N).c
+endif
+
+DGEMMONCOPYOBJ =  dgemm_oncopy$(TSUFFIX).$(SUFFIX)
+DGEMMOTCOPYOBJ =  dgemm_otcopy$(TSUFFIX).$(SUFFIX)
+
+CGEMMKERNEL    =  cgemm_kernel_$(CGEMM_UNROLL_M)x$(CGEMM_UNROLL_N).S
+CTRMMKERNEL    =  ctrmm_kernel_$(CGEMM_UNROLL_M)x$(CGEMM_UNROLL_N).S
+ifneq ($(CGEMM_UNROLL_M), $(CGEMM_UNROLL_N))
+CGEMMINCOPY    =  ../generic/zgemm_ncopy_$(CGEMM_UNROLL_M).c
+CGEMMITCOPY    =  ../generic/zgemm_tcopy_$(CGEMM_UNROLL_M).c
+CGEMMINCOPYOBJ =  cgemm_incopy$(TSUFFIX).$(SUFFIX)
+CGEMMITCOPYOBJ =  cgemm_itcopy$(TSUFFIX).$(SUFFIX)
+endif
+CGEMMONCOPY    =  ../generic/zgemm_ncopy_$(CGEMM_UNROLL_N).c
+CGEMMOTCOPY    =  ../generic/zgemm_tcopy_$(CGEMM_UNROLL_N).c
+CGEMMONCOPYOBJ =  cgemm_oncopy$(TSUFFIX).$(SUFFIX)
+CGEMMOTCOPYOBJ =  cgemm_otcopy$(TSUFFIX).$(SUFFIX)
+
+ZGEMMKERNEL    =  zgemm_kernel_$(ZGEMM_UNROLL_M)x$(ZGEMM_UNROLL_N).S
+ZTRMMKERNEL    =  ztrmm_kernel_$(ZGEMM_UNROLL_M)x$(ZGEMM_UNROLL_N).S
+ifneq ($(ZGEMM_UNROLL_M), $(ZGEMM_UNROLL_N))
+ZGEMMINCOPY    =  ../generic/zgemm_ncopy_$(ZGEMM_UNROLL_M).c
+ZGEMMITCOPY    =  ../generic/zgemm_tcopy_$(ZGEMM_UNROLL_M).c
+ZGEMMINCOPYOBJ =  zgemm_incopy$(TSUFFIX).$(SUFFIX)
+ZGEMMITCOPYOBJ =  zgemm_itcopy$(TSUFFIX).$(SUFFIX)
+endif
+ZGEMMONCOPY    =  ../generic/zgemm_ncopy_$(ZGEMM_UNROLL_N).c
+ZGEMMOTCOPY    =  ../generic/zgemm_tcopy_$(ZGEMM_UNROLL_N).c
+ZGEMMONCOPYOBJ =  zgemm_oncopy$(TSUFFIX).$(SUFFIX)
+ZGEMMOTCOPYOBJ =  zgemm_otcopy$(TSUFFIX).$(SUFFIX)
+
diff --git a/kernel/mips/imin.c b/kernel/mips/imin.c
index d9b283d2d9..bf130613bf 100644
--- a/kernel/mips/imin.c
+++ b/kernel/mips/imin.c
@@ -45,7 +45,7 @@ BLASLONG CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x)
 
 	while(i < n)
 	{
-		if( x[ix] > minf )
+		if( x[ix] < minf )
 		{
 			min = i;
 			minf = x[ix];
diff --git a/kernel/power/gemm_beta.S b/kernel/power/gemm_beta.S
index 62d7761ec7..7acc05b4df 100644
--- a/kernel/power/gemm_beta.S
+++ b/kernel/power/gemm_beta.S
@@ -129,7 +129,7 @@ LL(12):
 	STFD	f0,  14 * SIZE(CO1)
 	STFD	f0,  15 * SIZE(CO1)
 
-	dcbst	PRE, CO1
+	dcbtst	PRE, CO1
 	addi	CO1, CO1,  16 * SIZE
 	bdnz	LL(12)
 	.align 4
diff --git a/kernel/power/zgemm_beta.S b/kernel/power/zgemm_beta.S
index 43b72ca157..1f4c29210d 100644
--- a/kernel/power/zgemm_beta.S
+++ b/kernel/power/zgemm_beta.S
@@ -134,7 +134,7 @@ LL(12):
 	STFD	f0,  14 * SIZE(CO1)
 	STFD	f0,  15 * SIZE(CO1)
 
-	dcbst	PRE, CO1
+	dcbtst	PRE, CO1
 	addi	CO1, CO1,  16 * SIZE
 	bdnz	LL(12)
 	.align 4
diff --git a/kernel/x86_64/caxpy_microk_bulldozer-2.c b/kernel/x86_64/caxpy_microk_bulldozer-2.c
index 33bda09434..ca2209340c 100644
--- a/kernel/x86_64/caxpy_microk_bulldozer-2.c
+++ b/kernel/x86_64/caxpy_microk_bulldozer-2.c
@@ -114,9 +114,9 @@ static void caxpy_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha),  // 4
@@ -180,10 +180,10 @@ static void caxpy_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"jnz		1b		             \n\t"
 	"vzeroupper					    \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha),  // 4
diff --git a/kernel/x86_64/caxpy_microk_haswell-2.c b/kernel/x86_64/caxpy_microk_haswell-2.c
index 00e2e6a42a..b605ea34c8 100644
--- a/kernel/x86_64/caxpy_microk_haswell-2.c
+++ b/kernel/x86_64/caxpy_microk_haswell-2.c
@@ -112,9 +112,9 @@ static void caxpy_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha),  // 4
diff --git a/kernel/x86_64/caxpy_microk_sandy-2.c b/kernel/x86_64/caxpy_microk_sandy-2.c
index a798fd9779..72d37afed6 100644
--- a/kernel/x86_64/caxpy_microk_sandy-2.c
+++ b/kernel/x86_64/caxpy_microk_sandy-2.c
@@ -95,10 +95,10 @@ static void caxpy_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"jnz		1b		             \n\t"
 	"vzeroupper					    \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha),  // 4
diff --git a/kernel/x86_64/caxpy_microk_steamroller-2.c b/kernel/x86_64/caxpy_microk_steamroller-2.c
index 87370b0320..7ca7af0701 100644
--- a/kernel/x86_64/caxpy_microk_steamroller-2.c
+++ b/kernel/x86_64/caxpy_microk_steamroller-2.c
@@ -113,10 +113,10 @@ static void caxpy_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"jnz		1b		             \n\t"
 	"vzeroupper					    \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha),  // 4
@@ -181,9 +181,9 @@ static void caxpy_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha),  // 4
diff --git a/kernel/x86_64/cdot_microk_bulldozer-2.c b/kernel/x86_64/cdot_microk_bulldozer-2.c
index f587aa0366..1186559130 100644
--- a/kernel/x86_64/cdot_microk_bulldozer-2.c
+++ b/kernel/x86_64/cdot_microk_bulldozer-2.c
@@ -97,9 +97,9 @@ static void cdot_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vzeroupper		        	\n\t"
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
@@ -175,10 +175,10 @@ static void cdot_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vmovups        %%xmm4,  16(%4)		\n\t"
 	"vzeroupper		        	\n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/cdot_microk_haswell-2.c b/kernel/x86_64/cdot_microk_haswell-2.c
index fe195a63b2..8b9d6d104b 100644
--- a/kernel/x86_64/cdot_microk_haswell-2.c
+++ b/kernel/x86_64/cdot_microk_haswell-2.c
@@ -98,9 +98,9 @@ static void cdot_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vzeroupper					     \n\t"
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/cdot_microk_sandy-2.c b/kernel/x86_64/cdot_microk_sandy-2.c
index 01816917d2..fe142c38f7 100644
--- a/kernel/x86_64/cdot_microk_sandy-2.c
+++ b/kernel/x86_64/cdot_microk_sandy-2.c
@@ -105,10 +105,10 @@ static void cdot_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vmovups       %%xmm4,  16(%4)		\n\t"
 	"vzeroupper					     \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/cdot_microk_steamroller-2.c b/kernel/x86_64/cdot_microk_steamroller-2.c
index 76a3aa0eb0..7350b21c9f 100644
--- a/kernel/x86_64/cdot_microk_steamroller-2.c
+++ b/kernel/x86_64/cdot_microk_steamroller-2.c
@@ -97,9 +97,9 @@ static void cdot_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vzeroupper		        	\n\t"
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
@@ -175,10 +175,10 @@ static void cdot_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vmovups        %%xmm4,  16(%4)		\n\t"
 	"vzeroupper		        	\n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/cscal_microk_bulldozer-2.c b/kernel/x86_64/cscal_microk_bulldozer-2.c
index 3abffc4cfa..31451aa6cb 100644
--- a/kernel/x86_64/cscal_microk_bulldozer-2.c
+++ b/kernel/x86_64/cscal_microk_bulldozer-2.c
@@ -116,11 +116,11 @@ static void cscal_kernel_16( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+        :
           "r" (alpha)   // 2
-	: "cc", //"%0", "%1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
@@ -208,11 +208,11 @@ static void cscal_kernel_16_zero_r( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+        :
           "r" (alpha)   // 2
-	: "cc", //"%0", "%1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
@@ -285,11 +285,11 @@ static void cscal_kernel_16_zero_i( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+        :
           "r" (alpha)   // 2
-	: "cc", //"%0", "%1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
@@ -330,11 +330,11 @@ static void cscal_kernel_16_zero( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+        :
           "r" (alpha)   // 2
-	: "cc", //"%0", "%1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
diff --git a/kernel/x86_64/cscal_microk_haswell-2.c b/kernel/x86_64/cscal_microk_haswell-2.c
index 0a4eb683c2..a04a4c4aba 100644
--- a/kernel/x86_64/cscal_microk_haswell-2.c
+++ b/kernel/x86_64/cscal_microk_haswell-2.c
@@ -116,11 +116,11 @@ static void cscal_kernel_16( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+        :
           "r" (alpha)   // 2
-	: "cc", //"0", "1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
@@ -208,9 +208,9 @@ static void cscal_kernel_16_zero_r( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+        :
           "r" (alpha)   // 2
 	: "cc", // "0", "1",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
@@ -285,9 +285,9 @@ static void cscal_kernel_16_zero_i( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+        :
           "r" (alpha)   // 2
 	: "cc", //"%0", "%1",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
@@ -329,12 +329,12 @@ static void cscal_kernel_16_zero( BLASLONG n, FLOAT *alpha, FLOAT *x)
 
 	"vzeroupper					    \n\t"
 
-	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	: 
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+        :
           "r" (alpha)   // 2
-	: "cc", //"0", "1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
diff --git a/kernel/x86_64/cscal_microk_steamroller-2.c b/kernel/x86_64/cscal_microk_steamroller-2.c
index 8346e17483..e8073d485e 100644
--- a/kernel/x86_64/cscal_microk_steamroller-2.c
+++ b/kernel/x86_64/cscal_microk_steamroller-2.c
@@ -117,11 +117,11 @@ static void cscal_kernel_16( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+	:
           "r" (alpha)   // 2
-	: "cc", //"0", "1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
@@ -208,12 +208,12 @@ static void cscal_kernel_16_zero_r( BLASLONG n, FLOAT *alpha, FLOAT *x)
 
 	"vzeroupper					    \n\t"
 
+	: 
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
           "r" (alpha)   // 2
-	: "cc", //"0", "1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
@@ -286,11 +286,11 @@ static void cscal_kernel_16_zero_i( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+	:
           "r" (alpha)   // 2
-	: "cc", //"%0", "%1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
@@ -331,11 +331,11 @@ static void cscal_kernel_16_zero( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+	:
           "r" (alpha)   // 2
-	: "cc", //"0", "1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
diff --git a/kernel/x86_64/daxpy_microk_bulldozer-2.c b/kernel/x86_64/daxpy_microk_bulldozer-2.c
index 8c520dcf10..9c1305b977 100644
--- a/kernel/x86_64/daxpy_microk_bulldozer-2.c
+++ b/kernel/x86_64/daxpy_microk_bulldozer-2.c
@@ -64,9 +64,9 @@ static void daxpy_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"jnz		1b		             \n\t"
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha)   // 4
diff --git a/kernel/x86_64/daxpy_microk_haswell-2.c b/kernel/x86_64/daxpy_microk_haswell-2.c
index bbe8b95506..f3682e6d72 100644
--- a/kernel/x86_64/daxpy_microk_haswell-2.c
+++ b/kernel/x86_64/daxpy_microk_haswell-2.c
@@ -59,10 +59,10 @@ static void daxpy_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"jnz		1b		             \n\t"
 	"vzeroupper				     \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha)   // 4
diff --git a/kernel/x86_64/daxpy_microk_nehalem-2.c b/kernel/x86_64/daxpy_microk_nehalem-2.c
index 943d893af3..8feb9f26cd 100644
--- a/kernel/x86_64/daxpy_microk_nehalem-2.c
+++ b/kernel/x86_64/daxpy_microk_nehalem-2.c
@@ -73,9 +73,9 @@ static void daxpy_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"jnz		1b		             \n\t"
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha)   // 4
diff --git a/kernel/x86_64/daxpy_microk_piledriver-2.c b/kernel/x86_64/daxpy_microk_piledriver-2.c
index 95eb953b48..4b83124c7a 100644
--- a/kernel/x86_64/daxpy_microk_piledriver-2.c
+++ b/kernel/x86_64/daxpy_microk_piledriver-2.c
@@ -78,10 +78,10 @@ static void daxpy_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"subq	        $16, %1			             		\n\t"		
 	"jnz		1b		             			\n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha)   // 4
@@ -140,10 +140,10 @@ static void daxpy_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"subq	        $16, %1			             		\n\t"		
 	"jnz		1b		             			\n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha)   // 4
diff --git a/kernel/x86_64/daxpy_microk_sandy-2.c b/kernel/x86_64/daxpy_microk_sandy-2.c
index 85e038cef1..db9a45de81 100644
--- a/kernel/x86_64/daxpy_microk_sandy-2.c
+++ b/kernel/x86_64/daxpy_microk_sandy-2.c
@@ -99,10 +99,10 @@ static void daxpy_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 
 	"vzeroupper					     \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha)   // 4
diff --git a/kernel/x86_64/daxpy_microk_steamroller-2.c b/kernel/x86_64/daxpy_microk_steamroller-2.c
index e40009037d..8e63fcc1db 100644
--- a/kernel/x86_64/daxpy_microk_steamroller-2.c
+++ b/kernel/x86_64/daxpy_microk_steamroller-2.c
@@ -78,10 +78,10 @@ static void daxpy_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"subq	        $16, %1			             		\n\t"		
 	"jnz		1b		             			\n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha)   // 4
@@ -140,10 +140,10 @@ static void daxpy_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"subq	        $16, %1			             		\n\t"		
 	"jnz		1b		             			\n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha)   // 4
diff --git a/kernel/x86_64/ddot_microk_bulldozer-2.c b/kernel/x86_64/ddot_microk_bulldozer-2.c
index 9756ee46a9..5590c5b177 100644
--- a/kernel/x86_64/ddot_microk_bulldozer-2.c
+++ b/kernel/x86_64/ddot_microk_bulldozer-2.c
@@ -65,10 +65,10 @@ static void ddot_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 
 	"vmovsd		%%xmm4,    (%4)		\n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/ddot_microk_haswell-2.c b/kernel/x86_64/ddot_microk_haswell-2.c
index 365737363b..dbb5487f70 100644
--- a/kernel/x86_64/ddot_microk_haswell-2.c
+++ b/kernel/x86_64/ddot_microk_haswell-2.c
@@ -77,9 +77,9 @@ static void ddot_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vzeroupper				\n\t"
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/ddot_microk_nehalem-2.c b/kernel/x86_64/ddot_microk_nehalem-2.c
index fb5ec9bca0..e5e234e225 100644
--- a/kernel/x86_64/ddot_microk_nehalem-2.c
+++ b/kernel/x86_64/ddot_microk_nehalem-2.c
@@ -75,10 +75,10 @@ static void ddot_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 
 	"movsd	       %%xmm4,    (%4)	\n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/ddot_microk_piledriver-2.c b/kernel/x86_64/ddot_microk_piledriver-2.c
index ac950885c6..cc4bcd90a2 100644
--- a/kernel/x86_64/ddot_microk_piledriver-2.c
+++ b/kernel/x86_64/ddot_microk_piledriver-2.c
@@ -81,10 +81,10 @@ static void ddot_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vmovsd		%%xmm4,    (%4)		\n\t"
 	"vzeroupper					     \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
@@ -145,10 +145,10 @@ static void ddot_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vmovsd		%%xmm4,    (%4)		\n\t"
 	"vzeroupper					     \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/ddot_microk_sandy-2.c b/kernel/x86_64/ddot_microk_sandy-2.c
index 160f956048..84493ec273 100644
--- a/kernel/x86_64/ddot_microk_sandy-2.c
+++ b/kernel/x86_64/ddot_microk_sandy-2.c
@@ -81,10 +81,10 @@ static void ddot_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vmovsd		%%xmm4,    (%4)		\n\t"
 	"vzeroupper				\n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/ddot_microk_steamroller-2.c b/kernel/x86_64/ddot_microk_steamroller-2.c
index 5ce20b5dee..27d5244ce2 100644
--- a/kernel/x86_64/ddot_microk_steamroller-2.c
+++ b/kernel/x86_64/ddot_microk_steamroller-2.c
@@ -78,10 +78,10 @@ static void ddot_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vmovsd		%%xmm4,    (%4)		\n\t"
 	"vzeroupper					     \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/dgemv_n_4.c b/kernel/x86_64/dgemv_n_4.c
index 6d2530e81e..6d33641e91 100644
--- a/kernel/x86_64/dgemv_n_4.c
+++ b/kernel/x86_64/dgemv_n_4.c
@@ -111,9 +111,9 @@ static void dgemv_kernel_4x2( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT
 	"jnz		1b		       \n\t"
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (ap[0]),  // 4
@@ -166,9 +166,9 @@ static void dgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT *a
         "jnz            1b               \n\t"
 
         :
+          "+r" (i),     // 0    
+          "+r" (n)      // 1
         :
-          "r" (i),      // 0    
-          "r" (n),      // 1
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (ap),     // 4
diff --git a/kernel/x86_64/dgemv_n_microk_haswell-4.c b/kernel/x86_64/dgemv_n_microk_haswell-4.c
index 584a6c6b5b..da0fa2fff2 100644
--- a/kernel/x86_64/dgemv_n_microk_haswell-4.c
+++ b/kernel/x86_64/dgemv_n_microk_haswell-4.c
@@ -104,6 +104,7 @@ static void dgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT
           "r" (ap[3]),  // 7
           "r" (alpha)   // 8
 	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3",
 	  "%xmm4", "%xmm5", 
 	  "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", 
diff --git a/kernel/x86_64/dgemv_n_microk_piledriver-4.c b/kernel/x86_64/dgemv_n_microk_piledriver-4.c
index 530780bab7..466931b82f 100644
--- a/kernel/x86_64/dgemv_n_microk_piledriver-4.c
+++ b/kernel/x86_64/dgemv_n_microk_piledriver-4.c
@@ -38,42 +38,42 @@ static void dgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 	__asm__  __volatile__
 	(
 	"vzeroupper			 \n\t"
-	"vbroadcastsd    (%2), %%ymm12	 \n\t"	// x0 
-	"vbroadcastsd   8(%2), %%ymm13	 \n\t"	// x1 
-	"vbroadcastsd  16(%2), %%ymm14	 \n\t"	// x2 
-	"vbroadcastsd  24(%2), %%ymm15	 \n\t"	// x3 
-	"vbroadcastsd  32(%2), %%ymm0 	 \n\t"	// x4 
-	"vbroadcastsd  40(%2), %%ymm1 	 \n\t"	// x5 
-	"vbroadcastsd  48(%2), %%ymm2 	 \n\t"	// x6 
-	"vbroadcastsd  56(%2), %%ymm3 	 \n\t"	// x7 
+	"vbroadcastsd    (%3), %%ymm12	 \n\t"	// x0 
+	"vbroadcastsd   8(%3), %%ymm13	 \n\t"	// x1 
+	"vbroadcastsd  16(%3), %%ymm14	 \n\t"	// x2 
+	"vbroadcastsd  24(%3), %%ymm15	 \n\t"	// x3 
+	"vbroadcastsd  32(%3), %%ymm0 	 \n\t"	// x4 
+	"vbroadcastsd  40(%3), %%ymm1 	 \n\t"	// x5 
+	"vbroadcastsd  48(%3), %%ymm2 	 \n\t"	// x6 
+	"vbroadcastsd  56(%3), %%ymm3 	 \n\t"	// x7 
 
 	"vbroadcastsd    (%9), %%ymm6 	 \n\t"	// alpha 
 
         "testq          $0x04, %1                      \n\t"
         "jz             2f                     \n\t"
 
-	"vmovupd	(%3,%0,8), %%ymm7	       \n\t"	// 4 * y
+	"vmovupd	(%4,%0,8), %%ymm7	       \n\t"	// 4 * y
 	"vxorpd		%%ymm4 , %%ymm4, %%ymm4        \n\t"
 	"vxorpd		%%ymm5 , %%ymm5, %%ymm5        \n\t"
 
-	"vfmadd231pd   (%4,%0,8), %%ymm12, %%ymm4      \n\t" 
-	"vfmadd231pd   (%5,%0,8), %%ymm13, %%ymm5      \n\t" 
-	"vfmadd231pd   (%6,%0,8), %%ymm14, %%ymm4      \n\t" 
-	"vfmadd231pd   (%7,%0,8), %%ymm15, %%ymm5      \n\t" 
+	"vfmadd231pd   (%5,%0,8), %%ymm12, %%ymm4      \n\t" 
+	"vfmadd231pd   (%6,%0,8), %%ymm13, %%ymm5      \n\t" 
+	"vfmadd231pd   (%7,%0,8), %%ymm14, %%ymm4      \n\t" 
+	"vfmadd231pd   (%8,%0,8), %%ymm15, %%ymm5      \n\t" 
 
-	"vfmadd231pd   (%4,%8,8), %%ymm0 , %%ymm4      \n\t" 
-	"vfmadd231pd   (%5,%8,8), %%ymm1 , %%ymm5      \n\t" 
-	"vfmadd231pd   (%6,%8,8), %%ymm2 , %%ymm4      \n\t" 
-	"vfmadd231pd   (%7,%8,8), %%ymm3 , %%ymm5      \n\t" 
+	"vfmadd231pd   (%5,%2,8), %%ymm0 , %%ymm4      \n\t" 
+	"vfmadd231pd   (%6,%2,8), %%ymm1 , %%ymm5      \n\t" 
+	"vfmadd231pd   (%7,%2,8), %%ymm2 , %%ymm4      \n\t" 
+	"vfmadd231pd   (%8,%2,8), %%ymm3 , %%ymm5      \n\t" 
 
 	"vaddpd		%%ymm4 , %%ymm5 , %%ymm5       \n\t"
 	"vmulpd		%%ymm6 , %%ymm5 , %%ymm5       \n\t"
 	"vaddpd		%%ymm7 , %%ymm5 , %%ymm5       \n\t"
 
 
-	"vmovupd  %%ymm5,   (%3,%0,8)		       \n\t"	// 4 * y
+	"vmovupd  %%ymm5,   (%4,%0,8)		       \n\t"	// 4 * y
 
-        "addq		$4 , %8	  	 	       \n\t"
+        "addq		$4 , %2	  	 	       \n\t"
         "addq		$4 , %0	  	 	       \n\t"
 	"subq	        $4 , %1			       \n\t"		
 
@@ -88,35 +88,35 @@ static void dgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 
 	"vxorpd		%%ymm4 , %%ymm4, %%ymm4        \n\t"
 	"vxorpd		%%ymm5 , %%ymm5, %%ymm5        \n\t"
-	"vmovupd	(%3,%0,8), %%ymm8	       \n\t"	// 4 * y
-	"vmovupd      32(%3,%0,8), %%ymm9	       \n\t"	// 4 * y
-
-	"vfmadd231pd   (%4,%0,8), %%ymm12, %%ymm4      \n\t" 
-	"vfmadd231pd 32(%4,%0,8), %%ymm12, %%ymm5      \n\t" 
-	"vfmadd231pd   (%5,%0,8), %%ymm13, %%ymm4      \n\t" 
-	"vfmadd231pd 32(%5,%0,8), %%ymm13, %%ymm5      \n\t" 
-	"vfmadd231pd   (%6,%0,8), %%ymm14, %%ymm4      \n\t" 
-	"vfmadd231pd 32(%6,%0,8), %%ymm14, %%ymm5      \n\t" 
-	"vfmadd231pd   (%7,%0,8), %%ymm15, %%ymm4      \n\t" 
-	"vfmadd231pd 32(%7,%0,8), %%ymm15, %%ymm5      \n\t" 
-
-	"vfmadd231pd   (%4,%8,8), %%ymm0 , %%ymm4      \n\t" 
+	"vmovupd	(%4,%0,8), %%ymm8	       \n\t"	// 4 * y
+	"vmovupd      32(%4,%0,8), %%ymm9	       \n\t"	// 4 * y
+
+	"vfmadd231pd   (%5,%0,8), %%ymm12, %%ymm4      \n\t" 
+	"vfmadd231pd 32(%5,%0,8), %%ymm12, %%ymm5      \n\t" 
+	"vfmadd231pd   (%6,%0,8), %%ymm13, %%ymm4      \n\t" 
+	"vfmadd231pd 32(%6,%0,8), %%ymm13, %%ymm5      \n\t" 
+	"vfmadd231pd   (%7,%0,8), %%ymm14, %%ymm4      \n\t" 
+	"vfmadd231pd 32(%7,%0,8), %%ymm14, %%ymm5      \n\t" 
+	"vfmadd231pd   (%8,%0,8), %%ymm15, %%ymm4      \n\t" 
+	"vfmadd231pd 32(%8,%0,8), %%ymm15, %%ymm5      \n\t" 
+
+	"vfmadd231pd   (%5,%2,8), %%ymm0 , %%ymm4      \n\t" 
         "addq		$8 , %0	  	 	       \n\t"
-	"vfmadd231pd 32(%4,%8,8), %%ymm0 , %%ymm5      \n\t" 
-	"vfmadd231pd   (%5,%8,8), %%ymm1 , %%ymm4      \n\t" 
-	"vfmadd231pd 32(%5,%8,8), %%ymm1 , %%ymm5      \n\t" 
-	"vfmadd231pd   (%6,%8,8), %%ymm2 , %%ymm4      \n\t" 
-	"vfmadd231pd 32(%6,%8,8), %%ymm2 , %%ymm5      \n\t" 
-	"vfmadd231pd   (%7,%8,8), %%ymm3 , %%ymm4      \n\t" 
-	"vfmadd231pd 32(%7,%8,8), %%ymm3 , %%ymm5      \n\t" 
+	"vfmadd231pd 32(%5,%2,8), %%ymm0 , %%ymm5      \n\t" 
+	"vfmadd231pd   (%6,%2,8), %%ymm1 , %%ymm4      \n\t" 
+	"vfmadd231pd 32(%6,%2,8), %%ymm1 , %%ymm5      \n\t" 
+	"vfmadd231pd   (%7,%2,8), %%ymm2 , %%ymm4      \n\t" 
+	"vfmadd231pd 32(%7,%2,8), %%ymm2 , %%ymm5      \n\t" 
+	"vfmadd231pd   (%8,%2,8), %%ymm3 , %%ymm4      \n\t" 
+	"vfmadd231pd 32(%8,%2,8), %%ymm3 , %%ymm5      \n\t" 
 
 	"vfmadd231pd     %%ymm6 , %%ymm4 , %%ymm8      \n\t"
 	"vfmadd231pd     %%ymm6 , %%ymm5 , %%ymm9      \n\t"
 
-        "addq		$8 , %8	  	 	      \n\t"
+        "addq		$8 , %2	  	 	      \n\t"
 	"vmovupd  %%ymm8,-64(%3,%0,8)		      \n\t"	// 4 * y
 	"subq	        $8 , %1			      \n\t"		
-	"vmovupd  %%ymm9,-32(%3,%0,8)		      \n\t"	// 4 * y
+	"vmovupd  %%ymm9,-32(%4,%0,8)		      \n\t"	// 4 * y
 
 	"jnz		1b		      \n\t"
 
@@ -125,15 +125,15 @@ static void dgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 
 	:
           "+r" (i),	// 0	
-	  "+r" (n)  	// 1
+	  "+r" (n),  	// 1
+          "+r" (lda4)   // 2
         : 
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3]),  // 7
-          "r" (lda4),   // 8
+          "r" (x),      // 3
+          "r" (y),      // 4
+          "r" (ap[0]),  // 5
+          "r" (ap[1]),  // 6
+          "r" (ap[2]),  // 7
+          "r" (ap[3]),  // 8
           "r" (alpha)   // 9
 	: "cc", 
 	  "%xmm0", "%xmm1", 
diff --git a/kernel/x86_64/dgemv_t_4.c b/kernel/x86_64/dgemv_t_4.c
index a7478e3a8b..ed672a7579 100644
--- a/kernel/x86_64/dgemv_t_4.c
+++ b/kernel/x86_64/dgemv_t_4.c
@@ -127,9 +127,9 @@ static void dgemv_kernel_4x2(BLASLONG n, FLOAT *ap0, FLOAT *ap1, FLOAT *x, FLOAT
 	"movsd	       %%xmm11,8(%2)	        \n\t"
 
         :
-   	:
-	"r" (i),	 // 0
-	"r" (n),	 // 1
+	"+r" (i),	 // 0
+	"+r" (n)	 // 1
+	:
         "r" (y),         // 2    
         "r" (ap0),       // 3
         "r" (ap1),       // 4
@@ -195,9 +195,9 @@ static void dgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
 	"movsd	       %%xmm10, (%2)	        \n\t"
 
         :
-   	:
-	"r" (i),	 // 0
-	"r" (n),	 // 1
+	"+r" (i),	 // 0
+	"+r" (n)	 // 1
+	:
         "r" (y),         // 2    
         "r" (ap),        // 3
         "r" (x)          // 4
@@ -259,9 +259,9 @@ static void add_y(BLASLONG n, FLOAT da , FLOAT *src, FLOAT *dest, BLASLONG inc_d
         "jnz            1b              \n\t"
 
         :
-   	:
-	"r" (i),	  // 0
-	"r" (n),	  // 1
+	"+r" (i),	  // 0
+	"+r" (n)	  // 1
+	:
         "r" (&da),        // 2    
         "r" (src),        // 3
         "r" (dest)        // 4
diff --git a/kernel/x86_64/dger_microk_sandy-2.c b/kernel/x86_64/dger_microk_sandy-2.c
index 2bf966a5f4..e8494500ff 100644
--- a/kernel/x86_64/dger_microk_sandy-2.c
+++ b/kernel/x86_64/dger_microk_sandy-2.c
@@ -105,9 +105,9 @@ static void dger_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"vzeroupper					     \n\t"
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+	:
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha)   // 4
diff --git a/kernel/x86_64/dscal.c b/kernel/x86_64/dscal.c
index ef9a0a6ba0..d0d7801fd4 100644
--- a/kernel/x86_64/dscal.c
+++ b/kernel/x86_64/dscal.c
@@ -136,8 +136,8 @@ static void dscal_kernel_inc_8(BLASLONG n, FLOAT *alpha, FLOAT *x, BLASLONG inc_
 	"jnz    1b					    \n\t"
 
         :
+          "+r" (n)      // 0
         :
-          "r" (n),      // 0
           "r" (x),      // 1
           "r" (x1),     // 2
           "r" (alpha),  // 3
diff --git a/kernel/x86_64/dscal_microk_bulldozer-2.c b/kernel/x86_64/dscal_microk_bulldozer-2.c
index de53b0bc4b..096662781e 100644
--- a/kernel/x86_64/dscal_microk_bulldozer-2.c
+++ b/kernel/x86_64/dscal_microk_bulldozer-2.c
@@ -122,9 +122,9 @@ static void dscal_kernel_8( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n1),  	// 0
-          "r" (x),      // 1
+	  "+r" (n1),  	// 0
+          "+r" (x)      // 1
+	:
           "r" (alpha),  // 2
 	  "r" (n2)   	// 3
 	: "cc", 
@@ -188,9 +188,9 @@ static void dscal_kernel_8_zero( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n1),  	// 0
-          "r" (x),      // 1
+	  "+r" (n1),  	// 0
+          "+r" (x)      // 1
+	:
           "r" (alpha),  // 2
 	  "r" (n2)   	// 3
 	: "cc", 
diff --git a/kernel/x86_64/dscal_microk_haswell-2.c b/kernel/x86_64/dscal_microk_haswell-2.c
index e732a27181..77ed59a4e3 100644
--- a/kernel/x86_64/dscal_microk_haswell-2.c
+++ b/kernel/x86_64/dscal_microk_haswell-2.c
@@ -122,9 +122,9 @@ static void dscal_kernel_8( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n1),  	// 0
-          "r" (x),      // 1
+	  "+r" (n1),  	// 0
+          "+r" (x)      // 1
+	:
           "r" (alpha),  // 2
 	  "r" (n2)   	// 3
 	: "cc", 
@@ -187,10 +187,10 @@ static void dscal_kernel_8_zero( BLASLONG n, FLOAT *alpha, FLOAT *x)
 
 	"vzeroupper					    \n\t"
 
+	: 
+	  "+r" (n1),  	// 0
+          "+r" (x)      // 1
 	:
-        : 
-	  "r" (n1),  	// 0
-          "r" (x),      // 1
           "r" (alpha),  // 2
 	  "r" (n2)   	// 3
 	: "cc", 
diff --git a/kernel/x86_64/dscal_microk_sandy-2.c b/kernel/x86_64/dscal_microk_sandy-2.c
index 8d855072b4..9982b8e587 100644
--- a/kernel/x86_64/dscal_microk_sandy-2.c
+++ b/kernel/x86_64/dscal_microk_sandy-2.c
@@ -122,9 +122,9 @@ static void dscal_kernel_8( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n1),  	// 0
-          "r" (x),      // 1
+	  "+r" (n1),  	// 0
+          "+r" (x)      // 1
+	:
           "r" (alpha),  // 2
 	  "r" (n2)   	// 3
 	: "cc", 
@@ -187,10 +187,10 @@ static void dscal_kernel_8_zero( BLASLONG n, FLOAT *alpha, FLOAT *x)
 
 	"vzeroupper					    \n\t"
 
+	: 
+	  "+r" (n1),  	// 0
+          "+r" (x)      // 1
 	:
-        : 
-	  "r" (n1),  	// 0
-          "r" (x),      // 1
           "r" (alpha),  // 2
 	  "r" (n2)   	// 3
 	: "cc", 
diff --git a/kernel/x86_64/dsymv_L_microk_bulldozer-2.c b/kernel/x86_64/dsymv_L_microk_bulldozer-2.c
index d84470cc44..bfa07b6d02 100644
--- a/kernel/x86_64/dsymv_L_microk_bulldozer-2.c
+++ b/kernel/x86_64/dsymv_L_microk_bulldozer-2.c
@@ -113,8 +113,8 @@ static void dsymv_kernel_4x4(BLASLONG from, BLASLONG to, FLOAT **a, FLOAT *x, FL
 	"vmovsd         %%xmm3 ,24(%9)		\n\t"	// save temp2
 
 	:
-        : 
-          "r" (from),	// 0	
+          "+r" (from)	// 0	
+        :
 	  "r" (to),  	// 1
           "r" (x),      // 2
           "r" (y),      // 3
diff --git a/kernel/x86_64/dsymv_L_microk_haswell-2.c b/kernel/x86_64/dsymv_L_microk_haswell-2.c
index 866782ee6f..6241879d5c 100644
--- a/kernel/x86_64/dsymv_L_microk_haswell-2.c
+++ b/kernel/x86_64/dsymv_L_microk_haswell-2.c
@@ -105,8 +105,8 @@ static void dsymv_kernel_4x4(BLASLONG from, BLASLONG to, FLOAT **a, FLOAT *x, FL
 	"vzeroupper				     \n\t"
 
 	:
-        : 
-          "r" (from),	// 0	
+          "+r" (from)	// 0	
+        :
 	  "r" (to),  	// 1
           "r" (x),      // 2
           "r" (y),      // 3
diff --git a/kernel/x86_64/dsymv_L_microk_nehalem-2.c b/kernel/x86_64/dsymv_L_microk_nehalem-2.c
index 38479f77af..a161dcd8b3 100644
--- a/kernel/x86_64/dsymv_L_microk_nehalem-2.c
+++ b/kernel/x86_64/dsymv_L_microk_nehalem-2.c
@@ -108,8 +108,8 @@ static void dsymv_kernel_4x4(BLASLONG from, BLASLONG to, FLOAT **a, FLOAT *x, FL
 	"movsd         %%xmm3 , 24(%9)		\n\t"	// save temp2
 
 	:
-        : 
-          "r" (from),	// 0	
+          "+r" (from)	// 0	
+        :
 	  "r" (to),  	// 1
           "r" (x),      // 2
           "r" (y),      // 3
diff --git a/kernel/x86_64/dsymv_L_microk_sandy-2.c b/kernel/x86_64/dsymv_L_microk_sandy-2.c
index b4e6ab3692..b205b10193 100644
--- a/kernel/x86_64/dsymv_L_microk_sandy-2.c
+++ b/kernel/x86_64/dsymv_L_microk_sandy-2.c
@@ -114,8 +114,8 @@ static void dsymv_kernel_4x4(BLASLONG from, BLASLONG to, FLOAT **a, FLOAT *x, FL
 	"vzeroupper				     \n\t"
 
 	:
-        : 
-          "r" (from),	// 0	
+          "+r" (from)	// 0	
+        :
 	  "r" (to),  	// 1
           "r" (x),      // 2
           "r" (y),      // 3
diff --git a/kernel/x86_64/dsymv_U_microk_bulldozer-2.c b/kernel/x86_64/dsymv_U_microk_bulldozer-2.c
index d7166fe4b4..ae287b6d8c 100644
--- a/kernel/x86_64/dsymv_U_microk_bulldozer-2.c
+++ b/kernel/x86_64/dsymv_U_microk_bulldozer-2.c
@@ -106,9 +106,9 @@ static void dsymv_kernel_4x4(BLASLONG n, FLOAT *a0, FLOAT *a1, FLOAT *a2, FLOAT
 	"vmovsd         %%xmm3 ,24(%9)		\n\t"	// save temp2
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (a0),     // 4
diff --git a/kernel/x86_64/dsymv_U_microk_haswell-2.c b/kernel/x86_64/dsymv_U_microk_haswell-2.c
index d83d20f8e6..4778f644a3 100644
--- a/kernel/x86_64/dsymv_U_microk_haswell-2.c
+++ b/kernel/x86_64/dsymv_U_microk_haswell-2.c
@@ -107,9 +107,9 @@ static void dsymv_kernel_4x4(BLASLONG n, FLOAT *a0, FLOAT *a1, FLOAT *a2, FLOAT
 	"vzeroupper				     \n\t"
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (a0),	// 4
diff --git a/kernel/x86_64/dsymv_U_microk_nehalem-2.c b/kernel/x86_64/dsymv_U_microk_nehalem-2.c
index 1344c75f73..065182286a 100644
--- a/kernel/x86_64/dsymv_U_microk_nehalem-2.c
+++ b/kernel/x86_64/dsymv_U_microk_nehalem-2.c
@@ -101,9 +101,9 @@ static void dsymv_kernel_4x4(BLASLONG n, FLOAT *a0, FLOAT *a1, FLOAT *a2, FLOAT
 	"movsd         %%xmm3 , 24(%9)		\n\t"	// save temp2
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (a0),     // 4
diff --git a/kernel/x86_64/dsymv_U_microk_sandy-2.c b/kernel/x86_64/dsymv_U_microk_sandy-2.c
index 1ef6fbafdc..d84e703bd5 100644
--- a/kernel/x86_64/dsymv_U_microk_sandy-2.c
+++ b/kernel/x86_64/dsymv_U_microk_sandy-2.c
@@ -116,9 +116,9 @@ static void dsymv_kernel_4x4(BLASLONG n, FLOAT *a0, FLOAT *a1, FLOAT *a2, FLOAT
 	"vzeroupper				     \n\t"
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (a0),	// 4
diff --git a/kernel/x86_64/dtrsm_kernel_RN_haswell.c b/kernel/x86_64/dtrsm_kernel_RN_haswell.c
index fcab8e2c78..9ab78fc8ea 100644
--- a/kernel/x86_64/dtrsm_kernel_RN_haswell.c
+++ b/kernel/x86_64/dtrsm_kernel_RN_haswell.c
@@ -119,9 +119,9 @@ static void dtrsm_RN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	cmpq	       $0, %0						\n\t"
 	"	je	       4f						\n\t"
 
-	"	vmovups         (%2,%1,4), %%ymm0				\n\t"	// read a
-	"	vmovups         (%3,%1,8), %%ymm1				\n\t"	// read b0
-	"	vmovups       32(%3,%1,8), %%ymm2				\n\t"	// read b1
+	"	vmovups         (%8,%1,4), %%ymm0				\n\t"	// read a
+	"	vmovups         (%9,%1,8), %%ymm1				\n\t"	// read b0
+	"	vmovups       32(%9,%1,8), %%ymm2				\n\t"	// read b1
 
 
 	"	addq		$8, %1						\n\t"
@@ -131,18 +131,18 @@ static void dtrsm_RN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	.p2align 4							\n\t"
 	"1:									\n\t"
 
-	"	vmovups         (%2,%1,4), %%ymm4				\n\t"	// read a
+	"	vmovups         (%8,%1,4), %%ymm4				\n\t"	// read a
         "       vpermpd         $0xb1  , %%ymm0 , %%ymm3                	\n\t"
 
 	"	vfmadd231pd	%%ymm0 , %%ymm1 , %%ymm8			\n\t"
 	"	vfmadd231pd	%%ymm0 , %%ymm2 , %%ymm12			\n\t"
 
-	"	vmovups         (%3,%1,8), %%ymm5				\n\t"	// read b0
+	"	vmovups         (%9,%1,8), %%ymm5				\n\t"	// read b0
 	"	vfmadd231pd	%%ymm3 , %%ymm1 , %%ymm9			\n\t"
 	"	vfmadd231pd	%%ymm3 , %%ymm2 , %%ymm13			\n\t"
 
         "       vpermpd         $0x1b  , %%ymm3 , %%ymm0                	\n\t"
-	"	vmovups       32(%3,%1,8), %%ymm6				\n\t"	// read b1
+	"	vmovups       32(%9,%1,8), %%ymm6				\n\t"	// read b1
         "       vpermpd         $0xb1  , %%ymm0 , %%ymm3                	\n\t"
 	"	vfmadd231pd	%%ymm0 , %%ymm1 , %%ymm10			\n\t"
 	"	vfmadd231pd	%%ymm0 , %%ymm2 , %%ymm14			\n\t"
@@ -155,18 +155,18 @@ static void dtrsm_RN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 
 	"	jz		22f						\n\t"
 
-	"	vmovups         (%2,%1,4), %%ymm0				\n\t"	// read a
+	"	vmovups         (%8,%1,4), %%ymm0				\n\t"	// read a
 
 	"	vfmadd231pd	%%ymm4 , %%ymm5 , %%ymm8			\n\t"
 	"	vfmadd231pd	%%ymm4 , %%ymm6 , %%ymm12			\n\t"
 
         "       vpermpd         $0xb1  , %%ymm4 , %%ymm4                	\n\t"
-	"	vmovups         (%3,%1,8), %%ymm1				\n\t"	// read b0
+	"	vmovups         (%9,%1,8), %%ymm1				\n\t"	// read b0
 	"	vfmadd231pd	%%ymm4 , %%ymm5 , %%ymm9			\n\t"
 	"	vfmadd231pd	%%ymm4 , %%ymm6 , %%ymm13			\n\t"
 
         "       vpermpd         $0x1b  , %%ymm4 , %%ymm4                	\n\t"
-	"	vmovups       32(%3,%1,8), %%ymm2				\n\t"	// read b1
+	"	vmovups       32(%9,%1,8), %%ymm2				\n\t"	// read b1
 	"	vfmadd231pd	%%ymm4 , %%ymm5 , %%ymm10			\n\t"
 	"	vfmadd231pd	%%ymm4 , %%ymm6 , %%ymm14			\n\t"
 
@@ -268,7 +268,7 @@ static void dtrsm_RN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	vmovups		  (%6,%7,1) , %%ymm7			\n\t"	// read c7
 
 	"	vsubpd		%%ymm8 , %%ymm0 , %%ymm8		\n\t"
-	"	vmovups           (%9),  %%ymm0				\n\t"
+	"	vmovups           (%3),  %%ymm0				\n\t"
 	"	vsubpd		%%ymm9 , %%ymm1 , %%ymm9		\n\t"
 	"	vpermpd		$0x55 ,  %%ymm0 , %%ymm1		\n\t"
 	"	vsubpd		%%ymm10, %%ymm2 , %%ymm10		\n\t"
@@ -278,7 +278,7 @@ static void dtrsm_RN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	vpermpd		$0x00 ,  %%ymm0 , %%ymm0		\n\t"
 
 	"	vsubpd		%%ymm12, %%ymm4 , %%ymm12		\n\t"
-	"	vmovups         32(%9),  %%ymm4				\n\t"
+	"	vmovups         32(%3),  %%ymm4				\n\t"
 	"	vsubpd		%%ymm13, %%ymm5 , %%ymm13		\n\t"
 	"	vpermpd		$0x55 ,  %%ymm4 , %%ymm5		\n\t"
 	"	vsubpd		%%ymm14, %%ymm6 , %%ymm14		\n\t"
@@ -290,15 +290,15 @@ static void dtrsm_RN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 
 	"5:								\n\t"	// i = 0
 
-	"	addq	$64, %9						\n\t"	// b=b+8
+	"	addq	$64, %3						\n\t"	// b=b+8
 
 	"	vmulpd		%%ymm8 , %%ymm0, %%ymm8			\n\t"	// a *bb
-	"	vmovups           (%9),  %%ymm0				\n\t"
-	"	vmovups		%%ymm8 , (%8)				\n\t"	// write a
+	"	vmovups           (%3),  %%ymm0				\n\t"
+	"	vmovups		%%ymm8 , (%2)				\n\t"	// write a
 	"	vmovups		%%ymm8 , (%4)				\n\t"	// write c
 
 	"	vfnmadd231pd	%%ymm8 , %%ymm1 , %%ymm9		\n\t"
-	"	vmovups         32(%9),  %%ymm1				\n\t"
+	"	vmovups         32(%3),  %%ymm1				\n\t"
 	"	vfnmadd231pd	%%ymm8 , %%ymm2 , %%ymm10		\n\t"
 	"	vpermpd		$0xaa ,  %%ymm0 , %%ymm2		\n\t"
 	"	vfnmadd231pd	%%ymm8 , %%ymm3 , %%ymm11		\n\t"
@@ -313,15 +313,15 @@ static void dtrsm_RN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	vpermpd		$0xff ,  %%ymm1 , %%ymm7		\n\t"
 	"	vpermpd		$0x00 ,  %%ymm1 , %%ymm4		\n\t"
 
-	"	addq	$64, %9						\n\t"	// b=b+8
-	"	addq	$32, %8						\n\t"	// a=a+8
+	"	addq	$64, %3						\n\t"	// b=b+8
+	"	addq	$32, %2						\n\t"	// a=a+8
 
 
 
 	"	vmulpd		%%ymm9 , %%ymm0, %%ymm9			\n\t"	// a *bb
-	"	vmovups           (%9),  %%ymm0				\n\t"
-	"	vmovups         32(%9),  %%ymm1				\n\t"
-	"	vmovups		%%ymm9 , (%8)				\n\t"	// write a
+	"	vmovups           (%3),  %%ymm0				\n\t"
+	"	vmovups         32(%3),  %%ymm1				\n\t"
+	"	vmovups		%%ymm9 , (%2)				\n\t"	// write a
 	"	vmovups		%%ymm9 , (%4,%7,1)			\n\t"	// write c
 
 	"	vfnmadd231pd	%%ymm9 , %%ymm2 , %%ymm10		\n\t"
@@ -337,13 +337,13 @@ static void dtrsm_RN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	vpermpd		$0xff ,  %%ymm1 , %%ymm7		\n\t"
 	"	vpermpd		$0x00 ,  %%ymm1 , %%ymm4		\n\t"
 
-	"	addq	$64, %9						\n\t"	// b=b+8
-	"	addq	$32, %8						\n\t"	// a=a+8
+	"	addq	$64, %3						\n\t"	// b=b+8
+	"	addq	$32, %2						\n\t"	// a=a+8
 
 	"	vmulpd		%%ymm10, %%ymm0, %%ymm10		\n\t"	// a *bb
-	"	vmovups           (%9),  %%ymm0				\n\t"
-	"	vmovups         32(%9),  %%ymm1				\n\t"
-	"	vmovups		%%ymm10, (%8)				\n\t"	// write a
+	"	vmovups           (%3),  %%ymm0				\n\t"
+	"	vmovups         32(%3),  %%ymm1				\n\t"
+	"	vmovups		%%ymm10, (%2)				\n\t"	// write a
 	"	vmovups		%%ymm10, (%4,%7,2)			\n\t"	// write c
 
 	"	vfnmadd231pd	%%ymm10, %%ymm3 , %%ymm11		\n\t"
@@ -358,14 +358,14 @@ static void dtrsm_RN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	vpermpd		$0x00 ,  %%ymm1 , %%ymm4		\n\t"
 
 
-	"	addq	$64, %9						\n\t"	// b=b+8
-	"	addq	$32, %8						\n\t"	// a=a+8
+	"	addq	$64, %3						\n\t"	// b=b+8
+	"	addq	$32, %2						\n\t"	// a=a+8
 
 
 
 	"	vmulpd		%%ymm11, %%ymm0, %%ymm11		\n\t"	// a *bb
-	"	vmovups         32(%9),  %%ymm1				\n\t"
-	"	vmovups		%%ymm11, (%8)				\n\t"	// write a
+	"	vmovups         32(%3),  %%ymm1				\n\t"
+	"	vmovups		%%ymm11, (%2)				\n\t"	// write a
 	"	vmovups		%%ymm11, (%5)     			\n\t"	// write c
 
 	"	vfnmadd231pd	%%ymm11, %%ymm4 , %%ymm12		\n\t"
@@ -378,13 +378,13 @@ static void dtrsm_RN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	vpermpd		$0x00 ,  %%ymm1 , %%ymm0		\n\t"
 
 
-	"	addq	$64, %9						\n\t"	// b=b+8
-	"	addq	$32, %8						\n\t"	// a=a+8
+	"	addq	$64, %3						\n\t"	// b=b+8
+	"	addq	$32, %2						\n\t"	// a=a+8
 
 
 	"	vmulpd		%%ymm12, %%ymm0, %%ymm12		\n\t"	// a *bb
-	"	vmovups         32(%9),  %%ymm1				\n\t"
-	"	vmovups		%%ymm12, (%8)				\n\t"	// write a
+	"	vmovups         32(%3),  %%ymm1				\n\t"
+	"	vmovups		%%ymm12, (%2)				\n\t"	// write a
 	"	vmovups		%%ymm12, (%5,%7,1)			\n\t"	// write c
 
 	"	vfnmadd231pd	%%ymm12, %%ymm5 , %%ymm13		\n\t"
@@ -394,12 +394,12 @@ static void dtrsm_RN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	vpermpd		$0xff ,  %%ymm1 , %%ymm7		\n\t"
 	"	vpermpd		$0x55 ,  %%ymm1 , %%ymm0		\n\t"
 
-	"	addq	$64, %9						\n\t"	// b=b+8
-	"	addq	$32, %8						\n\t"	// a=a+8
+	"	addq	$64, %3						\n\t"	// b=b+8
+	"	addq	$32, %2						\n\t"	// a=a+8
 
 	"	vmulpd		%%ymm13, %%ymm0, %%ymm13		\n\t"	// a *bb
-	"	vmovups         32(%9),  %%ymm1				\n\t"
-	"	vmovups		%%ymm13, (%8)				\n\t"	// write a
+	"	vmovups         32(%3),  %%ymm1				\n\t"
+	"	vmovups		%%ymm13, (%2)				\n\t"	// write a
 	"	vmovups		%%ymm13, (%5,%7,2)			\n\t"	// write c
 
 	"	vfnmadd231pd	%%ymm13, %%ymm6 , %%ymm14		\n\t"
@@ -408,39 +408,39 @@ static void dtrsm_RN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	vpermpd		$0xaa ,  %%ymm1 , %%ymm0		\n\t"
 
 
-	"	addq	$64, %9						\n\t"	// b=b+8
-	"	addq	$32, %8						\n\t"	// a=a+8
+	"	addq	$64, %3						\n\t"	// b=b+8
+	"	addq	$32, %2						\n\t"	// a=a+8
 
 
 	"	vmulpd		%%ymm14, %%ymm0, %%ymm14		\n\t"	// a *bb
-	"	vmovups         32(%9),  %%ymm1				\n\t"
-	"	vmovups		%%ymm14, (%8)				\n\t"	// write a
+	"	vmovups         32(%3),  %%ymm1				\n\t"
+	"	vmovups		%%ymm14, (%2)				\n\t"	// write a
 	"	vmovups		%%ymm14, (%6)     			\n\t"	// write c
 
 	"	vfnmadd231pd	%%ymm14, %%ymm7 , %%ymm15		\n\t"
 
 	"	vpermpd		$0xff ,  %%ymm1 , %%ymm0		\n\t"
 
-	"	addq	$32, %8						\n\t"	// a=a+8
+	"	addq	$32, %2						\n\t"	// a=a+8
 
 	"	vmulpd		%%ymm15, %%ymm0, %%ymm15		\n\t"	// a *bb
-	"	vmovups		%%ymm15, (%8)				\n\t"	// write a
+	"	vmovups		%%ymm15, (%2)				\n\t"	// write a
 	"	vmovups		%%ymm15, (%6,%7,1)			\n\t"	// write c
 
 	"	vzeroupper						\n\t"
 
         :
+          "+r" (n1),     // 0    
+          "+a" (i),      // 1    
+          "+r" (as),     // 2
+          "+r" (bs)      // 3
         :
-          "r" (n1),     // 0    
-          "a" (i),      // 1    
-          "r" (a),      // 2
-          "r" (b),      // 3
           "r" (c),      // 4
           "r" (c3),     // 5
           "r" (c6),     // 6
           "r" (ldc),    // 7
-          "r" (as),     // 8
-          "r" (bs)      // 9
+          "r" (a),     // 8
+          "r" (b)      // 9
         : "cc",
           "%xmm0", "%xmm1", "%xmm2", "%xmm3",
           "%xmm4", "%xmm5", "%xmm6", "%xmm7",
diff --git a/kernel/x86_64/dtrsm_kernel_RT_bulldozer.c b/kernel/x86_64/dtrsm_kernel_RT_bulldozer.c
index 54df5b3594..35ed4cc013 100644
--- a/kernel/x86_64/dtrsm_kernel_RT_bulldozer.c
+++ b/kernel/x86_64/dtrsm_kernel_RT_bulldozer.c
@@ -125,14 +125,14 @@ static void dtrsm_RT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	.align 16							\n\t"
 	"1:									\n\t"
 
-	"	prefetcht0	384(%2,%1,8)					\n\t"
-	"	prefetcht0	384(%3,%1,8)					\n\t"
-	"	vmovddup	(%3,%1,2), %%xmm0				\n\t"	// read b
-	"	vmovups         (%2,%1,8), %%xmm4				\n\t"
-	"	vmovddup       8(%3,%1,2), %%xmm1				\n\t"	
-	"	vmovups       16(%2,%1,8), %%xmm5				\n\t"
-	"	vmovups       32(%2,%1,8), %%xmm6				\n\t"
-	"	vmovups       48(%2,%1,8), %%xmm7				\n\t"
+	"	prefetcht0	384(%6,%1,8)					\n\t"
+	"	prefetcht0	384(%7,%1,8)					\n\t"
+	"	vmovddup	(%7,%1,2), %%xmm0				\n\t"	// read b
+	"	vmovups         (%6,%1,8), %%xmm4				\n\t"
+	"	vmovddup       8(%7,%1,2), %%xmm1				\n\t"	
+	"	vmovups       16(%6,%1,8), %%xmm5				\n\t"
+	"	vmovups       32(%6,%1,8), %%xmm6				\n\t"
+	"	vmovups       48(%6,%1,8), %%xmm7				\n\t"
 
 	"	vfmaddpd	%%xmm8 , %%xmm0 , %%xmm4 , %%xmm8		\n\t"
 	"	vfmaddpd	%%xmm12, %%xmm1 , %%xmm4 , %%xmm12		\n\t"
@@ -147,13 +147,13 @@ static void dtrsm_RT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 
 	"	jz		2f						\n\t"
 
-	"	prefetcht0	384(%2,%1,8)					\n\t"
-	"	vmovddup	(%3,%1,2), %%xmm0				\n\t"	// read b
-	"	vmovups         (%2,%1,8), %%xmm4				\n\t"
-	"	vmovddup       8(%3,%1,2), %%xmm1				\n\t"	
-	"	vmovups       16(%2,%1,8), %%xmm5				\n\t"
-	"	vmovups       32(%2,%1,8), %%xmm6				\n\t"
-	"	vmovups       48(%2,%1,8), %%xmm7				\n\t"
+	"	prefetcht0	384(%6,%1,8)					\n\t"
+	"	vmovddup	(%7,%1,2), %%xmm0				\n\t"	// read b
+	"	vmovups         (%6,%1,8), %%xmm4				\n\t"
+	"	vmovddup       8(%7,%1,2), %%xmm1				\n\t"	
+	"	vmovups       16(%6,%1,8), %%xmm5				\n\t"
+	"	vmovups       32(%6,%1,8), %%xmm6				\n\t"
+	"	vmovups       48(%6,%1,8), %%xmm7				\n\t"
 
 	"	vfmaddpd	%%xmm8 , %%xmm0 , %%xmm4 , %%xmm8		\n\t"
 	"	vfmaddpd	%%xmm12, %%xmm1 , %%xmm4 , %%xmm12		\n\t"
@@ -168,13 +168,13 @@ static void dtrsm_RT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 
 	"	jz		2f						\n\t"
 
-	"	prefetcht0	384(%2,%1,8)					\n\t"
-	"	vmovddup	(%3,%1,2), %%xmm0				\n\t"	// read b
-	"	vmovups         (%2,%1,8), %%xmm4				\n\t"
-	"	vmovddup       8(%3,%1,2), %%xmm1				\n\t"	
-	"	vmovups       16(%2,%1,8), %%xmm5				\n\t"
-	"	vmovups       32(%2,%1,8), %%xmm6				\n\t"
-	"	vmovups       48(%2,%1,8), %%xmm7				\n\t"
+	"	prefetcht0	384(%6,%1,8)					\n\t"
+	"	vmovddup	(%7,%1,2), %%xmm0				\n\t"	// read b
+	"	vmovups         (%6,%1,8), %%xmm4				\n\t"
+	"	vmovddup       8(%7,%1,2), %%xmm1				\n\t"	
+	"	vmovups       16(%6,%1,8), %%xmm5				\n\t"
+	"	vmovups       32(%6,%1,8), %%xmm6				\n\t"
+	"	vmovups       48(%6,%1,8), %%xmm7				\n\t"
 
 	"	vfmaddpd	%%xmm8 , %%xmm0 , %%xmm4 , %%xmm8		\n\t"
 	"	vfmaddpd	%%xmm12, %%xmm1 , %%xmm4 , %%xmm12		\n\t"
@@ -189,13 +189,13 @@ static void dtrsm_RT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 
 	"	jz		2f						\n\t"
 
-	"	prefetcht0	384(%2,%1,8)					\n\t"
-	"	vmovddup	(%3,%1,2), %%xmm0				\n\t"	// read b
-	"	vmovddup       8(%3,%1,2), %%xmm1				\n\t"	
-	"	vmovups         (%2,%1,8), %%xmm4				\n\t"
-	"	vmovups       16(%2,%1,8), %%xmm5				\n\t"
-	"	vmovups       32(%2,%1,8), %%xmm6				\n\t"
-	"	vmovups       48(%2,%1,8), %%xmm7				\n\t"
+	"	prefetcht0	384(%6,%1,8)					\n\t"
+	"	vmovddup	(%7,%1,2), %%xmm0				\n\t"	// read b
+	"	vmovddup       8(%7,%1,2), %%xmm1				\n\t"	
+	"	vmovups         (%6,%1,8), %%xmm4				\n\t"
+	"	vmovups       16(%6,%1,8), %%xmm5				\n\t"
+	"	vmovups       32(%6,%1,8), %%xmm6				\n\t"
+	"	vmovups       48(%6,%1,8), %%xmm7				\n\t"
 
 	"	vfmaddpd	%%xmm8 , %%xmm0 , %%xmm4 , %%xmm8		\n\t"
 	"	vfmaddpd	%%xmm12, %%xmm1 , %%xmm4 , %%xmm12		\n\t"
@@ -235,18 +235,18 @@ static void dtrsm_RT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 
 	"3:									\n\t"	// i = 1
 
-	"	vmovddup	(%7), %%xmm1					\n\t"	// read b
-	"	vmovddup       8(%7), %%xmm0					\n\t"	// read bb
+	"	vmovddup	(%3), %%xmm1					\n\t"	// read b
+	"	vmovddup       8(%3), %%xmm0					\n\t"	// read bb
 
 	"	vmulpd		%%xmm12 ,  %%xmm0 ,  %%xmm12			\n\t"	// aa * bb 
 	"	vmulpd		%%xmm13 ,  %%xmm0 ,  %%xmm13			\n\t"	// aa * bb 
 	"	vmulpd		%%xmm14 ,  %%xmm0 ,  %%xmm14			\n\t"	// aa * bb 
 	"	vmulpd		%%xmm15 ,  %%xmm0 ,  %%xmm15			\n\t"	// aa * bb 
 
-	"	vmovups		%%xmm12 ,    (%6)				\n\t"	// write a
-	"	vmovups		%%xmm13 ,  16(%6)				\n\t"	// write a
-	"	vmovups		%%xmm14 ,  32(%6)				\n\t"	// write a
-	"	vmovups		%%xmm15 ,  48(%6)				\n\t"	// write a
+	"	vmovups		%%xmm12 ,    (%2)				\n\t"	// write a
+	"	vmovups		%%xmm13 ,  16(%2)				\n\t"	// write a
+	"	vmovups		%%xmm14 ,  32(%2)				\n\t"	// write a
+	"	vmovups		%%xmm15 ,  48(%2)				\n\t"	// write a
 
 	"	vmovups		%%xmm12 ,    (%5)				\n\t"	// write c1
 	"	vmovups		%%xmm13 ,  16(%5)				\n\t"	
@@ -259,20 +259,20 @@ static void dtrsm_RT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	vfnmaddpd	%%xmm11 ,  %%xmm15 , %%xmm1 , %%xmm11		\n\t"   
 
 	"									\n\t" // i = 0
-	"	subq		$16 , %7					\n\t" // b = b - 2
-	"	subq		$64 , %6					\n\t" // a = a - 8
+	"	subq		$16 , %3					\n\t" // b = b - 2
+	"	subq		$64 , %2					\n\t" // a = a - 8
 
-	"	vmovddup        (%7), %%xmm0					\n\t"	// read bb
+	"	vmovddup        (%3), %%xmm0					\n\t"	// read bb
 
 	"	vmulpd		%%xmm8  ,  %%xmm0 ,  %%xmm8 			\n\t"	// aa * bb 
 	"	vmulpd		%%xmm9  ,  %%xmm0 ,  %%xmm9 			\n\t"
 	"	vmulpd		%%xmm10 ,  %%xmm0 ,  %%xmm10			\n\t"
 	"	vmulpd		%%xmm11 ,  %%xmm0 ,  %%xmm11			\n\t"
 
-	"	vmovups		%%xmm8  ,    (%6)				\n\t"	// write a
-	"	vmovups		%%xmm9  ,  16(%6)				\n\t"
-	"	vmovups		%%xmm10 ,  32(%6)				\n\t"
-	"	vmovups		%%xmm11 ,  48(%6)				\n\t"
+	"	vmovups		%%xmm8  ,    (%2)				\n\t"	// write a
+	"	vmovups		%%xmm9  ,  16(%2)				\n\t"
+	"	vmovups		%%xmm10 ,  32(%2)				\n\t"
+	"	vmovups		%%xmm11 ,  48(%2)				\n\t"
 
 	"	vmovups		%%xmm8  ,    (%4)				\n\t"	// write c0
 	"	vmovups		%%xmm9  ,  16(%4)				\n\t"
@@ -282,15 +282,15 @@ static void dtrsm_RT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	vzeroupper							\n\t"
 
         :
+          "+r" (n1),     // 0    
+          "+a" (i),      // 1    
+          "+r" (as),     // 2
+          "+r" (bs)      // 3
         :
-          "r" (n1),     // 0    
-          "a" (i),      // 1    
-          "r" (a),      // 2
-          "r" (b),      // 3
           "r" (c),      // 4
           "r" (c1),     // 5
-          "r" (as),     // 6
-          "r" (bs)      // 7
+          "r" (a),      // 6
+          "r" (b)       // 7
         : "cc",
           "%xmm0", "%xmm1", "%xmm2", "%xmm3",
           "%xmm4", "%xmm5", "%xmm6", "%xmm7",
diff --git a/kernel/x86_64/gemm_kernel_4x8_nano.S b/kernel/x86_64/gemm_kernel_4x8_nano.S
index 074562804c..e29520fa1b 100644
--- a/kernel/x86_64/gemm_kernel_4x8_nano.S
+++ b/kernel/x86_64/gemm_kernel_4x8_nano.S
@@ -135,7 +135,7 @@
 #endif
 
 	movq	%rsp, %rbx	# save old stack
-	subq	$128 + LOCAL_BUFFER_SIZE, %rsp
+	subq	$256 + LOCAL_BUFFER_SIZE, %rsp
 	andq	$-4096, %rsp	# align stack
 
 	STACK_TOUCHING
diff --git a/kernel/x86_64/gemm_kernel_8x4_sse.S b/kernel/x86_64/gemm_kernel_8x4_sse.S
index c4ef1f809a..1602c13c50 100644
--- a/kernel/x86_64/gemm_kernel_8x4_sse.S
+++ b/kernel/x86_64/gemm_kernel_8x4_sse.S
@@ -383,7 +383,7 @@
 	EMMS
 
 	movq	%rsp, %rbx	# save old stack
-	subq	$128 + LOCAL_BUFFER_SIZE, %rsp
+	subq	$256 + LOCAL_BUFFER_SIZE, %rsp
 	andq	$-4096, %rsp	# align stack
 
 	STACK_TOUCHING
diff --git a/kernel/x86_64/saxpy_microk_haswell-2.c b/kernel/x86_64/saxpy_microk_haswell-2.c
index 3a743d64c7..7099ba4c6f 100644
--- a/kernel/x86_64/saxpy_microk_haswell-2.c
+++ b/kernel/x86_64/saxpy_microk_haswell-2.c
@@ -59,10 +59,10 @@ static void saxpy_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"jnz		1b		             \n\t"
 	"vzeroupper				     \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha)   // 4
diff --git a/kernel/x86_64/saxpy_microk_nehalem-2.c b/kernel/x86_64/saxpy_microk_nehalem-2.c
index 68f68ea3a9..88bbb695d4 100644
--- a/kernel/x86_64/saxpy_microk_nehalem-2.c
+++ b/kernel/x86_64/saxpy_microk_nehalem-2.c
@@ -73,9 +73,9 @@ static void saxpy_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"jnz		1b		             \n\t"
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha)   // 4
diff --git a/kernel/x86_64/saxpy_microk_piledriver-2.c b/kernel/x86_64/saxpy_microk_piledriver-2.c
index 204cf8bacf..5feea7f241 100644
--- a/kernel/x86_64/saxpy_microk_piledriver-2.c
+++ b/kernel/x86_64/saxpy_microk_piledriver-2.c
@@ -78,10 +78,10 @@ static void saxpy_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"jnz		1b		             \n\t"
 	"vzeroupper				     \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha)   // 4
@@ -139,10 +139,10 @@ static void saxpy_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"jnz		1b		             \n\t"
 	"vzeroupper				     \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha)   // 4
diff --git a/kernel/x86_64/saxpy_microk_sandy-2.c b/kernel/x86_64/saxpy_microk_sandy-2.c
index 0a6bef0466..0d448d5f88 100644
--- a/kernel/x86_64/saxpy_microk_sandy-2.c
+++ b/kernel/x86_64/saxpy_microk_sandy-2.c
@@ -99,10 +99,10 @@ static void saxpy_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 
 	"vzeroupper					     \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha)   // 4
diff --git a/kernel/x86_64/sdot_microk_bulldozer-2.c b/kernel/x86_64/sdot_microk_bulldozer-2.c
index 36e61b0776..8958a33dcc 100644
--- a/kernel/x86_64/sdot_microk_bulldozer-2.c
+++ b/kernel/x86_64/sdot_microk_bulldozer-2.c
@@ -66,10 +66,10 @@ static void sdot_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 
 	"vmovss		%%xmm4,    (%4)		\n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/sdot_microk_haswell-2.c b/kernel/x86_64/sdot_microk_haswell-2.c
index df367b61f1..91dc928d39 100644
--- a/kernel/x86_64/sdot_microk_haswell-2.c
+++ b/kernel/x86_64/sdot_microk_haswell-2.c
@@ -79,10 +79,10 @@ static void sdot_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vmovss		%%xmm4,    (%4)		\n\t"
 	"vzeroupper				\n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/sdot_microk_nehalem-2.c b/kernel/x86_64/sdot_microk_nehalem-2.c
index 1a27177f58..5a715d0083 100644
--- a/kernel/x86_64/sdot_microk_nehalem-2.c
+++ b/kernel/x86_64/sdot_microk_nehalem-2.c
@@ -75,10 +75,10 @@ static void sdot_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 
 	"movss	       %%xmm4,    (%4)	\n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/sdot_microk_sandy-2.c b/kernel/x86_64/sdot_microk_sandy-2.c
index ca13536f26..ae25d5a50b 100644
--- a/kernel/x86_64/sdot_microk_sandy-2.c
+++ b/kernel/x86_64/sdot_microk_sandy-2.c
@@ -82,10 +82,10 @@ static void sdot_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vmovss		%%xmm4,    (%4)		\n\t"
 	"vzeroupper				\n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/sdot_microk_steamroller-2.c b/kernel/x86_64/sdot_microk_steamroller-2.c
index 6b8b2566ba..bf6a5f2871 100644
--- a/kernel/x86_64/sdot_microk_steamroller-2.c
+++ b/kernel/x86_64/sdot_microk_steamroller-2.c
@@ -80,10 +80,10 @@ static void sdot_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 
 	"vmovss		%%xmm4,    (%4)		\n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
@@ -143,10 +143,10 @@ static void sdot_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 
 	"vmovss		%%xmm4,    (%4)		\n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/sgemv_n_4.c b/kernel/x86_64/sgemv_n_4.c
index 65305ac59f..63697970fe 100644
--- a/kernel/x86_64/sgemv_n_4.c
+++ b/kernel/x86_64/sgemv_n_4.c
@@ -149,9 +149,9 @@ static void sgemv_kernel_4x2( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT
 	"jnz		1b		       \n\t"
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+	:
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (ap[0]),  // 4
@@ -223,9 +223,9 @@ static void sgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT *a
 
         "3:      			 \n\t" 
         :
+          "+r" (i),     // 0    
+          "+r" (n1)     // 1
         :
-          "r" (i),      // 0    
-          "r" (n1),     // 1
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (ap),     // 4
@@ -277,9 +277,9 @@ static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest)
         "jnz            1b              \n\t"
 
         :
+        "+r" (i),         // 0
+        "+r" (n)          // 1
         :
-        "r" (i),          // 0
-        "r" (n),          // 1
         "r" (src),        // 2
         "r" (dest)        // 3
         : "cc",
diff --git a/kernel/x86_64/sgemv_n_microk_bulldozer-4.c b/kernel/x86_64/sgemv_n_microk_bulldozer-4.c
index 31001c7f3d..bbf06c84b5 100644
--- a/kernel/x86_64/sgemv_n_microk_bulldozer-4.c
+++ b/kernel/x86_64/sgemv_n_microk_bulldozer-4.c
@@ -37,14 +37,14 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 
 	__asm__  __volatile__
 	(
-	"vbroadcastss    (%2), %%xmm12	 \n\t"	// x0 
-	"vbroadcastss   4(%2), %%xmm13	 \n\t"	// x1 
-	"vbroadcastss   8(%2), %%xmm14	 \n\t"	// x2 
-	"vbroadcastss  12(%2), %%xmm15	 \n\t"	// x3 
-	"vbroadcastss  16(%2), %%xmm0 	 \n\t"	// x4 
-	"vbroadcastss  20(%2), %%xmm1 	 \n\t"	// x5 
-	"vbroadcastss  24(%2), %%xmm2 	 \n\t"	// x6 
-	"vbroadcastss  28(%2), %%xmm3 	 \n\t"	// x7 
+	"vbroadcastss    (%3), %%xmm12	 \n\t"	// x0 
+	"vbroadcastss   4(%3), %%xmm13	 \n\t"	// x1 
+	"vbroadcastss   8(%3), %%xmm14	 \n\t"	// x2 
+	"vbroadcastss  12(%3), %%xmm15	 \n\t"	// x3 
+	"vbroadcastss  16(%3), %%xmm0 	 \n\t"	// x4 
+	"vbroadcastss  20(%3), %%xmm1 	 \n\t"	// x5 
+	"vbroadcastss  24(%3), %%xmm2 	 \n\t"	// x6 
+	"vbroadcastss  28(%3), %%xmm3 	 \n\t"	// x7 
 
 	"vbroadcastss    (%9), %%xmm8 	 \n\t"	// alpha 
 
@@ -54,22 +54,22 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 	"vxorps		%%xmm4, %%xmm4 , %%xmm4  \n\t"
 	"vxorps		%%xmm5, %%xmm5 , %%xmm5  \n\t"
 
-	"vfmaddps %%xmm4,   (%4,%0,4), %%xmm12, %%xmm4 \n\t" 
-	"vfmaddps %%xmm5,   (%5,%0,4), %%xmm13, %%xmm5 \n\t" 
-	"vfmaddps %%xmm4,   (%6,%0,4), %%xmm14, %%xmm4 \n\t" 
-	"vfmaddps %%xmm5,   (%7,%0,4), %%xmm15, %%xmm5 \n\t" 
+	"vfmaddps %%xmm4,   (%5,%0,4), %%xmm12, %%xmm4 \n\t" 
+	"vfmaddps %%xmm5,   (%6,%0,4), %%xmm13, %%xmm5 \n\t" 
+	"vfmaddps %%xmm4,   (%7,%0,4), %%xmm14, %%xmm4 \n\t" 
+	"vfmaddps %%xmm5,   (%8,%0,4), %%xmm15, %%xmm5 \n\t" 
         "addq		$4 , %0	  	 	       \n\t"
 
-	"vfmaddps %%xmm4,   (%4,%8,4), %%xmm0 , %%xmm4 \n\t" 
-	"vfmaddps %%xmm5,   (%5,%8,4), %%xmm1 , %%xmm5 \n\t" 
-	"vfmaddps %%xmm4,   (%6,%8,4), %%xmm2 , %%xmm4 \n\t" 
-	"vfmaddps %%xmm5,   (%7,%8,4), %%xmm3 , %%xmm5 \n\t" 
-        "addq		$4 , %8	  	 	       \n\t"
+	"vfmaddps %%xmm4,   (%5,%2,4), %%xmm0 , %%xmm4 \n\t" 
+	"vfmaddps %%xmm5,   (%6,%2,4), %%xmm1 , %%xmm5 \n\t" 
+	"vfmaddps %%xmm4,   (%7,%2,4), %%xmm2 , %%xmm4 \n\t" 
+	"vfmaddps %%xmm5,   (%8,%2,4), %%xmm3 , %%xmm5 \n\t" 
+        "addq		$4 , %2	  	 	       \n\t"
 	
 	"vaddps		%%xmm5 , %%xmm4, %%xmm4        \n\t"
-	"vfmaddps -16(%3,%0,4) , %%xmm4, %%xmm8,%%xmm6 \n\t"
+	"vfmaddps -16(%4,%0,4) , %%xmm4, %%xmm8,%%xmm6 \n\t"
 	"subq	        $4 , %1			       \n\t"		
-	"vmovups  %%xmm6, -16(%3,%0,4)		       \n\t"	// 4 * y
+	"vmovups  %%xmm6, -16(%4,%0,4)		       \n\t"	// 4 * y
 
 	"2:                                  \n\t"
 
@@ -79,31 +79,31 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 	"vxorps		%%xmm4, %%xmm4 , %%xmm4  \n\t"
 	"vxorps		%%xmm5, %%xmm5 , %%xmm5  \n\t"
 
-	"vfmaddps %%xmm4,   (%4,%0,4), %%xmm12, %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 16(%4,%0,4), %%xmm12, %%xmm5 \n\t" 
-	"vfmaddps %%xmm4,   (%5,%0,4), %%xmm13, %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 16(%5,%0,4), %%xmm13, %%xmm5 \n\t" 
-	"vfmaddps %%xmm4,   (%6,%0,4), %%xmm14, %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 16(%6,%0,4), %%xmm14, %%xmm5 \n\t" 
-	"vfmaddps %%xmm4,   (%7,%0,4), %%xmm15, %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 16(%7,%0,4), %%xmm15, %%xmm5 \n\t" 
-
-	"vfmaddps %%xmm4,   (%4,%8,4), %%xmm0 , %%xmm4 \n\t" 
-        "vfmaddps %%xmm5, 16(%4,%8,4), %%xmm0 , %%xmm5 \n\t" 
-	"vfmaddps %%xmm4,   (%5,%8,4), %%xmm1 , %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 16(%5,%8,4), %%xmm1 , %%xmm5 \n\t" 
-	"vfmaddps %%xmm4,   (%6,%8,4), %%xmm2 , %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 16(%6,%8,4), %%xmm2 , %%xmm5 \n\t" 
-	"vfmaddps %%xmm4,   (%7,%8,4), %%xmm3 , %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 16(%7,%8,4), %%xmm3 , %%xmm5 \n\t" 
+	"vfmaddps %%xmm4,   (%5,%0,4), %%xmm12, %%xmm4 \n\t" 
+	"vfmaddps %%xmm5, 16(%5,%0,4), %%xmm12, %%xmm5 \n\t" 
+	"vfmaddps %%xmm4,   (%6,%0,4), %%xmm13, %%xmm4 \n\t" 
+	"vfmaddps %%xmm5, 16(%6,%0,4), %%xmm13, %%xmm5 \n\t" 
+	"vfmaddps %%xmm4,   (%7,%0,4), %%xmm14, %%xmm4 \n\t" 
+	"vfmaddps %%xmm5, 16(%7,%0,4), %%xmm14, %%xmm5 \n\t" 
+	"vfmaddps %%xmm4,   (%8,%0,4), %%xmm15, %%xmm4 \n\t" 
+	"vfmaddps %%xmm5, 16(%8,%0,4), %%xmm15, %%xmm5 \n\t" 
+
+	"vfmaddps %%xmm4,   (%5,%2,4), %%xmm0 , %%xmm4 \n\t" 
+        "vfmaddps %%xmm5, 16(%5,%2,4), %%xmm0 , %%xmm5 \n\t" 
+	"vfmaddps %%xmm4,   (%6,%2,4), %%xmm1 , %%xmm4 \n\t" 
+	"vfmaddps %%xmm5, 16(%6,%2,4), %%xmm1 , %%xmm5 \n\t" 
+	"vfmaddps %%xmm4,   (%7,%2,4), %%xmm2 , %%xmm4 \n\t" 
+	"vfmaddps %%xmm5, 16(%7,%2,4), %%xmm2 , %%xmm5 \n\t" 
+	"vfmaddps %%xmm4,   (%8,%2,4), %%xmm3 , %%xmm4 \n\t" 
+	"vfmaddps %%xmm5, 16(%8,%2,4), %%xmm3 , %%xmm5 \n\t" 
 	
-	"vfmaddps    (%3,%0,4) , %%xmm4,%%xmm8,%%xmm4 \n\t"
-	"vfmaddps  16(%3,%0,4) , %%xmm5,%%xmm8,%%xmm5 \n\t"
-	"vmovups  %%xmm4,   (%3,%0,4)		      \n\t"	// 4 * y
-	"vmovups  %%xmm5, 16(%3,%0,4)		      \n\t"	// 4 * y
+	"vfmaddps    (%4,%0,4) , %%xmm4,%%xmm8,%%xmm4 \n\t"
+	"vfmaddps  16(%4,%0,4) , %%xmm5,%%xmm8,%%xmm5 \n\t"
+	"vmovups  %%xmm4,   (%4,%0,4)		      \n\t"	// 4 * y
+	"vmovups  %%xmm5, 16(%4,%0,4)		      \n\t"	// 4 * y
 
         "addq		$8 , %0	  	 	      \n\t"
-        "addq		$8 , %8	  	 	      \n\t"
+        "addq		$8 , %2	  	 	      \n\t"
 	"subq	        $8 , %1			      \n\t"		
 
 
@@ -120,62 +120,62 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 	"vxorps		%%xmm6, %%xmm6 , %%xmm6  \n\t"
 	"vxorps		%%xmm7, %%xmm7 , %%xmm7  \n\t"
 
-        "prefetcht0      192(%4,%0,4)                  \n\t"
-	"vfmaddps %%xmm4,   (%4,%0,4), %%xmm12, %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 16(%4,%0,4), %%xmm12, %%xmm5 \n\t" 
         "prefetcht0      192(%5,%0,4)                  \n\t"
-	"vfmaddps %%xmm4,   (%5,%0,4), %%xmm13, %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 16(%5,%0,4), %%xmm13, %%xmm5 \n\t" 
+	"vfmaddps %%xmm4,   (%5,%0,4), %%xmm12, %%xmm4 \n\t" 
+	"vfmaddps %%xmm5, 16(%5,%0,4), %%xmm12, %%xmm5 \n\t" 
         "prefetcht0      192(%6,%0,4)                  \n\t"
-	"vfmaddps %%xmm4,   (%6,%0,4), %%xmm14, %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 16(%6,%0,4), %%xmm14, %%xmm5 \n\t" 
+	"vfmaddps %%xmm4,   (%6,%0,4), %%xmm13, %%xmm4 \n\t" 
+	"vfmaddps %%xmm5, 16(%6,%0,4), %%xmm13, %%xmm5 \n\t" 
         "prefetcht0      192(%7,%0,4)                  \n\t"
-	"vfmaddps %%xmm4,   (%7,%0,4), %%xmm15, %%xmm4 \n\t" 
+	"vfmaddps %%xmm4,   (%7,%0,4), %%xmm14, %%xmm4 \n\t" 
+	"vfmaddps %%xmm5, 16(%7,%0,4), %%xmm14, %%xmm5 \n\t" 
+        "prefetcht0      192(%8,%0,4)                  \n\t"
+	"vfmaddps %%xmm4,   (%8,%0,4), %%xmm15, %%xmm4 \n\t" 
 	".align 2				 \n\t"
-	"vfmaddps %%xmm5, 16(%7,%0,4), %%xmm15, %%xmm5 \n\t" 
-
-	"vfmaddps %%xmm6, 32(%4,%0,4), %%xmm12, %%xmm6 \n\t" 
-	"vfmaddps %%xmm7, 48(%4,%0,4), %%xmm12, %%xmm7 \n\t" 
-	"vfmaddps %%xmm6, 32(%5,%0,4), %%xmm13, %%xmm6 \n\t" 
-	"vfmaddps %%xmm7, 48(%5,%0,4), %%xmm13, %%xmm7 \n\t" 
-	"vfmaddps %%xmm6, 32(%6,%0,4), %%xmm14, %%xmm6 \n\t" 
-	"vfmaddps %%xmm7, 48(%6,%0,4), %%xmm14, %%xmm7 \n\t" 
-	"vfmaddps %%xmm6, 32(%7,%0,4), %%xmm15, %%xmm6 \n\t" 
-	"vfmaddps %%xmm7, 48(%7,%0,4), %%xmm15, %%xmm7 \n\t" 
-
-        "prefetcht0      192(%4,%8,4)                  \n\t"
-	"vfmaddps %%xmm4,   (%4,%8,4), %%xmm0 , %%xmm4 \n\t" 
-        "vfmaddps %%xmm5, 16(%4,%8,4), %%xmm0 , %%xmm5 \n\t" 
-        "prefetcht0      192(%5,%8,4)                  \n\t"
-	"vfmaddps %%xmm4,   (%5,%8,4), %%xmm1 , %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 16(%5,%8,4), %%xmm1 , %%xmm5 \n\t" 
-        "prefetcht0      192(%6,%8,4)                  \n\t"
-	"vfmaddps %%xmm4,   (%6,%8,4), %%xmm2 , %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 16(%6,%8,4), %%xmm2 , %%xmm5 \n\t" 
-        "prefetcht0      192(%7,%8,4)                  \n\t"
-	"vfmaddps %%xmm4,   (%7,%8,4), %%xmm3 , %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 16(%7,%8,4), %%xmm3 , %%xmm5 \n\t" 
+	"vfmaddps %%xmm5, 16(%8,%0,4), %%xmm15, %%xmm5 \n\t" 
+
+	"vfmaddps %%xmm6, 32(%5,%0,4), %%xmm12, %%xmm6 \n\t" 
+	"vfmaddps %%xmm7, 48(%5,%0,4), %%xmm12, %%xmm7 \n\t" 
+	"vfmaddps %%xmm6, 32(%6,%0,4), %%xmm13, %%xmm6 \n\t" 
+	"vfmaddps %%xmm7, 48(%6,%0,4), %%xmm13, %%xmm7 \n\t" 
+	"vfmaddps %%xmm6, 32(%7,%0,4), %%xmm14, %%xmm6 \n\t" 
+	"vfmaddps %%xmm7, 48(%7,%0,4), %%xmm14, %%xmm7 \n\t" 
+	"vfmaddps %%xmm6, 32(%8,%0,4), %%xmm15, %%xmm6 \n\t" 
+	"vfmaddps %%xmm7, 48(%8,%0,4), %%xmm15, %%xmm7 \n\t" 
+
+        "prefetcht0      192(%5,%2,4)                  \n\t"
+	"vfmaddps %%xmm4,   (%5,%2,4), %%xmm0 , %%xmm4 \n\t" 
+        "vfmaddps %%xmm5, 16(%5,%2,4), %%xmm0 , %%xmm5 \n\t" 
+        "prefetcht0      192(%6,%2,4)                  \n\t"
+	"vfmaddps %%xmm4,   (%6,%2,4), %%xmm1 , %%xmm4 \n\t" 
+	"vfmaddps %%xmm5, 16(%6,%2,4), %%xmm1 , %%xmm5 \n\t" 
+        "prefetcht0      192(%7,%2,4)                  \n\t"
+	"vfmaddps %%xmm4,   (%7,%2,4), %%xmm2 , %%xmm4 \n\t" 
+	"vfmaddps %%xmm5, 16(%7,%2,4), %%xmm2 , %%xmm5 \n\t" 
+        "prefetcht0      192(%8,%2,4)                  \n\t"
+	"vfmaddps %%xmm4,   (%8,%2,4), %%xmm3 , %%xmm4 \n\t" 
+	"vfmaddps %%xmm5, 16(%8,%2,4), %%xmm3 , %%xmm5 \n\t" 
 	
-	"vfmaddps %%xmm6, 32(%4,%8,4), %%xmm0 , %%xmm6 \n\t" 
-        "vfmaddps %%xmm7, 48(%4,%8,4), %%xmm0 , %%xmm7 \n\t" 
-	"vfmaddps %%xmm6, 32(%5,%8,4), %%xmm1 , %%xmm6 \n\t" 
-	"vfmaddps %%xmm7, 48(%5,%8,4), %%xmm1 , %%xmm7 \n\t" 
-	"vfmaddps %%xmm6, 32(%6,%8,4), %%xmm2 , %%xmm6 \n\t" 
-	"vfmaddps %%xmm7, 48(%6,%8,4), %%xmm2 , %%xmm7 \n\t" 
-	"vfmaddps %%xmm6, 32(%7,%8,4), %%xmm3 , %%xmm6 \n\t" 
-	"vfmaddps %%xmm7, 48(%7,%8,4), %%xmm3 , %%xmm7 \n\t" 
+	"vfmaddps %%xmm6, 32(%5,%2,4), %%xmm0 , %%xmm6 \n\t" 
+        "vfmaddps %%xmm7, 48(%5,%2,4), %%xmm0 , %%xmm7 \n\t" 
+	"vfmaddps %%xmm6, 32(%6,%2,4), %%xmm1 , %%xmm6 \n\t" 
+	"vfmaddps %%xmm7, 48(%6,%2,4), %%xmm1 , %%xmm7 \n\t" 
+	"vfmaddps %%xmm6, 32(%7,%2,4), %%xmm2 , %%xmm6 \n\t" 
+	"vfmaddps %%xmm7, 48(%7,%2,4), %%xmm2 , %%xmm7 \n\t" 
+	"vfmaddps %%xmm6, 32(%8,%2,4), %%xmm3 , %%xmm6 \n\t" 
+	"vfmaddps %%xmm7, 48(%8,%2,4), %%xmm3 , %%xmm7 \n\t" 
 	
-	"vfmaddps    (%3,%0,4) , %%xmm4,%%xmm8,%%xmm4 \n\t"
-	"vfmaddps  16(%3,%0,4) , %%xmm5,%%xmm8,%%xmm5 \n\t"
-	"vfmaddps  32(%3,%0,4) , %%xmm6,%%xmm8,%%xmm6 \n\t"
-	"vfmaddps  48(%3,%0,4) , %%xmm7,%%xmm8,%%xmm7 \n\t"
+	"vfmaddps    (%4,%0,4) , %%xmm4,%%xmm8,%%xmm4 \n\t"
+	"vfmaddps  16(%4,%0,4) , %%xmm5,%%xmm8,%%xmm5 \n\t"
+	"vfmaddps  32(%4,%0,4) , %%xmm6,%%xmm8,%%xmm6 \n\t"
+	"vfmaddps  48(%4,%0,4) , %%xmm7,%%xmm8,%%xmm7 \n\t"
 
         "addq		$16, %0	  	 	      \n\t"
-	"vmovups  %%xmm4,-64(%3,%0,4)		      \n\t"	// 4 * y
-	"vmovups  %%xmm5,-48(%3,%0,4)		      \n\t"	// 4 * y
-        "addq		$16, %8	  	 	      \n\t"
-	"vmovups  %%xmm6,-32(%3,%0,4)		      \n\t"	// 4 * y
-	"vmovups  %%xmm7,-16(%3,%0,4)		      \n\t"	// 4 * y
+	"vmovups  %%xmm4,-64(%4,%0,4)		      \n\t"	// 4 * y
+	"vmovups  %%xmm5,-48(%4,%0,4)		      \n\t"	// 4 * y
+        "addq		$16, %2	  	 	      \n\t"
+	"vmovups  %%xmm6,-32(%4,%0,4)		      \n\t"	// 4 * y
+	"vmovups  %%xmm7,-16(%4,%0,4)		      \n\t"	// 4 * y
 
 	"subq	        $16, %1			      \n\t"		
 	"jnz		1b		      \n\t"
@@ -184,15 +184,15 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 
 	:
           "+r" (i),	// 0	
-	  "+r" (n)  	// 1
+	  "+r" (n),  	// 1
+          "+r" (lda4)   // 2
         : 
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3]),  // 7
-          "r" (lda4),   // 8
+          "r" (x),      // 3
+          "r" (y),      // 4
+          "r" (ap[0]),  // 5
+          "r" (ap[1]),  // 6
+          "r" (ap[2]),  // 7
+          "r" (ap[3]),  // 8
           "r" (alpha)   // 9
 	: "cc", 
 	  "%xmm0", "%xmm1", 
diff --git a/kernel/x86_64/sgemv_n_microk_haswell-4.c b/kernel/x86_64/sgemv_n_microk_haswell-4.c
index 2c90f8aa99..93e1e26e8a 100644
--- a/kernel/x86_64/sgemv_n_microk_haswell-4.c
+++ b/kernel/x86_64/sgemv_n_microk_haswell-4.c
@@ -26,7 +26,6 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 *****************************************************************************/
 
 
-
 #define HAVE_KERNEL_4x8 1
 static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLONG lda4, FLOAT *alpha) __attribute__ ((noinline));
 
@@ -38,41 +37,41 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 	__asm__  __volatile__
 	(
 	"vzeroupper			 \n\t"
-	"vbroadcastss    (%2), %%ymm12	 \n\t"	// x0 
-	"vbroadcastss   4(%2), %%ymm13	 \n\t"	// x1 
-	"vbroadcastss   8(%2), %%ymm14	 \n\t"	// x2 
-	"vbroadcastss  12(%2), %%ymm15	 \n\t"	// x3 
-	"vbroadcastss  16(%2), %%ymm0 	 \n\t"	// x4 
-	"vbroadcastss  20(%2), %%ymm1 	 \n\t"	// x5 
-	"vbroadcastss  24(%2), %%ymm2 	 \n\t"	// x6 
-	"vbroadcastss  28(%2), %%ymm3 	 \n\t"	// x7 
+	"vbroadcastss    (%3), %%ymm12	 \n\t"	// x0 
+	"vbroadcastss   4(%3), %%ymm13	 \n\t"	// x1 
+	"vbroadcastss   8(%3), %%ymm14	 \n\t"	// x2 
+	"vbroadcastss  12(%3), %%ymm15	 \n\t"	// x3 
+	"vbroadcastss  16(%3), %%ymm0 	 \n\t"	// x4 
+	"vbroadcastss  20(%3), %%ymm1 	 \n\t"	// x5 
+	"vbroadcastss  24(%3), %%ymm2 	 \n\t"	// x6 
+	"vbroadcastss  28(%3), %%ymm3 	 \n\t"	// x7 
 
 	"vbroadcastss    (%9), %%ymm6 	 \n\t"	// alpha 
 
         "testq          $0x04, %1                      \n\t"
         "jz             2f                    \n\t"
 
-	"vmovups	(%3,%0,4), %%xmm7	       \n\t"	// 4 * y
+	"vmovups	(%4,%0,4), %%xmm7	       \n\t"	// 4 * y
 	"vxorps		%%xmm4 , %%xmm4, %%xmm4        \n\t"
 	"vxorps		%%xmm5 , %%xmm5, %%xmm5        \n\t"
 
-	"vfmadd231ps   (%4,%0,4), %%xmm12, %%xmm4      \n\t" 
-	"vfmadd231ps   (%5,%0,4), %%xmm13, %%xmm5      \n\t" 
-	"vfmadd231ps   (%6,%0,4), %%xmm14, %%xmm4      \n\t" 
-	"vfmadd231ps   (%7,%0,4), %%xmm15, %%xmm5      \n\t" 
+	"vfmadd231ps   (%5,%0,4), %%xmm12, %%xmm4      \n\t" 
+	"vfmadd231ps   (%6,%0,4), %%xmm13, %%xmm5      \n\t" 
+	"vfmadd231ps   (%7,%0,4), %%xmm14, %%xmm4      \n\t" 
+	"vfmadd231ps   (%8,%0,4), %%xmm15, %%xmm5      \n\t" 
 
-	"vfmadd231ps   (%4,%8,4), %%xmm0 , %%xmm4      \n\t" 
-	"vfmadd231ps   (%5,%8,4), %%xmm1 , %%xmm5      \n\t" 
-	"vfmadd231ps   (%6,%8,4), %%xmm2 , %%xmm4      \n\t" 
-	"vfmadd231ps   (%7,%8,4), %%xmm3 , %%xmm5      \n\t" 
+	"vfmadd231ps   (%5,%2,4), %%xmm0 , %%xmm4      \n\t" 
+	"vfmadd231ps   (%6,%2,4), %%xmm1 , %%xmm5      \n\t" 
+	"vfmadd231ps   (%7,%2,4), %%xmm2 , %%xmm4      \n\t" 
+	"vfmadd231ps   (%8,%2,4), %%xmm3 , %%xmm5      \n\t" 
 
 	"vaddps		%%xmm4 , %%xmm5 , %%xmm5       \n\t"
 	"vmulps		%%xmm6 , %%xmm5 , %%xmm5       \n\t"
 	"vaddps		%%xmm7 , %%xmm5 , %%xmm5       \n\t"
 
-	"vmovups  %%xmm5,   (%3,%0,4)		       \n\t"	// 4 * y
+	"vmovups  %%xmm5,   (%4,%0,4)		       \n\t"	// 4 * y
 
-        "addq		$4 , %8	  	 	       \n\t"
+        "addq		$4 , %2	  	 	       \n\t"
         "addq		$4 , %0	  	 	       \n\t"
 	"subq	        $4 , %1			       \n\t"		
 
@@ -81,28 +80,28 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
         "testq          $0x08, %1                      \n\t"
         "jz             3f                    \n\t"
 
-	"vmovups	(%3,%0,4), %%ymm7	       \n\t"	// 8 * y
+	"vmovups	(%4,%0,4), %%ymm7	       \n\t"	// 8 * y
 	"vxorps		%%ymm4 , %%ymm4, %%ymm4        \n\t"
 	"vxorps		%%ymm5 , %%ymm5, %%ymm5        \n\t"
 
-	"vfmadd231ps   (%4,%0,4), %%ymm12, %%ymm4      \n\t" 
-	"vfmadd231ps   (%5,%0,4), %%ymm13, %%ymm5      \n\t" 
-	"vfmadd231ps   (%6,%0,4), %%ymm14, %%ymm4      \n\t" 
-	"vfmadd231ps   (%7,%0,4), %%ymm15, %%ymm5      \n\t" 
+	"vfmadd231ps   (%5,%0,4), %%ymm12, %%ymm4      \n\t" 
+	"vfmadd231ps   (%6,%0,4), %%ymm13, %%ymm5      \n\t" 
+	"vfmadd231ps   (%7,%0,4), %%ymm14, %%ymm4      \n\t" 
+	"vfmadd231ps   (%8,%0,4), %%ymm15, %%ymm5      \n\t" 
 
-	"vfmadd231ps   (%4,%8,4), %%ymm0 , %%ymm4      \n\t" 
-	"vfmadd231ps   (%5,%8,4), %%ymm1 , %%ymm5      \n\t" 
-	"vfmadd231ps   (%6,%8,4), %%ymm2 , %%ymm4      \n\t" 
-	"vfmadd231ps   (%7,%8,4), %%ymm3 , %%ymm5      \n\t" 
+	"vfmadd231ps   (%5,%2,4), %%ymm0 , %%ymm4      \n\t" 
+	"vfmadd231ps   (%6,%2,4), %%ymm1 , %%ymm5      \n\t" 
+	"vfmadd231ps   (%7,%2,4), %%ymm2 , %%ymm4      \n\t" 
+	"vfmadd231ps   (%8,%2,4), %%ymm3 , %%ymm5      \n\t" 
 
 	"vaddps		%%ymm4 , %%ymm5 , %%ymm5       \n\t"
 	"vmulps		%%ymm6 , %%ymm5 , %%ymm5       \n\t"
 	"vaddps		%%ymm7 , %%ymm5 , %%ymm5       \n\t"
 
 
-	"vmovups  %%ymm5,   (%3,%0,4)		       \n\t"	// 8 * y
+	"vmovups  %%ymm5,   (%4,%0,4)		       \n\t"	// 8 * y
 
-        "addq		$8 , %8	  	 	       \n\t"
+        "addq		$8 , %2	  	 	       \n\t"
         "addq		$8 , %0	  	 	       \n\t"
 	"subq	        $8 , %1			       \n\t"		
 
@@ -117,35 +116,35 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 
 	"vxorps		%%ymm4 , %%ymm4, %%ymm4        \n\t"
 	"vxorps		%%ymm5 , %%ymm5, %%ymm5        \n\t"
-	"vmovups	(%3,%0,4), %%ymm8	       \n\t"	// 8 * y
-	"vmovups      32(%3,%0,4), %%ymm9	       \n\t"	// 8 * y
-
-	"vfmadd231ps   (%4,%0,4), %%ymm12, %%ymm4      \n\t" 
-	"vfmadd231ps 32(%4,%0,4), %%ymm12, %%ymm5      \n\t" 
-	"vfmadd231ps   (%5,%0,4), %%ymm13, %%ymm4      \n\t" 
-	"vfmadd231ps 32(%5,%0,4), %%ymm13, %%ymm5      \n\t" 
-	"vfmadd231ps   (%6,%0,4), %%ymm14, %%ymm4      \n\t" 
-	"vfmadd231ps 32(%6,%0,4), %%ymm14, %%ymm5      \n\t" 
-	"vfmadd231ps   (%7,%0,4), %%ymm15, %%ymm4      \n\t" 
-	"vfmadd231ps 32(%7,%0,4), %%ymm15, %%ymm5      \n\t" 
-
-	"vfmadd231ps   (%4,%8,4), %%ymm0 , %%ymm4      \n\t" 
+	"vmovups	(%4,%0,4), %%ymm8	       \n\t"	// 8 * y
+	"vmovups      32(%4,%0,4), %%ymm9	       \n\t"	// 8 * y
+
+	"vfmadd231ps   (%5,%0,4), %%ymm12, %%ymm4      \n\t" 
+	"vfmadd231ps 32(%5,%0,4), %%ymm12, %%ymm5      \n\t" 
+	"vfmadd231ps   (%6,%0,4), %%ymm13, %%ymm4      \n\t" 
+	"vfmadd231ps 32(%6,%0,4), %%ymm13, %%ymm5      \n\t" 
+	"vfmadd231ps   (%7,%0,4), %%ymm14, %%ymm4      \n\t" 
+	"vfmadd231ps 32(%7,%0,4), %%ymm14, %%ymm5      \n\t" 
+	"vfmadd231ps   (%8,%0,4), %%ymm15, %%ymm4      \n\t" 
+	"vfmadd231ps 32(%8,%0,4), %%ymm15, %%ymm5      \n\t" 
+
+	"vfmadd231ps   (%5,%2,4), %%ymm0 , %%ymm4      \n\t" 
         "addq		$16, %0	  	 	       \n\t"
-	"vfmadd231ps 32(%4,%8,4), %%ymm0 , %%ymm5      \n\t" 
-	"vfmadd231ps   (%5,%8,4), %%ymm1 , %%ymm4      \n\t" 
-	"vfmadd231ps 32(%5,%8,4), %%ymm1 , %%ymm5      \n\t" 
-	"vfmadd231ps   (%6,%8,4), %%ymm2 , %%ymm4      \n\t" 
-	"vfmadd231ps 32(%6,%8,4), %%ymm2 , %%ymm5      \n\t" 
-	"vfmadd231ps   (%7,%8,4), %%ymm3 , %%ymm4      \n\t" 
-	"vfmadd231ps 32(%7,%8,4), %%ymm3 , %%ymm5      \n\t" 
+	"vfmadd231ps 32(%5,%2,4), %%ymm0 , %%ymm5      \n\t" 
+	"vfmadd231ps   (%6,%2,4), %%ymm1 , %%ymm4      \n\t" 
+	"vfmadd231ps 32(%6,%2,4), %%ymm1 , %%ymm5      \n\t" 
+	"vfmadd231ps   (%7,%2,4), %%ymm2 , %%ymm4      \n\t" 
+	"vfmadd231ps 32(%7,%2,4), %%ymm2 , %%ymm5      \n\t" 
+	"vfmadd231ps   (%8,%2,4), %%ymm3 , %%ymm4      \n\t" 
+	"vfmadd231ps 32(%8,%2,4), %%ymm3 , %%ymm5      \n\t" 
 
 	"vfmadd231ps     %%ymm6 , %%ymm4 , %%ymm8      \n\t"
 	"vfmadd231ps     %%ymm6 , %%ymm5 , %%ymm9      \n\t"
 
-        "addq		$16, %8	  	 	      \n\t"
-	"vmovups  %%ymm8,-64(%3,%0,4)		      \n\t"	// 8 * y
+        "addq		$16, %2	  	 	      \n\t"
+	"vmovups  %%ymm8,-64(%4,%0,4)		      \n\t"	// 8 * y
 	"subq	        $16, %1			      \n\t"		
-	"vmovups  %%ymm9,-32(%3,%0,4)		      \n\t"	// 8 * y
+	"vmovups  %%ymm9,-32(%4,%0,4)		      \n\t"	// 8 * y
 
 	"jnz		1b		      \n\t"
 
@@ -154,15 +153,15 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 
 	:
           "+r" (i),	// 0	
-	  "+r" (n)  	// 1
+	  "+r" (n),  	// 1
+          "+r" (lda4)   // 2
         :  
-	  "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3]),  // 7
-          "r" (lda4),   // 8
+	  "r" (x),      // 3
+          "r" (y),      // 4
+          "r" (ap[0]),  // 5
+          "r" (ap[1]),  // 6
+          "r" (ap[2]),  // 7
+          "r" (ap[3]),  // 8
           "r" (alpha)   // 9
 	: "cc", 
 	  "%xmm0", "%xmm1", 
@@ -177,7 +176,6 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 } 
 
 
-
 #define HAVE_KERNEL_4x4 1
 static void sgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha) __attribute__ ((noinline));
 
@@ -196,6 +194,7 @@ static void sgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT
 
 	"vbroadcastss    (%8), %%ymm6 	 \n\t"	// alpha 
 
+
         "testq          $0x04, %1                      \n\t"
         "jz             2f                    \n\t"
 
diff --git a/kernel/x86_64/sgemv_n_microk_nehalem-4.c b/kernel/x86_64/sgemv_n_microk_nehalem-4.c
index 11a3e943b7..d21232bfaf 100644
--- a/kernel/x86_64/sgemv_n_microk_nehalem-4.c
+++ b/kernel/x86_64/sgemv_n_microk_nehalem-4.c
@@ -37,19 +37,19 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 
 	__asm__  __volatile__
 	(
-	"movss    (%2), %%xmm12	 \n\t"	// x0 
-	"movss   4(%2), %%xmm13	 \n\t"	// x1 
-	"movss   8(%2), %%xmm14	 \n\t"	// x2 
-	"movss  12(%2), %%xmm15	 \n\t"	// x3 
+	"movss    (%3), %%xmm12	 \n\t"	// x0 
+	"movss   4(%3), %%xmm13	 \n\t"	// x1 
+	"movss   8(%3), %%xmm14	 \n\t"	// x2 
+	"movss  12(%3), %%xmm15	 \n\t"	// x3 
 	"shufps $0,  %%xmm12, %%xmm12\n\t"	
 	"shufps $0,  %%xmm13, %%xmm13\n\t"	
 	"shufps $0,  %%xmm14, %%xmm14\n\t"	
 	"shufps $0,  %%xmm15, %%xmm15\n\t"	
 
-	"movss  16(%2), %%xmm0	 \n\t"	// x4 
-	"movss  20(%2), %%xmm1	 \n\t"	// x5 
-	"movss  24(%2), %%xmm2	 \n\t"	// x6 
-	"movss  28(%2), %%xmm3	 \n\t"	// x7 
+	"movss  16(%3), %%xmm0	 \n\t"	// x4 
+	"movss  20(%3), %%xmm1	 \n\t"	// x5 
+	"movss  24(%3), %%xmm2	 \n\t"	// x6 
+	"movss  28(%3), %%xmm3	 \n\t"	// x7 
 	"shufps $0,  %%xmm0 , %%xmm0 \n\t"	
 	"shufps $0,  %%xmm1 , %%xmm1 \n\t"	
 	"shufps $0,  %%xmm2 , %%xmm2 \n\t"	
@@ -63,13 +63,13 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 	"1:				 \n\t"
 	"xorps           %%xmm4 , %%xmm4	 \n\t"
 	"xorps           %%xmm5 , %%xmm5	 \n\t"
-	"movups             (%3,%0,4), %%xmm7          \n\t" // 4 * y
+	"movups             (%4,%0,4), %%xmm7          \n\t" // 4 * y
 
 	".p2align 1				       \n\t"
-	"movups             (%4,%0,4), %%xmm8          \n\t" 
-	"movups             (%5,%0,4), %%xmm9          \n\t" 
-	"movups             (%6,%0,4), %%xmm10         \n\t" 
-	"movups             (%7,%0,4), %%xmm11         \n\t" 
+	"movups             (%5,%0,4), %%xmm8          \n\t" 
+	"movups             (%6,%0,4), %%xmm9          \n\t" 
+	"movups             (%7,%0,4), %%xmm10         \n\t" 
+	"movups             (%8,%0,4), %%xmm11         \n\t" 
 	".p2align 1				       \n\t"
 	"mulps		%%xmm12, %%xmm8		       \n\t"
 	"mulps		%%xmm13, %%xmm9		       \n\t"
@@ -80,10 +80,10 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 	"addps		%%xmm10, %%xmm4	               \n\t"
 	"addps		%%xmm11, %%xmm5 	       \n\t"
 
-	"movups             (%4,%8,4), %%xmm8          \n\t" 
-	"movups             (%5,%8,4), %%xmm9          \n\t" 
-	"movups             (%6,%8,4), %%xmm10         \n\t" 
-	"movups             (%7,%8,4), %%xmm11         \n\t" 
+	"movups             (%5,%2,4), %%xmm8          \n\t" 
+	"movups             (%6,%2,4), %%xmm9          \n\t" 
+	"movups             (%7,%2,4), %%xmm10         \n\t" 
+	"movups             (%8,%2,4), %%xmm11         \n\t" 
 	".p2align 1				       \n\t"
 	"mulps		%%xmm0 , %%xmm8		       \n\t"
 	"mulps		%%xmm1 , %%xmm9		       \n\t"
@@ -94,28 +94,28 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 	"addps		%%xmm10, %%xmm4	       	       \n\t"
 	"addps		%%xmm11, %%xmm5 	       \n\t"
 
-        "addq		$4 , %8	  	 	       \n\t"
+        "addq		$4 , %2	  	 	       \n\t"
 	"addps		%%xmm5 , %%xmm4 	       \n\t"
         "addq		$4 , %0	  	 	       \n\t"
 	"mulps		%%xmm6 , %%xmm4		       \n\t" 
 	"subq	        $4 , %1			       \n\t"		
 	"addps		%%xmm4 , %%xmm7 	       \n\t"
 
-	"movups  %%xmm7 , -16(%3,%0,4)		       \n\t"	// 4 * y
+	"movups  %%xmm7 , -16(%4,%0,4)		       \n\t"	// 4 * y
 
 	"jnz		1b		       \n\t"
 
 	:
           "+r" (i),	// 0	
-	  "+r" (n)  	// 1
+	  "+r" (n), 	// 1
+          "+r" (lda4)   // 2
         : 
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3]),  // 7
-          "r" (lda4),   // 8
+          "r" (x),      // 3
+          "r" (y),      // 4
+          "r" (ap[0]),  // 5
+          "r" (ap[1]),  // 6
+          "r" (ap[2]),  // 7
+          "r" (ap[3]),  // 8
           "r" (alpha)   // 9
 	: "cc", 
 	  "%xmm0", "%xmm1", 
diff --git a/kernel/x86_64/sgemv_n_microk_sandy-4.c b/kernel/x86_64/sgemv_n_microk_sandy-4.c
index b35daa35b0..3fc46542b7 100644
--- a/kernel/x86_64/sgemv_n_microk_sandy-4.c
+++ b/kernel/x86_64/sgemv_n_microk_sandy-4.c
@@ -39,14 +39,14 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 	__asm__  __volatile__
 	(
 	"vzeroupper			 \n\t"
-	"vbroadcastss    (%2), %%ymm12	 \n\t"	// x0 
-	"vbroadcastss   4(%2), %%ymm13	 \n\t"	// x1 
-	"vbroadcastss   8(%2), %%ymm14	 \n\t"	// x2 
-	"vbroadcastss  12(%2), %%ymm15	 \n\t"	// x3 
-	"vbroadcastss  16(%2), %%ymm0 	 \n\t"	// x4 
-	"vbroadcastss  20(%2), %%ymm1 	 \n\t"	// x5 
-	"vbroadcastss  24(%2), %%ymm2 	 \n\t"	// x6 
-	"vbroadcastss  28(%2), %%ymm3 	 \n\t"	// x7 
+	"vbroadcastss    (%3), %%ymm12	 \n\t"	// x0 
+	"vbroadcastss   4(%3), %%ymm13	 \n\t"	// x1 
+	"vbroadcastss   8(%3), %%ymm14	 \n\t"	// x2 
+	"vbroadcastss  12(%3), %%ymm15	 \n\t"	// x3 
+	"vbroadcastss  16(%3), %%ymm0 	 \n\t"	// x4 
+	"vbroadcastss  20(%3), %%ymm1 	 \n\t"	// x5 
+	"vbroadcastss  24(%3), %%ymm2 	 \n\t"	// x6 
+	"vbroadcastss  28(%3), %%ymm3 	 \n\t"	// x7 
 
 	"vbroadcastss    (%9), %%ymm6 	 \n\t"	// alpha 
 
@@ -55,21 +55,21 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 
 	"vxorps	  %%xmm4 , %%xmm4 , %%xmm4        \n\t"
 	"vxorps	  %%xmm5 , %%xmm5 , %%xmm5        \n\t"
-	"vmovups	(%3,%0,4), %%xmm7	  \n\t"	// 4 * y
+	"vmovups	(%4,%0,4), %%xmm7	  \n\t"	// 4 * y
 
-	"vmulps   (%4,%0,4), %%xmm12, %%xmm8      \n\t" 
-	"vmulps   (%5,%0,4), %%xmm13, %%xmm10     \n\t" 
-	"vmulps   (%6,%0,4), %%xmm14, %%xmm9      \n\t" 
-	"vmulps   (%7,%0,4), %%xmm15, %%xmm11     \n\t" 
+	"vmulps   (%5,%0,4), %%xmm12, %%xmm8      \n\t" 
+	"vmulps   (%6,%0,4), %%xmm13, %%xmm10     \n\t" 
+	"vmulps   (%7,%0,4), %%xmm14, %%xmm9      \n\t" 
+	"vmulps   (%8,%0,4), %%xmm15, %%xmm11     \n\t" 
 	"vaddps	  %%xmm4, %%xmm8 , %%xmm4	  \n\t"
 	"vaddps	  %%xmm5, %%xmm10, %%xmm5	  \n\t"
 	"vaddps	  %%xmm4, %%xmm9 , %%xmm4	  \n\t"
 	"vaddps	  %%xmm5, %%xmm11, %%xmm5	  \n\t"
 
-	"vmulps   (%4,%8,4), %%xmm0 , %%xmm8      \n\t" 
-	"vmulps   (%5,%8,4), %%xmm1 , %%xmm10     \n\t" 
-	"vmulps   (%6,%8,4), %%xmm2 , %%xmm9      \n\t" 
-	"vmulps   (%7,%8,4), %%xmm3 , %%xmm11     \n\t" 
+	"vmulps   (%5,%2,4), %%xmm0 , %%xmm8      \n\t" 
+	"vmulps   (%6,%2,4), %%xmm1 , %%xmm10     \n\t" 
+	"vmulps   (%7,%2,4), %%xmm2 , %%xmm9      \n\t" 
+	"vmulps   (%8,%2,4), %%xmm3 , %%xmm11     \n\t" 
 	"vaddps	  %%xmm4, %%xmm8 , %%xmm4	  \n\t"
 	"vaddps	  %%xmm5, %%xmm10, %%xmm5	  \n\t"
 	"vaddps	  %%xmm4, %%xmm9 , %%xmm4	  \n\t"
@@ -79,9 +79,9 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 	"vmulps	  %%xmm6, %%xmm4 , %%xmm5	  \n\t"
 	"vaddps	  %%xmm5, %%xmm7 , %%xmm5	  \n\t"
 
-	"vmovups  %%xmm5,   (%3,%0,4)		  \n\t"	// 4 * y
+	"vmovups  %%xmm5,   (%4,%0,4)		  \n\t"	// 4 * y
 
-        "addq		$4, %8	  	 	  \n\t"
+        "addq		$4, %2	  	 	  \n\t"
         "addq		$4, %0	  	 	  \n\t"
 	"subq	        $4, %1			  \n\t"		
 
@@ -92,21 +92,21 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 
 	"vxorps	  %%ymm4 , %%ymm4 , %%ymm4        \n\t"
 	"vxorps	  %%ymm5 , %%ymm5 , %%ymm5        \n\t"
-	"vmovups	(%3,%0,4), %%ymm7	  \n\t"	// 8 * y
+	"vmovups	(%4,%0,4), %%ymm7	  \n\t"	// 8 * y
 
-	"vmulps   (%4,%0,4), %%ymm12, %%ymm8      \n\t" 
-	"vmulps   (%5,%0,4), %%ymm13, %%ymm10     \n\t" 
-	"vmulps   (%6,%0,4), %%ymm14, %%ymm9      \n\t" 
-	"vmulps   (%7,%0,4), %%ymm15, %%ymm11     \n\t" 
+	"vmulps   (%5,%0,4), %%ymm12, %%ymm8      \n\t" 
+	"vmulps   (%6,%0,4), %%ymm13, %%ymm10     \n\t" 
+	"vmulps   (%7,%0,4), %%ymm14, %%ymm9      \n\t" 
+	"vmulps   (%8,%0,4), %%ymm15, %%ymm11     \n\t" 
 	"vaddps	  %%ymm4, %%ymm8 , %%ymm4	  \n\t"
 	"vaddps	  %%ymm5, %%ymm10, %%ymm5	  \n\t"
 	"vaddps	  %%ymm4, %%ymm9 , %%ymm4	  \n\t"
 	"vaddps	  %%ymm5, %%ymm11, %%ymm5	  \n\t"
 
-	"vmulps   (%4,%8,4), %%ymm0 , %%ymm8      \n\t" 
-	"vmulps   (%5,%8,4), %%ymm1 , %%ymm10     \n\t" 
-	"vmulps   (%6,%8,4), %%ymm2 , %%ymm9      \n\t" 
-	"vmulps   (%7,%8,4), %%ymm3 , %%ymm11     \n\t" 
+	"vmulps   (%5,%2,4), %%ymm0 , %%ymm8      \n\t" 
+	"vmulps   (%6,%2,4), %%ymm1 , %%ymm10     \n\t" 
+	"vmulps   (%7,%2,4), %%ymm2 , %%ymm9      \n\t" 
+	"vmulps   (%8,%2,4), %%ymm3 , %%ymm11     \n\t" 
 	"vaddps	  %%ymm4, %%ymm8 , %%ymm4	  \n\t"
 	"vaddps	  %%ymm5, %%ymm10, %%ymm5	  \n\t"
 	"vaddps	  %%ymm4, %%ymm9 , %%ymm4	  \n\t"
@@ -116,9 +116,9 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 	"vmulps	  %%ymm6, %%ymm4 , %%ymm5	  \n\t"
 	"vaddps	  %%ymm5, %%ymm7 , %%ymm5	  \n\t"
 
-	"vmovups  %%ymm5,   (%3,%0,4)		  \n\t"	// 8 * y
+	"vmovups  %%ymm5,   (%4,%0,4)		  \n\t"	// 8 * y
 
-        "addq		$8, %8	  	 	  \n\t"
+        "addq		$8, %2	  	 	  \n\t"
         "addq		$8, %0	  	 	  \n\t"
 	"subq	        $8, %1			  \n\t"		
 
@@ -134,45 +134,45 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 	"vxorps	  %%ymm4 , %%ymm4 , %%ymm4        \n\t"
 	"vxorps	  %%ymm5 , %%ymm5 , %%ymm5        \n\t"
 
-	"prefetcht0	 192(%4,%0,4)		  \n\t"
-	"vmulps   (%4,%0,4), %%ymm12, %%ymm8      \n\t" 
-	"vmulps 32(%4,%0,4), %%ymm12, %%ymm9      \n\t" 
 	"prefetcht0	 192(%5,%0,4)		  \n\t"
-	"vmulps   (%5,%0,4), %%ymm13, %%ymm10     \n\t" 
-	"vmulps 32(%5,%0,4), %%ymm13, %%ymm11     \n\t" 
+	"vmulps   (%5,%0,4), %%ymm12, %%ymm8      \n\t" 
+	"vmulps 32(%5,%0,4), %%ymm12, %%ymm9      \n\t" 
+	"prefetcht0	 192(%6,%0,4)		  \n\t"
+	"vmulps   (%6,%0,4), %%ymm13, %%ymm10     \n\t" 
+	"vmulps 32(%6,%0,4), %%ymm13, %%ymm11     \n\t" 
 	"vaddps	  %%ymm4, %%ymm8 , %%ymm4	  \n\t"
 	"vaddps	  %%ymm5, %%ymm9 , %%ymm5	  \n\t"
 	"vaddps	  %%ymm4, %%ymm10, %%ymm4	  \n\t"
 	"vaddps	  %%ymm5, %%ymm11, %%ymm5	  \n\t"
 
-	"prefetcht0	 192(%6,%0,4)		  \n\t"
-	"vmulps   (%6,%0,4), %%ymm14, %%ymm8      \n\t" 
-	"vmulps 32(%6,%0,4), %%ymm14, %%ymm9      \n\t" 
 	"prefetcht0	 192(%7,%0,4)		  \n\t"
-	"vmulps   (%7,%0,4), %%ymm15, %%ymm10     \n\t" 
-	"vmulps 32(%7,%0,4), %%ymm15, %%ymm11     \n\t" 
+	"vmulps   (%7,%0,4), %%ymm14, %%ymm8      \n\t" 
+	"vmulps 32(%7,%0,4), %%ymm14, %%ymm9      \n\t" 
+	"prefetcht0	 192(%8,%0,4)		  \n\t"
+	"vmulps   (%8,%0,4), %%ymm15, %%ymm10     \n\t" 
+	"vmulps 32(%8,%0,4), %%ymm15, %%ymm11     \n\t" 
 	"vaddps	  %%ymm4, %%ymm8 , %%ymm4	  \n\t"
 	"vaddps	  %%ymm5, %%ymm9 , %%ymm5	  \n\t"
 	"vaddps	  %%ymm4, %%ymm10, %%ymm4	  \n\t"
 	"vaddps	  %%ymm5, %%ymm11, %%ymm5	  \n\t"
 
-	"prefetcht0	 192(%4,%8,4)		  \n\t"
-	"vmulps   (%4,%8,4), %%ymm0 , %%ymm8      \n\t" 
-	"vmulps 32(%4,%8,4), %%ymm0 , %%ymm9      \n\t" 
-	"prefetcht0	 192(%5,%8,4)		  \n\t"
-	"vmulps   (%5,%8,4), %%ymm1 , %%ymm10     \n\t" 
-	"vmulps 32(%5,%8,4), %%ymm1 , %%ymm11     \n\t" 
+	"prefetcht0	 192(%5,%2,4)		  \n\t"
+	"vmulps   (%5,%2,4), %%ymm0 , %%ymm8      \n\t" 
+	"vmulps 32(%5,%2,4), %%ymm0 , %%ymm9      \n\t" 
+	"prefetcht0	 192(%6,%2,4)		  \n\t"
+	"vmulps   (%6,%2,4), %%ymm1 , %%ymm10     \n\t" 
+	"vmulps 32(%6,%2,4), %%ymm1 , %%ymm11     \n\t" 
 	"vaddps	  %%ymm4, %%ymm8 , %%ymm4	  \n\t"
 	"vaddps	  %%ymm5, %%ymm9 , %%ymm5	  \n\t"
 	"vaddps	  %%ymm4, %%ymm10, %%ymm4	  \n\t"
 	"vaddps	  %%ymm5, %%ymm11, %%ymm5	  \n\t"
 
-	"prefetcht0	 192(%6,%8,4)		  \n\t"
-	"vmulps   (%6,%8,4), %%ymm2 , %%ymm8      \n\t" 
-	"vmulps 32(%6,%8,4), %%ymm2 , %%ymm9      \n\t" 
-	"prefetcht0	 192(%7,%8,4)		  \n\t"
-	"vmulps   (%7,%8,4), %%ymm3 , %%ymm10     \n\t" 
-	"vmulps 32(%7,%8,4), %%ymm3 , %%ymm11     \n\t" 
+	"prefetcht0	 192(%7,%2,4)		  \n\t"
+	"vmulps   (%7,%2,4), %%ymm2 , %%ymm8      \n\t" 
+	"vmulps 32(%7,%2,4), %%ymm2 , %%ymm9      \n\t" 
+	"prefetcht0	 192(%8,%2,4)		  \n\t"
+	"vmulps   (%8,%2,4), %%ymm3 , %%ymm10     \n\t" 
+	"vmulps 32(%8,%2,4), %%ymm3 , %%ymm11     \n\t" 
 	"vaddps	  %%ymm4, %%ymm8 , %%ymm4	  \n\t"
 	"vaddps	  %%ymm5, %%ymm9 , %%ymm5	  \n\t"
 	"vaddps	  %%ymm4, %%ymm10, %%ymm4	  \n\t"
@@ -181,13 +181,13 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 	"vmulps	  %%ymm6, %%ymm4 , %%ymm4	  \n\t"
 	"vmulps	  %%ymm6, %%ymm5 , %%ymm5	  \n\t"
 
-	"vaddps    (%3,%0,4), %%ymm4 , %%ymm4	 \n\t"	// 8 * y
-	"vaddps  32(%3,%0,4), %%ymm5 , %%ymm5	 \n\t"	// 8 * y
+	"vaddps    (%4,%0,4), %%ymm4 , %%ymm4	 \n\t"	// 8 * y
+	"vaddps  32(%4,%0,4), %%ymm5 , %%ymm5	 \n\t"	// 8 * y
 
-	"vmovups  %%ymm4,   (%3,%0,4)		  \n\t"	// 8 * y
-	"vmovups  %%ymm5, 32(%3,%0,4)		  \n\t"	// 8 * y
+	"vmovups  %%ymm4,   (%4,%0,4)		  \n\t"	// 8 * y
+	"vmovups  %%ymm5, 32(%4,%0,4)		  \n\t"	// 8 * y
 
-        "addq		$16, %8	  	 	  \n\t"
+        "addq		$16, %2	  	 	  \n\t"
         "addq		$16, %0	  	 	  \n\t"
 	"subq	        $16, %1			  \n\t"		
 	"jnz		1b		  \n\t"
@@ -197,15 +197,15 @@ static void sgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLO
 
 	:
           "+r" (i),	// 0	
-	  "+r" (n)  	// 1
+	  "+r" (n),  	// 1
+          "+r" (lda4)   // 2
         : 
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3]),  // 7
-          "r" (lda4),   // 8
+          "r" (x),      // 3
+          "r" (y),      // 4
+          "r" (ap[0]),  // 5
+          "r" (ap[1]),  // 6
+          "r" (ap[2]),  // 7
+          "r" (ap[3]),  // 8
           "r" (alpha)   // 9
 	: "cc", 
 	  "%xmm0", "%xmm1", 
diff --git a/kernel/x86_64/sgemv_t_4.c b/kernel/x86_64/sgemv_t_4.c
index 065e5b3852..86ecaf516e 100644
--- a/kernel/x86_64/sgemv_t_4.c
+++ b/kernel/x86_64/sgemv_t_4.c
@@ -139,9 +139,9 @@ static void sgemv_kernel_4x2(BLASLONG n, FLOAT *ap0, FLOAT *ap1, FLOAT *x, FLOAT
 	"movss	       %%xmm11,4(%2)	        \n\t"
 
         :
-   	:
-	"r" (i),	 // 0
-	"r" (n),	 // 1
+	"+r" (i),	 // 0
+	"+r" (n)	 // 1
+	:
         "r" (y),         // 2    
         "r" (ap0),       // 3
         "r" (ap1),       // 4
@@ -208,9 +208,9 @@ static void sgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
 	"movss	       %%xmm10, (%2)	        \n\t"
 
         :
-   	:
-	"r" (i),	 // 0
-	"r" (n),	 // 1
+	"+r" (i),	 // 0
+	"+r" (n)	 // 1
+	:
         "r" (y),         // 2    
         "r" (ap),        // 3
         "r" (x)          // 4
@@ -272,9 +272,9 @@ static void add_y(BLASLONG n, FLOAT da , FLOAT *src, FLOAT *dest, BLASLONG inc_d
         "jnz            1b              \n\t"
 
         :
-   	:
-	"r" (i),	  // 0
-	"r" (n),	  // 1
+	"+r" (i),	  // 0
+	"+r" (n)	  // 1
+	:
         "r" (&da),        // 2    
         "r" (src),        // 3
         "r" (dest)        // 4
diff --git a/kernel/x86_64/sger_microk_sandy-2.c b/kernel/x86_64/sger_microk_sandy-2.c
index 79180b991e..14f13475b8 100644
--- a/kernel/x86_64/sger_microk_sandy-2.c
+++ b/kernel/x86_64/sger_microk_sandy-2.c
@@ -105,9 +105,9 @@ static void sger_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"vzeroupper					     \n\t"
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+	:
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha)   // 4
diff --git a/kernel/x86_64/ssymv_L_microk_bulldozer-2.c b/kernel/x86_64/ssymv_L_microk_bulldozer-2.c
index 9002228f32..602c3edf2d 100644
--- a/kernel/x86_64/ssymv_L_microk_bulldozer-2.c
+++ b/kernel/x86_64/ssymv_L_microk_bulldozer-2.c
@@ -98,8 +98,8 @@ static void ssymv_kernel_4x4(BLASLONG from, BLASLONG to, FLOAT **a, FLOAT *x, FL
 	"vmovss         %%xmm3 ,12(%9)		\n\t"	// save temp2
 
 	:
-        : 
-          "r" (from),	// 0	
+          "+r" (from)	// 0	
+        :
 	  "r" (to),  	// 1
           "r" (x),      // 2
           "r" (y),      // 3
diff --git a/kernel/x86_64/ssymv_L_microk_haswell-2.c b/kernel/x86_64/ssymv_L_microk_haswell-2.c
index 69db008b66..fdfe4349a1 100644
--- a/kernel/x86_64/ssymv_L_microk_haswell-2.c
+++ b/kernel/x86_64/ssymv_L_microk_haswell-2.c
@@ -99,8 +99,8 @@ static void ssymv_kernel_4x4(BLASLONG from, BLASLONG to, FLOAT **a, FLOAT *x, FL
 	"vzeroupper				     \n\t"
 
 	:
-        : 
-          "r" (from),	// 0	
+          "+r" (from)	// 0	
+        :
 	  "r" (to),  	// 1
           "r" (x),      // 2
           "r" (y),      // 3
diff --git a/kernel/x86_64/ssymv_L_microk_nehalem-2.c b/kernel/x86_64/ssymv_L_microk_nehalem-2.c
index c0fe5d6401..6bb9c02f6f 100644
--- a/kernel/x86_64/ssymv_L_microk_nehalem-2.c
+++ b/kernel/x86_64/ssymv_L_microk_nehalem-2.c
@@ -113,8 +113,8 @@ static void ssymv_kernel_4x4(BLASLONG from, BLASLONG to,  FLOAT **a, FLOAT *x, F
 	"movss         %%xmm3 , 12(%9)		\n\t"	// save temp2
 
 	:
-        : 
-          "r" (from),	// 0	
+          "+r" (from)	// 0	
+        :
 	  "r" (to),  	// 1
           "r" (x),      // 2
           "r" (y),      // 3
diff --git a/kernel/x86_64/ssymv_L_microk_sandy-2.c b/kernel/x86_64/ssymv_L_microk_sandy-2.c
index 093ca8073c..0c78212e7d 100644
--- a/kernel/x86_64/ssymv_L_microk_sandy-2.c
+++ b/kernel/x86_64/ssymv_L_microk_sandy-2.c
@@ -109,8 +109,8 @@ static void ssymv_kernel_4x4(BLASLONG from, BLASLONG to, FLOAT **a, FLOAT *x, FL
 	"vzeroupper				     \n\t"
 
 	:
-        : 
-          "r" (from),	// 0	
+          "+r" (from)	// 0	
+        :
 	  "r" (to),  	// 1
           "r" (x),      // 2
           "r" (y),      // 3
@@ -217,8 +217,8 @@ static void ssymv_kernel_4x4(BLASLONG from, BLASLONG to, FLOAT **a, FLOAT *x, FL
 	"vzeroupper				     \n\t"
 
 	:
-        : 
-          "r" (from),	// 0	
+          "+r" (from)	// 0	
+        :
 	  "r" (to),  	// 1
           "r" (x),      // 2
           "r" (y),      // 3
diff --git a/kernel/x86_64/ssymv_U_microk_bulldozer-2.c b/kernel/x86_64/ssymv_U_microk_bulldozer-2.c
index 8c01ab8069..4a4f4d68de 100644
--- a/kernel/x86_64/ssymv_U_microk_bulldozer-2.c
+++ b/kernel/x86_64/ssymv_U_microk_bulldozer-2.c
@@ -90,9 +90,9 @@ static void ssymv_kernel_4x4(BLASLONG n, FLOAT *a0, FLOAT *a1, FLOAT *a2, FLOAT
 	"vmovss         %%xmm3 ,12(%9)		\n\t"	// save temp2
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (a0),     // 4
diff --git a/kernel/x86_64/ssymv_U_microk_haswell-2.c b/kernel/x86_64/ssymv_U_microk_haswell-2.c
index a32e59b447..e6a09ccf88 100644
--- a/kernel/x86_64/ssymv_U_microk_haswell-2.c
+++ b/kernel/x86_64/ssymv_U_microk_haswell-2.c
@@ -112,9 +112,9 @@ static void ssymv_kernel_4x4(BLASLONG n, FLOAT *a0, FLOAT *a1, FLOAT *a2, FLOAT
 	"vzeroupper				     \n\t"
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (a0),	// 4
diff --git a/kernel/x86_64/ssymv_U_microk_nehalem-2.c b/kernel/x86_64/ssymv_U_microk_nehalem-2.c
index b8e6ee7326..c56ff3b15d 100644
--- a/kernel/x86_64/ssymv_U_microk_nehalem-2.c
+++ b/kernel/x86_64/ssymv_U_microk_nehalem-2.c
@@ -106,9 +106,9 @@ static void ssymv_kernel_4x4(BLASLONG n, FLOAT *a0, FLOAT *a1, FLOAT *a2, FLOAT
 	"movss         %%xmm3 , 12(%9)		\n\t"	// save temp2
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (a0),     // 4
diff --git a/kernel/x86_64/ssymv_U_microk_sandy-2.c b/kernel/x86_64/ssymv_U_microk_sandy-2.c
index e8650650cd..c4919a39a4 100644
--- a/kernel/x86_64/ssymv_U_microk_sandy-2.c
+++ b/kernel/x86_64/ssymv_U_microk_sandy-2.c
@@ -120,9 +120,9 @@ static void ssymv_kernel_4x4(BLASLONG n, FLOAT *a0, FLOAT *a1, FLOAT *a2, FLOAT
 	"vzeroupper				     \n\t"
 
 	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (a0),	// 4
diff --git a/kernel/x86_64/strsm_kernel_LN_bulldozer.c b/kernel/x86_64/strsm_kernel_LN_bulldozer.c
index 1b8991c6cf..3cd215000b 100644
--- a/kernel/x86_64/strsm_kernel_LN_bulldozer.c
+++ b/kernel/x86_64/strsm_kernel_LN_bulldozer.c
@@ -126,12 +126,12 @@ static void strsm_LN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	.align 16							\n\t"
 	"1:									\n\t"
 
-	"	vbroadcastss	(%3,%1,1), %%xmm0				\n\t"	// read b
-	"	vmovups         (%2,%1,8), %%xmm4				\n\t"
-	"	vbroadcastss   4(%3,%1,1), %%xmm1				\n\t"	
-	"	vmovups       16(%2,%1,8), %%xmm5				\n\t"
-	"	vmovups       32(%2,%1,8), %%xmm6				\n\t"
-	"	vmovups       48(%2,%1,8), %%xmm7				\n\t"
+	"	vbroadcastss	(%7,%1,1), %%xmm0				\n\t"	// read b
+	"	vmovups         (%6,%1,8), %%xmm4				\n\t"
+	"	vbroadcastss   4(%7,%1,1), %%xmm1				\n\t"	
+	"	vmovups       16(%6,%1,8), %%xmm5				\n\t"
+	"	vmovups       32(%6,%1,8), %%xmm6				\n\t"
+	"	vmovups       48(%6,%1,8), %%xmm7				\n\t"
 
 	"	vfmaddps	%%xmm8 , %%xmm0 , %%xmm4 , %%xmm8		\n\t"
 	"	vfmaddps	%%xmm12, %%xmm1 , %%xmm4 , %%xmm12		\n\t"
@@ -171,20 +171,20 @@ static void strsm_LN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 
 	"3:									\n\t"	
 
-	"	vbroadcastss    60(%6) , %%xmm0					\n\t" // i=15, read aa[i]		
+	"	vbroadcastss    60(%2) , %%xmm0					\n\t" // i=15, read aa[i]		
 	"	vshufps		$0xff  , %%xmm11 , %%xmm11 , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0xff  , %%xmm15 , %%xmm15 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 60(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 60(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups         0(%6)  , %%xmm4                                 \n\t"   // read a[k]
-	"       vmovups        16(%6)  , %%xmm5                                 \n\t"   // read a[k]
-	"       vmovups        32(%6)  , %%xmm6                                 \n\t"   // read a[k]
-	"       vmovups        48(%6)  , %%xmm7                                 \n\t"   // read a[k]
+	"       vmovups         0(%2)  , %%xmm4                                 \n\t"   // read a[k]
+	"       vmovups        16(%2)  , %%xmm5                                 \n\t"   // read a[k]
+	"       vmovups        32(%2)  , %%xmm6                                 \n\t"   // read a[k]
+	"       vmovups        48(%2)  , %%xmm7                                 \n\t"   // read a[k]
 	"       vfnmaddps       %%xmm8  , %%xmm1 , %%xmm4 , %%xmm8              \n\t"
         "       vfnmaddps       %%xmm12 , %%xmm2 , %%xmm4 , %%xmm12             \n\t"
         "       vfnmaddps       %%xmm9  , %%xmm1 , %%xmm5 , %%xmm9              \n\t"
@@ -194,23 +194,23 @@ static void strsm_LN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
         "       vfnmaddps       %%xmm11 , %%xmm1 , %%xmm7 , %%xmm11             \n\t"
         "       vfnmaddps       %%xmm15 , %%xmm2 , %%xmm7 , %%xmm15             \n\t"
 
-	"	subq		$64 , %6					\n\t"   // a -= m
-	"	subq		$8  , %7					\n\t"   // b -= n
+	"	subq		$64 , %2					\n\t"   // a -= m
+	"	subq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    56(%6) , %%xmm0					\n\t" // i=14, read aa[i]		
+	"	vbroadcastss    56(%2) , %%xmm0					\n\t" // i=14, read aa[i]		
 	"	vshufps		$0xaa  , %%xmm11 , %%xmm11 , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0xaa  , %%xmm15 , %%xmm15 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 56(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 56(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups         0(%6)  , %%xmm4                                 \n\t"   // read a[k]
-	"       vmovups        16(%6)  , %%xmm5                                 \n\t"   // read a[k]
-	"       vmovups        32(%6)  , %%xmm6                                 \n\t"   // read a[k]
-	"       vmovups        48(%6)  , %%xmm7                                 \n\t"   // read a[k]
+	"       vmovups         0(%2)  , %%xmm4                                 \n\t"   // read a[k]
+	"       vmovups        16(%2)  , %%xmm5                                 \n\t"   // read a[k]
+	"       vmovups        32(%2)  , %%xmm6                                 \n\t"   // read a[k]
+	"       vmovups        48(%2)  , %%xmm7                                 \n\t"   // read a[k]
 	"       vfnmaddps       %%xmm8  , %%xmm1 , %%xmm4 , %%xmm8              \n\t"
         "       vfnmaddps       %%xmm12 , %%xmm2 , %%xmm4 , %%xmm12             \n\t"
         "       vfnmaddps       %%xmm9  , %%xmm1 , %%xmm5 , %%xmm9              \n\t"
@@ -220,23 +220,23 @@ static void strsm_LN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
         "       vfnmaddps       %%xmm11 , %%xmm1 , %%xmm7 , %%xmm11             \n\t"
         "       vfnmaddps       %%xmm15 , %%xmm2 , %%xmm7 , %%xmm15             \n\t"
 
-	"	subq		$64 , %6					\n\t"   // a -= m
-	"	subq		$8  , %7					\n\t"   // b -= n
+	"	subq		$64 , %2					\n\t"   // a -= m
+	"	subq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    52(%6) , %%xmm0					\n\t" // i=13, read aa[i]		
+	"	vbroadcastss    52(%2) , %%xmm0					\n\t" // i=13, read aa[i]		
 	"	vshufps		$0x55  , %%xmm11 , %%xmm11 , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0x55  , %%xmm15 , %%xmm15 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 52(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 52(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups         0(%6)  , %%xmm4                                 \n\t"   // read a[k]
-	"       vmovups        16(%6)  , %%xmm5                                 \n\t"   // read a[k]
-	"       vmovups        32(%6)  , %%xmm6                                 \n\t"   // read a[k]
-	"       vmovups        48(%6)  , %%xmm7                                 \n\t"   // read a[k]
+	"       vmovups         0(%2)  , %%xmm4                                 \n\t"   // read a[k]
+	"       vmovups        16(%2)  , %%xmm5                                 \n\t"   // read a[k]
+	"       vmovups        32(%2)  , %%xmm6                                 \n\t"   // read a[k]
+	"       vmovups        48(%2)  , %%xmm7                                 \n\t"   // read a[k]
 	"       vfnmaddps       %%xmm8  , %%xmm1 , %%xmm4 , %%xmm8              \n\t"
         "       vfnmaddps       %%xmm12 , %%xmm2 , %%xmm4 , %%xmm12             \n\t"
         "       vfnmaddps       %%xmm9  , %%xmm1 , %%xmm5 , %%xmm9              \n\t"
@@ -246,22 +246,22 @@ static void strsm_LN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
         "       vfnmaddps       %%xmm11 , %%xmm1 , %%xmm7 , %%xmm11             \n\t"
         "       vfnmaddps       %%xmm15 , %%xmm2 , %%xmm7 , %%xmm15             \n\t"
 
-	"	subq		$64 , %6					\n\t"   // a -= m
-	"	subq		$8  , %7					\n\t"   // b -= n
+	"	subq		$64 , %2					\n\t"   // a -= m
+	"	subq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    48(%6) , %%xmm0					\n\t" // i=12, read aa[i]		
+	"	vbroadcastss    48(%2) , %%xmm0					\n\t" // i=12, read aa[i]		
 	"	vshufps		$0x00  , %%xmm11 , %%xmm11 , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0x00  , %%xmm15 , %%xmm15 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 48(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 48(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups         0(%6)  , %%xmm4                                 \n\t"   // read a[k]
-	"       vmovups        16(%6)  , %%xmm5                                 \n\t"   // read a[k]
-	"       vmovups        32(%6)  , %%xmm6                                 \n\t"   // read a[k]
+	"       vmovups         0(%2)  , %%xmm4                                 \n\t"   // read a[k]
+	"       vmovups        16(%2)  , %%xmm5                                 \n\t"   // read a[k]
+	"       vmovups        32(%2)  , %%xmm6                                 \n\t"   // read a[k]
 	"       vfnmaddps       %%xmm8  , %%xmm1 , %%xmm4 , %%xmm8              \n\t"
         "       vfnmaddps       %%xmm12 , %%xmm2 , %%xmm4 , %%xmm12             \n\t"
         "       vfnmaddps       %%xmm9  , %%xmm1 , %%xmm5 , %%xmm9              \n\t"
@@ -269,22 +269,22 @@ static void strsm_LN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
         "       vfnmaddps       %%xmm10 , %%xmm1 , %%xmm6 , %%xmm10             \n\t"
         "       vfnmaddps       %%xmm14 , %%xmm2 , %%xmm6 , %%xmm14             \n\t"
 
-	"	subq		$64 , %6					\n\t"   // a -= m
-	"	subq		$8  , %7					\n\t"   // b -= n
+	"	subq		$64 , %2					\n\t"   // a -= m
+	"	subq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    44(%6) , %%xmm0					\n\t" // i=11, read aa[i]		
+	"	vbroadcastss    44(%2) , %%xmm0					\n\t" // i=11, read aa[i]		
 	"	vshufps		$0xff  , %%xmm10 , %%xmm10 , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0xff  , %%xmm14 , %%xmm14 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 44(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 44(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups         0(%6)  , %%xmm4                                 \n\t"   // read a[k]
-	"       vmovups        16(%6)  , %%xmm5                                 \n\t"   // read a[k]
-	"       vmovups        32(%6)  , %%xmm6                                 \n\t"   // read a[k]
+	"       vmovups         0(%2)  , %%xmm4                                 \n\t"   // read a[k]
+	"       vmovups        16(%2)  , %%xmm5                                 \n\t"   // read a[k]
+	"       vmovups        32(%2)  , %%xmm6                                 \n\t"   // read a[k]
 	"       vfnmaddps       %%xmm8  , %%xmm1 , %%xmm4 , %%xmm8              \n\t"
         "       vfnmaddps       %%xmm12 , %%xmm2 , %%xmm4 , %%xmm12             \n\t"
         "       vfnmaddps       %%xmm9  , %%xmm1 , %%xmm5 , %%xmm9              \n\t"
@@ -292,22 +292,22 @@ static void strsm_LN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
         "       vfnmaddps       %%xmm10 , %%xmm1 , %%xmm6 , %%xmm10             \n\t"
         "       vfnmaddps       %%xmm14 , %%xmm2 , %%xmm6 , %%xmm14             \n\t"
 
-	"	subq		$64 , %6					\n\t"   // a -= m
-	"	subq		$8  , %7					\n\t"   // b -= n
+	"	subq		$64 , %2					\n\t"   // a -= m
+	"	subq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    40(%6) , %%xmm0					\n\t" // i=10, read aa[i]		
+	"	vbroadcastss    40(%2) , %%xmm0					\n\t" // i=10, read aa[i]		
 	"	vshufps		$0xaa  , %%xmm10 , %%xmm10 , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0xaa  , %%xmm14 , %%xmm14 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 40(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 40(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups         0(%6)  , %%xmm4                                 \n\t"   // read a[k]
-	"       vmovups        16(%6)  , %%xmm5                                 \n\t"   // read a[k]
-	"       vmovups        32(%6)  , %%xmm6                                 \n\t"   // read a[k]
+	"       vmovups         0(%2)  , %%xmm4                                 \n\t"   // read a[k]
+	"       vmovups        16(%2)  , %%xmm5                                 \n\t"   // read a[k]
+	"       vmovups        32(%2)  , %%xmm6                                 \n\t"   // read a[k]
 	"       vfnmaddps       %%xmm8  , %%xmm1 , %%xmm4 , %%xmm8              \n\t"
         "       vfnmaddps       %%xmm12 , %%xmm2 , %%xmm4 , %%xmm12             \n\t"
         "       vfnmaddps       %%xmm9  , %%xmm1 , %%xmm5 , %%xmm9              \n\t"
@@ -315,22 +315,22 @@ static void strsm_LN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
         "       vfnmaddps       %%xmm10 , %%xmm1 , %%xmm6 , %%xmm10             \n\t"
         "       vfnmaddps       %%xmm14 , %%xmm2 , %%xmm6 , %%xmm14             \n\t"
 
-	"	subq		$64 , %6					\n\t"   // a -= m
-	"	subq		$8  , %7					\n\t"   // b -= n
+	"	subq		$64 , %2					\n\t"   // a -= m
+	"	subq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    36(%6) , %%xmm0					\n\t" // i=9 , read aa[i]		
+	"	vbroadcastss    36(%2) , %%xmm0					\n\t" // i=9 , read aa[i]		
 	"	vshufps		$0x55  , %%xmm10 , %%xmm10 , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0x55  , %%xmm14 , %%xmm14 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 36(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 36(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups         0(%6)  , %%xmm4                                 \n\t"   // read a[k]
-	"       vmovups        16(%6)  , %%xmm5                                 \n\t"   // read a[k]
-	"       vmovups        32(%6)  , %%xmm6                                 \n\t"   // read a[k]
+	"       vmovups         0(%2)  , %%xmm4                                 \n\t"   // read a[k]
+	"       vmovups        16(%2)  , %%xmm5                                 \n\t"   // read a[k]
+	"       vmovups        32(%2)  , %%xmm6                                 \n\t"   // read a[k]
 	"       vfnmaddps       %%xmm8  , %%xmm1 , %%xmm4 , %%xmm8              \n\t"
         "       vfnmaddps       %%xmm12 , %%xmm2 , %%xmm4 , %%xmm12             \n\t"
         "       vfnmaddps       %%xmm9  , %%xmm1 , %%xmm5 , %%xmm9              \n\t"
@@ -338,179 +338,179 @@ static void strsm_LN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
         "       vfnmaddps       %%xmm10 , %%xmm1 , %%xmm6 , %%xmm10             \n\t"
         "       vfnmaddps       %%xmm14 , %%xmm2 , %%xmm6 , %%xmm14             \n\t"
 
-	"	subq		$64 , %6					\n\t"   // a -= m
-	"	subq		$8  , %7					\n\t"   // b -= n
+	"	subq		$64 , %2					\n\t"   // a -= m
+	"	subq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    32(%6) , %%xmm0					\n\t" // i=8 , read aa[i]		
+	"	vbroadcastss    32(%2) , %%xmm0					\n\t" // i=8 , read aa[i]		
 	"	vshufps		$0x00  , %%xmm10 , %%xmm10 , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0x00  , %%xmm14 , %%xmm14 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 32(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 32(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups         0(%6)  , %%xmm4                                 \n\t"   // read a[k]
-	"       vmovups        16(%6)  , %%xmm5                                 \n\t"   // read a[k]
+	"       vmovups         0(%2)  , %%xmm4                                 \n\t"   // read a[k]
+	"       vmovups        16(%2)  , %%xmm5                                 \n\t"   // read a[k]
 	"       vfnmaddps       %%xmm8  , %%xmm1 , %%xmm4 , %%xmm8              \n\t"
         "       vfnmaddps       %%xmm12 , %%xmm2 , %%xmm4 , %%xmm12             \n\t"
         "       vfnmaddps       %%xmm9  , %%xmm1 , %%xmm5 , %%xmm9              \n\t"
         "       vfnmaddps       %%xmm13 , %%xmm2 , %%xmm5 , %%xmm13             \n\t"
 
-	"	subq		$64 , %6					\n\t"   // a -= m
-	"	subq		$8  , %7					\n\t"   // b -= n
+	"	subq		$64 , %2					\n\t"   // a -= m
+	"	subq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    28(%6) , %%xmm0					\n\t" // i=7 , read aa[i]		
+	"	vbroadcastss    28(%2) , %%xmm0					\n\t" // i=7 , read aa[i]		
 	"	vshufps		$0xff  , %%xmm9  , %%xmm9  , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0xff  , %%xmm13 , %%xmm13 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 28(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 28(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups         0(%6)  , %%xmm4                                 \n\t"   // read a[k]
-	"       vmovups        16(%6)  , %%xmm5                                 \n\t"   // read a[k]
+	"       vmovups         0(%2)  , %%xmm4                                 \n\t"   // read a[k]
+	"       vmovups        16(%2)  , %%xmm5                                 \n\t"   // read a[k]
 	"       vfnmaddps       %%xmm8  , %%xmm1 , %%xmm4 , %%xmm8              \n\t"
         "       vfnmaddps       %%xmm12 , %%xmm2 , %%xmm4 , %%xmm12             \n\t"
         "       vfnmaddps       %%xmm9  , %%xmm1 , %%xmm5 , %%xmm9              \n\t"
         "       vfnmaddps       %%xmm13 , %%xmm2 , %%xmm5 , %%xmm13             \n\t"
 
-	"	subq		$64 , %6					\n\t"   // a -= m
-	"	subq		$8  , %7					\n\t"   // b -= n
+	"	subq		$64 , %2					\n\t"   // a -= m
+	"	subq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    24(%6) , %%xmm0					\n\t" // i=6 , read aa[i]		
+	"	vbroadcastss    24(%2) , %%xmm0					\n\t" // i=6 , read aa[i]		
 	"	vshufps		$0xaa  , %%xmm9  , %%xmm9  , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0xaa  , %%xmm13 , %%xmm13 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 24(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 24(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups         0(%6)  , %%xmm4                                 \n\t"   // read a[k]
-	"       vmovups        16(%6)  , %%xmm5                                 \n\t"   // read a[k]
+	"       vmovups         0(%2)  , %%xmm4                                 \n\t"   // read a[k]
+	"       vmovups        16(%2)  , %%xmm5                                 \n\t"   // read a[k]
 	"       vfnmaddps       %%xmm8  , %%xmm1 , %%xmm4 , %%xmm8              \n\t"
         "       vfnmaddps       %%xmm12 , %%xmm2 , %%xmm4 , %%xmm12             \n\t"
         "       vfnmaddps       %%xmm9  , %%xmm1 , %%xmm5 , %%xmm9              \n\t"
         "       vfnmaddps       %%xmm13 , %%xmm2 , %%xmm5 , %%xmm13             \n\t"
 
-	"	subq		$64 , %6					\n\t"   // a -= m
-	"	subq		$8  , %7					\n\t"   // b -= n
+	"	subq		$64 , %2					\n\t"   // a -= m
+	"	subq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    20(%6) , %%xmm0					\n\t" // i=5 , read aa[i]		
+	"	vbroadcastss    20(%2) , %%xmm0					\n\t" // i=5 , read aa[i]		
 	"	vshufps		$0x55  , %%xmm9  , %%xmm9  , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0x55  , %%xmm13 , %%xmm13 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 20(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 20(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups         0(%6)  , %%xmm4                                 \n\t"   // read a[k]
-	"       vmovups        16(%6)  , %%xmm5                                 \n\t"   // read a[k]
+	"       vmovups         0(%2)  , %%xmm4                                 \n\t"   // read a[k]
+	"       vmovups        16(%2)  , %%xmm5                                 \n\t"   // read a[k]
 	"       vfnmaddps       %%xmm8  , %%xmm1 , %%xmm4 , %%xmm8              \n\t"
         "       vfnmaddps       %%xmm12 , %%xmm2 , %%xmm4 , %%xmm12             \n\t"
         "       vfnmaddps       %%xmm9  , %%xmm1 , %%xmm5 , %%xmm9              \n\t"
         "       vfnmaddps       %%xmm13 , %%xmm2 , %%xmm5 , %%xmm13             \n\t"
 
-	"	subq		$64 , %6					\n\t"   // a -= m
-	"	subq		$8  , %7					\n\t"   // b -= n
+	"	subq		$64 , %2					\n\t"   // a -= m
+	"	subq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    16(%6) , %%xmm0					\n\t" // i=4 , read aa[i]		
+	"	vbroadcastss    16(%2) , %%xmm0					\n\t" // i=4 , read aa[i]		
 	"	vshufps		$0x00  , %%xmm9  , %%xmm9  , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0x00  , %%xmm13 , %%xmm13 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 16(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 16(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups         0(%6)  , %%xmm4                                 \n\t"   // read a[k]
+	"       vmovups         0(%2)  , %%xmm4                                 \n\t"   // read a[k]
 	"       vfnmaddps       %%xmm8  , %%xmm1 , %%xmm4 , %%xmm8              \n\t"
         "       vfnmaddps       %%xmm12 , %%xmm2 , %%xmm4 , %%xmm12             \n\t"
 
-	"	subq		$64 , %6					\n\t"   // a -= m
-	"	subq		$8  , %7					\n\t"   // b -= n
+	"	subq		$64 , %2					\n\t"   // a -= m
+	"	subq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    12(%6) , %%xmm0					\n\t" // i=3 , read aa[i]		
+	"	vbroadcastss    12(%2) , %%xmm0					\n\t" // i=3 , read aa[i]		
 	"	vshufps		$0xff  , %%xmm8  , %%xmm8  , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0xff  , %%xmm12 , %%xmm12 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 12(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 12(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups         0(%6)  , %%xmm4                                 \n\t"   // read a[k]
+	"       vmovups         0(%2)  , %%xmm4                                 \n\t"   // read a[k]
 	"       vfnmaddps       %%xmm8  , %%xmm1 , %%xmm4 , %%xmm8              \n\t"
         "       vfnmaddps       %%xmm12 , %%xmm2 , %%xmm4 , %%xmm12             \n\t"
 
-	"	subq		$64 , %6					\n\t"   // a -= m
-	"	subq		$8  , %7					\n\t"   // b -= n
+	"	subq		$64 , %2					\n\t"   // a -= m
+	"	subq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss     8(%6) , %%xmm0					\n\t" // i=2 , read aa[i]		
+	"	vbroadcastss     8(%2) , %%xmm0					\n\t" // i=2 , read aa[i]		
 	"	vshufps		$0xaa  , %%xmm8  , %%xmm8  , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0xaa  , %%xmm12 , %%xmm12 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  ,  8(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  ,  8(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups         0(%6)  , %%xmm4                                 \n\t"   // read a[k]
+	"       vmovups         0(%2)  , %%xmm4                                 \n\t"   // read a[k]
 	"       vfnmaddps       %%xmm8  , %%xmm1 , %%xmm4 , %%xmm8              \n\t"
         "       vfnmaddps       %%xmm12 , %%xmm2 , %%xmm4 , %%xmm12             \n\t"
 
-	"	subq		$64 , %6					\n\t"   // a -= m
-	"	subq		$8  , %7					\n\t"   // b -= n
+	"	subq		$64 , %2					\n\t"   // a -= m
+	"	subq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss     4(%6) , %%xmm0					\n\t" // i=1 , read aa[i]		
+	"	vbroadcastss     4(%2) , %%xmm0					\n\t" // i=1 , read aa[i]		
 	"	vshufps		$0x55  , %%xmm8  , %%xmm8  , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0x55  , %%xmm12 , %%xmm12 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  ,  4(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  ,  4(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups         0(%6)  , %%xmm4                                 \n\t"   // read a[k]
+	"       vmovups         0(%2)  , %%xmm4                                 \n\t"   // read a[k]
 	"       vfnmaddps       %%xmm8  , %%xmm1 , %%xmm4 , %%xmm8              \n\t"
         "       vfnmaddps       %%xmm12 , %%xmm2 , %%xmm4 , %%xmm12             \n\t"
 
-	"	subq		$64 , %6					\n\t"   // a -= m
-	"	subq		$8  , %7					\n\t"   // b -= n
+	"	subq		$64 , %2					\n\t"   // a -= m
+	"	subq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss     0(%6) , %%xmm0					\n\t" // i=0 , read aa[i]		
+	"	vbroadcastss     0(%2) , %%xmm0					\n\t" // i=0 , read aa[i]		
 	"	vshufps		$0x00  , %%xmm8  , %%xmm8  , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0x00  , %%xmm12 , %%xmm12 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  ,  0(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  ,  0(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
 	"	vzeroupper							\n\t"
 
         :
+          "+r" (n1),     // 0    
+          "+a" (i),      // 1    
+          "+r" (as),     // 2
+          "+r" (bs)      // 3
         :
-          "r" (n1),     // 0    
-          "a" (i),      // 1    
-          "r" (a),      // 2
-          "r" (b),      // 3
           "r" (c),      // 4
           "r" (c1),     // 5
-          "r" (as),     // 6
-          "r" (bs)      // 7
+          "r" (a),      // 6
+          "r" (b)       // 7
         : "cc",
           "%xmm0", "%xmm1", "%xmm2", "%xmm3",
           "%xmm4", "%xmm5", "%xmm6", "%xmm7",
diff --git a/kernel/x86_64/strsm_kernel_LT_bulldozer.c b/kernel/x86_64/strsm_kernel_LT_bulldozer.c
index 0623dddb0c..a4a62491cd 100644
--- a/kernel/x86_64/strsm_kernel_LT_bulldozer.c
+++ b/kernel/x86_64/strsm_kernel_LT_bulldozer.c
@@ -121,12 +121,12 @@ static void strsm_LT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	.align 16							\n\t"
 	"1:									\n\t"
 
-	"	vbroadcastss	(%3,%1,1), %%xmm0				\n\t"	// read b
-	"	vmovups         (%2,%1,8), %%xmm4				\n\t"
-	"	vbroadcastss   4(%3,%1,1), %%xmm1				\n\t"	
-	"	vmovups       16(%2,%1,8), %%xmm5				\n\t"
-	"	vmovups       32(%2,%1,8), %%xmm6				\n\t"
-	"	vmovups       48(%2,%1,8), %%xmm7				\n\t"
+	"	vbroadcastss	(%7,%1,1), %%xmm0				\n\t"	// read b
+	"	vmovups         (%6,%1,8), %%xmm4				\n\t"
+	"	vbroadcastss   4(%7,%1,1), %%xmm1				\n\t"	
+	"	vmovups       16(%6,%1,8), %%xmm5				\n\t"
+	"	vmovups       32(%6,%1,8), %%xmm6				\n\t"
+	"	vmovups       48(%6,%1,8), %%xmm7				\n\t"
 
 	"	vfmaddps	%%xmm8 , %%xmm0 , %%xmm4 , %%xmm8		\n\t"
 	"	vfmaddps	%%xmm12, %%xmm1 , %%xmm4 , %%xmm12		\n\t"
@@ -166,20 +166,20 @@ static void strsm_LT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 
 	"3:									\n\t"	
 
-	"	vbroadcastss     0(%6) , %%xmm0					\n\t" // i=0, read aa[i]		
+	"	vbroadcastss     0(%2) , %%xmm0					\n\t" // i=0, read aa[i]		
 	"	vshufps		$0x00  , %%xmm8  , %%xmm8  , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0x00  , %%xmm12 , %%xmm12 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  ,  0(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  ,  0(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups         0(%6)  , %%xmm4                                 \n\t"   // read a[k]
-	"       vmovups        16(%6)  , %%xmm5                                 \n\t"   // read a[k]
-	"       vmovups        32(%6)  , %%xmm6                                 \n\t"   // read a[k]
-	"       vmovups        48(%6)  , %%xmm7                                 \n\t"   // read a[k]
+	"       vmovups         0(%2)  , %%xmm4                                 \n\t"   // read a[k]
+	"       vmovups        16(%2)  , %%xmm5                                 \n\t"   // read a[k]
+	"       vmovups        32(%2)  , %%xmm6                                 \n\t"   // read a[k]
+	"       vmovups        48(%2)  , %%xmm7                                 \n\t"   // read a[k]
 	"       vfnmaddps       %%xmm8  , %%xmm1 , %%xmm4 , %%xmm8              \n\t"
         "       vfnmaddps       %%xmm12 , %%xmm2 , %%xmm4 , %%xmm12             \n\t"
         "       vfnmaddps       %%xmm9  , %%xmm1 , %%xmm5 , %%xmm9              \n\t"
@@ -189,23 +189,23 @@ static void strsm_LT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
         "       vfnmaddps       %%xmm11 , %%xmm1 , %%xmm7 , %%xmm11             \n\t"
         "       vfnmaddps       %%xmm15 , %%xmm2 , %%xmm7 , %%xmm15             \n\t"
 
-	"	addq		$64 , %6					\n\t"   // a -= m
-	"	addq		$8  , %7					\n\t"   // b -= n
+	"	addq		$64 , %2					\n\t"   // a -= m
+	"	addq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss     4(%6) , %%xmm0					\n\t" // i=1, read aa[i]		
+	"	vbroadcastss     4(%2) , %%xmm0					\n\t" // i=1, read aa[i]		
 	"	vshufps		$0x55  , %%xmm8  , %%xmm8  , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0x55  , %%xmm12 , %%xmm12 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  ,  4(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  ,  4(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups         0(%6)  , %%xmm4                                 \n\t"   // read a[k]
-	"       vmovups        16(%6)  , %%xmm5                                 \n\t"   // read a[k]
-	"       vmovups        32(%6)  , %%xmm6                                 \n\t"   // read a[k]
-	"       vmovups        48(%6)  , %%xmm7                                 \n\t"   // read a[k]
+	"       vmovups         0(%2)  , %%xmm4                                 \n\t"   // read a[k]
+	"       vmovups        16(%2)  , %%xmm5                                 \n\t"   // read a[k]
+	"       vmovups        32(%2)  , %%xmm6                                 \n\t"   // read a[k]
+	"       vmovups        48(%2)  , %%xmm7                                 \n\t"   // read a[k]
 	"       vfnmaddps       %%xmm8  , %%xmm1 , %%xmm4 , %%xmm8              \n\t"
         "       vfnmaddps       %%xmm12 , %%xmm2 , %%xmm4 , %%xmm12             \n\t"
         "       vfnmaddps       %%xmm9  , %%xmm1 , %%xmm5 , %%xmm9              \n\t"
@@ -215,23 +215,23 @@ static void strsm_LT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
         "       vfnmaddps       %%xmm11 , %%xmm1 , %%xmm7 , %%xmm11             \n\t"
         "       vfnmaddps       %%xmm15 , %%xmm2 , %%xmm7 , %%xmm15             \n\t"
 
-	"	addq		$64 , %6					\n\t"   // a -= m
-	"	addq		$8  , %7					\n\t"   // b -= n
+	"	addq		$64 , %2					\n\t"   // a -= m
+	"	addq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss     8(%6) , %%xmm0					\n\t" // i=2, read aa[i]		
+	"	vbroadcastss     8(%2) , %%xmm0					\n\t" // i=2, read aa[i]		
 	"	vshufps		$0xaa  , %%xmm8  , %%xmm8  , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0xaa  , %%xmm12 , %%xmm12 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  ,  8(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  ,  8(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups         0(%6)  , %%xmm4                                 \n\t"   // read a[k]
-	"       vmovups        16(%6)  , %%xmm5                                 \n\t"   // read a[k]
-	"       vmovups        32(%6)  , %%xmm6                                 \n\t"   // read a[k]
-	"       vmovups        48(%6)  , %%xmm7                                 \n\t"   // read a[k]
+	"       vmovups         0(%2)  , %%xmm4                                 \n\t"   // read a[k]
+	"       vmovups        16(%2)  , %%xmm5                                 \n\t"   // read a[k]
+	"       vmovups        32(%2)  , %%xmm6                                 \n\t"   // read a[k]
+	"       vmovups        48(%2)  , %%xmm7                                 \n\t"   // read a[k]
 	"       vfnmaddps       %%xmm8  , %%xmm1 , %%xmm4 , %%xmm8              \n\t"
         "       vfnmaddps       %%xmm12 , %%xmm2 , %%xmm4 , %%xmm12             \n\t"
         "       vfnmaddps       %%xmm9  , %%xmm1 , %%xmm5 , %%xmm9              \n\t"
@@ -241,22 +241,22 @@ static void strsm_LT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
         "       vfnmaddps       %%xmm11 , %%xmm1 , %%xmm7 , %%xmm11             \n\t"
         "       vfnmaddps       %%xmm15 , %%xmm2 , %%xmm7 , %%xmm15             \n\t"
 
-	"	addq		$64 , %6					\n\t"   // a -= m
-	"	addq		$8  , %7					\n\t"   // b -= n
+	"	addq		$64 , %2					\n\t"   // a -= m
+	"	addq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    12(%6) , %%xmm0					\n\t" // i=3, read aa[i]		
+	"	vbroadcastss    12(%2) , %%xmm0					\n\t" // i=3, read aa[i]		
 	"	vshufps		$0xff  , %%xmm8  , %%xmm8  , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0xff  , %%xmm12 , %%xmm12 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 12(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 12(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups        16(%6)  , %%xmm5                                 \n\t"   // read a[k]
-	"       vmovups        32(%6)  , %%xmm6                                 \n\t"   // read a[k]
-	"       vmovups        48(%6)  , %%xmm7                                 \n\t"   // read a[k]
+	"       vmovups        16(%2)  , %%xmm5                                 \n\t"   // read a[k]
+	"       vmovups        32(%2)  , %%xmm6                                 \n\t"   // read a[k]
+	"       vmovups        48(%2)  , %%xmm7                                 \n\t"   // read a[k]
         "       vfnmaddps       %%xmm9  , %%xmm1 , %%xmm5 , %%xmm9              \n\t"
         "       vfnmaddps       %%xmm13 , %%xmm2 , %%xmm5 , %%xmm13             \n\t"
         "       vfnmaddps       %%xmm10 , %%xmm1 , %%xmm6 , %%xmm10             \n\t"
@@ -264,22 +264,22 @@ static void strsm_LT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
         "       vfnmaddps       %%xmm11 , %%xmm1 , %%xmm7 , %%xmm11             \n\t"
         "       vfnmaddps       %%xmm15 , %%xmm2 , %%xmm7 , %%xmm15             \n\t"
 
-	"	addq		$64 , %6					\n\t"   // a -= m
-	"	addq		$8  , %7					\n\t"   // b -= n
+	"	addq		$64 , %2					\n\t"   // a -= m
+	"	addq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    16(%6) , %%xmm0					\n\t" // i=4, read aa[i]		
+	"	vbroadcastss    16(%2) , %%xmm0					\n\t" // i=4, read aa[i]		
 	"	vshufps		$0x00  , %%xmm9  , %%xmm9  , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0x00  , %%xmm13 , %%xmm13 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 16(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 16(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups        16(%6)  , %%xmm5                                 \n\t"   // read a[k]
-	"       vmovups        32(%6)  , %%xmm6                                 \n\t"   // read a[k]
-	"       vmovups        48(%6)  , %%xmm7                                 \n\t"   // read a[k]
+	"       vmovups        16(%2)  , %%xmm5                                 \n\t"   // read a[k]
+	"       vmovups        32(%2)  , %%xmm6                                 \n\t"   // read a[k]
+	"       vmovups        48(%2)  , %%xmm7                                 \n\t"   // read a[k]
         "       vfnmaddps       %%xmm9  , %%xmm1 , %%xmm5 , %%xmm9              \n\t"
         "       vfnmaddps       %%xmm13 , %%xmm2 , %%xmm5 , %%xmm13             \n\t"
         "       vfnmaddps       %%xmm10 , %%xmm1 , %%xmm6 , %%xmm10             \n\t"
@@ -287,22 +287,22 @@ static void strsm_LT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
         "       vfnmaddps       %%xmm11 , %%xmm1 , %%xmm7 , %%xmm11             \n\t"
         "       vfnmaddps       %%xmm15 , %%xmm2 , %%xmm7 , %%xmm15             \n\t"
 
-	"	addq		$64 , %6					\n\t"   // a -= m
-	"	addq		$8  , %7					\n\t"   // b -= n
+	"	addq		$64 , %2					\n\t"   // a -= m
+	"	addq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    20(%6) , %%xmm0					\n\t" // i=5, read aa[i]		
+	"	vbroadcastss    20(%2) , %%xmm0					\n\t" // i=5, read aa[i]		
 	"	vshufps		$0x55  , %%xmm9  , %%xmm9  , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0x55  , %%xmm13 , %%xmm13 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 20(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 20(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups        16(%6)  , %%xmm5                                 \n\t"   // read a[k]
-	"       vmovups        32(%6)  , %%xmm6                                 \n\t"   // read a[k]
-	"       vmovups        48(%6)  , %%xmm7                                 \n\t"   // read a[k]
+	"       vmovups        16(%2)  , %%xmm5                                 \n\t"   // read a[k]
+	"       vmovups        32(%2)  , %%xmm6                                 \n\t"   // read a[k]
+	"       vmovups        48(%2)  , %%xmm7                                 \n\t"   // read a[k]
         "       vfnmaddps       %%xmm9  , %%xmm1 , %%xmm5 , %%xmm9              \n\t"
         "       vfnmaddps       %%xmm13 , %%xmm2 , %%xmm5 , %%xmm13             \n\t"
         "       vfnmaddps       %%xmm10 , %%xmm1 , %%xmm6 , %%xmm10             \n\t"
@@ -310,22 +310,22 @@ static void strsm_LT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
         "       vfnmaddps       %%xmm11 , %%xmm1 , %%xmm7 , %%xmm11             \n\t"
         "       vfnmaddps       %%xmm15 , %%xmm2 , %%xmm7 , %%xmm15             \n\t"
 
-	"	addq		$64 , %6					\n\t"   // a -= m
-	"	addq		$8  , %7					\n\t"   // b -= n
+	"	addq		$64 , %2					\n\t"   // a -= m
+	"	addq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    24(%6) , %%xmm0					\n\t" // i=6, read aa[i]		
+	"	vbroadcastss    24(%2) , %%xmm0					\n\t" // i=6, read aa[i]		
 	"	vshufps		$0xaa  , %%xmm9  , %%xmm9  , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0xaa  , %%xmm13 , %%xmm13 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 24(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 24(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups        16(%6)  , %%xmm5                                 \n\t"   // read a[k]
-	"       vmovups        32(%6)  , %%xmm6                                 \n\t"   // read a[k]
-	"       vmovups        48(%6)  , %%xmm7                                 \n\t"   // read a[k]
+	"       vmovups        16(%2)  , %%xmm5                                 \n\t"   // read a[k]
+	"       vmovups        32(%2)  , %%xmm6                                 \n\t"   // read a[k]
+	"       vmovups        48(%2)  , %%xmm7                                 \n\t"   // read a[k]
         "       vfnmaddps       %%xmm9  , %%xmm1 , %%xmm5 , %%xmm9              \n\t"
         "       vfnmaddps       %%xmm13 , %%xmm2 , %%xmm5 , %%xmm13             \n\t"
         "       vfnmaddps       %%xmm10 , %%xmm1 , %%xmm6 , %%xmm10             \n\t"
@@ -333,179 +333,179 @@ static void strsm_LT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
         "       vfnmaddps       %%xmm11 , %%xmm1 , %%xmm7 , %%xmm11             \n\t"
         "       vfnmaddps       %%xmm15 , %%xmm2 , %%xmm7 , %%xmm15             \n\t"
 
-	"	addq		$64 , %6					\n\t"   // a -= m
-	"	addq		$8  , %7					\n\t"   // b -= n
+	"	addq		$64 , %2					\n\t"   // a -= m
+	"	addq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    28(%6) , %%xmm0					\n\t" // i=7, read aa[i]		
+	"	vbroadcastss    28(%2) , %%xmm0					\n\t" // i=7, read aa[i]		
 	"	vshufps		$0xff  , %%xmm9  , %%xmm9  , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0xff  , %%xmm13 , %%xmm13 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 28(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 28(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups        32(%6)  , %%xmm6                                 \n\t"   // read a[k]
-	"       vmovups        48(%6)  , %%xmm7                                 \n\t"   // read a[k]
+	"       vmovups        32(%2)  , %%xmm6                                 \n\t"   // read a[k]
+	"       vmovups        48(%2)  , %%xmm7                                 \n\t"   // read a[k]
         "       vfnmaddps       %%xmm10 , %%xmm1 , %%xmm6 , %%xmm10             \n\t"
         "       vfnmaddps       %%xmm14 , %%xmm2 , %%xmm6 , %%xmm14             \n\t"
         "       vfnmaddps       %%xmm11 , %%xmm1 , %%xmm7 , %%xmm11             \n\t"
         "       vfnmaddps       %%xmm15 , %%xmm2 , %%xmm7 , %%xmm15             \n\t"
 
-	"	addq		$64 , %6					\n\t"   // a -= m
-	"	addq		$8  , %7					\n\t"   // b -= n
+	"	addq		$64 , %2					\n\t"   // a -= m
+	"	addq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    32(%6) , %%xmm0					\n\t" // i=8, read aa[i]		
+	"	vbroadcastss    32(%2) , %%xmm0					\n\t" // i=8, read aa[i]		
 	"	vshufps		$0x00  , %%xmm10 , %%xmm10 , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0x00  , %%xmm14 , %%xmm14 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 32(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 32(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups        32(%6)  , %%xmm6                                 \n\t"   // read a[k]
-	"       vmovups        48(%6)  , %%xmm7                                 \n\t"   // read a[k]
+	"       vmovups        32(%2)  , %%xmm6                                 \n\t"   // read a[k]
+	"       vmovups        48(%2)  , %%xmm7                                 \n\t"   // read a[k]
         "       vfnmaddps       %%xmm10 , %%xmm1 , %%xmm6 , %%xmm10             \n\t"
         "       vfnmaddps       %%xmm14 , %%xmm2 , %%xmm6 , %%xmm14             \n\t"
         "       vfnmaddps       %%xmm11 , %%xmm1 , %%xmm7 , %%xmm11             \n\t"
         "       vfnmaddps       %%xmm15 , %%xmm2 , %%xmm7 , %%xmm15             \n\t"
 
-	"	addq		$64 , %6					\n\t"   // a -= m
-	"	addq		$8  , %7					\n\t"   // b -= n
+	"	addq		$64 , %2					\n\t"   // a -= m
+	"	addq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    36(%6) , %%xmm0					\n\t" // i=9, read aa[i]		
+	"	vbroadcastss    36(%2) , %%xmm0					\n\t" // i=9, read aa[i]		
 	"	vshufps		$0x55  , %%xmm10 , %%xmm10 , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0x55  , %%xmm14 , %%xmm14 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 36(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 36(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups        32(%6)  , %%xmm6                                 \n\t"   // read a[k]
-	"       vmovups        48(%6)  , %%xmm7                                 \n\t"   // read a[k]
+	"       vmovups        32(%2)  , %%xmm6                                 \n\t"   // read a[k]
+	"       vmovups        48(%2)  , %%xmm7                                 \n\t"   // read a[k]
         "       vfnmaddps       %%xmm10 , %%xmm1 , %%xmm6 , %%xmm10             \n\t"
         "       vfnmaddps       %%xmm14 , %%xmm2 , %%xmm6 , %%xmm14             \n\t"
         "       vfnmaddps       %%xmm11 , %%xmm1 , %%xmm7 , %%xmm11             \n\t"
         "       vfnmaddps       %%xmm15 , %%xmm2 , %%xmm7 , %%xmm15             \n\t"
 
-	"	addq		$64 , %6					\n\t"   // a -= m
-	"	addq		$8  , %7					\n\t"   // b -= n
+	"	addq		$64 , %2					\n\t"   // a -= m
+	"	addq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    40(%6) , %%xmm0					\n\t" // i=10, read aa[i]		
+	"	vbroadcastss    40(%2) , %%xmm0					\n\t" // i=10, read aa[i]		
 	"	vshufps		$0xaa  , %%xmm10 , %%xmm10 , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0xaa  , %%xmm14 , %%xmm14 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 40(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 40(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups        32(%6)  , %%xmm6                                 \n\t"   // read a[k]
-	"       vmovups        48(%6)  , %%xmm7                                 \n\t"   // read a[k]
+	"       vmovups        32(%2)  , %%xmm6                                 \n\t"   // read a[k]
+	"       vmovups        48(%2)  , %%xmm7                                 \n\t"   // read a[k]
         "       vfnmaddps       %%xmm10 , %%xmm1 , %%xmm6 , %%xmm10             \n\t"
         "       vfnmaddps       %%xmm14 , %%xmm2 , %%xmm6 , %%xmm14             \n\t"
         "       vfnmaddps       %%xmm11 , %%xmm1 , %%xmm7 , %%xmm11             \n\t"
         "       vfnmaddps       %%xmm15 , %%xmm2 , %%xmm7 , %%xmm15             \n\t"
 
-	"	addq		$64 , %6					\n\t"   // a -= m
-	"	addq		$8  , %7					\n\t"   // b -= n
+	"	addq		$64 , %2					\n\t"   // a -= m
+	"	addq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    44(%6) , %%xmm0					\n\t" // i=11, read aa[i]		
+	"	vbroadcastss    44(%2) , %%xmm0					\n\t" // i=11, read aa[i]		
 	"	vshufps		$0xff  , %%xmm10 , %%xmm10 , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0xff  , %%xmm14 , %%xmm14 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 44(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 44(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups        48(%6)  , %%xmm7                                 \n\t"   // read a[k]
+	"       vmovups        48(%2)  , %%xmm7                                 \n\t"   // read a[k]
         "       vfnmaddps       %%xmm11 , %%xmm1 , %%xmm7 , %%xmm11             \n\t"
         "       vfnmaddps       %%xmm15 , %%xmm2 , %%xmm7 , %%xmm15             \n\t"
 
-	"	addq		$64 , %6					\n\t"   // a -= m
-	"	addq		$8  , %7					\n\t"   // b -= n
+	"	addq		$64 , %2					\n\t"   // a -= m
+	"	addq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    48(%6) , %%xmm0					\n\t" // i=12, read aa[i]		
+	"	vbroadcastss    48(%2) , %%xmm0					\n\t" // i=12, read aa[i]		
 	"	vshufps		$0x00  , %%xmm11 , %%xmm11 , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0x00  , %%xmm15 , %%xmm15 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 48(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 48(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups        48(%6)  , %%xmm7                                 \n\t"   // read a[k]
+	"       vmovups        48(%2)  , %%xmm7                                 \n\t"   // read a[k]
         "       vfnmaddps       %%xmm11 , %%xmm1 , %%xmm7 , %%xmm11             \n\t"
         "       vfnmaddps       %%xmm15 , %%xmm2 , %%xmm7 , %%xmm15             \n\t"
 
-	"	addq		$64 , %6					\n\t"   // a -= m
-	"	addq		$8  , %7					\n\t"   // b -= n
+	"	addq		$64 , %2					\n\t"   // a -= m
+	"	addq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    52(%6) , %%xmm0					\n\t" // i=13, read aa[i]		
+	"	vbroadcastss    52(%2) , %%xmm0					\n\t" // i=13, read aa[i]		
 	"	vshufps		$0x55  , %%xmm11 , %%xmm11 , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0x55  , %%xmm15 , %%xmm15 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 52(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 52(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups        48(%6)  , %%xmm7                                 \n\t"   // read a[k]
+	"       vmovups        48(%2)  , %%xmm7                                 \n\t"   // read a[k]
         "       vfnmaddps       %%xmm11 , %%xmm1 , %%xmm7 , %%xmm11             \n\t"
         "       vfnmaddps       %%xmm15 , %%xmm2 , %%xmm7 , %%xmm15             \n\t"
 
-	"	addq		$64 , %6					\n\t"   // a -= m
-	"	addq		$8  , %7					\n\t"   // b -= n
+	"	addq		$64 , %2					\n\t"   // a -= m
+	"	addq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    56(%6) , %%xmm0					\n\t" // i=14, read aa[i]		
+	"	vbroadcastss    56(%2) , %%xmm0					\n\t" // i=14, read aa[i]		
 	"	vshufps		$0xaa  , %%xmm11 , %%xmm11 , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0xaa  , %%xmm15 , %%xmm15 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 56(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 56(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
-	"       vmovups        48(%6)  , %%xmm7                                 \n\t"   // read a[k]
+	"       vmovups        48(%2)  , %%xmm7                                 \n\t"   // read a[k]
         "       vfnmaddps       %%xmm11 , %%xmm1 , %%xmm7 , %%xmm11             \n\t"
         "       vfnmaddps       %%xmm15 , %%xmm2 , %%xmm7 , %%xmm15             \n\t"
 
-	"	addq		$64 , %6					\n\t"   // a -= m
-	"	addq		$8  , %7					\n\t"   // b -= n
+	"	addq		$64 , %2					\n\t"   // a -= m
+	"	addq		$8  , %3					\n\t"   // b -= n
 
-	"	vbroadcastss    60(%6) , %%xmm0					\n\t" // i=15, read aa[i]		
+	"	vbroadcastss    60(%2) , %%xmm0					\n\t" // i=15, read aa[i]		
 	"	vshufps		$0xff  , %%xmm11 , %%xmm11 , %%xmm1		\n\t" // extract bb0
 	"	vshufps		$0xff  , %%xmm15 , %%xmm15 , %%xmm2		\n\t" // extract bb1
 	"       vmulps          %%xmm0  , %%xmm1 , %%xmm1                       \n\t"   // bb0 * aa
 	"       vmulps          %%xmm0  , %%xmm2 , %%xmm2                       \n\t"   // bb1 * aa
         "       vmovss          %%xmm1  , 60(%4)                                \n\t"   // c[i] = bb0 * aa
         "       vmovss          %%xmm2  , 60(%5)                                \n\t"   // c[i] = bb1 * aa
-        "       vmovss          %%xmm1  ,   (%7)                        	\n\t"   // b[0] = bb0 * aa
-        "       vmovss          %%xmm2  ,  4(%7)                        	\n\t"   // b[1] = bb1 * aa
+        "       vmovss          %%xmm1  ,   (%3)                        	\n\t"   // b[0] = bb0 * aa
+        "       vmovss          %%xmm2  ,  4(%3)                        	\n\t"   // b[1] = bb1 * aa
 
 	"	vzeroupper							\n\t"
 
         :
+          "+r" (n1),     // 0    
+          "+a" (i),      // 1    
+          "+r" (as),     // 2
+          "+r" (bs)      // 3
         :
-          "r" (n1),     // 0    
-          "a" (i),      // 1    
-          "r" (a),      // 2
-          "r" (b),      // 3
-          "r" (c),      // 4
-          "r" (c1),     // 5
-          "r" (as),     // 6
-          "r" (bs)      // 7
+          "r" (c),       // 4
+          "r" (c1),      // 5
+          "r" (a),       // 6
+          "r" (b)        // 7
         : "cc",
           "%xmm0", "%xmm1", "%xmm2", "%xmm3",
           "%xmm4", "%xmm5", "%xmm6", "%xmm7",
diff --git a/kernel/x86_64/strsm_kernel_RN_bulldozer.c b/kernel/x86_64/strsm_kernel_RN_bulldozer.c
index 4cc557d552..c11c84cec8 100644
--- a/kernel/x86_64/strsm_kernel_RN_bulldozer.c
+++ b/kernel/x86_64/strsm_kernel_RN_bulldozer.c
@@ -121,12 +121,12 @@ static void strsm_RN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	.align 16							\n\t"
 	"1:									\n\t"
 
-	"	vbroadcastss	(%3,%1,1), %%xmm0				\n\t"	// read b
-	"	vmovups         (%2,%1,8), %%xmm4				\n\t"
-	"	vbroadcastss   4(%3,%1,1), %%xmm1				\n\t"	
-	"	vmovups       16(%2,%1,8), %%xmm5				\n\t"
-	"	vmovups       32(%2,%1,8), %%xmm6				\n\t"
-	"	vmovups       48(%2,%1,8), %%xmm7				\n\t"
+	"	vbroadcastss	(%7,%1,1), %%xmm0				\n\t"	// read b
+	"	vmovups         (%6,%1,8), %%xmm4				\n\t"
+	"	vbroadcastss   4(%7,%1,1), %%xmm1				\n\t"	
+	"	vmovups       16(%6,%1,8), %%xmm5				\n\t"
+	"	vmovups       32(%6,%1,8), %%xmm6				\n\t"
+	"	vmovups       48(%6,%1,8), %%xmm7				\n\t"
 
 	"	vfmaddps	%%xmm8 , %%xmm0 , %%xmm4 , %%xmm8		\n\t"
 	"	vfmaddps	%%xmm12, %%xmm1 , %%xmm4 , %%xmm12		\n\t"
@@ -166,18 +166,18 @@ static void strsm_RN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 
 	"3:									\n\t"	// i = 0
 
-	"	vbroadcastss	(%7), %%xmm0					\n\t"	// read bb
-	"	vbroadcastss   4(%7), %%xmm1					\n\t"	// read b
+	"	vbroadcastss	(%3), %%xmm0					\n\t"	// read bb
+	"	vbroadcastss   4(%3), %%xmm1					\n\t"	// read b
 
 	"	vmulps		%%xmm8  ,  %%xmm0 ,  %%xmm8 			\n\t"	// aa * bb 
 	"	vmulps		%%xmm9  ,  %%xmm0 ,  %%xmm9 			\n\t"
 	"	vmulps		%%xmm10 ,  %%xmm0 ,  %%xmm10			\n\t"
 	"	vmulps		%%xmm11 ,  %%xmm0 ,  %%xmm11			\n\t"
 
-	"	vmovups		%%xmm8  ,    (%6)				\n\t"	// write a
-	"	vmovups		%%xmm9  ,  16(%6)				\n\t"
-	"	vmovups		%%xmm10 ,  32(%6)				\n\t"
-	"	vmovups		%%xmm11 ,  48(%6)				\n\t"
+	"	vmovups		%%xmm8  ,    (%2)				\n\t"	// write a
+	"	vmovups		%%xmm9  ,  16(%2)				\n\t"
+	"	vmovups		%%xmm10 ,  32(%2)				\n\t"
+	"	vmovups		%%xmm11 ,  48(%2)				\n\t"
 
 	"	vmovups		%%xmm8  ,    (%4)				\n\t"	// write c0
 	"	vmovups		%%xmm9  ,  16(%4)				\n\t"
@@ -190,20 +190,20 @@ static void strsm_RN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	vfnmaddps	%%xmm15 ,  %%xmm11 , %%xmm1 , %%xmm15		\n\t"   
 
 	"									\n\t" // i = 1
-	"	addq		$8  , %7					\n\t" // b = b + 2
-	"	addq	       $64  , %6					\n\t" // a = a + 16
+	"	addq		$8  , %3					\n\t" // b = b + 2
+	"	addq	       $64  , %2					\n\t" // a = a + 16
 
-	"	vbroadcastss      4(%7), %%xmm0					\n\t"	// read bb
+	"	vbroadcastss      4(%3), %%xmm0					\n\t"	// read bb
 
 	"	vmulps		%%xmm12 ,  %%xmm0 ,  %%xmm12			\n\t"	// aa * bb 
 	"	vmulps		%%xmm13 ,  %%xmm0 ,  %%xmm13			\n\t"	// aa * bb 
 	"	vmulps		%%xmm14 ,  %%xmm0 ,  %%xmm14			\n\t"	// aa * bb 
 	"	vmulps		%%xmm15 ,  %%xmm0 ,  %%xmm15			\n\t"	// aa * bb 
 
-	"	vmovups		%%xmm12 ,    (%6)				\n\t"	// write a
-	"	vmovups		%%xmm13 ,  16(%6)				\n\t"	// write a
-	"	vmovups		%%xmm14 ,  32(%6)				\n\t"	// write a
-	"	vmovups		%%xmm15 ,  48(%6)				\n\t"	// write a
+	"	vmovups		%%xmm12 ,    (%2)				\n\t"	// write a
+	"	vmovups		%%xmm13 ,  16(%2)				\n\t"	// write a
+	"	vmovups		%%xmm14 ,  32(%2)				\n\t"	// write a
+	"	vmovups		%%xmm15 ,  48(%2)				\n\t"	// write a
 
 	"	vmovups		%%xmm12 ,    (%5)				\n\t"	// write c1
 	"	vmovups		%%xmm13 ,  16(%5)				\n\t"	
@@ -213,15 +213,15 @@ static void strsm_RN_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	vzeroupper							\n\t"
 
         :
+          "+r" (n1),     // 0    
+          "+a" (i),      // 1    
+          "+r" (as),     // 2
+          "+r" (bs)      // 3
         :
-          "r" (n1),     // 0    
-          "a" (i),      // 1    
-          "r" (a),      // 2
-          "r" (b),      // 3
-          "r" (c),      // 4
-          "r" (c1),     // 5
-          "r" (as),     // 6
-          "r" (bs)      // 7
+          "r" (c),       // 4
+          "r" (c1),      // 5
+          "r" (a),       // 6
+          "r" (b)        // 7
         : "cc",
           "%xmm0", "%xmm1", "%xmm2", "%xmm3",
           "%xmm4", "%xmm5", "%xmm6", "%xmm7",
diff --git a/kernel/x86_64/strsm_kernel_RT_bulldozer.c b/kernel/x86_64/strsm_kernel_RT_bulldozer.c
index 73f6e8a956..326ca29761 100644
--- a/kernel/x86_64/strsm_kernel_RT_bulldozer.c
+++ b/kernel/x86_64/strsm_kernel_RT_bulldozer.c
@@ -125,12 +125,12 @@ static void strsm_RT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	.align 16							\n\t"
 	"1:									\n\t"
 
-	"	vbroadcastss	(%3,%1,1), %%xmm0				\n\t"	// read b
-	"	vmovups         (%2,%1,8), %%xmm4				\n\t"
-	"	vbroadcastss   4(%3,%1,1), %%xmm1				\n\t"	
-	"	vmovups       16(%2,%1,8), %%xmm5				\n\t"
-	"	vmovups       32(%2,%1,8), %%xmm6				\n\t"
-	"	vmovups       48(%2,%1,8), %%xmm7				\n\t"
+	"	vbroadcastss	(%7,%1,1), %%xmm0				\n\t"	// read b
+	"	vmovups         (%6,%1,8), %%xmm4				\n\t"
+	"	vbroadcastss   4(%7,%1,1), %%xmm1				\n\t"	
+	"	vmovups       16(%6,%1,8), %%xmm5				\n\t"
+	"	vmovups       32(%6,%1,8), %%xmm6				\n\t"
+	"	vmovups       48(%6,%1,8), %%xmm7				\n\t"
 
 	"	vfmaddps	%%xmm8 , %%xmm0 , %%xmm4 , %%xmm8		\n\t"
 	"	vfmaddps	%%xmm12, %%xmm1 , %%xmm4 , %%xmm12		\n\t"
@@ -170,18 +170,18 @@ static void strsm_RT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 
 	"3:									\n\t"	// i = 1
 
-	"	vbroadcastss	(%7), %%xmm1					\n\t"	// read b
-	"	vbroadcastss   4(%7), %%xmm0					\n\t"	// read bb
+	"	vbroadcastss	(%3), %%xmm1					\n\t"	// read b
+	"	vbroadcastss   4(%3), %%xmm0					\n\t"	// read bb
 
 	"	vmulps		%%xmm12 ,  %%xmm0 ,  %%xmm12			\n\t"	// aa * bb 
 	"	vmulps		%%xmm13 ,  %%xmm0 ,  %%xmm13			\n\t"	// aa * bb 
 	"	vmulps		%%xmm14 ,  %%xmm0 ,  %%xmm14			\n\t"	// aa * bb 
 	"	vmulps		%%xmm15 ,  %%xmm0 ,  %%xmm15			\n\t"	// aa * bb 
 
-	"	vmovups		%%xmm12 ,    (%6)				\n\t"	// write a
-	"	vmovups		%%xmm13 ,  16(%6)				\n\t"	// write a
-	"	vmovups		%%xmm14 ,  32(%6)				\n\t"	// write a
-	"	vmovups		%%xmm15 ,  48(%6)				\n\t"	// write a
+	"	vmovups		%%xmm12 ,    (%2)				\n\t"	// write a
+	"	vmovups		%%xmm13 ,  16(%2)				\n\t"	// write a
+	"	vmovups		%%xmm14 ,  32(%2)				\n\t"	// write a
+	"	vmovups		%%xmm15 ,  48(%2)				\n\t"	// write a
 
 	"	vmovups		%%xmm12 ,    (%5)				\n\t"	// write c1
 	"	vmovups		%%xmm13 ,  16(%5)				\n\t"	
@@ -194,20 +194,20 @@ static void strsm_RT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	vfnmaddps	%%xmm11 ,  %%xmm15 , %%xmm1 , %%xmm11		\n\t"   
 
 	"									\n\t" // i = 0
-	"	subq		$8  , %7					\n\t" // b = b - 2
-	"	subq	       $64  , %6					\n\t" // a = a - 16
+	"	subq		$8  , %3					\n\t" // b = b - 2
+	"	subq	       $64  , %2					\n\t" // a = a - 16
 
-	"	vbroadcastss       (%7), %%xmm0					\n\t"	// read bb
+	"	vbroadcastss       (%3), %%xmm0					\n\t"	// read bb
 
 	"	vmulps		%%xmm8  ,  %%xmm0 ,  %%xmm8 			\n\t"	// aa * bb 
 	"	vmulps		%%xmm9  ,  %%xmm0 ,  %%xmm9 			\n\t"
 	"	vmulps		%%xmm10 ,  %%xmm0 ,  %%xmm10			\n\t"
 	"	vmulps		%%xmm11 ,  %%xmm0 ,  %%xmm11			\n\t"
 
-	"	vmovups		%%xmm8  ,    (%6)				\n\t"	// write a
-	"	vmovups		%%xmm9  ,  16(%6)				\n\t"
-	"	vmovups		%%xmm10 ,  32(%6)				\n\t"
-	"	vmovups		%%xmm11 ,  48(%6)				\n\t"
+	"	vmovups		%%xmm8  ,    (%2)				\n\t"	// write a
+	"	vmovups		%%xmm9  ,  16(%2)				\n\t"
+	"	vmovups		%%xmm10 ,  32(%2)				\n\t"
+	"	vmovups		%%xmm11 ,  48(%2)				\n\t"
 
 	"	vmovups		%%xmm8  ,    (%4)				\n\t"	// write c0
 	"	vmovups		%%xmm9  ,  16(%4)				\n\t"
@@ -217,15 +217,15 @@ static void strsm_RT_solve_opt(BLASLONG n, FLOAT *a, FLOAT *b, FLOAT *c, BLASLON
 	"	vzeroupper							\n\t"
 
         :
+          "+r" (n1),     // 0    
+          "+a" (i),      // 1    
+          "+r" (as),     // 2
+          "+r" (bs)      // 3
         :
-          "r" (n1),     // 0    
-          "a" (i),      // 1    
-          "r" (a),      // 2
-          "r" (b),      // 3
-          "r" (c),      // 4
-          "r" (c1),     // 5
-          "r" (as),     // 6
-          "r" (bs)      // 7
+          "r" (c),       // 4
+          "r" (c1),      // 5
+          "r" (a),       // 6
+          "r" (b)        // 7
         : "cc",
           "%xmm0", "%xmm1", "%xmm2", "%xmm3",
           "%xmm4", "%xmm5", "%xmm6", "%xmm7",
diff --git a/kernel/x86_64/zaxpy_microk_bulldozer-2.c b/kernel/x86_64/zaxpy_microk_bulldozer-2.c
index 0e15761f79..15d3679717 100644
--- a/kernel/x86_64/zaxpy_microk_bulldozer-2.c
+++ b/kernel/x86_64/zaxpy_microk_bulldozer-2.c
@@ -113,10 +113,10 @@ static void zaxpy_kernel_4( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"jnz		1b		             \n\t"
 	"vzeroupper					    \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha),  // 4
@@ -180,10 +180,10 @@ static void zaxpy_kernel_4( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"jnz		1b		             \n\t"
 	"vzeroupper					    \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha),  // 4
diff --git a/kernel/x86_64/zaxpy_microk_haswell-2.c b/kernel/x86_64/zaxpy_microk_haswell-2.c
index 30e8b19552..89d23daf32 100644
--- a/kernel/x86_64/zaxpy_microk_haswell-2.c
+++ b/kernel/x86_64/zaxpy_microk_haswell-2.c
@@ -111,10 +111,10 @@ static void zaxpy_kernel_4( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"jnz		1b		             \n\t"
 	"vzeroupper					    \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha),  // 4
diff --git a/kernel/x86_64/zaxpy_microk_sandy-2.c b/kernel/x86_64/zaxpy_microk_sandy-2.c
index 233af143ad..17b8b24f7c 100644
--- a/kernel/x86_64/zaxpy_microk_sandy-2.c
+++ b/kernel/x86_64/zaxpy_microk_sandy-2.c
@@ -99,10 +99,10 @@ static void zaxpy_kernel_4( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"jnz		1b		             \n\t"
 	"vzeroupper					    \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha),  // 4
@@ -176,10 +176,10 @@ static void zaxpy_kernel_4( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"jnz		1b		             \n\t"
 	"vzeroupper					    \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha),  // 4
diff --git a/kernel/x86_64/zaxpy_microk_steamroller-2.c b/kernel/x86_64/zaxpy_microk_steamroller-2.c
index 728d092133..907b1ae009 100644
--- a/kernel/x86_64/zaxpy_microk_steamroller-2.c
+++ b/kernel/x86_64/zaxpy_microk_steamroller-2.c
@@ -113,10 +113,10 @@ static void zaxpy_kernel_4( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"jnz		1b		             \n\t"
 	"vzeroupper					    \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha),  // 4
@@ -180,10 +180,10 @@ static void zaxpy_kernel_4( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha)
 	"jnz		1b		             \n\t"
 	"vzeroupper					    \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (alpha),  // 4
diff --git a/kernel/x86_64/zdot_microk_bulldozer-2.c b/kernel/x86_64/zdot_microk_bulldozer-2.c
index 30a9552d60..db9a48cce8 100644
--- a/kernel/x86_64/zdot_microk_bulldozer-2.c
+++ b/kernel/x86_64/zdot_microk_bulldozer-2.c
@@ -96,10 +96,10 @@ static void zdot_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vmovups       %%xmm4,  16(%4)		\n\t"
 	"vzeroupper					     \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
@@ -175,10 +175,10 @@ static void zdot_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vmovups       %%xmm4,  16(%4)		\n\t"
 	"vzeroupper					     \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/zdot_microk_haswell-2.c b/kernel/x86_64/zdot_microk_haswell-2.c
index 11056a3c16..9f2fc2c1d9 100644
--- a/kernel/x86_64/zdot_microk_haswell-2.c
+++ b/kernel/x86_64/zdot_microk_haswell-2.c
@@ -101,10 +101,10 @@ static void zdot_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vmovups       %%xmm4,  16(%4)		\n\t"
 	"vzeroupper					     \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
@@ -186,10 +186,10 @@ static void zdot_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vmovups       %%xmm4,  16(%4)		\n\t"
 	"vzeroupper					     \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/zdot_microk_sandy-2.c b/kernel/x86_64/zdot_microk_sandy-2.c
index 87c5b03402..33415e26e5 100644
--- a/kernel/x86_64/zdot_microk_sandy-2.c
+++ b/kernel/x86_64/zdot_microk_sandy-2.c
@@ -107,10 +107,10 @@ if ( n < 1280 )
 	"vmovups       %%xmm4,  16(%4)		\n\t"
 	"vzeroupper					     \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
@@ -199,10 +199,10 @@ if ( n < 1280 )
 	"vmovups       %%xmm4,  16(%4)		\n\t"
 	"vzeroupper					     \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/zdot_microk_steamroller-2.c b/kernel/x86_64/zdot_microk_steamroller-2.c
index 325f74ae30..87138fe9a0 100644
--- a/kernel/x86_64/zdot_microk_steamroller-2.c
+++ b/kernel/x86_64/zdot_microk_steamroller-2.c
@@ -95,10 +95,10 @@ static void zdot_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vmovups       %%xmm4,  16(%4)		\n\t"
 	"vzeroupper					     \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
@@ -172,10 +172,10 @@ static void zdot_kernel_8( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *dot)
 	"vmovups       %%xmm4,  16(%4)		\n\t"
 	"vzeroupper					     \n\t"
 
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
+	: 
+          "+r" (i),	// 0	
+	  "+r" (n)  	// 1
+        :
           "r" (x),      // 2
           "r" (y),      // 3
           "r" (dot)     // 4
diff --git a/kernel/x86_64/zscal_microk_bulldozer-2.c b/kernel/x86_64/zscal_microk_bulldozer-2.c
index 03882d6b66..5e733ffdae 100644
--- a/kernel/x86_64/zscal_microk_bulldozer-2.c
+++ b/kernel/x86_64/zscal_microk_bulldozer-2.c
@@ -116,11 +116,11 @@ static void zscal_kernel_8( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+	:
           "r" (alpha)   // 2
-	: "cc", //"%0", "%1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
@@ -208,11 +208,11 @@ static void zscal_kernel_8_zero_r( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+	:
           "r" (alpha)   // 2
-	: "cc", //"%0", "%1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
@@ -285,9 +285,9 @@ static void zscal_kernel_8_zero_i( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+	:
           "r" (alpha)   // 2
 	: "cc", //"%0", "%1",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
@@ -329,10 +329,10 @@ static void zscal_kernel_8_zero( BLASLONG n, FLOAT *alpha, FLOAT *x)
 
 	"vzeroupper					    \n\t"
 
+	: 
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
           "r" (alpha)   // 2
 	: "cc", //"%0", "%1",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
diff --git a/kernel/x86_64/zscal_microk_haswell-2.c b/kernel/x86_64/zscal_microk_haswell-2.c
index d9253c1ed5..8c8f5b75cb 100644
--- a/kernel/x86_64/zscal_microk_haswell-2.c
+++ b/kernel/x86_64/zscal_microk_haswell-2.c
@@ -116,11 +116,11 @@ static void zscal_kernel_8( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+	:
           "r" (alpha)   // 2
-	: "cc", //"%0", "%1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
@@ -208,11 +208,11 @@ static void zscal_kernel_8_zero_r( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+	:
           "r" (alpha)   // 2
-	: "cc", //"%0", "%1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
@@ -285,11 +285,11 @@ static void zscal_kernel_8_zero_i( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+	:
           "r" (alpha)   // 2
-	: "cc", //"%0", "%1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
@@ -330,11 +330,11 @@ static void zscal_kernel_8_zero( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+	:
           "r" (alpha)   // 2
-	: "cc", //"%0", "%1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
diff --git a/kernel/x86_64/zscal_microk_steamroller-2.c b/kernel/x86_64/zscal_microk_steamroller-2.c
index 97b07add65..c9267ee0c3 100644
--- a/kernel/x86_64/zscal_microk_steamroller-2.c
+++ b/kernel/x86_64/zscal_microk_steamroller-2.c
@@ -116,12 +116,12 @@ static void zscal_kernel_8( BLASLONG n, FLOAT *alpha, FLOAT *x)
 
 	"vzeroupper					    \n\t"
 
+	: 
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
           "r" (alpha)   // 2
-	: "cc", //"%0", "%1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
@@ -209,11 +209,11 @@ static void zscal_kernel_8_zero_r( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+	:
           "r" (alpha)   // 2
-	: "cc", //"%0", "%1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
@@ -286,11 +286,11 @@ static void zscal_kernel_8_zero_i( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+	:
           "r" (alpha)   // 2
-	: "cc", //"%0", "%1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
@@ -331,11 +331,11 @@ static void zscal_kernel_8_zero( BLASLONG n, FLOAT *alpha, FLOAT *x)
 	"vzeroupper					    \n\t"
 
 	:
-        : 
-	  "r" (n),  	// 0
-          "r" (x),      // 1
+	  "+r" (n),  	// 0
+          "+r" (x)      // 1
+	:
           "r" (alpha)   // 2
-	: "cc", //"%0", "%1",
+	: "cc",
 	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
diff --git a/kernel/zarch/KERNEL.Z13 b/kernel/zarch/KERNEL.Z13
index add628bfe1..22c7e97032 100644
--- a/kernel/zarch/KERNEL.Z13
+++ b/kernel/zarch/KERNEL.Z13
@@ -1,18 +1,18 @@
 SAMAXKERNEL  = ../arm/amax.c
-DAMAXKERNEL  = ../arm/amax.c
+DAMAXKERNEL  = damax_z13.c
 CAMAXKERNEL  = ../arm/zamax.c
-ZAMAXKERNEL  = ../arm/zamax.c
+ZAMAXKERNEL  = zamax_z13.c
 
 SAMINKERNEL  = ../arm/amin.c
-DAMINKERNEL  = ../arm/amin.c
+DAMINKERNEL  = damin_z13.c
 CAMINKERNEL  = ../arm/zamin.c
-ZAMINKERNEL  = ../arm/zamin.c
+ZAMINKERNEL  = zamin_z13.c
 
 SMAXKERNEL   = ../arm/max.c
-DMAXKERNEL   = ../arm/max.c
+DMAXKERNEL   = dmax_z13.c
 
 SMINKERNEL   = ../arm/min.c
-DMINKERNEL   = ../arm/min.c
+DMINKERNEL   = dmin_z13.c
 
 ISAMAXKERNEL = ../arm/iamax.c
 IDAMAXKERNEL = idamax.c
@@ -25,10 +25,10 @@ ICAMINKERNEL = ../arm/izamin.c
 IZAMINKERNEL = izamin.c
 
 ISMAXKERNEL  = ../arm/imax.c
-IDMAXKERNEL  = ../arm/imax.c
+IDMAXKERNEL  = idmax.c
 
 ISMINKERNEL  = ../arm/imin.c
-IDMINKERNEL  = ../arm/imin.c
+IDMINKERNEL  = idmin.c
 
 SASUMKERNEL  = ../arm/asum.c
 DASUMKERNEL  = dasum.c
diff --git a/kernel/zarch/KERNEL.Z14 b/kernel/zarch/KERNEL.Z14
new file mode 100644
index 0000000000..80f78f48fa
--- /dev/null
+++ b/kernel/zarch/KERNEL.Z14
@@ -0,0 +1,146 @@
+SAMAXKERNEL  = samax.c
+DAMAXKERNEL  = damax.c
+CAMAXKERNEL  = camax.c
+ZAMAXKERNEL  = zamax.c
+
+SAMINKERNEL  = samin.c
+DAMINKERNEL  = damin.c
+CAMINKERNEL  = camin.c
+ZAMINKERNEL  = zamin.c
+
+SMAXKERNEL   = smax.c
+DMAXKERNEL   = dmax.c
+
+SMINKERNEL   = smin.c
+DMINKERNEL   = dmin.c
+
+ISAMAXKERNEL = isamax.c
+IDAMAXKERNEL = idamax.c
+ICAMAXKERNEL = icamax.c
+IZAMAXKERNEL = izamax.c
+
+ISAMINKERNEL = isamin.c
+IDAMINKERNEL = idamin.c
+ICAMINKERNEL = icamin.c
+IZAMINKERNEL = izamin.c
+
+ISMAXKERNEL  = ismax.c
+IDMAXKERNEL  = idmax.c
+
+ISMINKERNEL  = ismin.c
+IDMINKERNEL  = idmin.c
+
+SASUMKERNEL  = sasum.c
+DASUMKERNEL  = dasum.c
+CASUMKERNEL  = casum.c
+ZASUMKERNEL  = zasum.c
+
+SAXPYKERNEL  = saxpy.c
+DAXPYKERNEL  = daxpy.c
+CAXPYKERNEL  = caxpy.c
+ZAXPYKERNEL  = zaxpy.c
+
+SCOPYKERNEL  = scopy.c
+DCOPYKERNEL  = dcopy.c
+CCOPYKERNEL  = ccopy.c
+ZCOPYKERNEL  = zcopy.c
+
+SDOTKERNEL   = sdot.c
+DDOTKERNEL   = ddot.c
+CDOTKERNEL   = cdot.c
+ZDOTKERNEL   = zdot.c
+DSDOTKERNEL  = dsdot.c
+
+SNRM2KERNEL  = ../arm/nrm2.c
+DNRM2KERNEL  = ../arm/nrm2.c
+CNRM2KERNEL  = ../arm/znrm2.c
+ZNRM2KERNEL  = ../arm/znrm2.c
+
+SROTKERNEL   = srot.c
+DROTKERNEL   = drot.c
+CROTKERNEL   = crot.c
+ZROTKERNEL   = zrot.c
+
+SSCALKERNEL  = sscal.c
+DSCALKERNEL  = dscal.c
+CSCALKERNEL  = cscal.c
+ZSCALKERNEL  = zscal.c
+
+SSWAPKERNEL  = sswap.c
+DSWAPKERNEL  = dswap.c
+CSWAPKERNEL  = cswap.c
+ZSWAPKERNEL  = zswap.c
+
+SGEMVNKERNEL = sgemv_n_4.c
+DGEMVNKERNEL = dgemv_n_4.c
+CGEMVNKERNEL = cgemv_n_4.c
+ZGEMVNKERNEL = zgemv_n_4.c
+
+SGEMVTKERNEL = sgemv_t_4.c
+DGEMVTKERNEL = dgemv_t_4.c
+CGEMVTKERNEL = cgemv_t_4.c
+ZGEMVTKERNEL = zgemv_t_4.c
+
+STRMMKERNEL	= strmm8x4V.S
+DTRMMKERNEL	= trmm8x4V.S
+CTRMMKERNEL	= ctrmm4x4V.S
+ZTRMMKERNEL	= ztrmm4x4V.S
+
+SGEMMKERNEL    =  strmm8x4V.S
+SGEMMINCOPY    = ../generic/gemm_ncopy_8.c
+SGEMMITCOPY    = ../generic/gemm_tcopy_8.c
+SGEMMONCOPY    = ../generic/gemm_ncopy_4.c
+SGEMMOTCOPY    = ../generic/gemm_tcopy_4.c
+SGEMMINCOPYOBJ = sgemm_incopy.o
+SGEMMITCOPYOBJ = sgemm_itcopy.o
+SGEMMONCOPYOBJ = sgemm_oncopy.o
+SGEMMOTCOPYOBJ = sgemm_otcopy.o
+
+
+ 
+DGEMMKERNEL    =  gemm8x4V.S
+DGEMMINCOPY    = ../generic/gemm_ncopy_8.c
+DGEMMITCOPY    = ../generic/gemm_tcopy_8.c
+DGEMMONCOPY    = ../generic/gemm_ncopy_4.c
+DGEMMOTCOPY    = ../generic/gemm_tcopy_4.c
+DGEMMINCOPYOBJ = dgemm_incopy.o
+DGEMMITCOPYOBJ = dgemm_itcopy.o
+DGEMMONCOPYOBJ = dgemm_oncopy.o
+DGEMMOTCOPYOBJ = dgemm_otcopy.o
+
+CGEMMKERNEL    = ctrmm4x4V.S
+CGEMMONCOPY    = ../generic/zgemm_ncopy_4.c
+CGEMMOTCOPY    = ../generic/zgemm_tcopy_4.c
+CGEMMONCOPYOBJ =  cgemm_oncopy.o
+CGEMMOTCOPYOBJ =  cgemm_otcopy.o
+
+ZGEMMKERNEL    = ztrmm4x4V.S
+ZGEMMONCOPY    = ../generic/zgemm_ncopy_4.c
+ZGEMMOTCOPY    = ../generic/zgemm_tcopy_4.c
+ZGEMMONCOPYOBJ =  zgemm_oncopy$(TSUFFIX).$(SUFFIX)
+ZGEMMOTCOPYOBJ =  zgemm_otcopy$(TSUFFIX).$(SUFFIX)
+
+STRSMKERNEL_LN	=  ../generic/trsm_kernel_LN.c
+STRSMKERNEL_LT	=  ../generic/trsm_kernel_LT.c
+STRSMKERNEL_RN	=  ../generic/trsm_kernel_RN.c
+STRSMKERNEL_RT	=  ../generic/trsm_kernel_RT.c
+
+DTRSMKERNEL_LN	= ../generic/trsm_kernel_LN.c
+DTRSMKERNEL_LT	= ../generic/trsm_kernel_LT.c
+DTRSMKERNEL_RN	= ../generic/trsm_kernel_RN.c
+DTRSMKERNEL_RT	= ../generic/trsm_kernel_RT.c
+
+CTRSMKERNEL_LN	= ../generic/trsm_kernel_LN.c
+CTRSMKERNEL_LT	= ../generic/trsm_kernel_LT.c
+CTRSMKERNEL_RN	= ../generic/trsm_kernel_RN.c
+CTRSMKERNEL_RT	= ../generic/trsm_kernel_RT.c
+
+ZTRSMKERNEL_LN	= ../generic/trsm_kernel_LN.c
+ZTRSMKERNEL_LT	= ../generic/trsm_kernel_LT.c
+ZTRSMKERNEL_RN	= ../generic/trsm_kernel_RN.c
+ZTRSMKERNEL_RT	= ../generic/trsm_kernel_RT.c
+
+
+
+
+
diff --git a/kernel/zarch/camax.c b/kernel/zarch/camax.c
new file mode 100644
index 0000000000..b10ca4752d
--- /dev/null
+++ b/kernel/zarch/camax.c
@@ -0,0 +1,215 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+#include <math.h>
+
+#define CABS1(x,i) (fabsf(x[i]) + fabsf(x[i + 1]))
+
+static FLOAT camax_kernel_32(BLASLONG n, FLOAT *x) {
+  FLOAT amax;
+
+  __asm__("vlef   %%v0,0(%[x]),0\n\t"
+    "vlef   %%v16,4(%[x]),0\n\t"
+    "vlef   %%v0,8(%[x]),1\n\t"
+    "vlef   %%v16,12(%[x]),1\n\t"
+    "vlef   %%v0,16(%[x]),2\n\t"
+    "vlef   %%v16,20(%[x]),2\n\t"
+    "vlef   %%v0,24(%[x]),3\n\t"
+    "vlef   %%v16,28(%[x]),3\n\t"
+    "vflpsb %%v0,%%v0\n\t"
+    "vflpsb %%v16,%%v16\n\t"
+    "vfasb  %%v0,%%v0,%%v16\n\t"
+    "vleib  %%v1,0,0\n\t"
+    "vleib  %%v1,1,1\n\t"
+    "vleib  %%v1,2,2\n\t"
+    "vleib  %%v1,3,3\n\t"
+    "vleib  %%v1,8,4\n\t"
+    "vleib  %%v1,9,5\n\t"
+    "vleib  %%v1,10,6\n\t"
+    "vleib  %%v1,11,7\n\t"
+    "vleib  %%v1,16,8\n\t"
+    "vleib  %%v1,17,9\n\t"
+    "vleib  %%v1,18,10\n\t"
+    "vleib  %%v1,19,11\n\t"
+    "vleib  %%v1,24,12\n\t"
+    "vleib  %%v1,25,13\n\t"
+    "vleib  %%v1,26,14\n\t"
+    "vleib  %%v1,27,15\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl    %%v16,0(%%r1,%[x])\n\t"
+    "vl    %%v2,16(%%r1,%[x])\n\t"
+    "vpkg  %%v17,%%v16,%%v2\n\t"
+    "vperm %%v16,%%v16,%%v2,%%v1\n\t"
+    "vl    %%v18,32(%%r1,%[x])\n\t"
+    "vl    %%v2,48(%%r1,%[x])\n\t"
+    "vpkg  %%v19,%%v18,%%v2\n\t"
+    "vperm %%v18,%%v18,%%v2,%%v1\n\t"
+    "vl    %%v20,64(%%r1,%[x])\n\t"
+    "vl    %%v2,80(%%r1,%[x])\n\t"
+    "vpkg  %%v21,%%v20,%%v2\n\t"
+    "vperm %%v20,%%v20,%%v2,%%v1\n\t"
+    "vl    %%v22,96(%%r1,%[x])\n\t"
+    "vl    %%v2,112(%%r1,%[x])\n\t"
+    "vpkg  %%v23,%%v22,%%v2\n\t"
+    "vperm %%v22,%%v22,%%v2,%%v1\n\t"
+    "vl    %%v24,128(%%r1,%[x])\n\t"
+    "vl    %%v2,144(%%r1,%[x])\n\t"
+    "vpkg  %%v25,%%v24,%%v2\n\t"
+    "vperm %%v24,%%v24,%%v2,%%v1\n\t"
+    "vl    %%v26,160(%%r1,%[x])\n\t"
+    "vl    %%v2,176(%%r1,%[x])\n\t"
+    "vpkg  %%v27,%%v26,%%v2\n\t"
+    "vperm %%v26,%%v26,%%v2,%%v1\n\t"
+    "vl    %%v28,192(%%r1,%[x])\n\t"
+    "vl    %%v2,208(%%r1,%[x])\n\t"
+    "vpkg  %%v29,%%v28,%%v2\n\t"
+    "vperm %%v28,%%v28,%%v2,%%v1\n\t"
+    "vl    %%v30,224(%%r1,%[x])\n\t"
+    "vl    %%v2,240(%%r1,%[x])\n\t"
+    "vpkg  %%v31,%%v30,%%v2\n\t"
+    "vperm %%v30,%%v30,%%v2,%%v1\n\t"
+    "vflpsb  %%v16,%%v16\n\t"
+    "vflpsb  %%v17,%%v17\n\t"
+    "vflpsb  %%v18,%%v18\n\t"
+    "vflpsb  %%v19,%%v19\n\t"
+    "vflpsb  %%v20,%%v20\n\t"
+    "vflpsb  %%v21,%%v21\n\t"
+    "vflpsb  %%v22,%%v22\n\t"
+    "vflpsb  %%v23,%%v23\n\t"
+    "vflpsb  %%v24,%%v24\n\t"
+    "vflpsb  %%v25,%%v25\n\t"
+    "vflpsb  %%v26,%%v26\n\t"
+    "vflpsb  %%v27,%%v27\n\t"
+    "vflpsb  %%v28,%%v28\n\t"
+    "vflpsb  %%v29,%%v29\n\t"
+    "vflpsb  %%v30,%%v30\n\t"
+    "vflpsb  %%v31,%%v31\n\t"
+    "vfasb %%v16,%%v16,%%v17\n\t"
+    "vfasb %%v18,%%v18,%%v19\n\t"
+    "vfasb %%v20,%%v20,%%v21\n\t"
+    "vfasb %%v22,%%v22,%%v23\n\t"
+    "vfasb %%v24,%%v24,%%v25\n\t"
+    "vfasb %%v26,%%v26,%%v27\n\t"
+    "vfasb %%v28,%%v28,%%v29\n\t"
+    "vfasb %%v30,%%v30,%%v31\n\t"
+    "vfmaxsb  %%v16,%%v16,%%v24,0\n\t"
+    "vfmaxsb  %%v18,%%v18,%%v26,0\n\t"
+    "vfmaxsb  %%v20,%%v20,%%v28,0\n\t"
+    "vfmaxsb  %%v22,%%v22,%%v30,0\n\t"
+    "vfmaxsb  %%v16,%%v16,%%v20,0\n\t"
+    "vfmaxsb  %%v18,%%v18,%%v22,0\n\t"
+    "vfmaxsb  %%v16,%%v16,%%v18,0\n\t"
+    "vfmaxsb  %%v0,%%v0,%%v16,0\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "veslg   %%v16,%%v0,32\n\t"
+    "vfmaxsb %%v0,%%v0,%%v16,0\n\t"
+    "vrepf  %%v16,%%v0,2\n\t"
+    "wfmaxsb %%v0,%%v0,%%v16,0\n\t"
+    "ler    %[amax],%%f0"
+    : [amax] "=f"(amax),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v2", "v16", "v17", "v18", "v19", "v20",
+       "v21", "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
+
+  return amax;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0;
+  FLOAT maxf = 0.0;
+  BLASLONG inc_x2;
+
+  if (n <= 0 || inc_x <= 0)
+    return (maxf);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+
+      maxf = camax_kernel_32(n1, x);
+      ix = n1 * 2;
+      i = n1;
+    } else {
+      maxf = CABS1(x, 0);
+      ix += 2;
+      i++;
+    }
+
+    while (i < n) {
+      if (CABS1(x, ix) > maxf) {
+        maxf = CABS1(x, ix);
+      }
+      ix += 2;
+      i++;
+    }
+    return (maxf);
+
+  } else {
+
+    maxf = CABS1(x, 0);
+    inc_x2 = 2 * inc_x;
+
+    BLASLONG n1 = n & -4;
+    while (i < n1) {
+
+      if (CABS1(x, ix) > maxf) {
+        maxf = CABS1(x, ix);
+      }
+      if (CABS1(x, ix + inc_x2) > maxf) {
+        maxf = CABS1(x, ix + inc_x2);
+      }
+      if (CABS1(x, ix + inc_x2 * 2) > maxf) {
+        maxf = CABS1(x, ix + inc_x2 * 2);
+      }
+      if (CABS1(x, ix + inc_x2 * 3) > maxf) {
+        maxf = CABS1(x, ix + inc_x2 * 3);
+      }
+
+      ix += inc_x2 * 4;
+
+      i += 4;
+
+    }
+
+    while (i < n) {
+      if (CABS1(x, ix) > maxf) {
+        maxf = CABS1(x, ix);
+      }
+      ix += inc_x2;
+      i++;
+    }
+    return (maxf);
+  }
+}
diff --git a/kernel/zarch/camin.c b/kernel/zarch/camin.c
new file mode 100644
index 0000000000..40945fae81
--- /dev/null
+++ b/kernel/zarch/camin.c
@@ -0,0 +1,215 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+#include <math.h>
+
+#define CABS1(x,i) (fabsf(x[i]) + fabsf(x[i + 1]))
+
+static FLOAT camin_kernel_32(BLASLONG n, FLOAT *x) {
+  FLOAT amin;
+
+  __asm__("vlef   %%v0,0(%[x]),0\n\t"
+    "vlef   %%v16,4(%[x]),0\n\t"
+    "vlef   %%v0,8(%[x]),1\n\t"
+    "vlef   %%v16,12(%[x]),1\n\t"
+    "vlef   %%v0,16(%[x]),2\n\t"
+    "vlef   %%v16,20(%[x]),2\n\t"
+    "vlef   %%v0,24(%[x]),3\n\t"
+    "vlef   %%v16,28(%[x]),3\n\t"
+    "vflpsb %%v0,%%v0\n\t"
+    "vflpsb %%v16,%%v16\n\t"
+    "vfasb  %%v0,%%v0,%%v16\n\t"
+    "vleib  %%v1,0,0\n\t"
+    "vleib  %%v1,1,1\n\t"
+    "vleib  %%v1,2,2\n\t"
+    "vleib  %%v1,3,3\n\t"
+    "vleib  %%v1,8,4\n\t"
+    "vleib  %%v1,9,5\n\t"
+    "vleib  %%v1,10,6\n\t"
+    "vleib  %%v1,11,7\n\t"
+    "vleib  %%v1,16,8\n\t"
+    "vleib  %%v1,17,9\n\t"
+    "vleib  %%v1,18,10\n\t"
+    "vleib  %%v1,19,11\n\t"
+    "vleib  %%v1,24,12\n\t"
+    "vleib  %%v1,25,13\n\t"
+    "vleib  %%v1,26,14\n\t"
+    "vleib  %%v1,27,15\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl    %%v16,0(%%r1,%[x])\n\t"
+    "vl    %%v2,16(%%r1,%[x])\n\t"
+    "vpkg  %%v17,%%v16,%%v2\n\t"
+    "vperm %%v16,%%v16,%%v2,%%v1\n\t"
+    "vl    %%v18,32(%%r1,%[x])\n\t"
+    "vl    %%v2,48(%%r1,%[x])\n\t"
+    "vpkg  %%v19,%%v18,%%v2\n\t"
+    "vperm %%v18,%%v18,%%v2,%%v1\n\t"
+    "vl    %%v20,64(%%r1,%[x])\n\t"
+    "vl    %%v2,80(%%r1,%[x])\n\t"
+    "vpkg  %%v21,%%v20,%%v2\n\t"
+    "vperm %%v20,%%v20,%%v2,%%v1\n\t"
+    "vl    %%v22,96(%%r1,%[x])\n\t"
+    "vl    %%v2,112(%%r1,%[x])\n\t"
+    "vpkg  %%v23,%%v22,%%v2\n\t"
+    "vperm %%v22,%%v22,%%v2,%%v1\n\t"
+    "vl    %%v24,128(%%r1,%[x])\n\t"
+    "vl    %%v2,144(%%r1,%[x])\n\t"
+    "vpkg  %%v25,%%v24,%%v2\n\t"
+    "vperm %%v24,%%v24,%%v2,%%v1\n\t"
+    "vl    %%v26,160(%%r1,%[x])\n\t"
+    "vl    %%v2,176(%%r1,%[x])\n\t"
+    "vpkg  %%v27,%%v26,%%v2\n\t"
+    "vperm %%v26,%%v26,%%v2,%%v1\n\t"
+    "vl    %%v28,192(%%r1,%[x])\n\t"
+    "vl    %%v2,208(%%r1,%[x])\n\t"
+    "vpkg  %%v29,%%v28,%%v2\n\t"
+    "vperm %%v28,%%v28,%%v2,%%v1\n\t"
+    "vl    %%v30,224(%%r1,%[x])\n\t"
+    "vl    %%v2,240(%%r1,%[x])\n\t"
+    "vpkg  %%v31,%%v30,%%v2\n\t"
+    "vperm %%v30,%%v30,%%v2,%%v1\n\t"
+    "vflpsb  %%v16,%%v16\n\t"
+    "vflpsb  %%v17,%%v17\n\t"
+    "vflpsb  %%v18,%%v18\n\t"
+    "vflpsb  %%v19,%%v19\n\t"
+    "vflpsb  %%v20,%%v20\n\t"
+    "vflpsb  %%v21,%%v21\n\t"
+    "vflpsb  %%v22,%%v22\n\t"
+    "vflpsb  %%v23,%%v23\n\t"
+    "vflpsb  %%v24,%%v24\n\t"
+    "vflpsb  %%v25,%%v25\n\t"
+    "vflpsb  %%v26,%%v26\n\t"
+    "vflpsb  %%v27,%%v27\n\t"
+    "vflpsb  %%v28,%%v28\n\t"
+    "vflpsb  %%v29,%%v29\n\t"
+    "vflpsb  %%v30,%%v30\n\t"
+    "vflpsb  %%v31,%%v31\n\t"
+    "vfasb %%v16,%%v16,%%v17\n\t"
+    "vfasb %%v18,%%v18,%%v19\n\t"
+    "vfasb %%v20,%%v20,%%v21\n\t"
+    "vfasb %%v22,%%v22,%%v23\n\t"
+    "vfasb %%v24,%%v24,%%v25\n\t"
+    "vfasb %%v26,%%v26,%%v27\n\t"
+    "vfasb %%v28,%%v28,%%v29\n\t"
+    "vfasb %%v30,%%v30,%%v31\n\t"
+    "vfminsb  %%v16,%%v16,%%v24,0\n\t"
+    "vfminsb  %%v18,%%v18,%%v26,0\n\t"
+    "vfminsb  %%v20,%%v20,%%v28,0\n\t"
+    "vfminsb  %%v22,%%v22,%%v30,0\n\t"
+    "vfminsb  %%v16,%%v16,%%v20,0\n\t"
+    "vfminsb  %%v18,%%v18,%%v22,0\n\t"
+    "vfminsb  %%v16,%%v16,%%v18,0\n\t"
+    "vfminsb  %%v0,%%v0,%%v16,0\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "veslg   %%v16,%%v0,32\n\t"
+    "vfminsb %%v0,%%v0,%%v16,0\n\t"
+    "vrepf  %%v16,%%v0,2\n\t"
+    "wfminsb %%v0,%%v0,%%v16,0\n\t"
+    "ler    %[amin],%%f0"
+    : [amin] "=f"(amin),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v2", "v16", "v17", "v18", "v19", "v20",
+       "v21", "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
+
+  return amin;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0;
+  FLOAT minf = 0.0;
+  BLASLONG inc_x2;
+
+  if (n <= 0 || inc_x <= 0)
+    return (minf);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+
+      minf = camin_kernel_32(n1, x);
+      ix = n1 * 2;
+      i = n1;
+    } else {
+      minf = CABS1(x, 0);
+      ix += 2;
+      i++;
+    }
+
+    while (i < n) {
+      if (CABS1(x, ix) < minf) {
+        minf = CABS1(x, ix);
+      }
+      ix += 2;
+      i++;
+    }
+    return (minf);
+
+  } else {
+
+    minf = CABS1(x, 0);
+    inc_x2 = 2 * inc_x;
+
+    BLASLONG n1 = n & -4;
+    while (i < n1) {
+
+      if (CABS1(x, ix) < minf) {
+        minf = CABS1(x, ix);
+      }
+      if (CABS1(x, ix + inc_x2) < minf) {
+        minf = CABS1(x, ix + inc_x2);
+      }
+      if (CABS1(x, ix + inc_x2 * 2) < minf) {
+        minf = CABS1(x, ix + inc_x2 * 2);
+      }
+      if (CABS1(x, ix + inc_x2 * 3) < minf) {
+        minf = CABS1(x, ix + inc_x2 * 3);
+      }
+
+      ix += inc_x2 * 4;
+
+      i += 4;
+
+    }
+
+    while (i < n) {
+      if (CABS1(x, ix) < minf) {
+        minf = CABS1(x, ix);
+      }
+      ix += inc_x2;
+      i++;
+    }
+    return (minf);
+  }
+}
diff --git a/kernel/zarch/casum.c b/kernel/zarch/casum.c
new file mode 100644
index 0000000000..e28f2018c7
--- /dev/null
+++ b/kernel/zarch/casum.c
@@ -0,0 +1,155 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+#include <math.h>
+
+#define ABS fabsf
+
+static FLOAT casum_kernel_32(BLASLONG n, FLOAT *x) {
+  FLOAT asum;
+
+  __asm__("vzero   %%v24\n\t"
+    "vzero   %%v25\n\t"
+    "vzero   %%v26\n\t"
+    "vzero   %%v27\n\t"
+    "vzero   %%v28\n\t"
+    "vzero   %%v29\n\t"
+    "vzero   %%v30\n\t"
+    "vzero   %%v31\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd  1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16, 0(%%r1,%[x])\n\t"
+    "vl  %%v17, 16(%%r1,%[x])\n\t"
+    "vl  %%v18, 32(%%r1,%[x])\n\t"
+    "vl  %%v19, 48(%%r1,%[x])\n\t"
+    "vl  %%v20, 64(%%r1,%[x])\n\t"
+    "vl  %%v21, 80(%%r1,%[x])\n\t"
+    "vl  %%v22, 96(%%r1,%[x])\n\t"
+    "vl  %%v23, 112(%%r1,%[x])\n\t"
+    "vflpsb  %%v16, %%v16\n\t"
+    "vflpsb  %%v17, %%v17\n\t"
+    "vflpsb  %%v18, %%v18\n\t"
+    "vflpsb  %%v19, %%v19\n\t"
+    "vflpsb  %%v20, %%v20\n\t"
+    "vflpsb  %%v21, %%v21\n\t"
+    "vflpsb  %%v22, %%v22\n\t"
+    "vflpsb  %%v23, %%v23\n\t"
+    "vfasb   %%v24,%%v24,%%v16\n\t"
+    "vfasb   %%v25,%%v25,%%v17\n\t"
+    "vfasb   %%v26,%%v26,%%v18\n\t"
+    "vfasb   %%v27,%%v27,%%v19\n\t"
+    "vfasb   %%v28,%%v28,%%v20\n\t"
+    "vfasb   %%v29,%%v29,%%v21\n\t"
+    "vfasb   %%v30,%%v30,%%v22\n\t"
+    "vfasb   %%v31,%%v31,%%v23\n\t"
+    "vl  %%v16, 128(%%r1,%[x])\n\t"
+    "vl  %%v17, 144(%%r1,%[x])\n\t"
+    "vl  %%v18, 160(%%r1,%[x])\n\t"
+    "vl  %%v19, 176(%%r1,%[x])\n\t"
+    "vl  %%v20, 192(%%r1,%[x])\n\t"
+    "vl  %%v21, 208(%%r1,%[x])\n\t"
+    "vl  %%v22, 224(%%r1,%[x])\n\t"
+    "vl  %%v23, 240(%%r1,%[x])\n\t"
+    "vflpsb  %%v16, %%v16\n\t"
+    "vflpsb  %%v17, %%v17\n\t"
+    "vflpsb  %%v18, %%v18\n\t"
+    "vflpsb  %%v19, %%v19\n\t"
+    "vflpsb  %%v20, %%v20\n\t"
+    "vflpsb  %%v21, %%v21\n\t"
+    "vflpsb  %%v22, %%v22\n\t"
+    "vflpsb  %%v23, %%v23\n\t"
+    "vfasb   %%v24,%%v24,%%v16\n\t"
+    "vfasb   %%v25,%%v25,%%v17\n\t"
+    "vfasb   %%v26,%%v26,%%v18\n\t"
+    "vfasb   %%v27,%%v27,%%v19\n\t"
+    "vfasb   %%v28,%%v28,%%v20\n\t"
+    "vfasb   %%v29,%%v29,%%v21\n\t"
+    "vfasb   %%v30,%%v30,%%v22\n\t"
+    "vfasb   %%v31,%%v31,%%v23\n\t"
+    "agfi  %%r1,256\n\t"
+    "brctg %[n],0b\n\t"
+    "vfasb   %%v24,%%v24,%%v25\n\t"
+    "vfasb   %%v24,%%v24,%%v26\n\t"
+    "vfasb   %%v24,%%v24,%%v27\n\t"
+    "vfasb   %%v24,%%v24,%%v28\n\t"
+    "vfasb   %%v24,%%v24,%%v29\n\t"
+    "vfasb   %%v24,%%v24,%%v30\n\t"
+    "vfasb   %%v24,%%v24,%%v31\n\t"
+    "veslg   %%v25,%%v24,32\n\t"
+    "vfasb   %%v24,%%v24,%%v25\n\t"
+    "vrepf   %%v25,%%v24,2\n\t"
+    "vfasb   %%v24,%%v24,%%v25\n\t"
+    "vstef   %%v24,%[asum],0"
+    : [asum] "=Q"(asum),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23",
+       "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return asum;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG ip = 0;
+  FLOAT sumf = 0.0;
+  BLASLONG n1;
+  BLASLONG inc_x2;
+
+  if (n <= 0 || inc_x <= 0)
+    return (sumf);
+
+  if (inc_x == 1) {
+
+    n1 = n & -32;
+    if (n1 > 0) {
+
+      sumf = casum_kernel_32(n1, x);
+      i = n1;
+      ip = 2 * n1;
+    }
+
+    while (i < n) {
+      sumf += ABS(x[ip]) + ABS(x[ip + 1]);
+      i++;
+      ip += 2;
+    }
+
+  } else {
+    inc_x2 = 2 * inc_x;
+
+    while (i < n) {
+      sumf += ABS(x[ip]) + ABS(x[ip + 1]);
+      ip += inc_x2;
+      i++;
+    }
+
+  }
+  return (sumf);
+}
diff --git a/kernel/zarch/caxpy.c b/kernel/zarch/caxpy.c
new file mode 100644
index 0000000000..14a124ae25
--- /dev/null
+++ b/kernel/zarch/caxpy.c
@@ -0,0 +1,166 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static void caxpy_kernel_16(BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha) {
+  __asm__(
+#if !defined(CONJ)
+    "vlrepf %%v0,0(%[alpha])\n\t"
+    "vlef   %%v1,4(%[alpha]),0\n\t"
+    "vlef   %%v1,4(%[alpha]),2\n\t"
+    "vflcsb %%v1,%%v1\n\t"
+    "vlef   %%v1,4(%[alpha]),1\n\t"
+    "vlef   %%v1,4(%[alpha]),3\n\t"
+#else
+    "vlef   %%v0,0(%[alpha]),1\n\t"
+    "vlef   %%v0,0(%[alpha]),3\n\t"
+    "vflcsb %%v0,%%v0\n\t"
+    "vlef   %%v0,0(%[alpha]),0\n\t"
+    "vlef   %%v0,0(%[alpha]),2\n\t"
+    "vlrepf %%v1,4(%[alpha])\n\t"
+#endif
+    "srlg %[n],%[n],4\n\t"
+    "xgr  %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "pfd 2, 1024(%%r1,%[y])\n\t"
+    "vl   %%v8,0(%%r1,%[x])\n\t"
+    "vl   %%v9,16(%%r1,%[x])\n\t"
+    "vl   %%v10,32(%%r1,%[x])\n\t"
+    "vl   %%v11,48(%%r1,%[x])\n\t"
+    "vl   %%v12,0(%%r1,%[y])\n\t"
+    "vl   %%v13,16(%%r1,%[y])\n\t"
+    "vl   %%v14,32(%%r1,%[y])\n\t"
+    "vl   %%v15,48(%%r1,%[y])\n\t"
+    "vl   %%v16,64(%%r1,%[x])\n\t"
+    "vl   %%v17,80(%%r1,%[x])\n\t"
+    "vl   %%v18,96(%%r1,%[x])\n\t"
+    "vl   %%v19,112(%%r1,%[x])\n\t"
+    "vl   %%v20,64(%%r1,%[y])\n\t"
+    "vl   %%v21,80(%%r1,%[y])\n\t"
+    "vl   %%v22,96(%%r1,%[y])\n\t"
+    "vl   %%v23,112(%%r1,%[y])\n\t"
+    "verllg   %%v24,%%v8,32\n\t"
+    "verllg   %%v25,%%v9,32\n\t"
+    "verllg   %%v26,%%v10,32\n\t"
+    "verllg   %%v27,%%v11,32\n\t"
+    "verllg   %%v28,%%v16,32\n\t"
+    "verllg   %%v29,%%v17,32\n\t"
+    "verllg   %%v30,%%v18,32\n\t"
+    "verllg   %%v31,%%v19,32\n\t"
+    "vfmasb %%v8,%%v8,%%v0,%%v12\n\t"
+    "vfmasb %%v9,%%v9,%%v0,%%v13\n\t"
+    "vfmasb %%v10,%%v10,%%v0,%%v14\n\t"
+    "vfmasb %%v11,%%v11,%%v0,%%v15\n\t"
+    "vfmasb %%v16,%%v16,%%v0,%%v20\n\t"
+    "vfmasb %%v17,%%v17,%%v0,%%v21\n\t"
+    "vfmasb %%v18,%%v18,%%v0,%%v22\n\t"
+    "vfmasb %%v19,%%v19,%%v0,%%v23\n\t"
+    "vfmasb %%v8,%%v24,%%v1,%%v8\n\t"
+    "vfmasb %%v9,%%v25,%%v1,%%v9\n\t"
+    "vfmasb %%v10,%%v26,%%v1,%%v10\n\t"
+    "vfmasb %%v11,%%v27,%%v1,%%v11\n\t"
+    "vfmasb %%v16,%%v28,%%v1,%%v16\n\t"
+    "vfmasb %%v17,%%v29,%%v1,%%v17\n\t"
+    "vfmasb %%v18,%%v30,%%v1,%%v18\n\t"
+    "vfmasb %%v19,%%v31,%%v1,%%v19\n\t"
+    "vst %%v8,0(%%r1,%[y])\n\t"
+    "vst %%v9,16(%%r1,%[y])\n\t"
+    "vst %%v10,32(%%r1,%[y])\n\t"
+    "vst %%v11,48(%%r1,%[y])\n\t"
+    "vst %%v16,64(%%r1,%[y])\n\t"
+    "vst %%v17,80(%%r1,%[y])\n\t"
+    "vst %%v18,96(%%r1,%[y])\n\t"
+    "vst %%v19,112(%%r1,%[y])\n\t"
+    "agfi  %%r1,128\n\t"
+    "brctg %[n],0b"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) y),[n] "+&r"(n)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x),
+       "m"(*(const struct { FLOAT x[2]; } *) alpha),[alpha] "a"(alpha)
+    : "cc", "r1", "v0", "v1", "v8", "v9", "v10", "v11", "v12", "v13",
+       "v14", "v15", "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23",
+       "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+}
+
+int CNAME(BLASLONG n, BLASLONG dummy0, BLASLONG dummy1, FLOAT da_r, FLOAT da_i,
+          FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *dummy,
+          BLASLONG dummy2) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
+  FLOAT da[2] __attribute__ ((aligned(16)));
+
+  if (n <= 0)
+    return (0);
+
+  if ((inc_x == 1) && (inc_y == 1)) {
+
+    BLASLONG n1 = n & -16;
+
+    if (n1) {
+      da[0] = da_r;
+      da[1] = da_i;
+      caxpy_kernel_16(n1, x, y, da);
+      ix = 2 * n1;
+    }
+    i = n1;
+    while (i < n) {
+#if !defined(CONJ)
+      y[ix] += (da_r * x[ix] - da_i * x[ix + 1]);
+      y[ix + 1] += (da_r * x[ix + 1] + da_i * x[ix]);
+#else
+      y[ix] += (da_r * x[ix] + da_i * x[ix + 1]);
+      y[ix + 1] -= (da_r * x[ix + 1] - da_i * x[ix]);
+#endif
+      i++;
+      ix += 2;
+
+    }
+    return (0);
+
+  }
+
+  inc_x *= 2;
+  inc_y *= 2;
+
+  while (i < n) {
+
+#if !defined(CONJ)
+    y[iy] += (da_r * x[ix] - da_i * x[ix + 1]);
+    y[iy + 1] += (da_r * x[ix + 1] + da_i * x[ix]);
+#else
+    y[iy] += (da_r * x[ix] + da_i * x[ix + 1]);
+    y[iy + 1] -= (da_r * x[ix + 1] - da_i * x[ix]);
+#endif
+    ix += inc_x;
+    iy += inc_y;
+    i++;
+
+  }
+  return (0);
+
+}
diff --git a/kernel/zarch/ccopy.c b/kernel/zarch/ccopy.c
new file mode 100644
index 0000000000..0a5e03992a
--- /dev/null
+++ b/kernel/zarch/ccopy.c
@@ -0,0 +1,88 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static void ccopy_kernel_32(BLASLONG n, FLOAT *x, FLOAT *y) {
+  __asm__("srlg %[n],%[n],5\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%[x])\n\t"
+    "pfd 2, 1024(%[y])\n\t"
+    "mvc 0(256,%[y]),0(%[x])\n\t"
+    "la  %[x],256(%[x])\n\t"
+    "la  %[y],256(%[y])\n\t"
+    "brctg %[n],0b"
+    : "=m"(*(struct { FLOAT x[n * 2]; } *) y),[x] "+&a"(x),[y] "+&a"(y),
+       [n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n * 2]; } *) x)
+    : "cc");
+}
+
+int CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
+
+  if (n <= 0)
+    return (0);
+
+  if ((inc_x == 1) && (inc_y == 1)) {
+
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+      ccopy_kernel_32(n1, x, y);
+      i = n1;
+      ix = n1 * 2;
+      iy = n1 * 2;
+    }
+
+    while (i < n) {
+      y[iy] = x[iy];
+      y[iy + 1] = x[ix + 1];
+      ix += 2;
+      iy += 2;
+      i++;
+
+    }
+
+  } else {
+
+    BLASLONG inc_x2 = 2 * inc_x;
+    BLASLONG inc_y2 = 2 * inc_y;
+
+    while (i < n) {
+      y[iy] = x[ix];
+      y[iy + 1] = x[ix + 1];
+      ix += inc_x2;
+      iy += inc_y2;
+      i++;
+
+    }
+
+  }
+
+  return (0);
+}
diff --git a/kernel/zarch/cdot.c b/kernel/zarch/cdot.c
new file mode 100644
index 0000000000..d90f9c8712
--- /dev/null
+++ b/kernel/zarch/cdot.c
@@ -0,0 +1,176 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static void cdot_kernel_16(BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *d) {
+  __asm__("vzero %%v24\n\t"
+    "vzero %%v25\n\t"
+    "vzero %%v26\n\t"
+    "vzero %%v27\n\t"
+    "vzero %%v28\n\t"
+    "vzero %%v29\n\t"
+    "vzero %%v30\n\t"
+    "vzero %%v31\n\t"
+    "srlg %[n],%[n],4\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "pfd 1, 1024(%%r1,%[y])\n\t"
+    "vl  %%v16,  0(%%r1,%[x])\n\t"
+    "vl  %%v17, 16(%%r1,%[x])\n\t"
+    "vl  %%v18, 32(%%r1,%[x])\n\t"
+    "vl  %%v19, 48(%%r1,%[x])\n\t"
+    "vl  %%v0,  0(%%r1,%[y])\n\t"
+    "vl  %%v1, 16(%%r1,%[y])\n\t"
+    "vl  %%v2, 32(%%r1,%[y])\n\t"
+    "vl  %%v3, 48(%%r1,%[y])\n\t"
+    "verllg   %%v20,%%v16,32\n\t"
+    "verllg   %%v21,%%v17,32\n\t"
+    "verllg   %%v22,%%v18,32\n\t"
+    "verllg   %%v23,%%v19,32\n\t"
+    "vfmasb    %%v24,%%v16,%%v0,%%v24\n\t"
+    "vfmasb    %%v25,%%v20,%%v0,%%v25\n\t"
+    "vfmasb    %%v26,%%v17,%%v1,%%v26\n\t"
+    "vfmasb    %%v27,%%v21,%%v1,%%v27\n\t"
+    "vfmasb    %%v28,%%v18,%%v2,%%v28\n\t"
+    "vfmasb    %%v29,%%v22,%%v2,%%v29\n\t"
+    "vfmasb    %%v30,%%v19,%%v3,%%v30\n\t"
+    "vfmasb    %%v31,%%v23,%%v3,%%v31\n\t"
+    "vl  %%v16, 64(%%r1,%[x])\n\t"
+    "vl  %%v17, 80(%%r1,%[x])\n\t"
+    "vl  %%v18, 96(%%r1,%[x])\n\t"
+    "vl  %%v19, 112(%%r1,%[x])\n\t"
+    "vl  %%v0, 64(%%r1,%[y])\n\t"
+    "vl  %%v1, 80(%%r1,%[y])\n\t"
+    "vl  %%v2, 96(%%r1,%[y])\n\t"
+    "vl  %%v3, 112(%%r1,%[y])\n\t"
+    "verllg   %%v20,%%v16,32\n\t"
+    "verllg   %%v21,%%v17,32\n\t"
+    "verllg   %%v22,%%v18,32\n\t"
+    "verllg   %%v23,%%v19,32\n\t"
+    "vfmasb    %%v24,%%v16,%%v0,%%v24\n\t"
+    "vfmasb    %%v25,%%v20,%%v0,%%v25\n\t"
+    "vfmasb    %%v26,%%v17,%%v1,%%v26\n\t"
+    "vfmasb    %%v27,%%v21,%%v1,%%v27\n\t"
+    "vfmasb    %%v28,%%v18,%%v2,%%v28\n\t"
+    "vfmasb    %%v29,%%v22,%%v2,%%v29\n\t"
+    "vfmasb    %%v30,%%v19,%%v3,%%v30\n\t"
+    "vfmasb    %%v31,%%v23,%%v3,%%v31\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %[n],0b\n\t"
+    "vfasb  %%v24,%%v24,%%v26\n\t"
+    "vfasb  %%v24,%%v24,%%v28\n\t"
+    "vfasb  %%v24,%%v24,%%v30\n\t"
+    "vrepg  %%v26,%%v24,1\n\t"
+    "vfasb  %%v24,%%v24,%%v26\n\t"
+    "vfasb  %%v25,%%v25,%%v27\n\t"
+    "vfasb  %%v25,%%v25,%%v29\n\t"
+    "vfasb  %%v25,%%v25,%%v31\n\t"
+    "vrepg  %%v27,%%v25,1\n\t"
+    "vfasb  %%v25,%%v25,%%v27\n\t"
+    "vstef  %%v24,0(%[d]),0\n\t"
+    "vstef  %%v24,4(%[d]),1\n\t"
+    "vstef  %%v25,8(%[d]),1\n\t"
+    "vstef  %%v25,12(%[d]),0"
+    : "=m"(*(struct { FLOAT x[4]; } *) d),[n] "+&r"(n)
+    : [d] "a"(d), "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) y),[y] "a"(y)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v16", "v17", "v18", "v19", "v20",
+       "v21", "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
+}
+
+OPENBLAS_COMPLEX_FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y,
+                             BLASLONG inc_y) {
+  BLASLONG i;
+  BLASLONG ix, iy;
+  OPENBLAS_COMPLEX_FLOAT result;
+  FLOAT dot[4] __attribute__ ((aligned(16))) = {
+  0.0, 0.0, 0.0, 0.0};
+
+  if (n <= 0) {
+    CREAL(result) = 0.0;
+    CIMAG(result) = 0.0;
+    return (result);
+
+  }
+
+  if ((inc_x == 1) && (inc_y == 1)) {
+
+    BLASLONG n1 = n & -16;
+
+    if (n1)
+      cdot_kernel_16(n1, x, y, dot);
+
+    i = n1;
+    BLASLONG j = i * 2;
+
+    while (i < n) {
+
+      dot[0] += x[j] * y[j];
+      dot[1] += x[j + 1] * y[j + 1];
+      dot[2] += x[j] * y[j + 1];
+      dot[3] += x[j + 1] * y[j];
+
+      j += 2;
+      i++;
+
+    }
+
+  } else {
+    i = 0;
+    ix = 0;
+    iy = 0;
+    inc_x <<= 1;
+    inc_y <<= 1;
+    while (i < n) {
+
+      dot[0] += x[ix] * y[iy];
+      dot[1] += x[ix + 1] * y[iy + 1];
+      dot[2] += x[ix] * y[iy + 1];
+      dot[3] += x[ix + 1] * y[iy];
+
+      ix += inc_x;
+      iy += inc_y;
+      i++;
+
+    }
+  }
+
+#if !defined(CONJ)
+  CREAL(result) = dot[0] - dot[1];
+  CIMAG(result) = dot[2] + dot[3];
+#else
+  CREAL(result) = dot[0] + dot[1];
+  CIMAG(result) = dot[2] - dot[3];
+
+#endif
+
+  return (result);
+
+}
diff --git a/kernel/zarch/cgemv_n_4.c b/kernel/zarch/cgemv_n_4.c
new file mode 100644
index 0000000000..5c36bc3383
--- /dev/null
+++ b/kernel/zarch/cgemv_n_4.c
@@ -0,0 +1,752 @@
+/***************************************************************************
+Copyright (c) 2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+#define NBMAX 2048
+
+static void cgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) {
+  register FLOAT *ap0 = ap[0];
+  register FLOAT *ap1 = ap[1];
+  register FLOAT *ap2 = ap[2];
+  register FLOAT *ap3 = ap[3];
+
+  __asm__("vlrepg     %%v16,0(%[x])\n\t"
+    "vlrepg     %%v17,8(%[x])\n\t"
+    "vlrepg     %%v18,16(%[x])\n\t"
+    "vlrepg     %%v19,24(%[x])\n\t"
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+    "vlef   %%v20,4(%[x]),0\n\t"
+    "vlef   %%v20,4(%[x]),2\n\t"
+    "vflcsb %%v20,%%v20\n\t"
+    "vlef   %%v20,0(%[x]),1\n\t"
+    "vlef   %%v20,0(%[x]),3\n\t"
+    "vlef   %%v21,12(%[x]),0\n\t"
+    "vlef   %%v21,12(%[x]),2\n\t"
+    "vflcsb %%v21,%%v21\n\t"
+    "vlef   %%v21,8(%[x]),1\n\t"
+    "vlef   %%v21,8(%[x]),3\n\t"
+    "vlef   %%v22,20(%[x]),0\n\t"
+    "vlef   %%v22,20(%[x]),2\n\t"
+    "vflcsb %%v22,%%v22\n\t"
+    "vlef   %%v22,16(%[x]),1\n\t"
+    "vlef   %%v22,16(%[x]),3\n\t"
+    "vlef   %%v23,28(%[x]),0\n\t"
+    "vlef   %%v23,28(%[x]),2\n\t"
+    "vflcsb %%v23,%%v23\n\t"
+    "vlef   %%v23,24(%[x]),1\n\t"
+    "vlef   %%v23,24(%[x]),3\n\t"
+#else
+    "vlef   %%v20,0(%[x]),1\n\t"
+    "vlef   %%v20,0(%[x]),3\n\t"
+    "vflcsb %%v20,%%v20\n\t"
+    "vlef   %%v20,4(%[x]),0\n\t"
+    "vlef   %%v20,4(%[x]),2\n\t"
+    "vlef   %%v21,8(%[x]),1\n\t"
+    "vlef   %%v21,8(%[x]),3\n\t"
+    "vflcsb %%v21,%%v21\n\t"
+    "vlef   %%v21,12(%[x]),0\n\t"
+    "vlef   %%v21,12(%[x]),2\n\t"
+    "vlef   %%v22,16(%[x]),1\n\t"
+    "vlef   %%v22,16(%[x]),3\n\t"
+    "vflcsb %%v22,%%v22\n\t"
+    "vlef   %%v22,20(%[x]),0\n\t"
+    "vlef   %%v22,20(%[x]),2\n\t"
+    "vlef   %%v23,24(%[x]),1\n\t"
+    "vlef   %%v23,24(%[x]),3\n\t"
+    "vflcsb %%v23,%%v23\n\t"
+    "vlef   %%v23,28(%[x]),0\n\t"
+    "vlef   %%v23,28(%[x]),2\n\t"
+#endif
+    "vleib  %%v1,0,0\n\t"
+    "vleib  %%v1,1,1\n\t"
+    "vleib  %%v1,2,2\n\t"
+    "vleib  %%v1,3,3\n\t"
+    "vleib  %%v1,0,4\n\t"
+    "vleib  %%v1,1,5\n\t"
+    "vleib  %%v1,2,6\n\t"
+    "vleib  %%v1,3,7\n\t"
+    "vleib  %%v1,8,8\n\t"
+    "vleib  %%v1,9,9\n\t"
+    "vleib  %%v1,10,10\n\t"
+    "vleib  %%v1,11,11\n\t"
+    "vleib  %%v1,8,12\n\t"
+    "vleib  %%v1,9,13\n\t"
+    "vleib  %%v1,10,14\n\t"
+    "vleib  %%v1,11,15\n\t"
+    "vleib  %%v2,4,0\n\t"
+    "vleib  %%v2,5,1\n\t"
+    "vleib  %%v2,6,2\n\t"
+    "vleib  %%v2,7,3\n\t"
+    "vleib  %%v2,4,4\n\t"
+    "vleib  %%v2,5,5\n\t"
+    "vleib  %%v2,6,6\n\t"
+    "vleib  %%v2,7,7\n\t"
+    "vleib  %%v2,12,8\n\t"
+    "vleib  %%v2,13,9\n\t"
+    "vleib  %%v2,14,10\n\t"
+    "vleib  %%v2,15,11\n\t"
+    "vleib  %%v2,12,12\n\t"
+    "vleib  %%v2,13,13\n\t"
+    "vleib  %%v2,14,14\n\t"
+    "vleib  %%v2,15,15\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "srlg  %[n],%[n],1\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[ap0])\n\t"
+    "pfd 1,1024(%%r1,%[ap1])\n\t"
+    "pfd 1,1024(%%r1,%[ap2])\n\t"
+    "pfd 1,1024(%%r1,%[ap3])\n\t"
+    "pfd 2,1024(%%r1,%[y])\n\t"
+    "vl    %%v24,0(%%r1,%[ap0])\n\t"
+    "vperm %%v25,%%v24,%%v24,%%v2\n\t"
+    "vperm %%v24,%%v24,%%v24,%%v1\n\t"
+    "vl    %%v26,0(%%r1,%[ap1])\n\t"
+    "vperm %%v27,%%v26,%%v26,%%v2\n\t"
+    "vperm %%v26,%%v26,%%v26,%%v1\n\t"
+    "vl  %%v0,0(%%r1,%[y])\n\t"
+    "vfmasb   %%v0,%%v24,%%v16,%%v0\n\t"
+    "vfmasb   %%v0,%%v25,%%v20,%%v0\n\t"
+    "vfmasb   %%v0,%%v26,%%v17,%%v0\n\t"
+    "vfmasb   %%v0,%%v27,%%v21,%%v0\n\t"
+    "vl    %%v28,0(%%r1,%[ap2])\n\t"
+    "vperm %%v29,%%v28,%%v28,%%v2\n\t"
+    "vperm %%v28,%%v28,%%v28,%%v1\n\t"
+    "vl    %%v30,0(%%r1,%[ap3])\n\t"
+    "vperm %%v31,%%v30,%%v30,%%v2\n\t"
+    "vperm %%v30,%%v30,%%v30,%%v1\n\t"
+    "vfmasb   %%v0,%%v28,%%v18,%%v0\n\t"
+    "vfmasb   %%v0,%%v29,%%v22,%%v0\n\t"
+    "vfmasb   %%v0,%%v30,%%v19,%%v0\n\t"
+    "vfmasb   %%v0,%%v31,%%v23,%%v0\n\t"
+    "vst %%v0,0(%%r1,%[y])\n\t"
+    "agfi   %%r1,16\n\t"
+    "brctg  %[n],0b\n\t"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) y),[n] "+&r"(n)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n * 2]; } *) ap0),[ap0] "a"(ap0),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) ap1),[ap1] "a"(ap1),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) ap2),[ap2] "a"(ap2),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) ap3),[ap3] "a"(ap3),
+       "m"(*(const struct { FLOAT x[8]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v2", "v16", "v17", "v18", "v19", "v20",
+       "v21", "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
+}
+
+static void cgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) {
+  register FLOAT *ap0 = ap[0];
+  register FLOAT *ap1 = ap[1];
+
+  __asm__("vlrepg     %%v16,0(%[x])\n\t"
+    "vlrepg     %%v17,8(%[x])\n\t"
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+    "vlef   %%v18,4(%[x]),0\n\t"
+    "vlef   %%v18,4(%[x]),2\n\t"
+    "vflcsb %%v18,%%v18\n\t"
+    "vlef   %%v18,0(%[x]),1\n\t"
+    "vlef   %%v18,0(%[x]),3\n\t"
+    "vlef   %%v19,12(%[x]),0\n\t"
+    "vlef   %%v19,12(%[x]),2\n\t"
+    "vflcsb %%v19,%%v19\n\t"
+    "vlef   %%v19,8(%[x]),1\n\t"
+    "vlef   %%v19,8(%[x]),3\n\t"
+#else
+    "vlef   %%v18,0(%[x]),1\n\t"
+    "vlef   %%v18,0(%[x]),3\n\t"
+    "vflcsb %%v18,%%v18\n\t"
+    "vlef   %%v18,4(%[x]),0\n\t"
+    "vlef   %%v18,4(%[x]),2\n\t"
+    "vlef   %%v19,8(%[x]),1\n\t"
+    "vlef   %%v19,8(%[x]),3\n\t"
+    "vflcsb %%v19,%%v19\n\t"
+    "vlef   %%v19,12(%[x]),0\n\t"
+    "vlef   %%v19,12(%[x]),2\n\t"
+#endif
+    "vleib  %%v1,0,0\n\t"
+    "vleib  %%v1,1,1\n\t"
+    "vleib  %%v1,2,2\n\t"
+    "vleib  %%v1,3,3\n\t"
+    "vleib  %%v1,0,4\n\t"
+    "vleib  %%v1,1,5\n\t"
+    "vleib  %%v1,2,6\n\t"
+    "vleib  %%v1,3,7\n\t"
+    "vleib  %%v1,8,8\n\t"
+    "vleib  %%v1,9,9\n\t"
+    "vleib  %%v1,10,10\n\t"
+    "vleib  %%v1,11,11\n\t"
+    "vleib  %%v1,8,12\n\t"
+    "vleib  %%v1,9,13\n\t"
+    "vleib  %%v1,10,14\n\t"
+    "vleib  %%v1,11,15\n\t"
+    "vleib  %%v2,4,0\n\t"
+    "vleib  %%v2,5,1\n\t"
+    "vleib  %%v2,6,2\n\t"
+    "vleib  %%v2,7,3\n\t"
+    "vleib  %%v2,4,4\n\t"
+    "vleib  %%v2,5,5\n\t"
+    "vleib  %%v2,6,6\n\t"
+    "vleib  %%v2,7,7\n\t"
+    "vleib  %%v2,12,8\n\t"
+    "vleib  %%v2,13,9\n\t"
+    "vleib  %%v2,14,10\n\t"
+    "vleib  %%v2,15,11\n\t"
+    "vleib  %%v2,12,12\n\t"
+    "vleib  %%v2,13,13\n\t"
+    "vleib  %%v2,14,14\n\t"
+    "vleib  %%v2,15,15\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "srlg  %[n],%[n],1\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[ap0])\n\t"
+    "pfd 1,1024(%%r1,%[ap1])\n\t"
+    "pfd 2,1024(%%r1,%[y])\n\t"
+    "vl    %%v20,0(%%r1,%[ap0])\n\t"
+    "vperm %%v21,%%v20,%%v20,%%v2\n\t"
+    "vperm %%v20,%%v20,%%v20,%%v1\n\t"
+    "vl    %%v22,0(%%r1,%[ap1])\n\t"
+    "vperm %%v23,%%v22,%%v22,%%v2\n\t"
+    "vperm %%v22,%%v22,%%v22,%%v1\n\t"
+    "vl  %%v0,0(%%r1,%[y])\n\t"
+    "vfmasb   %%v0,%%v20,%%v16,%%v0\n\t"
+    "vfmasb   %%v0,%%v21,%%v18,%%v0\n\t"
+    "vfmasb   %%v0,%%v22,%%v17,%%v0\n\t"
+    "vfmasb   %%v0,%%v23,%%v19,%%v0\n\t"
+    "vst %%v0,0(%%r1,%[y])\n\t"
+    "agfi   %%r1,16\n\t"
+    "brctg  %[n],0b\n\t"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) y),[n] "+&r"(n)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n * 2]; } *) ap0),[ap0] "a"(ap0),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) ap1),[ap1] "a"(ap1),
+       "m"(*(const struct { FLOAT x[4]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v2", "v16", "v17", "v18", "v19", "v20",
+       "v21", "v22", "v23");
+}
+
+static void cgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y) {
+  __asm__("vlrepg     %%v16,0(%[x])\n\t"
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+    "vlef   %%v17,4(%[x]),0\n\t"
+    "vlef   %%v17,4(%[x]),2\n\t"
+    "vflcsb %%v17,%%v17\n\t"
+    "vlef   %%v17,0(%[x]),1\n\t"
+    "vlef   %%v17,0(%[x]),3\n\t"
+#else
+    "vlef   %%v17,0(%[x]),1\n\t"
+    "vlef   %%v17,0(%[x]),3\n\t"
+    "vflcsb %%v17,%%v17\n\t"
+    "vlef   %%v17,4(%[x]),0\n\t"
+    "vlef   %%v17,4(%[x]),2\n\t"
+#endif
+    "vleib  %%v1,0,0\n\t"
+    "vleib  %%v1,1,1\n\t"
+    "vleib  %%v1,2,2\n\t"
+    "vleib  %%v1,3,3\n\t"
+    "vleib  %%v1,0,4\n\t"
+    "vleib  %%v1,1,5\n\t"
+    "vleib  %%v1,2,6\n\t"
+    "vleib  %%v1,3,7\n\t"
+    "vleib  %%v1,8,8\n\t"
+    "vleib  %%v1,9,9\n\t"
+    "vleib  %%v1,10,10\n\t"
+    "vleib  %%v1,11,11\n\t"
+    "vleib  %%v1,8,12\n\t"
+    "vleib  %%v1,9,13\n\t"
+    "vleib  %%v1,10,14\n\t"
+    "vleib  %%v1,11,15\n\t"
+    "vleib  %%v2,4,0\n\t"
+    "vleib  %%v2,5,1\n\t"
+    "vleib  %%v2,6,2\n\t"
+    "vleib  %%v2,7,3\n\t"
+    "vleib  %%v2,4,4\n\t"
+    "vleib  %%v2,5,5\n\t"
+    "vleib  %%v2,6,6\n\t"
+    "vleib  %%v2,7,7\n\t"
+    "vleib  %%v2,12,8\n\t"
+    "vleib  %%v2,13,9\n\t"
+    "vleib  %%v2,14,10\n\t"
+    "vleib  %%v2,15,11\n\t"
+    "vleib  %%v2,12,12\n\t"
+    "vleib  %%v2,13,13\n\t"
+    "vleib  %%v2,14,14\n\t"
+    "vleib  %%v2,15,15\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "srlg  %[n],%[n],1\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[ap])\n\t"
+    "pfd 2,1024(%%r1,%[y])\n\t"
+    "vl    %%v18,0(%%r1,%[ap])\n\t"
+    "vperm %%v19,%%v18,%%v18,%%v2\n\t"
+    "vperm %%v18,%%v18,%%v18,%%v1\n\t"
+    "vl  %%v0,0(%%r1,%[y])\n\t"
+    "vfmasb   %%v0,%%v18,%%v16,%%v0\n\t"
+    "vfmasb   %%v0,%%v19,%%v17,%%v0\n\t"
+    "vst %%v0,0(%%r1,%[y])\n\t"
+    "agfi   %%r1,16\n\t"
+    "brctg  %[n],0b\n\t"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) y),[n] "+&r"(n)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n * 2]; } *) ap),[ap] "a"(ap),
+       "m"(*(const struct { FLOAT x[2]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v2", "v16", "v17", "v18", "v19");
+}
+
+static void add_y_4(BLASLONG n, FLOAT *src, FLOAT *dest, FLOAT alpha_r,
+                    FLOAT alpha_i) {
+  __asm__(
+#if !defined(XCONJ)
+    "vlrepf %%v0,%[alpha_r]\n\t"
+    "vlef   %%v1,%[alpha_i],0\n\t"
+    "vlef   %%v1,%[alpha_i],2\n\t"
+    "vflcsb %%v1,%%v1\n\t"
+    "vlef   %%v1,%[alpha_i],1\n\t"
+    "vlef   %%v1,%[alpha_i],3\n\t"
+#else
+    "vlef   %%v0,%[alpha_r],1\n\t"
+    "vlef   %%v0,%[alpha_r],3\n\t"
+    "vflcsb %%v0,%%v0\n\t"
+    "vlef   %%v0,%[alpha_r],0\n\t"
+    "vlef   %%v0,%[alpha_r],2\n\t"
+    "vlrepf %%v1,%[alpha_i]\n\t"
+#endif
+    "xgr   %%r1,%%r1\n\t"
+    "srlg  %[n],%[n],2\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[src])\n\t"
+    "pfd 2,1024(%%r1,%[dest])\n\t"
+    "vl   %%v16,0(%%r1,%[src])\n\t"
+    "vl   %%v17,16(%%r1,%[src])\n\t"
+    "vl   %%v18,0(%%r1,%[dest])\n\t"
+    "vl   %%v19,16(%%r1,%[dest])\n\t"
+    "verllg   %%v20,%%v16,32\n\t"
+    "verllg   %%v21,%%v17,32\n\t"
+    "vfmasb %%v22,%%v16,%%v0,%%v18\n\t"
+    "vfmasb %%v23,%%v17,%%v0,%%v19\n\t"
+    "vfmasb %%v22,%%v20,%%v1,%%v22\n\t"
+    "vfmasb %%v23,%%v21,%%v1,%%v23\n\t"
+    "vst %%v22,0(%%r1,%[dest])\n\t"
+    "vst %%v23,16(%%r1,%[dest])\n\t"
+    "agfi   %%r1,32\n\t"
+    "brctg  %[n],0b"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) dest),[n] "+&r"(n)
+    : [dest] "a"(dest), "m"(*(const struct { FLOAT x[n * 2]; } *) src),
+       [src] "a"(src),[alpha_r] "Q"(alpha_r),[alpha_i] "Q"(alpha_i)
+    : "cc", "r1", "v0", "v1", "v16", "v17", "v18", "v19", "v20", "v21",
+       "v22", "v23");
+}
+
+static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,
+                  FLOAT alpha_r, FLOAT alpha_i) {
+  BLASLONG i;
+
+  if (inc_dest != 2) {
+
+    FLOAT temp_r;
+    FLOAT temp_i;
+    for (i = 0; i < n; i++) {
+#if !defined(XCONJ)
+      temp_r = alpha_r * src[0] - alpha_i * src[1];
+      temp_i = alpha_r * src[1] + alpha_i * src[0];
+#else
+      temp_r = alpha_r * src[0] + alpha_i * src[1];
+      temp_i = -alpha_r * src[1] + alpha_i * src[0];
+#endif
+
+      *dest += temp_r;
+      *(dest + 1) += temp_i;
+
+      src += 2;
+      dest += inc_dest;
+    }
+    return;
+  }
+
+  add_y_4(n, src, dest, alpha_r, alpha_i);
+}
+
+int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i,
+          FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y,
+          BLASLONG inc_y, FLOAT *buffer) {
+  BLASLONG i;
+  FLOAT *a_ptr;
+  FLOAT *x_ptr;
+  FLOAT *y_ptr;
+  FLOAT *ap[4];
+  BLASLONG n1;
+  BLASLONG m1;
+  BLASLONG m2;
+  BLASLONG m3;
+  BLASLONG n2;
+  BLASLONG lda4;
+  FLOAT xbuffer[8], *ybuffer;
+
+  if (m < 1)
+    return (0);
+  if (n < 1)
+    return (0);
+
+  ybuffer = buffer;
+
+  inc_x *= 2;
+  inc_y *= 2;
+  lda *= 2;
+  lda4 = 4 * lda;
+
+  n1 = n / 4;
+  n2 = n % 4;
+
+  m3 = m % 4;
+  m1 = m - (m % 4);
+  m2 = (m % NBMAX) - (m % 4);
+
+  y_ptr = y;
+
+  BLASLONG NB = NBMAX;
+
+  while (NB == NBMAX) {
+
+    m1 -= NB;
+    if (m1 < 0) {
+      if (m2 == 0)
+        break;
+      NB = m2;
+    }
+
+    a_ptr = a;
+    ap[0] = a_ptr;
+    ap[1] = a_ptr + lda;
+    ap[2] = ap[1] + lda;
+    ap[3] = ap[2] + lda;
+    x_ptr = x;
+    //zero_y(NB,ybuffer);
+    memset(ybuffer, 0, NB * 8);
+
+    if (inc_x == 2) {
+
+      for (i = 0; i < n1; i++) {
+        cgemv_kernel_4x4(NB, ap, x_ptr, ybuffer);
+        ap[0] += lda4;
+        ap[1] += lda4;
+        ap[2] += lda4;
+        ap[3] += lda4;
+        a_ptr += lda4;
+        x_ptr += 8;
+      }
+
+      if (n2 & 2) {
+        cgemv_kernel_4x2(NB, ap, x_ptr, ybuffer);
+        x_ptr += 4;
+        a_ptr += 2 * lda;
+
+      }
+
+      if (n2 & 1) {
+        cgemv_kernel_4x1(NB, a_ptr, x_ptr, ybuffer);
+        /* x_ptr += 2;  
+           a_ptr += lda; */
+
+      }
+    } else {
+
+      for (i = 0; i < n1; i++) {
+
+        xbuffer[0] = x_ptr[0];
+        xbuffer[1] = x_ptr[1];
+        x_ptr += inc_x;
+        xbuffer[2] = x_ptr[0];
+        xbuffer[3] = x_ptr[1];
+        x_ptr += inc_x;
+        xbuffer[4] = x_ptr[0];
+        xbuffer[5] = x_ptr[1];
+        x_ptr += inc_x;
+        xbuffer[6] = x_ptr[0];
+        xbuffer[7] = x_ptr[1];
+        x_ptr += inc_x;
+
+        cgemv_kernel_4x4(NB, ap, xbuffer, ybuffer);
+        ap[0] += lda4;
+        ap[1] += lda4;
+        ap[2] += lda4;
+        ap[3] += lda4;
+        a_ptr += lda4;
+      }
+
+      for (i = 0; i < n2; i++) {
+        xbuffer[0] = x_ptr[0];
+        xbuffer[1] = x_ptr[1];
+        x_ptr += inc_x;
+        cgemv_kernel_4x1(NB, a_ptr, xbuffer, ybuffer);
+        a_ptr += 1 * lda;
+
+      }
+
+    }
+
+    add_y(NB, ybuffer, y_ptr, inc_y, alpha_r, alpha_i);
+    a += 2 * NB;
+    y_ptr += NB * inc_y;
+  }
+
+  if (m3 == 0)
+    return (0);
+
+  if (m3 == 1) {
+    a_ptr = a;
+    x_ptr = x;
+    FLOAT temp_r = 0.0;
+    FLOAT temp_i = 0.0;
+
+    if (lda == 2 && inc_x == 2) {
+
+      for (i = 0; i < (n & -2); i += 2) {
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        temp_r += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+        temp_i += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+        temp_r += a_ptr[2] * x_ptr[2] - a_ptr[3] * x_ptr[3];
+        temp_i += a_ptr[2] * x_ptr[3] + a_ptr[3] * x_ptr[2];
+#else
+        temp_r += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+        temp_i += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+        temp_r += a_ptr[2] * x_ptr[2] + a_ptr[3] * x_ptr[3];
+        temp_i += a_ptr[2] * x_ptr[3] - a_ptr[3] * x_ptr[2];
+#endif
+
+        a_ptr += 4;
+        x_ptr += 4;
+      }
+
+      for (; i < n; i++) {
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        temp_r += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+        temp_i += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+#else
+        temp_r += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+        temp_i += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+#endif
+
+        a_ptr += 2;
+        x_ptr += 2;
+      }
+
+    } else {
+
+      for (i = 0; i < n; i++) {
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        temp_r += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+        temp_i += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+#else
+        temp_r += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+        temp_i += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+#endif
+
+        a_ptr += lda;
+        x_ptr += inc_x;
+      }
+
+    }
+#if !defined(XCONJ)
+    y_ptr[0] += alpha_r * temp_r - alpha_i * temp_i;
+    y_ptr[1] += alpha_r * temp_i + alpha_i * temp_r;
+#else
+    y_ptr[0] += alpha_r * temp_r + alpha_i * temp_i;
+    y_ptr[1] -= alpha_r * temp_i - alpha_i * temp_r;
+#endif
+    return (0);
+  }
+
+  if (m3 == 2) {
+    a_ptr = a;
+    x_ptr = x;
+    FLOAT temp_r0 = 0.0;
+    FLOAT temp_i0 = 0.0;
+    FLOAT temp_r1 = 0.0;
+    FLOAT temp_i1 = 0.0;
+
+    if (lda == 4 && inc_x == 2) {
+
+      for (i = 0; i < (n & -2); i += 2) {
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+
+        temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+
+        temp_r0 += a_ptr[4] * x_ptr[2] - a_ptr[5] * x_ptr[3];
+        temp_i0 += a_ptr[4] * x_ptr[3] + a_ptr[5] * x_ptr[2];
+        temp_r1 += a_ptr[6] * x_ptr[2] - a_ptr[7] * x_ptr[3];
+        temp_i1 += a_ptr[6] * x_ptr[3] + a_ptr[7] * x_ptr[2];
+
+#else
+        temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+
+        temp_r0 += a_ptr[4] * x_ptr[2] + a_ptr[5] * x_ptr[3];
+        temp_i0 += a_ptr[4] * x_ptr[3] - a_ptr[5] * x_ptr[2];
+        temp_r1 += a_ptr[6] * x_ptr[2] + a_ptr[7] * x_ptr[3];
+        temp_i1 += a_ptr[6] * x_ptr[3] - a_ptr[7] * x_ptr[2];
+
+#endif
+
+        a_ptr += 8;
+        x_ptr += 4;
+      }
+
+      for (; i < n; i++) {
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+#else
+        temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+#endif
+
+        a_ptr += 4;
+        x_ptr += 2;
+      }
+
+    } else {
+
+      for (i = 0; i < n; i++) {
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+#else
+        temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+#endif
+
+        a_ptr += lda;
+        x_ptr += inc_x;
+      }
+
+    }
+#if !defined(XCONJ)
+    y_ptr[0] += alpha_r * temp_r0 - alpha_i * temp_i0;
+    y_ptr[1] += alpha_r * temp_i0 + alpha_i * temp_r0;
+    y_ptr += inc_y;
+    y_ptr[0] += alpha_r * temp_r1 - alpha_i * temp_i1;
+    y_ptr[1] += alpha_r * temp_i1 + alpha_i * temp_r1;
+#else
+    y_ptr[0] += alpha_r * temp_r0 + alpha_i * temp_i0;
+    y_ptr[1] -= alpha_r * temp_i0 - alpha_i * temp_r0;
+    y_ptr += inc_y;
+    y_ptr[0] += alpha_r * temp_r1 + alpha_i * temp_i1;
+    y_ptr[1] -= alpha_r * temp_i1 - alpha_i * temp_r1;
+#endif
+    return (0);
+  }
+
+  if (m3 == 3) {
+    a_ptr = a;
+    x_ptr = x;
+    FLOAT temp_r0 = 0.0;
+    FLOAT temp_i0 = 0.0;
+    FLOAT temp_r1 = 0.0;
+    FLOAT temp_i1 = 0.0;
+    FLOAT temp_r2 = 0.0;
+    FLOAT temp_i2 = 0.0;
+
+    if (lda == 6 && inc_x == 2) {
+
+      for (i = 0; i < n; i++) {
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+        temp_r2 += a_ptr[4] * x_ptr[0] - a_ptr[5] * x_ptr[1];
+        temp_i2 += a_ptr[4] * x_ptr[1] + a_ptr[5] * x_ptr[0];
+#else
+        temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+        temp_r2 += a_ptr[4] * x_ptr[0] + a_ptr[5] * x_ptr[1];
+        temp_i2 += a_ptr[4] * x_ptr[1] - a_ptr[5] * x_ptr[0];
+#endif
+
+        a_ptr += 6;
+        x_ptr += 2;
+      }
+
+    } else {
+
+      for (i = 0; i < n; i++) {
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+        temp_r2 += a_ptr[4] * x_ptr[0] - a_ptr[5] * x_ptr[1];
+        temp_i2 += a_ptr[4] * x_ptr[1] + a_ptr[5] * x_ptr[0];
+#else
+        temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+        temp_r2 += a_ptr[4] * x_ptr[0] + a_ptr[5] * x_ptr[1];
+        temp_i2 += a_ptr[4] * x_ptr[1] - a_ptr[5] * x_ptr[0];
+#endif
+
+        a_ptr += lda;
+        x_ptr += inc_x;
+      }
+
+    }
+#if !defined(XCONJ)
+    y_ptr[0] += alpha_r * temp_r0 - alpha_i * temp_i0;
+    y_ptr[1] += alpha_r * temp_i0 + alpha_i * temp_r0;
+    y_ptr += inc_y;
+    y_ptr[0] += alpha_r * temp_r1 - alpha_i * temp_i1;
+    y_ptr[1] += alpha_r * temp_i1 + alpha_i * temp_r1;
+    y_ptr += inc_y;
+    y_ptr[0] += alpha_r * temp_r2 - alpha_i * temp_i2;
+    y_ptr[1] += alpha_r * temp_i2 + alpha_i * temp_r2;
+#else
+    y_ptr[0] += alpha_r * temp_r0 + alpha_i * temp_i0;
+    y_ptr[1] -= alpha_r * temp_i0 - alpha_i * temp_r0;
+    y_ptr += inc_y;
+    y_ptr[0] += alpha_r * temp_r1 + alpha_i * temp_i1;
+    y_ptr[1] -= alpha_r * temp_i1 - alpha_i * temp_r1;
+    y_ptr += inc_y;
+    y_ptr[0] += alpha_r * temp_r2 + alpha_i * temp_i2;
+    y_ptr[1] -= alpha_r * temp_i2 - alpha_i * temp_r2;
+#endif
+    return (0);
+  }
+
+  return (0);
+}
diff --git a/kernel/zarch/cgemv_t_4.c b/kernel/zarch/cgemv_t_4.c
new file mode 100644
index 0000000000..e10edfab02
--- /dev/null
+++ b/kernel/zarch/cgemv_t_4.c
@@ -0,0 +1,724 @@
+/***************************************************************************
+Copyright (c) 2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+#define NBMAX 2048
+
+static void cgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y,
+                             FLOAT *alpha) {
+  register FLOAT *ap0 = ap[0];
+  register FLOAT *ap1 = ap[1];
+  register FLOAT *ap2 = ap[2];
+  register FLOAT *ap3 = ap[3];
+
+  __asm__("vzero  %%v16\n\t"
+        "vzero  %%v17\n\t"
+        "vzero  %%v18\n\t"
+        "vzero  %%v19\n\t"
+        "vzero  %%v20\n\t"
+        "vzero  %%v21\n\t"
+        "vzero  %%v22\n\t"
+        "vzero  %%v23\n\t"
+        "vleib  %%v2,0,0\n\t"
+        "vleib  %%v2,1,1\n\t"
+        "vleib  %%v2,2,2\n\t"
+        "vleib  %%v2,3,3\n\t"
+        "vleib  %%v2,0,4\n\t"
+        "vleib  %%v2,1,5\n\t"
+        "vleib  %%v2,2,6\n\t"
+        "vleib  %%v2,3,7\n\t"
+        "vleib  %%v2,8,8\n\t"
+        "vleib  %%v2,9,9\n\t"
+        "vleib  %%v2,10,10\n\t"
+        "vleib  %%v2,11,11\n\t"
+        "vleib  %%v2,8,12\n\t"
+        "vleib  %%v2,9,13\n\t"
+        "vleib  %%v2,10,14\n\t"
+        "vleib  %%v2,11,15\n\t"
+        "vleib  %%v3,4,0\n\t"
+        "vleib  %%v3,5,1\n\t"
+        "vleib  %%v3,6,2\n\t"
+        "vleib  %%v3,7,3\n\t"
+        "vleib  %%v3,4,4\n\t"
+        "vleib  %%v3,5,5\n\t"
+        "vleib  %%v3,6,6\n\t"
+        "vleib  %%v3,7,7\n\t"
+        "vleib  %%v3,12,8\n\t"
+        "vleib  %%v3,13,9\n\t"
+        "vleib  %%v3,14,10\n\t"
+        "vleib  %%v3,15,11\n\t"
+        "vleib  %%v3,12,12\n\t"
+        "vleib  %%v3,13,13\n\t"
+        "vleib  %%v3,14,14\n\t"
+        "vleib  %%v3,15,15\n\t"
+        "xgr   %%r1,%%r1\n\t"
+        "srlg  %[n],%[n],1\n\t"
+        "0:\n\t"
+        "pfd 1,1024(%%r1,%[ap0])\n\t"
+        "pfd 1,1024(%%r1,%[ap1])\n\t"
+        "pfd 1,1024(%%r1,%[ap2])\n\t"
+        "pfd 1,1024(%%r1,%[ap3])\n\t"
+        "pfd 1,1024(%%r1,%[x])\n\t"
+        "vl     %%v0,0(%%r1,%[x])\n\t"
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vlef   %%v1,4(%%r1,%[x]),0\n\t"
+        "vlef   %%v1,12(%%r1,%[x]),2\n\t"
+        "vflcsb %%v1,%%v1\n\t"
+        "vlef   %%v1,0(%%r1,%[x]),1\n\t"
+        "vlef   %%v1,8(%%r1,%[x]),3\n\t"
+#else
+        "vlef   %%v1,0(%%r1,%[x]),1\n\t"
+        "vlef   %%v1,8(%%r1,%[x]),3\n\t"
+        "vflcsb %%v1,%%v1\n\t"
+        "vlef   %%v1,4(%%r1,%[x]),0\n\t"
+        "vlef   %%v1,12(%%r1,%[x]),2\n\t"
+#endif
+        "vl    %%v24,0(%%r1,%[ap0])\n\t"
+        "vperm %%v25,%%v24,%%v24,%%v3\n\t"
+        "vperm %%v24,%%v24,%%v24,%%v2\n\t"
+        "vl    %%v26,0(%%r1,%[ap1])\n\t"
+        "vperm %%v27,%%v26,%%v26,%%v3\n\t"
+        "vperm %%v26,%%v26,%%v26,%%v2\n\t"
+        "vl    %%v28,0(%%r1,%[ap2])\n\t"
+        "vperm %%v29,%%v28,%%v28,%%v3\n\t"
+        "vperm %%v28,%%v28,%%v28,%%v2\n\t"
+        "vl    %%v30,0(%%r1,%[ap3])\n\t"
+        "vperm %%v31,%%v30,%%v30,%%v3\n\t"
+        "vperm %%v30,%%v30,%%v30,%%v2\n\t"
+        "vfmasb   %%v16,%%v24,%%v0,%%v16\n\t"
+        "vfmasb   %%v20,%%v25,%%v1,%%v20\n\t"
+        "vfmasb   %%v17,%%v26,%%v0,%%v17\n\t"
+        "vfmasb   %%v21,%%v27,%%v1,%%v21\n\t"
+        "vfmasb   %%v18,%%v28,%%v0,%%v18\n\t"
+        "vfmasb   %%v22,%%v29,%%v1,%%v22\n\t"
+        "vfmasb   %%v19,%%v30,%%v0,%%v19\n\t"
+        "vfmasb   %%v23,%%v31,%%v1,%%v23\n\t"
+        "agfi   %%r1,16\n\t"
+        "brctg  %[n],0b\n\t"
+        "vfasb  %%v16,%%v16,%%v20\n\t"
+        "vfasb  %%v17,%%v17,%%v21\n\t"
+        "vfasb  %%v18,%%v18,%%v22\n\t"
+        "vfasb  %%v19,%%v19,%%v23\n\t"
+        "vrepg  %%v20,%%v16,1\n\t"
+        "vrepg  %%v21,%%v17,1\n\t"
+        "vrepg  %%v22,%%v18,1\n\t"
+        "vrepg  %%v23,%%v19,1\n\t"
+        "vfasb  %%v16,%%v16,%%v20\n\t"
+        "vfasb  %%v17,%%v17,%%v21\n\t"
+        "vfasb  %%v18,%%v18,%%v22\n\t"
+        "vfasb  %%v19,%%v19,%%v23\n\t"
+        "vmrhg  %%v16,%%v16,%%v17\n\t"
+        "vmrhg  %%v17,%%v18,%%v19\n\t"
+        "verllg %%v18,%%v16,32\n\t"
+        "verllg %%v19,%%v17,32\n\t"
+#if !defined(XCONJ)
+        "vlrepf %%v20,0(%[alpha])\n\t"
+        "vlef   %%v21,4(%[alpha]),0\n\t"
+        "vlef   %%v21,4(%[alpha]),2\n\t"
+        "vflcsb %%v21,%%v21\n\t"
+        "vlef   %%v21,4(%[alpha]),1\n\t"
+        "vlef   %%v21,4(%[alpha]),3\n\t"
+#else
+        "vlef   %%v20,0(%[alpha]),1\n\t"
+        "vlef   %%v20,0(%[alpha]),3\n\t"
+        "vflcsb %%v20,%%v20\n\t"
+        "vlef   %%v20,0(%[alpha]),0\n\t"
+        "vlef   %%v20,0(%[alpha]),2\n\t"
+        "vlrepf %%v21,4(%[alpha])\n\t"
+#endif
+        "vl  %%v22,0(%[y])\n\t"
+        "vl  %%v23,16(%[y])\n\t"
+        "vfmasb   %%v22,%%v16,%%v20,%%v22\n\t"
+        "vfmasb   %%v22,%%v18,%%v21,%%v22\n\t"
+        "vfmasb   %%v23,%%v17,%%v20,%%v23\n\t"
+        "vfmasb   %%v23,%%v19,%%v21,%%v23\n\t"
+        "vst  %%v22,0(%[y])\n\t"
+        "vst  %%v23,16(%[y])"
+    : "+m"(*(struct { FLOAT x[8]; } *) y),[n] "+&r"(n)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n * 2]; } *) ap0),[ap0] "a"(ap0),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) ap1),[ap1] "a"(ap1),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) ap2),[ap2] "a"(ap2),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) ap3),[ap3] "a"(ap3),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x),
+       "m"(*(const struct { FLOAT x[2]; } *) alpha),[alpha] "a"(alpha)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v16", "v17", "v18", "v19", "v20",
+       "v21", "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
+}
+
+static void cgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y,
+                             FLOAT *alpha) {
+  register FLOAT *ap0 = ap[0];
+  register FLOAT *ap1 = ap[1];
+
+  __asm__("vzero  %%v16\n\t"
+        "vzero  %%v17\n\t"
+        "vzero  %%v18\n\t"
+        "vzero  %%v19\n\t"
+        "vleib  %%v2,0,0\n\t"
+        "vleib  %%v2,1,1\n\t"
+        "vleib  %%v2,2,2\n\t"
+        "vleib  %%v2,3,3\n\t"
+        "vleib  %%v2,0,4\n\t"
+        "vleib  %%v2,1,5\n\t"
+        "vleib  %%v2,2,6\n\t"
+        "vleib  %%v2,3,7\n\t"
+        "vleib  %%v2,8,8\n\t"
+        "vleib  %%v2,9,9\n\t"
+        "vleib  %%v2,10,10\n\t"
+        "vleib  %%v2,11,11\n\t"
+        "vleib  %%v2,8,12\n\t"
+        "vleib  %%v2,9,13\n\t"
+        "vleib  %%v2,10,14\n\t"
+        "vleib  %%v2,11,15\n\t"
+        "vleib  %%v3,4,0\n\t"
+        "vleib  %%v3,5,1\n\t"
+        "vleib  %%v3,6,2\n\t"
+        "vleib  %%v3,7,3\n\t"
+        "vleib  %%v3,4,4\n\t"
+        "vleib  %%v3,5,5\n\t"
+        "vleib  %%v3,6,6\n\t"
+        "vleib  %%v3,7,7\n\t"
+        "vleib  %%v3,12,8\n\t"
+        "vleib  %%v3,13,9\n\t"
+        "vleib  %%v3,14,10\n\t"
+        "vleib  %%v3,15,11\n\t"
+        "vleib  %%v3,12,12\n\t"
+        "vleib  %%v3,13,13\n\t"
+        "vleib  %%v3,14,14\n\t"
+        "vleib  %%v3,15,15\n\t"
+        "xgr   %%r1,%%r1\n\t"
+        "srlg  %[n],%[n],1\n\t"
+        "0:\n\t"
+        "pfd 1,1024(%%r1,%[ap0])\n\t"
+        "pfd 1,1024(%%r1,%[ap1])\n\t"
+        "pfd 1,1024(%%r1,%[x])\n\t"
+        "vl     %%v0,0(%%r1,%[x])\n\t"
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vlef   %%v1,4(%%r1,%[x]),0\n\t"
+        "vlef   %%v1,12(%%r1,%[x]),2\n\t"
+        "vflcsb %%v1,%%v1\n\t"
+        "vlef   %%v1,0(%%r1,%[x]),1\n\t"
+        "vlef   %%v1,8(%%r1,%[x]),3\n\t"
+#else
+        "vlef   %%v1,0(%%r1,%[x]),1\n\t"
+        "vlef   %%v1,8(%%r1,%[x]),3\n\t"
+        "vflcsb %%v1,%%v1\n\t"
+        "vlef   %%v1,4(%%r1,%[x]),0\n\t"
+        "vlef   %%v1,12(%%r1,%[x]),2\n\t"
+#endif
+        "vl    %%v20,0(%%r1,%[ap0])\n\t"
+        "vperm %%v21,%%v20,%%v20,%%v3\n\t"
+        "vperm %%v20,%%v20,%%v20,%%v2\n\t"
+        "vl    %%v22,0(%%r1,%[ap1])\n\t"
+        "vperm %%v23,%%v22,%%v22,%%v3\n\t"
+        "vperm %%v22,%%v22,%%v22,%%v2\n\t"
+        "vfmasb   %%v16,%%v20,%%v0,%%v16\n\t"
+        "vfmasb   %%v18,%%v21,%%v1,%%v18\n\t"
+        "vfmasb   %%v17,%%v22,%%v0,%%v17\n\t"
+        "vfmasb   %%v19,%%v23,%%v1,%%v19\n\t"
+        "agfi   %%r1,16\n\t"
+        "brctg  %[n],0b\n\t"
+        "vfasb  %%v16,%%v16,%%v18\n\t"
+        "vfasb  %%v17,%%v17,%%v19\n\t"
+        "vrepg  %%v18,%%v16,1\n\t"
+        "vrepg  %%v19,%%v17,1\n\t"
+        "vfasb  %%v16,%%v16,%%v18\n\t"
+        "vfasb  %%v17,%%v17,%%v19\n\t"
+        "vmrhg  %%v16,%%v16,%%v17\n\t"
+        "verllg %%v17,%%v16,32\n\t"
+#if !defined(XCONJ)
+        "vlrepf %%v18,0(%[alpha])\n\t"
+        "vlef   %%v19,4(%[alpha]),0\n\t"
+        "vlef   %%v19,4(%[alpha]),2\n\t"
+        "vflcsb %%v19,%%v19\n\t"
+        "vlef   %%v19,4(%[alpha]),1\n\t"
+        "vlef   %%v19,4(%[alpha]),3\n\t"
+#else
+        "vlef   %%v18,0(%[alpha]),1\n\t"
+        "vlef   %%v18,0(%[alpha]),3\n\t"
+        "vflcsb %%v18,%%v18\n\t"
+        "vlef   %%v18,0(%[alpha]),0\n\t"
+        "vlef   %%v18,0(%[alpha]),2\n\t"
+        "vlrepf %%v19,4(%[alpha])\n\t"
+#endif
+        "vl  %%v20,0(%[y])\n\t"
+        "vfmasb   %%v20,%%v16,%%v18,%%v20\n\t"
+        "vfmasb   %%v20,%%v17,%%v19,%%v20\n\t"
+        "vst  %%v20,0(%[y])"
+    : "+m"(*(struct { FLOAT x[4]; } *) y),[n] "+&r"(n)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n * 2]; } *) ap0),[ap0] "a"(ap0),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) ap1),[ap1] "a"(ap1),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x),
+       "m"(*(const struct { FLOAT x[2]; } *) alpha),[alpha] "a"(alpha)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v16", "v17", "v18", "v19", "v20",
+       "v21", "v22", "v23");
+}
+
+static void cgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y,
+                             FLOAT *alpha) {
+  __asm__("vzero  %%v16\n\t"
+        "vzero  %%v17\n\t"
+        "vleib  %%v2,0,0\n\t"
+        "vleib  %%v2,1,1\n\t"
+        "vleib  %%v2,2,2\n\t"
+        "vleib  %%v2,3,3\n\t"
+        "vleib  %%v2,0,4\n\t"
+        "vleib  %%v2,1,5\n\t"
+        "vleib  %%v2,2,6\n\t"
+        "vleib  %%v2,3,7\n\t"
+        "vleib  %%v2,8,8\n\t"
+        "vleib  %%v2,9,9\n\t"
+        "vleib  %%v2,10,10\n\t"
+        "vleib  %%v2,11,11\n\t"
+        "vleib  %%v2,8,12\n\t"
+        "vleib  %%v2,9,13\n\t"
+        "vleib  %%v2,10,14\n\t"
+        "vleib  %%v2,11,15\n\t"
+        "vleib  %%v3,4,0\n\t"
+        "vleib  %%v3,5,1\n\t"
+        "vleib  %%v3,6,2\n\t"
+        "vleib  %%v3,7,3\n\t"
+        "vleib  %%v3,4,4\n\t"
+        "vleib  %%v3,5,5\n\t"
+        "vleib  %%v3,6,6\n\t"
+        "vleib  %%v3,7,7\n\t"
+        "vleib  %%v3,12,8\n\t"
+        "vleib  %%v3,13,9\n\t"
+        "vleib  %%v3,14,10\n\t"
+        "vleib  %%v3,15,11\n\t"
+        "vleib  %%v3,12,12\n\t"
+        "vleib  %%v3,13,13\n\t"
+        "vleib  %%v3,14,14\n\t"
+        "vleib  %%v3,15,15\n\t"
+        "xgr   %%r1,%%r1\n\t"
+        "srlg  %[n],%[n],1\n\t"
+        "0:\n\t"
+        "pfd 1,1024(%%r1,%[ap])\n\t"
+        "pfd 1,1024(%%r1,%[x])\n\t"
+        "vl     %%v0,0(%%r1,%[x])\n\t"
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vlef   %%v1,4(%%r1,%[x]),0\n\t"
+        "vlef   %%v1,12(%%r1,%[x]),2\n\t"
+        "vflcsb %%v1,%%v1\n\t"
+        "vlef   %%v1,0(%%r1,%[x]),1\n\t"
+        "vlef   %%v1,8(%%r1,%[x]),3\n\t"
+#else
+        "vlef   %%v1,0(%%r1,%[x]),1\n\t"
+        "vlef   %%v1,8(%%r1,%[x]),3\n\t"
+        "vflcsb %%v1,%%v1\n\t"
+        "vlef   %%v1,4(%%r1,%[x]),0\n\t"
+        "vlef   %%v1,12(%%r1,%[x]),2\n\t"
+#endif
+        "vl    %%v18,0(%%r1,%[ap])\n\t"
+        "vperm %%v19,%%v18,%%v18,%%v3\n\t"
+        "vperm %%v18,%%v18,%%v18,%%v2\n\t"
+        "vfmasb   %%v16,%%v18,%%v0,%%v16\n\t"
+        "vfmasb   %%v17,%%v19,%%v1,%%v17\n\t"
+        "agfi   %%r1,16\n\t"
+        "brctg  %[n],0b\n\t"
+        "vfasb  %%v16,%%v16,%%v17\n\t"
+        "vrepg  %%v17,%%v16,1\n\t"
+        "vfasb  %%v16,%%v16,%%v17\n\t"
+        "verllg %%v17,%%v16,32\n\t"
+#if !defined(XCONJ)
+        "vlrepf %%v18,0(%[alpha])\n\t"
+        "vlef   %%v19,4(%[alpha]),0\n\t"
+        "vflcsb %%v19,%%v19\n\t"
+        "vlef   %%v19,4(%[alpha]),1\n\t"
+#else
+        "vlef   %%v18,0(%[alpha]),1\n\t"
+        "vflcsb %%v18,%%v18\n\t"
+        "vlef   %%v18,0(%[alpha]),0\n\t"
+        "vlrepf %%v19,4(%[alpha])\n\t"
+#endif
+        "vleg     %%v0,0(%[y]),0\n\t"
+        "vfmasb   %%v0,%%v16,%%v18,%%v0\n\t"
+        "vfmasb   %%v0,%%v17,%%v19,%%v0\n\t"
+        "vsteg    %%v0,0(%[y]),0"
+    : "+m"(*(struct { FLOAT x[2]; } *) y),[n] "+&r"(n)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n * 2]; } *) ap),[ap] "a"(ap),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x),
+       "m"(*(const struct { FLOAT x[2]; } *) alpha),[alpha] "a"(alpha)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v16", "v17", "v18", "v19");
+}
+
+static void copy_x(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_src) {
+  BLASLONG i;
+  for (i = 0; i < n; i++) {
+    *dest = *src;
+    *(dest + 1) = *(src + 1);
+    dest += 2;
+    src += inc_src;
+  }
+}
+
+int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i,
+          FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y,
+          BLASLONG inc_y, FLOAT *buffer) {
+  BLASLONG i;
+  BLASLONG j;
+  FLOAT *a_ptr;
+  FLOAT *x_ptr;
+  FLOAT *y_ptr;
+  FLOAT *ap[8];
+  BLASLONG n1;
+  BLASLONG m1;
+  BLASLONG m2;
+  BLASLONG m3;
+  BLASLONG n2;
+  BLASLONG lda4;
+  FLOAT ybuffer[8], *xbuffer;
+  FLOAT alpha[2];
+
+  if (m < 1)
+    return (0);
+  if (n < 1)
+    return (0);
+
+  inc_x <<= 1;
+  inc_y <<= 1;
+  lda <<= 1;
+  lda4 = lda << 2;
+
+  xbuffer = buffer;
+
+  n1 = n >> 2;
+  n2 = n & 3;
+
+  m3 = m & 3;
+  m1 = m - m3;
+  m2 = (m & (NBMAX - 1)) - m3;
+
+  alpha[0] = alpha_r;
+  alpha[1] = alpha_i;
+
+  BLASLONG NB = NBMAX;
+
+  while (NB == NBMAX) {
+
+    m1 -= NB;
+    if (m1 < 0) {
+      if (m2 == 0)
+        break;
+      NB = m2;
+    }
+
+    y_ptr = y;
+    a_ptr = a;
+    x_ptr = x;
+    ap[0] = a_ptr;
+    ap[1] = a_ptr + lda;
+    ap[2] = ap[1] + lda;
+    ap[3] = ap[2] + lda;
+    if (inc_x != 2)
+      copy_x(NB, x_ptr, xbuffer, inc_x);
+    else
+      xbuffer = x_ptr;
+
+    if (inc_y == 2) {
+
+      for (i = 0; i < n1; i++) {
+        cgemv_kernel_4x4(NB, ap, xbuffer, y_ptr, alpha);
+        ap[0] += lda4;
+        ap[1] += lda4;
+        ap[2] += lda4;
+        ap[3] += lda4;
+        a_ptr += lda4;
+        y_ptr += 8;
+
+      }
+
+      if (n2 & 2) {
+        cgemv_kernel_4x2(NB, ap, xbuffer, y_ptr, alpha);
+        a_ptr += lda * 2;
+        y_ptr += 4;
+
+      }
+
+      if (n2 & 1) {
+        cgemv_kernel_4x1(NB, a_ptr, xbuffer, y_ptr, alpha);
+        /* a_ptr += lda;
+           y_ptr += 2; */
+
+      }
+
+    } else {
+
+      for (i = 0; i < n1; i++) {
+        memset(ybuffer, 0, sizeof(ybuffer));
+        cgemv_kernel_4x4(NB, ap, xbuffer, ybuffer, alpha);
+        ap[0] += lda4;
+        ap[1] += lda4;
+        ap[2] += lda4;
+        ap[3] += lda4;
+        a_ptr += lda4;
+
+        y_ptr[0] += ybuffer[0];
+        y_ptr[1] += ybuffer[1];
+        y_ptr += inc_y;
+        y_ptr[0] += ybuffer[2];
+        y_ptr[1] += ybuffer[3];
+        y_ptr += inc_y;
+        y_ptr[0] += ybuffer[4];
+        y_ptr[1] += ybuffer[5];
+        y_ptr += inc_y;
+        y_ptr[0] += ybuffer[6];
+        y_ptr[1] += ybuffer[7];
+        y_ptr += inc_y;
+
+      }
+
+      for (i = 0; i < n2; i++) {
+        memset(ybuffer, 0, sizeof(ybuffer));
+        cgemv_kernel_4x1(NB, a_ptr, xbuffer, ybuffer, alpha);
+        a_ptr += lda;
+        y_ptr[0] += ybuffer[0];
+        y_ptr[1] += ybuffer[1];
+        y_ptr += inc_y;
+
+      }
+
+    }
+    a += 2 * NB;
+    x += NB * inc_x;
+  }
+
+  if (m3 == 0)
+    return (0);
+
+  x_ptr = x;
+  j = 0;
+  a_ptr = a;
+  y_ptr = y;
+
+  if (m3 == 3) {
+
+    FLOAT temp_r;
+    FLOAT temp_i;
+    FLOAT x0 = x_ptr[0];
+    FLOAT x1 = x_ptr[1];
+    x_ptr += inc_x;
+    FLOAT x2 = x_ptr[0];
+    FLOAT x3 = x_ptr[1];
+    x_ptr += inc_x;
+    FLOAT x4 = x_ptr[0];
+    FLOAT x5 = x_ptr[1];
+    while (j < n) {
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+      temp_r = a_ptr[0] * x0 - a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 + a_ptr[1] * x0;
+      temp_r += a_ptr[2] * x2 - a_ptr[3] * x3;
+      temp_i += a_ptr[2] * x3 + a_ptr[3] * x2;
+      temp_r += a_ptr[4] * x4 - a_ptr[5] * x5;
+      temp_i += a_ptr[4] * x5 + a_ptr[5] * x4;
+#else
+
+      temp_r = a_ptr[0] * x0 + a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 - a_ptr[1] * x0;
+      temp_r += a_ptr[2] * x2 + a_ptr[3] * x3;
+      temp_i += a_ptr[2] * x3 - a_ptr[3] * x2;
+      temp_r += a_ptr[4] * x4 + a_ptr[5] * x5;
+      temp_i += a_ptr[4] * x5 - a_ptr[5] * x4;
+#endif
+
+#if !defined(XCONJ)
+      y_ptr[0] += alpha_r * temp_r - alpha_i * temp_i;
+      y_ptr[1] += alpha_r * temp_i + alpha_i * temp_r;
+#else
+      y_ptr[0] += alpha_r * temp_r + alpha_i * temp_i;
+      y_ptr[1] -= alpha_r * temp_i - alpha_i * temp_r;
+#endif
+
+      a_ptr += lda;
+      y_ptr += inc_y;
+      j++;
+    }
+    return (0);
+  }
+
+  if (m3 == 2) {
+
+    FLOAT temp_r;
+    FLOAT temp_i;
+    FLOAT temp_r1;
+    FLOAT temp_i1;
+    FLOAT x0 = x_ptr[0];
+    FLOAT x1 = x_ptr[1];
+    x_ptr += inc_x;
+    FLOAT x2 = x_ptr[0];
+    FLOAT x3 = x_ptr[1];
+    FLOAT ar = alpha[0];
+    FLOAT ai = alpha[1];
+
+    while (j < (n & -2)) {
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+      temp_r = a_ptr[0] * x0 - a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 + a_ptr[1] * x0;
+      temp_r += a_ptr[2] * x2 - a_ptr[3] * x3;
+      temp_i += a_ptr[2] * x3 + a_ptr[3] * x2;
+      a_ptr += lda;
+      temp_r1 = a_ptr[0] * x0 - a_ptr[1] * x1;
+      temp_i1 = a_ptr[0] * x1 + a_ptr[1] * x0;
+      temp_r1 += a_ptr[2] * x2 - a_ptr[3] * x3;
+      temp_i1 += a_ptr[2] * x3 + a_ptr[3] * x2;
+#else
+
+      temp_r = a_ptr[0] * x0 + a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 - a_ptr[1] * x0;
+      temp_r += a_ptr[2] * x2 + a_ptr[3] * x3;
+      temp_i += a_ptr[2] * x3 - a_ptr[3] * x2;
+      a_ptr += lda;
+      temp_r1 = a_ptr[0] * x0 + a_ptr[1] * x1;
+      temp_i1 = a_ptr[0] * x1 - a_ptr[1] * x0;
+      temp_r1 += a_ptr[2] * x2 + a_ptr[3] * x3;
+      temp_i1 += a_ptr[2] * x3 - a_ptr[3] * x2;
+#endif
+
+#if !defined(XCONJ)
+      y_ptr[0] += ar * temp_r - ai * temp_i;
+      y_ptr[1] += ar * temp_i + ai * temp_r;
+      y_ptr += inc_y;
+      y_ptr[0] += ar * temp_r1 - ai * temp_i1;
+      y_ptr[1] += ar * temp_i1 + ai * temp_r1;
+#else
+      y_ptr[0] += ar * temp_r + ai * temp_i;
+      y_ptr[1] -= ar * temp_i - ai * temp_r;
+      y_ptr += inc_y;
+      y_ptr[0] += ar * temp_r1 + ai * temp_i1;
+      y_ptr[1] -= ar * temp_i1 - ai * temp_r1;
+#endif
+
+      a_ptr += lda;
+      y_ptr += inc_y;
+      j += 2;
+    }
+
+    while (j < n) {
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+      temp_r = a_ptr[0] * x0 - a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 + a_ptr[1] * x0;
+      temp_r += a_ptr[2] * x2 - a_ptr[3] * x3;
+      temp_i += a_ptr[2] * x3 + a_ptr[3] * x2;
+#else
+
+      temp_r = a_ptr[0] * x0 + a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 - a_ptr[1] * x0;
+      temp_r += a_ptr[2] * x2 + a_ptr[3] * x3;
+      temp_i += a_ptr[2] * x3 - a_ptr[3] * x2;
+#endif
+
+#if !defined(XCONJ)
+      y_ptr[0] += ar * temp_r - ai * temp_i;
+      y_ptr[1] += ar * temp_i + ai * temp_r;
+#else
+      y_ptr[0] += ar * temp_r + ai * temp_i;
+      y_ptr[1] -= ar * temp_i - ai * temp_r;
+#endif
+
+      a_ptr += lda;
+      y_ptr += inc_y;
+      j++;
+    }
+
+    return (0);
+  }
+
+  if (m3 == 1) {
+
+    FLOAT temp_r;
+    FLOAT temp_i;
+    FLOAT temp_r1;
+    FLOAT temp_i1;
+    FLOAT x0 = x_ptr[0];
+    FLOAT x1 = x_ptr[1];
+    FLOAT ar = alpha[0];
+    FLOAT ai = alpha[1];
+
+    while (j < (n & -2)) {
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+      temp_r = a_ptr[0] * x0 - a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 + a_ptr[1] * x0;
+      a_ptr += lda;
+      temp_r1 = a_ptr[0] * x0 - a_ptr[1] * x1;
+      temp_i1 = a_ptr[0] * x1 + a_ptr[1] * x0;
+#else
+
+      temp_r = a_ptr[0] * x0 + a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 - a_ptr[1] * x0;
+      a_ptr += lda;
+      temp_r1 = a_ptr[0] * x0 + a_ptr[1] * x1;
+      temp_i1 = a_ptr[0] * x1 - a_ptr[1] * x0;
+#endif
+
+#if !defined(XCONJ)
+      y_ptr[0] += ar * temp_r - ai * temp_i;
+      y_ptr[1] += ar * temp_i + ai * temp_r;
+      y_ptr += inc_y;
+      y_ptr[0] += ar * temp_r1 - ai * temp_i1;
+      y_ptr[1] += ar * temp_i1 + ai * temp_r1;
+#else
+      y_ptr[0] += ar * temp_r + ai * temp_i;
+      y_ptr[1] -= ar * temp_i - ai * temp_r;
+      y_ptr += inc_y;
+      y_ptr[0] += ar * temp_r1 + ai * temp_i1;
+      y_ptr[1] -= ar * temp_i1 - ai * temp_r1;
+#endif
+
+      a_ptr += lda;
+      y_ptr += inc_y;
+      j += 2;
+    }
+
+    while (j < n) {
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+      temp_r = a_ptr[0] * x0 - a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 + a_ptr[1] * x0;
+#else
+
+      temp_r = a_ptr[0] * x0 + a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 - a_ptr[1] * x0;
+#endif
+
+#if !defined(XCONJ)
+      y_ptr[0] += ar * temp_r - ai * temp_i;
+      y_ptr[1] += ar * temp_i + ai * temp_r;
+#else
+      y_ptr[0] += ar * temp_r + ai * temp_i;
+      y_ptr[1] -= ar * temp_i - ai * temp_r;
+#endif
+
+      a_ptr += lda;
+      y_ptr += inc_y;
+      j++;
+    }
+    return (0);
+  }
+
+  return (0);
+}
diff --git a/kernel/zarch/crot.c b/kernel/zarch/crot.c
new file mode 100644
index 0000000000..aab155f8b5
--- /dev/null
+++ b/kernel/zarch/crot.c
@@ -0,0 +1,236 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static void crot_kernel_32(BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *c, FLOAT *s) {
+  __asm__("vlrepf %%v0,%[c]\n\t"
+    "vlrepf %%v1,%[s]\n\t"
+    "srlg   %[n],%[n],5\n\t"
+    "xgr    %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "pfd 2, 1024(%%r1,%[y])\n\t"
+    "vl  %%v24, 0(%%r1,%[x])\n\t"
+    "vl  %%v25, 16(%%r1,%[x])\n\t"
+    "vl  %%v26, 32(%%r1,%[x])\n\t"
+    "vl  %%v27, 48(%%r1,%[x])\n\t"
+    "vl  %%v16, 0(%%r1,%[y])\n\t"
+    "vl  %%v17, 16(%%r1,%[y])\n\t"
+    "vl  %%v18, 32(%%r1,%[y])\n\t"
+    "vl  %%v19, 48(%%r1,%[y])\n\t"
+    "vfmsb %%v28,%%v24,%%v0\n\t"
+    "vfmsb %%v29,%%v25,%%v0\n\t"
+    "vfmsb %%v20,%%v24,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v21,%%v25,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v30,%%v26,%%v0\n\t"
+    "vfmsb %%v22,%%v26,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v31,%%v27,%%v0\n\t"
+    "vfmsb %%v23,%%v27,%%v1\n\t" /* yn=x*s */
+    /* 2nd parts */
+    "vfmasb %%v28,%%v16,%%v1,%%v28\n\t"
+    "vfmssb %%v20,%%v16,%%v0,%%v20\n\t" /* yn=y*c-yn */
+    "vfmasb %%v29,%%v17,%%v1,%%v29\n\t"
+    "vfmssb %%v21,%%v17,%%v0,%%v21\n\t" /* yn=y*c-yn */
+    "vfmasb %%v30,%%v18,%%v1,%%v30\n\t"
+    "vfmssb %%v22,%%v18,%%v0,%%v22\n\t" /* yn=y*c-yn */
+    "vfmasb %%v31,%%v19,%%v1,%%v31\n\t"
+    "vfmssb %%v23,%%v19,%%v0,%%v23\n\t" /* yn=y*c-yn */
+    "vst  %%v28, 0(%%r1,%[x])\n\t"
+    "vst  %%v29, 16(%%r1,%[x])\n\t"
+    "vst  %%v30, 32(%%r1,%[x])\n\t"
+    "vst  %%v31, 48(%%r1,%[x])\n\t"
+    "vst  %%v20, 0(%%r1,%[y])\n\t"
+    "vst  %%v21, 16(%%r1,%[y])\n\t"
+    "vst  %%v22, 32(%%r1,%[y])\n\t"
+    "vst  %%v23, 48(%%r1,%[y])\n\t"
+    "vl  %%v24, 64(%%r1,%[x])\n\t"
+    "vl  %%v25, 80(%%r1,%[x])\n\t"
+    "vl  %%v26, 96(%%r1,%[x])\n\t"
+    "vl  %%v27, 112(%%r1,%[x])\n\t"
+    "vl  %%v16, 64(%%r1,%[y])\n\t"
+    "vl  %%v17, 80(%%r1,%[y])\n\t"
+    "vl  %%v18, 96(%%r1,%[y])\n\t"
+    "vl  %%v19, 112(%%r1,%[y])\n\t"
+    "vfmsb %%v28,%%v24,%%v0\n\t"
+    "vfmsb %%v29,%%v25,%%v0\n\t"
+    "vfmsb %%v20,%%v24,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v21,%%v25,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v30,%%v26,%%v0\n\t"
+    "vfmsb %%v22,%%v26,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v31,%%v27,%%v0\n\t"
+    "vfmsb %%v23,%%v27,%%v1\n\t" /* yn=x*s */
+    /* 2nd parts */
+    "vfmasb %%v28,%%v16,%%v1,%%v28\n\t"
+    "vfmssb %%v20,%%v16,%%v0,%%v20\n\t" /* yn=y*c-yn */
+    "vfmasb %%v29,%%v17,%%v1,%%v29\n\t"
+    "vfmssb %%v21,%%v17,%%v0,%%v21\n\t" /* yn=y*c-yn */
+    "vfmasb %%v30,%%v18,%%v1,%%v30\n\t"
+    "vfmssb %%v22,%%v18,%%v0,%%v22\n\t" /* yn=y*c-yn */
+    "vfmasb %%v31,%%v19,%%v1,%%v31\n\t"
+    "vfmssb %%v23,%%v19,%%v0,%%v23\n\t" /* yn=y*c-yn */
+    "vst  %%v28, 64(%%r1,%[x])\n\t"
+    "vst  %%v29, 80(%%r1,%[x])\n\t"
+    "vst  %%v30, 96(%%r1,%[x])\n\t"
+    "vst  %%v31, 112(%%r1,%[x])\n\t"
+    "vst  %%v20, 64(%%r1,%[y])\n\t"
+    "vst  %%v21, 80(%%r1,%[y])\n\t"
+    "vst  %%v22, 96(%%r1,%[y])\n\t"
+    "vst  %%v23, 112(%%r1,%[y])\n\t"
+    "vl  %%v24, 128(%%r1,%[x])\n\t"
+    "vl  %%v25, 144(%%r1,%[x])\n\t"
+    "vl  %%v26, 160(%%r1,%[x])\n\t"
+    "vl  %%v27, 176(%%r1,%[x])\n\t"
+    "vl  %%v16, 128(%%r1,%[y])\n\t"
+    "vl  %%v17, 144(%%r1,%[y])\n\t"
+    "vl  %%v18, 160(%%r1,%[y])\n\t"
+    "vl  %%v19, 176(%%r1,%[y])\n\t"
+    "vfmsb %%v28,%%v24,%%v0\n\t"
+    "vfmsb %%v29,%%v25,%%v0\n\t"
+    "vfmsb %%v20,%%v24,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v21,%%v25,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v30,%%v26,%%v0\n\t"
+    "vfmsb %%v22,%%v26,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v31,%%v27,%%v0\n\t"
+    "vfmsb %%v23,%%v27,%%v1\n\t" /* yn=x*s */
+    /* 2nd parts */
+    "vfmasb %%v28,%%v16,%%v1,%%v28\n\t"
+    "vfmssb %%v20,%%v16,%%v0,%%v20\n\t" /* yn=y*c-yn */
+    "vfmasb %%v29,%%v17,%%v1,%%v29\n\t"
+    "vfmssb %%v21,%%v17,%%v0,%%v21\n\t" /* yn=y*c-yn */
+    "vfmasb %%v30,%%v18,%%v1,%%v30\n\t"
+    "vfmssb %%v22,%%v18,%%v0,%%v22\n\t" /* yn=y*c-yn */
+    "vfmasb %%v31,%%v19,%%v1,%%v31\n\t"
+    "vfmssb %%v23,%%v19,%%v0,%%v23\n\t" /* yn=y*c-yn */
+    "vst  %%v28, 128(%%r1,%[x])\n\t"
+    "vst  %%v29, 144(%%r1,%[x])\n\t"
+    "vst  %%v30, 160(%%r1,%[x])\n\t"
+    "vst  %%v31, 176(%%r1,%[x])\n\t"
+    "vst  %%v20, 128(%%r1,%[y])\n\t"
+    "vst  %%v21, 144(%%r1,%[y])\n\t"
+    "vst  %%v22, 160(%%r1,%[y])\n\t"
+    "vst  %%v23, 176(%%r1,%[y])\n\t"
+    "vl  %%v24, 192(%%r1,%[x])\n\t"
+    "vl  %%v25, 208(%%r1,%[x])\n\t"
+    "vl  %%v26, 224(%%r1,%[x])\n\t"
+    "vl  %%v27, 240(%%r1,%[x])\n\t"
+    "vl  %%v16, 192(%%r1,%[y])\n\t"
+    "vl  %%v17, 208(%%r1,%[y])\n\t"
+    "vl  %%v18, 224(%%r1,%[y])\n\t"
+    "vl  %%v19, 240(%%r1,%[y])\n\t"
+    "vfmsb %%v28,%%v24,%%v0\n\t"
+    "vfmsb %%v29,%%v25,%%v0\n\t"
+    "vfmsb %%v20,%%v24,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v21,%%v25,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v30,%%v26,%%v0\n\t"
+    "vfmsb %%v22,%%v26,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v31,%%v27,%%v0\n\t"
+    "vfmsb %%v23,%%v27,%%v1\n\t" /* yn=x*s */
+    /* 2nd parts */
+    "vfmasb %%v28,%%v16,%%v1,%%v28\n\t"
+    "vfmssb %%v20,%%v16,%%v0,%%v20\n\t" /* yn=y*c-yn */
+    "vfmasb %%v29,%%v17,%%v1,%%v29\n\t"
+    "vfmssb %%v21,%%v17,%%v0,%%v21\n\t" /* yn=y*c-yn */
+    "vfmasb %%v30,%%v18,%%v1,%%v30\n\t"
+    "vfmssb %%v22,%%v18,%%v0,%%v22\n\t" /* yn=y*c-yn */
+    "vfmasb %%v31,%%v19,%%v1,%%v31\n\t"
+    "vfmssb %%v23,%%v19,%%v0,%%v23\n\t" /* yn=y*c-yn */
+    "vst  %%v28, 192(%%r1,%[x])\n\t"
+    "vst  %%v29, 208(%%r1,%[x])\n\t"
+    "vst  %%v30, 224(%%r1,%[x])\n\t"
+    "vst  %%v31, 240(%%r1,%[x])\n\t"
+    "vst  %%v20, 192(%%r1,%[y])\n\t"
+    "vst  %%v21, 208(%%r1,%[y])\n\t"
+    "vst  %%v22, 224(%%r1,%[y])\n\t"
+    "vst  %%v23, 240(%%r1,%[y])\n\t"
+    "agfi  %%r1,256\n\t"
+    "brctg %[n],0b"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) x),
+       "+m"(*(struct { FLOAT x[n * 2]; } *) y),[n] "+&r"(n)
+    : [x] "a"(x),[y] "a"(y),[c] "Q"(*c),[s] "Q"(*s)
+    : "cc", "r1", "v0", "v1", "v16", "v17", "v18", "v19", "v20", "v21",
+       "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
+}
+
+int CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y,
+          FLOAT c, FLOAT s) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
+  FLOAT temp[2];
+  BLASLONG inc_x2;
+  BLASLONG inc_y2;
+
+  if (n <= 0)
+    return (0);
+
+  if ((inc_x == 1) && (inc_y == 1)) {
+
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+      FLOAT cosa, sina;
+      cosa = c;
+      sina = s;
+      crot_kernel_32(n1, x, y, &cosa, &sina);
+      i = n1;
+      ix = 2 * n1;
+    }
+
+    while (i < n) {
+      temp[0] = c * x[ix] + s * y[ix];
+      temp[1] = c * x[ix + 1] + s * y[ix + 1];
+      y[ix] = c * y[ix] - s * x[ix];
+      y[ix + 1] = c * y[ix + 1] - s * x[ix + 1];
+      x[ix] = temp[0];
+      x[ix + 1] = temp[1];
+
+      ix += 2;
+      i++;
+
+    }
+
+  } else {
+    inc_x2 = 2 * inc_x;
+    inc_y2 = 2 * inc_y;
+    while (i < n) {
+      temp[0] = c * x[ix] + s * y[iy];
+      temp[1] = c * x[ix + 1] + s * y[iy + 1];
+      y[iy] = c * y[iy] - s * x[ix];
+      y[iy + 1] = c * y[iy + 1] - s * x[ix + 1];
+      x[ix] = temp[0];
+      x[ix + 1] = temp[1];
+
+      ix += inc_x2;
+      iy += inc_y2;
+      i++;
+
+    }
+
+  }
+  return (0);
+
+}
diff --git a/kernel/zarch/cscal.c b/kernel/zarch/cscal.c
new file mode 100644
index 0000000000..9fc54cf295
--- /dev/null
+++ b/kernel/zarch/cscal.c
@@ -0,0 +1,429 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static void cscal_kernel_16(BLASLONG n, FLOAT *alpha, FLOAT *x) {
+  __asm__("vlrepf %%v0,0(%[alpha])\n\t"
+    "vlef   %%v1,4(%[alpha]),0\n\t"
+    "vlef   %%v1,4(%[alpha]),2\n\t"
+    "vflcsb %%v1,%%v1\n\t"
+    "vlef   %%v1,4(%[alpha]),1\n\t"
+    "vlef   %%v1,4(%[alpha]),3\n\t"
+    "srlg %[n],%[n],4\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "vl   %%v16,0(%%r1,%[x])\n\t"
+    "vl   %%v17,16(%%r1,%[x])\n\t"
+    "vl   %%v18,32(%%r1,%[x])\n\t"
+    "vl   %%v19,48(%%r1,%[x])\n\t"
+    "vl   %%v20,64(%%r1,%[x])\n\t"
+    "vl   %%v21,80(%%r1,%[x])\n\t"
+    "vl   %%v22,96(%%r1,%[x])\n\t"
+    "vl   %%v23,112(%%r1,%[x])\n\t"
+    "verllg   %%v24,%%v16,32\n\t"
+    "verllg   %%v25,%%v17,32\n\t"
+    "verllg   %%v26,%%v18,32\n\t"
+    "verllg   %%v27,%%v19,32\n\t"
+    "verllg   %%v28,%%v20,32\n\t"
+    "verllg   %%v29,%%v21,32\n\t"
+    "verllg   %%v30,%%v22,32\n\t"
+    "verllg   %%v31,%%v23,32\n\t"
+    "vfmsb %%v16,%%v16,%%v0\n\t"
+    "vfmsb %%v17,%%v17,%%v0\n\t"
+    "vfmsb %%v18,%%v18,%%v0\n\t"
+    "vfmsb %%v19,%%v19,%%v0\n\t"
+    "vfmsb %%v20,%%v20,%%v0\n\t"
+    "vfmsb %%v21,%%v21,%%v0\n\t"
+    "vfmsb %%v22,%%v22,%%v0\n\t"
+    "vfmsb %%v23,%%v23,%%v0\n\t"
+    "vfmasb %%v16,%%v24,%%v1,%%v16\n\t"
+    "vfmasb %%v17,%%v25,%%v1,%%v17\n\t"
+    "vfmasb %%v18,%%v26,%%v1,%%v18\n\t"
+    "vfmasb %%v19,%%v27,%%v1,%%v19\n\t"
+    "vfmasb %%v20,%%v28,%%v1,%%v20\n\t"
+    "vfmasb %%v21,%%v29,%%v1,%%v21\n\t"
+    "vfmasb %%v22,%%v30,%%v1,%%v22\n\t"
+    "vfmasb %%v23,%%v31,%%v1,%%v23\n\t"
+    "vst %%v16,0(%%r1,%[x])\n\t"
+    "vst %%v17,16(%%r1,%[x])\n\t"
+    "vst %%v18,32(%%r1,%[x])\n\t"
+    "vst %%v19,48(%%r1,%[x])\n\t"
+    "vst %%v20,64(%%r1,%[x])\n\t"
+    "vst %%v21,80(%%r1,%[x])\n\t"
+    "vst %%v22,96(%%r1,%[x])\n\t"
+    "vst %%v23,112(%%r1,%[x])\n\t"
+    "agfi  %%r1,128\n\t"
+    "brctg %[n],0b"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) x),[n] "+&r"(n)
+    : [x] "a"(x), "m"(*(const struct { FLOAT x[2]; } *) alpha),
+       [alpha] "a"(alpha)
+    : "cc", "r1", "v0", "v1", "v16", "v17", "v18", "v19", "v20", "v21",
+       "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
+}
+
+static void cscal_kernel_16_zero_r(BLASLONG n, FLOAT *alpha, FLOAT *x) {
+  __asm__("vlef   %%v0,4(%[alpha]),0\n\t"
+    "vlef   %%v0,4(%[alpha]),2\n\t"
+    "vflcsb %%v0,%%v0\n\t"
+    "vlef   %%v0,4(%[alpha]),1\n\t"
+    "vlef   %%v0,4(%[alpha]),3\n\t"
+    "srlg %[n],%[n],4\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "vl   %%v16,0(%%r1,%[x])\n\t"
+    "vl   %%v17,16(%%r1,%[x])\n\t"
+    "vl   %%v18,32(%%r1,%[x])\n\t"
+    "vl   %%v19,48(%%r1,%[x])\n\t"
+    "vl   %%v20,64(%%r1,%[x])\n\t"
+    "vl   %%v21,80(%%r1,%[x])\n\t"
+    "vl   %%v22,96(%%r1,%[x])\n\t"
+    "vl   %%v23,112(%%r1,%[x])\n\t"
+    "verllg   %%v16,%%v16,32\n\t"
+    "verllg   %%v17,%%v17,32\n\t"
+    "verllg   %%v18,%%v18,32\n\t"
+    "verllg   %%v19,%%v19,32\n\t"
+    "verllg   %%v20,%%v20,32\n\t"
+    "verllg   %%v21,%%v21,32\n\t"
+    "verllg   %%v22,%%v22,32\n\t"
+    "verllg   %%v23,%%v23,32\n\t"
+    "vfmsb %%v16,%%v16,%%v0\n\t"
+    "vfmsb %%v17,%%v17,%%v0\n\t"
+    "vfmsb %%v18,%%v18,%%v0\n\t"
+    "vfmsb %%v19,%%v19,%%v0\n\t"
+    "vfmsb %%v20,%%v20,%%v0\n\t"
+    "vfmsb %%v21,%%v21,%%v0\n\t"
+    "vfmsb %%v22,%%v22,%%v0\n\t"
+    "vfmsb %%v23,%%v23,%%v0\n\t"
+    "vst %%v16,0(%%r1,%[x])\n\t"
+    "vst %%v17,16(%%r1,%[x])\n\t"
+    "vst %%v18,32(%%r1,%[x])\n\t"
+    "vst %%v19,48(%%r1,%[x])\n\t"
+    "vst %%v20,64(%%r1,%[x])\n\t"
+    "vst %%v21,80(%%r1,%[x])\n\t"
+    "vst %%v22,96(%%r1,%[x])\n\t"
+    "vst %%v23,112(%%r1,%[x])\n\t"
+    "agfi  %%r1,128\n\t"
+    "brctg %[n],0b"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) x),[n] "+&r"(n)
+    : [x] "a"(x), "m"(*(const struct { FLOAT x[2]; } *) alpha),
+       [alpha] "a"(alpha)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23");
+}
+
+static void cscal_kernel_16_zero_i(BLASLONG n, FLOAT *alpha, FLOAT *x) {
+  __asm__("vlrepf %%v0,0(%[alpha])\n\t"
+    "srlg %[n],%[n],4\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "vl   %%v16,0(%%r1,%[x])\n\t"
+    "vl   %%v17,16(%%r1,%[x])\n\t"
+    "vl   %%v18,32(%%r1,%[x])\n\t"
+    "vl   %%v19,48(%%r1,%[x])\n\t"
+    "vl   %%v20,64(%%r1,%[x])\n\t"
+    "vl   %%v21,80(%%r1,%[x])\n\t"
+    "vl   %%v22,96(%%r1,%[x])\n\t"
+    "vl   %%v23,112(%%r1,%[x])\n\t"
+    "vfmsb %%v16,%%v16,%%v0\n\t"
+    "vfmsb %%v17,%%v17,%%v0\n\t"
+    "vfmsb %%v18,%%v18,%%v0\n\t"
+    "vfmsb %%v19,%%v19,%%v0\n\t"
+    "vfmsb %%v20,%%v20,%%v0\n\t"
+    "vfmsb %%v21,%%v21,%%v0\n\t"
+    "vfmsb %%v22,%%v22,%%v0\n\t"
+    "vfmsb %%v23,%%v23,%%v0\n\t"
+    "vst %%v16,0(%%r1,%[x])\n\t"
+    "vst %%v17,16(%%r1,%[x])\n\t"
+    "vst %%v18,32(%%r1,%[x])\n\t"
+    "vst %%v19,48(%%r1,%[x])\n\t"
+    "vst %%v20,64(%%r1,%[x])\n\t"
+    "vst %%v21,80(%%r1,%[x])\n\t"
+    "vst %%v22,96(%%r1,%[x])\n\t"
+    "vst %%v23,112(%%r1,%[x])\n\t"
+    "agfi  %%r1,128\n\t"
+    "brctg %[n],0b"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) x),[n] "+&r"(n)
+    : [x] "a"(x), "m"(*(const struct { FLOAT x[2]; } *) alpha),
+       [alpha] "a"(alpha)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23");
+}
+
+static void cscal_kernel_16_zero(BLASLONG n, FLOAT *x) {
+  __asm__("vzero %%v0\n\t"
+    "srlg %[n],%[n],4\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "vst  %%v0,0(%%r1,%[x])\n\t"
+    "vst  %%v0,16(%%r1,%[x])\n\t"
+    "vst  %%v0,32(%%r1,%[x])\n\t"
+    "vst  %%v0,48(%%r1,%[x])\n\t"
+    "vst  %%v0,64(%%r1,%[x])\n\t"
+    "vst  %%v0,80(%%r1,%[x])\n\t"
+    "vst  %%v0,96(%%r1,%[x])\n\t"
+    "vst  %%v0,112(%%r1,%[x])\n\t"
+    "agfi  %%r1,128\n\t"
+    "brctg %[n],0b"
+    : "=m"(*(struct { FLOAT x[n * 2]; } *) x),[n] "+&r"(n)
+    : [x] "a"(x)
+    : "cc", "r1", "v0");
+}
+
+static void cscal_kernel_inc_8(BLASLONG n, FLOAT *alpha, FLOAT *x,
+                               BLASLONG inc_x) {
+  BLASLONG i;
+  BLASLONG inc_x2 = 2 * inc_x;
+  BLASLONG inc_x3 = inc_x2 + inc_x;
+  FLOAT t0, t1, t2, t3;
+  FLOAT da_r = alpha[0];
+  FLOAT da_i = alpha[1];
+
+  for (i = 0; i < n; i += 4) {
+    t0 = da_r * x[0] - da_i * x[1];
+    t1 = da_r * x[inc_x] - da_i * x[inc_x + 1];
+    t2 = da_r * x[inc_x2] - da_i * x[inc_x2 + 1];
+    t3 = da_r * x[inc_x3] - da_i * x[inc_x3 + 1];
+
+    x[1] = da_i * x[0] + da_r * x[1];
+    x[inc_x + 1] = da_i * x[inc_x] + da_r * x[inc_x + 1];
+    x[inc_x2 + 1] = da_i * x[inc_x2] + da_r * x[inc_x2 + 1];
+    x[inc_x3 + 1] = da_i * x[inc_x3] + da_r * x[inc_x3 + 1];
+
+    x[0] = t0;
+    x[inc_x] = t1;
+    x[inc_x2] = t2;
+    x[inc_x3] = t3;
+
+    x += 4 * inc_x;
+  }
+}
+
+int CNAME(BLASLONG n, BLASLONG dummy0, BLASLONG dummy1, FLOAT da_r, FLOAT da_i,
+          FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *dummy,
+          BLASLONG dummy2) {
+  BLASLONG i = 0, j = 0;
+  FLOAT temp0;
+  FLOAT temp1;
+  FLOAT alpha[2] __attribute__ ((aligned(16)));
+
+  if (inc_x != 1) {
+    inc_x <<= 1;
+
+    if (da_r == 0.0) {
+
+      BLASLONG n1 = n & -2;
+
+      if (da_i == 0.0) {
+
+        while (j < n1) {
+
+          x[i] = 0.0;
+          x[i + 1] = 0.0;
+          x[i + inc_x] = 0.0;
+          x[i + 1 + inc_x] = 0.0;
+          i += 2 * inc_x;
+          j += 2;
+
+        }
+
+        while (j < n) {
+
+          x[i] = 0.0;
+          x[i + 1] = 0.0;
+          i += inc_x;
+          j++;
+
+        }
+
+      } else {
+
+        while (j < n1) {
+
+          temp0 = -da_i * x[i + 1];
+          x[i + 1] = da_i * x[i];
+          x[i] = temp0;
+          temp1 = -da_i * x[i + 1 + inc_x];
+          x[i + 1 + inc_x] = da_i * x[i + inc_x];
+          x[i + inc_x] = temp1;
+          i += 2 * inc_x;
+          j += 2;
+
+        }
+
+        while (j < n) {
+
+          temp0 = -da_i * x[i + 1];
+          x[i + 1] = da_i * x[i];
+          x[i] = temp0;
+          i += inc_x;
+          j++;
+
+        }
+
+      }
+
+    } else {
+
+      if (da_i == 0.0) {
+        BLASLONG n1 = n & -2;
+
+        while (j < n1) {
+
+          temp0 = da_r * x[i];
+          x[i + 1] = da_r * x[i + 1];
+          x[i] = temp0;
+          temp1 = da_r * x[i + inc_x];
+          x[i + 1 + inc_x] = da_r * x[i + 1 + inc_x];
+          x[i + inc_x] = temp1;
+          i += 2 * inc_x;
+          j += 2;
+
+        }
+
+        while (j < n) {
+
+          temp0 = da_r * x[i];
+          x[i + 1] = da_r * x[i + 1];
+          x[i] = temp0;
+          i += inc_x;
+          j++;
+
+        }
+
+      } else {
+
+        BLASLONG n1 = n & -8;
+        if (n1 > 0) {
+          alpha[0] = da_r;
+          alpha[1] = da_i;
+          cscal_kernel_inc_8(n1, alpha, x, inc_x);
+          j = n1;
+          i = n1 * inc_x;
+        }
+
+        while (j < n) {
+
+          temp0 = da_r * x[i] - da_i * x[i + 1];
+          x[i + 1] = da_r * x[i + 1] + da_i * x[i];
+          x[i] = temp0;
+          i += inc_x;
+          j++;
+
+        }
+
+      }
+
+    }
+
+    return (0);
+  }
+
+  BLASLONG n1 = n & -16;
+  if (n1 > 0) {
+
+    alpha[0] = da_r;
+    alpha[1] = da_i;
+
+    if (da_r == 0.0)
+      if (da_i == 0)
+        cscal_kernel_16_zero(n1, x);
+      else
+        cscal_kernel_16_zero_r(n1, alpha, x);
+    else if (da_i == 0)
+      cscal_kernel_16_zero_i(n1, alpha, x);
+    else
+      cscal_kernel_16(n1, alpha, x);
+
+    i = n1 << 1;
+    j = n1;
+  }
+
+  if (da_r == 0.0) {
+
+    if (da_i == 0.0) {
+
+      while (j < n) {
+
+        x[i] = 0.0;
+        x[i + 1] = 0.0;
+        i += 2;
+        j++;
+
+      }
+
+    } else {
+
+      while (j < n) {
+
+        temp0 = -da_i * x[i + 1];
+        x[i + 1] = da_i * x[i];
+        x[i] = temp0;
+        i += 2;
+        j++;
+
+      }
+
+    }
+
+  } else {
+
+    if (da_i == 0.0) {
+
+      while (j < n) {
+
+        temp0 = da_r * x[i];
+        x[i + 1] = da_r * x[i + 1];
+        x[i] = temp0;
+        i += 2;
+        j++;
+
+      }
+
+    } else {
+
+      while (j < n) {
+
+        temp0 = da_r * x[i] - da_i * x[i + 1];
+        x[i + 1] = da_r * x[i + 1] + da_i * x[i];
+        x[i] = temp0;
+        i += 2;
+        j++;
+
+      }
+
+    }
+
+  }
+
+  return (0);
+}
diff --git a/kernel/zarch/cswap.c b/kernel/zarch/cswap.c
new file mode 100644
index 0000000000..198994e185
--- /dev/null
+++ b/kernel/zarch/cswap.c
@@ -0,0 +1,169 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static void cswap_kernel_32(BLASLONG n, FLOAT *x, FLOAT *y) {
+  __asm__("srlg %[n],%[n],5\n\t"
+    "xgr  %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "pfd 2, 1024(%%r1,%[y])\n\t"
+    "vl  %%v16, 0(%%r1,%[x])\n\t"
+    "vl  %%v17, 16(%%r1,%[x])\n\t"
+    "vl  %%v18, 32(%%r1,%[x])\n\t"
+    "vl  %%v19, 48(%%r1,%[x])\n\t"
+    "vl  %%v20, 64(%%r1,%[x])\n\t"
+    "vl  %%v21, 80(%%r1,%[x])\n\t"
+    "vl  %%v22, 96(%%r1,%[x])\n\t"
+    "vl  %%v23, 112(%%r1,%[x])\n\t"
+    "vl  %%v24, 128(%%r1,%[x])\n\t"
+    "vl  %%v25, 144(%%r1,%[x])\n\t"
+    "vl  %%v26, 160(%%r1,%[x])\n\t"
+    "vl  %%v27, 176(%%r1,%[x])\n\t"
+    "vl  %%v28, 192(%%r1,%[x])\n\t"
+    "vl  %%v29, 208(%%r1,%[x])\n\t"
+    "vl  %%v30, 224(%%r1,%[x])\n\t"
+    "vl  %%v31, 240(%%r1,%[x])\n\t"
+    "vl  %%v0, 0(%%r1,%[y])\n\t"
+    "vl  %%v1, 16(%%r1,%[y])\n\t"
+    "vl  %%v2, 32(%%r1,%[y])\n\t"
+    "vl  %%v3, 48(%%r1,%[y])\n\t"
+    "vl  %%v4, 64(%%r1,%[y])\n\t"
+    "vl  %%v5, 80(%%r1,%[y])\n\t"
+    "vl  %%v6, 96(%%r1,%[y])\n\t"
+    "vl  %%v7, 112(%%r1,%[y])\n\t"
+    "vst  %%v0, 0(%%r1,%[x])\n\t"
+    "vst  %%v1, 16(%%r1,%[x])\n\t"
+    "vst  %%v2, 32(%%r1,%[x])\n\t"
+    "vst  %%v3, 48(%%r1,%[x])\n\t"
+    "vst  %%v4, 64(%%r1,%[x])\n\t"
+    "vst  %%v5, 80(%%r1,%[x])\n\t"
+    "vst  %%v6, 96(%%r1,%[x])\n\t"
+    "vst  %%v7, 112(%%r1,%[x])\n\t"
+    "vl  %%v0, 128(%%r1,%[y])\n\t"
+    "vl  %%v1, 144(%%r1,%[y])\n\t"
+    "vl  %%v2, 160(%%r1,%[y])\n\t"
+    "vl  %%v3, 176(%%r1,%[y])\n\t"
+    "vl  %%v4, 192(%%r1,%[y])\n\t"
+    "vl  %%v5, 208(%%r1,%[y])\n\t"
+    "vl  %%v6, 224(%%r1,%[y])\n\t"
+    "vl  %%v7, 240(%%r1,%[y])\n\t"
+    "vst  %%v0, 128(%%r1,%[x])\n\t"
+    "vst  %%v1, 144(%%r1,%[x])\n\t"
+    "vst  %%v2, 160(%%r1,%[x])\n\t"
+    "vst  %%v3, 176(%%r1,%[x])\n\t"
+    "vst  %%v4, 192(%%r1,%[x])\n\t"
+    "vst  %%v5, 208(%%r1,%[x])\n\t"
+    "vst  %%v6, 224(%%r1,%[x])\n\t"
+    "vst  %%v7, 240(%%r1,%[x])\n\t"
+    "vst  %%v16, 0(%%r1,%[y])\n\t"
+    "vst  %%v17, 16(%%r1,%[y])\n\t"
+    "vst  %%v18, 32(%%r1,%[y])\n\t"
+    "vst  %%v19, 48(%%r1,%[y])\n\t"
+    "vst  %%v20, 64(%%r1,%[y])\n\t"
+    "vst  %%v21, 80(%%r1,%[y])\n\t"
+    "vst  %%v22, 96(%%r1,%[y])\n\t"
+    "vst  %%v23, 112(%%r1,%[y])\n\t"
+    "vst  %%v24, 128(%%r1,%[y])\n\t"
+    "vst  %%v25, 144(%%r1,%[y])\n\t"
+    "vst  %%v26, 160(%%r1,%[y])\n\t"
+    "vst  %%v27, 176(%%r1,%[y])\n\t"
+    "vst  %%v28, 192(%%r1,%[y])\n\t"
+    "vst  %%v29, 208(%%r1,%[y])\n\t"
+    "vst  %%v30, 224(%%r1,%[y])\n\t"
+    "vst  %%v31, 240(%%r1,%[y])\n\t"
+    "agfi   %%r1,256\n\t"
+    "brctg  %[n],0b"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) x),
+       "+m"(*(struct { FLOAT x[n * 2]; } *) y),[n] "+&r"(n)
+    : [x] "a"(x),[y] "a"(y)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7", "v16",
+       "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
+       "v27", "v28", "v29", "v30", "v31");
+}
+
+int CNAME(BLASLONG n, BLASLONG dummy0, BLASLONG dummy1, FLOAT dummy3,
+          FLOAT dummy4, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y,
+          FLOAT *dummy, BLASLONG dummy2) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
+  FLOAT temp[2];
+  BLASLONG inc_x2, inc_y2;
+
+  if (n <= 0)
+    return (0);
+
+  if ((inc_x == 1) && (inc_y == 1)) {
+
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+      cswap_kernel_32(n1, x, y);
+      i = n1;
+      ix = 2 * n1;
+      iy = 2 * n1;
+    }
+
+    while (i < n) {
+
+      temp[0] = x[ix];
+      temp[1] = x[ix + 1];
+      x[ix] = y[iy];
+      x[ix + 1] = y[iy + 1];
+      y[iy] = temp[0];
+      y[iy + 1] = temp[1];
+
+      ix += 2;
+      iy += 2;
+      i++;
+
+    }
+
+  } else {
+
+    inc_x2 = 2 * inc_x;
+    inc_y2 = 2 * inc_y;
+
+    while (i < n) {
+
+      temp[0] = x[ix];
+      temp[1] = x[ix + 1];
+      x[ix] = y[iy];
+      x[ix + 1] = y[iy + 1];
+      y[iy] = temp[0];
+      y[iy + 1] = temp[1];
+
+      ix += inc_x2;
+      iy += inc_y2;
+      i++;
+
+    }
+
+  }
+  return (0);
+
+}
diff --git a/kernel/zarch/damax.c b/kernel/zarch/damax.c
new file mode 100644
index 0000000000..caacb50dc1
--- /dev/null
+++ b/kernel/zarch/damax.c
@@ -0,0 +1,150 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+#include <math.h>
+
+#define ABS fabs
+
+static FLOAT damax_kernel_32(BLASLONG n, FLOAT *x) {
+  FLOAT amax;
+
+  __asm__("vl    %%v0,0(%[x])\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vl  %%v24,128(%%r1,%[x])\n\t"
+    "vl  %%v25,144(%%r1,%[x])\n\t"
+    "vl  %%v26,160(%%r1,%[x])\n\t"
+    "vl  %%v27,176(%%r1,%[x])\n\t"
+    "vl  %%v28,192(%%r1,%[x])\n\t"
+    "vl  %%v29,208(%%r1,%[x])\n\t"
+    "vl  %%v30,224(%%r1,%[x])\n\t"
+    "vl  %%v31,240(%%r1,%[x])\n\t"
+    "vfmaxdb  %%v16,%%v16,%%v24,8\n\t"
+    "vfmaxdb  %%v17,%%v17,%%v25,8\n\t"
+    "vfmaxdb  %%v18,%%v18,%%v26,8\n\t"
+    "vfmaxdb  %%v19,%%v19,%%v27,8\n\t"
+    "vfmaxdb  %%v20,%%v20,%%v28,8\n\t"
+    "vfmaxdb  %%v21,%%v21,%%v29,8\n\t"
+    "vfmaxdb  %%v22,%%v22,%%v30,8\n\t"
+    "vfmaxdb  %%v23,%%v23,%%v31,8\n\t"
+    "vfmaxdb  %%v16,%%v16,%%v20,8\n\t"
+    "vfmaxdb  %%v17,%%v17,%%v21,8\n\t"
+    "vfmaxdb  %%v18,%%v18,%%v22,8\n\t"
+    "vfmaxdb  %%v19,%%v19,%%v23,8\n\t"
+    "vfmaxdb  %%v16,%%v16,%%v18,8\n\t"
+    "vfmaxdb  %%v17,%%v17,%%v19,8\n\t"
+    "vfmaxdb  %%v16,%%v16,%%v17,8\n\t"
+    "vfmaxdb  %%v0,%%v0,%%v16,8\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "vrepg   %%v16,%%v0,1\n\t"
+    "wfmaxdb %%v0,%%v0,%%v16,8\n\t"
+    "lpdr    %[amax],%%f0"
+    : [amax] "=f"(amax),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return amax;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT maxf = 0.0;
+
+  if (n <= 0 || inc_x <= 0)
+    return (maxf);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+
+      maxf = damax_kernel_32(n1, x);
+
+      i = n1;
+    } else {
+      maxf = ABS(x[0]);
+      i++;
+    }
+
+    while (i < n) {
+      if (ABS(x[i]) > maxf) {
+        maxf = ABS(x[i]);
+      }
+      i++;
+    }
+    return (maxf);
+
+  } else {
+
+    maxf = ABS(x[0]);
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (ABS(x[i]) > maxf) {
+        maxf = ABS(x[i]);
+      }
+      if (ABS(x[i + inc_x]) > maxf) {
+        maxf = ABS(x[i + inc_x]);
+      }
+      if (ABS(x[i + 2 * inc_x]) > maxf) {
+        maxf = ABS(x[i + 2 * inc_x]);
+      }
+      if (ABS(x[i + 3 * inc_x]) > maxf) {
+        maxf = ABS(x[i + 3 * inc_x]);
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
+
+    while (j < n) {
+      if (ABS(x[i]) > maxf) {
+        maxf = ABS(x[i]);
+      }
+      i += inc_x;
+      j++;
+    }
+    return (maxf);
+  }
+}
diff --git a/kernel/zarch/damax_z13.c b/kernel/zarch/damax_z13.c
new file mode 100644
index 0000000000..f3db4c108f
--- /dev/null
+++ b/kernel/zarch/damax_z13.c
@@ -0,0 +1,184 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+#include <math.h>
+
+#define ABS fabs
+
+static FLOAT damax_kernel_32(BLASLONG n, FLOAT *x) {
+  FLOAT amax;
+
+  __asm__("vl     %%v0,0(%[x])\n\t"
+    "vflpdb %%v0,%%v0\n\t"
+    "srlg   %[n],%[n],5\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfchdb  %%v24,%%v16,%%v17\n\t"
+    "vfchdb  %%v25,%%v18,%%v19\n\t"
+    "vfchdb  %%v26,%%v20,%%v21\n\t"
+    "vfchdb  %%v27,%%v22,%%v23\n\t"
+    "vsel    %%v24,%%v16,%%v17,%%v24\n\t"
+    "vsel    %%v25,%%v18,%%v19,%%v25\n\t"
+    "vsel    %%v26,%%v20,%%v21,%%v26\n\t"
+    "vsel    %%v27,%%v22,%%v23,%%v27\n\t"
+    "vfchdb  %%v28,%%v24,%%v25\n\t"
+    "vfchdb  %%v29,%%v26,%%v27\n\t"
+    "vsel    %%v28,%%v24,%%v25,%%v28\n\t"
+    "vsel    %%v29,%%v26,%%v27,%%v29\n\t"
+    "vfchdb  %%v30,%%v28,%%v29\n\t"
+    "vsel    %%v30,%%v28,%%v29,%%v30\n\t"
+    "vfchdb  %%v31,%%v30,%%v0\n\t"
+    "vsel    %%v0,%%v30,%%v0,%%v31\n\t"
+    "vl  %%v16,128(%%r1,%[x])\n\t"
+    "vl  %%v17,144(%%r1,%[x])\n\t"
+    "vl  %%v18,160(%%r1,%[x])\n\t"
+    "vl  %%v19,176(%%r1,%[x])\n\t"
+    "vl  %%v20,192(%%r1,%[x])\n\t"
+    "vl  %%v21,208(%%r1,%[x])\n\t"
+    "vl  %%v22,224(%%r1,%[x])\n\t"
+    "vl  %%v23,240(%%r1,%[x])\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfchdb  %%v24,%%v16,%%v17\n\t"
+    "vfchdb  %%v25,%%v18,%%v19\n\t"
+    "vfchdb  %%v26,%%v20,%%v21\n\t"
+    "vfchdb  %%v27,%%v22,%%v23\n\t"
+    "vsel    %%v24,%%v16,%%v17,%%v24\n\t"
+    "vsel    %%v25,%%v18,%%v19,%%v25\n\t"
+    "vsel    %%v26,%%v20,%%v21,%%v26\n\t"
+    "vsel    %%v27,%%v22,%%v23,%%v27\n\t"
+    "vfchdb  %%v28,%%v24,%%v25\n\t"
+    "vfchdb  %%v29,%%v26,%%v27\n\t"
+    "vsel    %%v28,%%v24,%%v25,%%v28\n\t"
+    "vsel    %%v29,%%v26,%%v27,%%v29\n\t"
+    "vfchdb  %%v30,%%v28,%%v29\n\t"
+    "vsel    %%v30,%%v28,%%v29,%%v30\n\t"
+    "vfchdb  %%v31,%%v30,%%v0\n\t"
+    "vsel    %%v0,%%v30,%%v0,%%v31\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "vrepg  %%v16,%%v0,1\n\t"
+    "wfchdb %%v17,%%v0,%%v16\n\t"
+    "vsel   %%v0,%%v0,%%v16,%%v17\n\t"
+    "ldr    %[amax],%%f0"
+    : [amax] "=f"(amax),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return amax;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT maxf = 0.0;
+
+  if (n <= 0 || inc_x <= 0)
+    return (maxf);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+
+      maxf = damax_kernel_32(n1, x);
+
+      i = n1;
+    } else {
+      maxf = ABS(x[0]);
+      i++;
+    }
+
+    while (i < n) {
+      if (ABS(x[i]) > maxf) {
+        maxf = ABS(x[i]);
+      }
+      i++;
+    }
+    return (maxf);
+
+  } else {
+
+    maxf = ABS(x[0]);
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (ABS(x[i]) > maxf) {
+        maxf = ABS(x[i]);
+      }
+      if (ABS(x[i + inc_x]) > maxf) {
+        maxf = ABS(x[i + inc_x]);
+      }
+      if (ABS(x[i + 2 * inc_x]) > maxf) {
+        maxf = ABS(x[i + 2 * inc_x]);
+      }
+      if (ABS(x[i + 3 * inc_x]) > maxf) {
+        maxf = ABS(x[i + 3 * inc_x]);
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
+
+    while (j < n) {
+      if (ABS(x[i]) > maxf) {
+        maxf = ABS(x[i]);
+      }
+      i += inc_x;
+      j++;
+    }
+    return (maxf);
+  }
+}
diff --git a/kernel/zarch/damin.c b/kernel/zarch/damin.c
new file mode 100644
index 0000000000..0163a144b3
--- /dev/null
+++ b/kernel/zarch/damin.c
@@ -0,0 +1,150 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+#include <math.h>
+
+#define ABS fabs
+
+static FLOAT damin_kernel_32(BLASLONG n, FLOAT *x) {
+  FLOAT amin;
+
+  __asm__("vl    %%v0,0(%[x])\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vl  %%v24,128(%%r1,%[x])\n\t"
+    "vl  %%v25,144(%%r1,%[x])\n\t"
+    "vl  %%v26,160(%%r1,%[x])\n\t"
+    "vl  %%v27,176(%%r1,%[x])\n\t"
+    "vl  %%v28,192(%%r1,%[x])\n\t"
+    "vl  %%v29,208(%%r1,%[x])\n\t"
+    "vl  %%v30,224(%%r1,%[x])\n\t"
+    "vl  %%v31,240(%%r1,%[x])\n\t"
+    "vfmindb  %%v16,%%v16,%%v24,8\n\t"
+    "vfmindb  %%v17,%%v17,%%v25,8\n\t"
+    "vfmindb  %%v18,%%v18,%%v26,8\n\t"
+    "vfmindb  %%v19,%%v19,%%v27,8\n\t"
+    "vfmindb  %%v20,%%v20,%%v28,8\n\t"
+    "vfmindb  %%v21,%%v21,%%v29,8\n\t"
+    "vfmindb  %%v22,%%v22,%%v30,8\n\t"
+    "vfmindb  %%v23,%%v23,%%v31,8\n\t"
+    "vfmindb  %%v16,%%v16,%%v20,8\n\t"
+    "vfmindb  %%v17,%%v17,%%v21,8\n\t"
+    "vfmindb  %%v18,%%v18,%%v22,8\n\t"
+    "vfmindb  %%v19,%%v19,%%v23,8\n\t"
+    "vfmindb  %%v16,%%v16,%%v18,8\n\t"
+    "vfmindb  %%v17,%%v17,%%v19,8\n\t"
+    "vfmindb  %%v16,%%v16,%%v17,8\n\t"
+    "vfmindb  %%v0,%%v0,%%v16,8\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "vrepg   %%v16,%%v0,1\n\t"
+    "wfmindb %%v0,%%v0,%%v16,8\n\t"
+    "lpdr    %[amin],%%f0"
+    : [amin] "=f"(amin),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return amin;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT minf = 0.0;
+
+  if (n <= 0 || inc_x <= 0)
+    return (minf);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+
+      minf = damin_kernel_32(n1, x);
+
+      i = n1;
+    } else {
+      minf = ABS(x[0]);
+      i++;
+    }
+
+    while (i < n) {
+      if (ABS(x[i]) < minf) {
+        minf = ABS(x[i]);
+      }
+      i++;
+    }
+    return (minf);
+
+  } else {
+
+    minf = ABS(x[0]);
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (ABS(x[i]) < minf) {
+        minf = ABS(x[i]);
+      }
+      if (ABS(x[i + inc_x]) < minf) {
+        minf = ABS(x[i + inc_x]);
+      }
+      if (ABS(x[i + 2 * inc_x]) < minf) {
+        minf = ABS(x[i + 2 * inc_x]);
+      }
+      if (ABS(x[i + 3 * inc_x]) < minf) {
+        minf = ABS(x[i + 3 * inc_x]);
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
+
+    while (j < n) {
+      if (ABS(x[i]) < minf) {
+        minf = ABS(x[i]);
+      }
+      i += inc_x;
+      j++;
+    }
+    return (minf);
+  }
+}
diff --git a/kernel/zarch/damin_z13.c b/kernel/zarch/damin_z13.c
new file mode 100644
index 0000000000..4196b2e15f
--- /dev/null
+++ b/kernel/zarch/damin_z13.c
@@ -0,0 +1,184 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+#include <math.h>
+
+#define ABS fabs
+
+static FLOAT damin_kernel_32(BLASLONG n, FLOAT *x) {
+  FLOAT amin;
+
+  __asm__("vl     %%v0,0(%[x])\n\t"
+    "vflpdb %%v0,%%v0\n\t"
+    "srlg   %[n],%[n],5\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfchdb  %%v24,%%v17,%%v16\n\t"
+    "vfchdb  %%v25,%%v19,%%v18\n\t"
+    "vfchdb  %%v26,%%v21,%%v20\n\t"
+    "vfchdb  %%v27,%%v23,%%v22\n\t"
+    "vsel    %%v24,%%v16,%%v17,%%v24\n\t"
+    "vsel    %%v25,%%v18,%%v19,%%v25\n\t"
+    "vsel    %%v26,%%v20,%%v21,%%v26\n\t"
+    "vsel    %%v27,%%v22,%%v23,%%v27\n\t"
+    "vfchdb  %%v28,%%v25,%%v24\n\t"
+    "vfchdb  %%v29,%%v27,%%v26\n\t"
+    "vsel    %%v28,%%v24,%%v25,%%v28\n\t"
+    "vsel    %%v29,%%v26,%%v27,%%v29\n\t"
+    "vfchdb  %%v30,%%v29,%%v28\n\t"
+    "vsel    %%v30,%%v28,%%v29,%%v30\n\t"
+    "vfchdb  %%v31,%%v0,%%v30\n\t"
+    "vsel    %%v0,%%v30,%%v0,%%v31\n\t"
+    "vl  %%v16,128(%%r1,%[x])\n\t"
+    "vl  %%v17,144(%%r1,%[x])\n\t"
+    "vl  %%v18,160(%%r1,%[x])\n\t"
+    "vl  %%v19,176(%%r1,%[x])\n\t"
+    "vl  %%v20,192(%%r1,%[x])\n\t"
+    "vl  %%v21,208(%%r1,%[x])\n\t"
+    "vl  %%v22,224(%%r1,%[x])\n\t"
+    "vl  %%v23,240(%%r1,%[x])\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfchdb  %%v24,%%v17,%%v16\n\t"
+    "vfchdb  %%v25,%%v19,%%v18\n\t"
+    "vfchdb  %%v26,%%v21,%%v20\n\t"
+    "vfchdb  %%v27,%%v23,%%v22\n\t"
+    "vsel    %%v24,%%v16,%%v17,%%v24\n\t"
+    "vsel    %%v25,%%v18,%%v19,%%v25\n\t"
+    "vsel    %%v26,%%v20,%%v21,%%v26\n\t"
+    "vsel    %%v27,%%v22,%%v23,%%v27\n\t"
+    "vfchdb  %%v28,%%v25,%%v24\n\t"
+    "vfchdb  %%v29,%%v27,%%v26\n\t"
+    "vsel    %%v28,%%v24,%%v25,%%v28\n\t"
+    "vsel    %%v29,%%v26,%%v27,%%v29\n\t"
+    "vfchdb  %%v30,%%v29,%%v28\n\t"
+    "vsel    %%v30,%%v28,%%v29,%%v30\n\t"
+    "vfchdb  %%v31,%%v0,%%v30\n\t"
+    "vsel    %%v0,%%v30,%%v0,%%v31\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "vrepg  %%v16,%%v0,1\n\t"
+    "wfchdb %%v17,%%v16,%%v0\n\t"
+    "vsel   %%v0,%%v0,%%v16,%%v17\n\t"
+    "ldr    %[amin],%%f0"
+    : [amin] "=f"(amin),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return amin;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT minf = 0.0;
+
+  if (n <= 0 || inc_x <= 0)
+    return (minf);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+
+      minf = damin_kernel_32(n1, x);
+
+      i = n1;
+    } else {
+      minf = ABS(x[0]);
+      i++;
+    }
+
+    while (i < n) {
+      if (ABS(x[i]) < minf) {
+        minf = ABS(x[i]);
+      }
+      i++;
+    }
+    return (minf);
+
+  } else {
+
+    minf = ABS(x[0]);
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (ABS(x[i]) < minf) {
+        minf = ABS(x[i]);
+      }
+      if (ABS(x[i + inc_x]) < minf) {
+        minf = ABS(x[i + inc_x]);
+      }
+      if (ABS(x[i + 2 * inc_x]) < minf) {
+        minf = ABS(x[i + 2 * inc_x]);
+      }
+      if (ABS(x[i + 3 * inc_x]) < minf) {
+        minf = ABS(x[i + 3 * inc_x]);
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
+
+    while (j < n) {
+      if (ABS(x[i]) < minf) {
+        minf = ABS(x[i]);
+      }
+      i += inc_x;
+      j++;
+    }
+    return (minf);
+  }
+}
diff --git a/kernel/zarch/dasum.c b/kernel/zarch/dasum.c
index 7a42a08634..aa1382b103 100644
--- a/kernel/zarch/dasum.c
+++ b/kernel/zarch/dasum.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2013-2017, The OpenBLAS Project
+Copyright (c) 2013-2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -23,142 +23,144 @@ SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
 CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
 OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
- *****************************************************************************/
-
+*****************************************************************************/
 
 #include "common.h"
 #include <math.h>
 
-#if defined(DOUBLE) 
-#define ABS fabs 
-#else 
-#define ABS fabsf 
-#endif
-
-
- 
-
-static   FLOAT  dasum_kernel_32(BLASLONG n, FLOAT *x) {
-    FLOAT asum    ; 
-    __asm__  (
-            "pfd     1, 0(%[ptr_x])   \n\t"
-            "sllg    %%r0,%[n],3  \n\t"
-            "agr     %%r0,%[ptr_x]    \n\t"   
-            "vzero   %%v0       \n\t"
-            "vzero   %%v1       \n\t"
-            "vzero   %%v2       \n\t"
-            "vzero   %%v3       \n\t"   
-            ".align 16 \n\t"
-            "1:      \n\t"
-            "pfd     1, 256(%[ptr_temp] ) \n\t"
-            "vlm     %%v24,%%v31, 0(%[ptr_temp] ) \n\t"  
-    
-            "vflpdb  %%v24, %%v24 \n\t"
-            "vflpdb  %%v25, %%v25 \n\t"
-            "vflpdb  %%v26, %%v26 \n\t"
-            "vflpdb  %%v27, %%v27 \n\t"
-            "vflpdb  %%v28, %%v28 \n\t"
-            "vflpdb  %%v29, %%v29 \n\t"
-            "vflpdb  %%v30, %%v30 \n\t"
-            "vflpdb  %%v31, %%v31 \n\t"
-    
-            "vfadb   %%v0,%%v0,%%v24    \n\t"
-            "vfadb   %%v1,%%v1,%%v25    \n\t"
-            "vfadb   %%v2,%%v2,%%v26    \n\t"
-            "vfadb   %%v3,%%v3,%%v27    \n\t" 
-            "vfadb   %%v0,%%v0,%%v28    \n\t"
-            "vfadb   %%v1,%%v1,%%v29    \n\t"
-            "vfadb   %%v2,%%v2,%%v30    \n\t"
-            "vfadb   %%v3,%%v3,%%v31    \n\t" 
-    
-            "vlm     %%v24,%%v31, 128(%[ptr_temp]) \n\t"  
-    
-            "vflpdb  %%v24, %%v24       \n\t"
-            "vflpdb  %%v25, %%v25       \n\t"
-            "vflpdb  %%v26, %%v26       \n\t"
-            "vflpdb  %%v27, %%v27       \n\t"
-            "vflpdb  %%v28, %%v28       \n\t"
-            "vflpdb  %%v29, %%v29       \n\t"
-            "vflpdb  %%v30, %%v30       \n\t"
-            "vflpdb  %%v31, %%v31       \n\t"
-            "la      %[ptr_temp],256(%[ptr_temp])  \n\t"  
-            "vfadb   %%v0,%%v0,%%v24    \n\t"
-            "vfadb   %%v1,%%v1,%%v25    \n\t"
-            "vfadb   %%v2,%%v2,%%v26    \n\t"
-            "vfadb   %%v3,%%v3,%%v27    \n\t" 
-            "vfadb   %%v0,%%v0,%%v28    \n\t"
-            "vfadb   %%v1,%%v1,%%v29    \n\t"
-            "vfadb   %%v2,%%v2,%%v30    \n\t"
-            "vfadb   %%v3,%%v3,%%v31    \n\t"  
-            
-            "clgrjl  %[ptr_temp],%%r0,1b           \n\t"
-            "vfadb   %%v24,%%v0,%%v1    \n\t"
-            "vfadb   %%v25,%%v2,%%v3    \n\t"
-            "vfadb   %%v0,%%v25,%%v24   \n\t"
-            "vrepg   %%v1,%%v0,1        \n\t"
-            "adbr    %%f0,%%f1          \n\t"
-            "ldr     %[asum],%%f0       \n\t"
-            : [asum] "=f"(asum),[ptr_temp] "+&a"(x)
-            : [mem] "m"( *(const double (*)[n])x ), [n] "r"(n), [ptr_x] "a"(x)
-            : "cc", "r0" ,"f0","f1","v0","v1","v2","v3","v24","v25","v26","v27","v28","v29","v30","v31"
-            );
-      return asum;
-
+#define ABS fabs
+
+static FLOAT dasum_kernel_32(BLASLONG n, FLOAT *x) {
+  FLOAT asum;
+
+  __asm__("vzero   %%v24\n\t"
+    "vzero   %%v25\n\t"
+    "vzero   %%v26\n\t"
+    "vzero   %%v27\n\t"
+    "vzero   %%v28\n\t"
+    "vzero   %%v29\n\t"
+    "vzero   %%v30\n\t"
+    "vzero   %%v31\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd  1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16, 0(%%r1,%[x])\n\t"
+    "vl  %%v17, 16(%%r1,%[x])\n\t"
+    "vl  %%v18, 32(%%r1,%[x])\n\t"
+    "vl  %%v19, 48(%%r1,%[x])\n\t"
+    "vl  %%v20, 64(%%r1,%[x])\n\t"
+    "vl  %%v21, 80(%%r1,%[x])\n\t"
+    "vl  %%v22, 96(%%r1,%[x])\n\t"
+    "vl  %%v23, 112(%%r1,%[x])\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfadb   %%v24,%%v24,%%v16\n\t"
+    "vfadb   %%v25,%%v25,%%v17\n\t"
+    "vfadb   %%v26,%%v26,%%v18\n\t"
+    "vfadb   %%v27,%%v27,%%v19\n\t"
+    "vfadb   %%v28,%%v28,%%v20\n\t"
+    "vfadb   %%v29,%%v29,%%v21\n\t"
+    "vfadb   %%v30,%%v30,%%v22\n\t"
+    "vfadb   %%v31,%%v31,%%v23\n\t"
+    "vl  %%v16, 128(%%r1,%[x])\n\t"
+    "vl  %%v17, 144(%%r1,%[x])\n\t"
+    "vl  %%v18, 160(%%r1,%[x])\n\t"
+    "vl  %%v19, 176(%%r1,%[x])\n\t"
+    "vl  %%v20, 192(%%r1,%[x])\n\t"
+    "vl  %%v21, 208(%%r1,%[x])\n\t"
+    "vl  %%v22, 224(%%r1,%[x])\n\t"
+    "vl  %%v23, 240(%%r1,%[x])\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfadb   %%v24,%%v24,%%v16\n\t"
+    "vfadb   %%v25,%%v25,%%v17\n\t"
+    "vfadb   %%v26,%%v26,%%v18\n\t"
+    "vfadb   %%v27,%%v27,%%v19\n\t"
+    "vfadb   %%v28,%%v28,%%v20\n\t"
+    "vfadb   %%v29,%%v29,%%v21\n\t"
+    "vfadb   %%v30,%%v30,%%v22\n\t"
+    "vfadb   %%v31,%%v31,%%v23\n\t"
+    "agfi  %%r1,256\n\t"
+    "brctg %[n],0b\n\t"
+    "vfadb   %%v24,%%v24,%%v25\n\t"
+    "vfadb   %%v24,%%v24,%%v26\n\t"
+    "vfadb   %%v24,%%v24,%%v27\n\t"
+    "vfadb   %%v24,%%v24,%%v28\n\t"
+    "vfadb   %%v24,%%v24,%%v29\n\t"
+    "vfadb   %%v24,%%v24,%%v30\n\t"
+    "vfadb   %%v24,%%v24,%%v31\n\t"
+    "vrepg   %%v25,%%v24,1\n\t"
+    "vfadb   %%v24,%%v24,%%v25\n\t"
+    "vsteg   %%v24,%[asum],0"
+    : [asum] "=Q"(asum),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23",
+       "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return asum;
 }
 
-
-
-
 FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
-    BLASLONG i = 0;
-    BLASLONG j = 0;
-    FLOAT sumf = 0.0;
-    BLASLONG n1;
-
-    if (n <= 0 || inc_x <= 0) return sumf;
-
-    if (inc_x == 1) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT sumf = 0.0;
+  BLASLONG n1;
 
-        n1 = n & -32;
-               
-        if (n1 > 0) {
+  if (n <= 0 || inc_x <= 0)
+    return sumf;
 
-            sumf = dasum_kernel_32(n1, x);
-            i = n1;
-        }
+  if (inc_x == 1) {
 
-        while (i < n) {
-            sumf += ABS(x[i]);
-            i++;
-        }
+    n1 = n & -32;
 
-    } else {
-        BLASLONG n1 = n & -4;
-        register FLOAT sum1, sum2;
-        sum1 = 0.0;
-        sum2 = 0.0;
-        while (j < n1) {
+    if (n1 > 0) {
 
-            sum1 += ABS(x[i]);
-            sum2 += ABS(x[i + inc_x]);
-            sum1 += ABS(x[i + 2 * inc_x]);
-            sum2 += ABS(x[i + 3 * inc_x]);
+      sumf = dasum_kernel_32(n1, x);
+      i = n1;
+    }
 
-            i += inc_x * 4;
-            j += 4;
+    while (i < n) {
+      sumf += ABS(x[i]);
+      i++;
+    }
 
-        }
-        sumf = sum1 + sum2;
-        while (j < n) {
+  } else {
+    BLASLONG n1 = n & -4;
+    register FLOAT sum1, sum2;
+    sum1 = 0.0;
+    sum2 = 0.0;
+    while (j < n1) {
 
-            sumf += ABS(x[i]);
-            i += inc_x;
-            j++;
-        }
+      sum1 += ABS(x[i]);
+      sum2 += ABS(x[i + inc_x]);
+      sum1 += ABS(x[i + 2 * inc_x]);
+      sum2 += ABS(x[i + 3 * inc_x]);
 
+      i += inc_x * 4;
+      j += 4;
 
     }
-    return sumf;
-}
+    sumf = sum1 + sum2;
+    while (j < n) {
 
+      sumf += ABS(x[i]);
+      i += inc_x;
+      j++;
+    }
 
+  }
+  return sumf;
+}
diff --git a/kernel/zarch/daxpy.c b/kernel/zarch/daxpy.c
index 16f82a5879..5b0208c20e 100644
--- a/kernel/zarch/daxpy.c
+++ b/kernel/zarch/daxpy.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2013-2017, The OpenBLAS Project
+Copyright (c) 2013-2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -25,159 +25,143 @@ OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 *****************************************************************************/
 
-
 #include "common.h"
 
-#define PREFETCH_INS 1
-#if defined(Z13_A)
-#include <vecintrin.h>
-
-static void daxpy_kernel_32(BLASLONG n, FLOAT *x, FLOAT *y, FLOAT alpha)
-{
-    BLASLONG  i = 0;
-    __vector double v_a = {alpha,alpha}; 
-    __vector double * v_y=(__vector double *)y;
-    __vector double * v_x=(__vector double *)x;
-        
-    for(; i<n/2; i+=16){
-
-        v_y[i]    += v_a * v_x[i];
-        v_y[i+1]  += v_a * v_x[i+1];
-        v_y[i+2]  += v_a * v_x[i+2];
-        v_y[i+3]  += v_a * v_x[i+3];
-        v_y[i+4]  += v_a * v_x[i+4];
-        v_y[i+5]  += v_a * v_x[i+5];
-        v_y[i+6]  += v_a * v_x[i+6];
-        v_y[i+7]  += v_a * v_x[i+7]; 
-        v_y[i+8]  += v_a * v_x[i+8];
-        v_y[i+9]  += v_a * v_x[i+9];
-        v_y[i+10] += v_a * v_x[i+10];
-        v_y[i+11] += v_a * v_x[i+11];
-        v_y[i+12] += v_a * v_x[i+12];
-        v_y[i+13] += v_a * v_x[i+13];
-        v_y[i+14] += v_a * v_x[i+14];
-        v_y[i+15] += v_a * v_x[i+15];
-    }
-
+static void daxpy_kernel_32(BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha) {
+  __asm__("vlrepg %%v0,%[alpha]\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "pfd 2, 1024(%%r1,%[y])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,0(%%r1,%[y])\n\t"
+    "vl  %%v21,16(%%r1,%[y])\n\t"
+    "vl  %%v22,32(%%r1,%[y])\n\t"
+    "vl  %%v23,48(%%r1,%[y])\n\t"
+    "vl  %%v24,64(%%r1,%[x])\n\t"
+    "vl  %%v25,80(%%r1,%[x])\n\t"
+    "vl  %%v26,96(%%r1,%[x])\n\t"
+    "vl  %%v27,112(%%r1,%[x])\n\t"
+    "vl  %%v28,64(%%r1,%[y])\n\t"
+    "vl  %%v29,80(%%r1,%[y])\n\t"
+    "vl  %%v30,96(%%r1,%[y])\n\t"
+    "vl  %%v31,112(%%r1,%[y])\n\t"
+    "vfmadb   %%v16,%%v0,%%v16,%%v20\n\t"
+    "vfmadb   %%v17,%%v0,%%v17,%%v21\n\t"
+    "vfmadb   %%v18,%%v0,%%v18,%%v22\n\t"
+    "vfmadb   %%v19,%%v0,%%v19,%%v23\n\t"
+    "vfmadb   %%v24,%%v0,%%v24,%%v28\n\t"
+    "vfmadb   %%v25,%%v0,%%v25,%%v29\n\t"
+    "vfmadb   %%v26,%%v0,%%v26,%%v30\n\t"
+    "vfmadb   %%v27,%%v0,%%v27,%%v31\n\t"
+    "vst  %%v16,0(%%r1,%[y])\n\t"
+    "vst  %%v17,16(%%r1,%[y])\n\t"
+    "vst  %%v18,32(%%r1,%[y])\n\t"
+    "vst  %%v19,48(%%r1,%[y])\n\t"
+    "vst  %%v24,64(%%r1,%[y])\n\t"
+    "vst  %%v25,80(%%r1,%[y])\n\t"
+    "vst  %%v26,96(%%r1,%[y])\n\t"
+    "vst  %%v27,112(%%r1,%[y])\n\t"
+    "vl  %%v16,128(%%r1,%[x])\n\t"
+    "vl  %%v17,144(%%r1,%[x])\n\t"
+    "vl  %%v18,160(%%r1,%[x])\n\t"
+    "vl  %%v19,176(%%r1,%[x])\n\t"
+    "vl  %%v20,128(%%r1,%[y])\n\t"
+    "vl  %%v21,144(%%r1,%[y])\n\t"
+    "vl  %%v22,160(%%r1,%[y])\n\t"
+    "vl  %%v23,176(%%r1,%[y])\n\t"
+    "vl  %%v24,192(%%r1,%[x])\n\t"
+    "vl  %%v25,208(%%r1,%[x])\n\t"
+    "vl  %%v26,224(%%r1,%[x])\n\t"
+    "vl  %%v27,240(%%r1,%[x])\n\t"
+    "vl  %%v28,192(%%r1,%[y])\n\t"
+    "vl  %%v29,208(%%r1,%[y])\n\t"
+    "vl  %%v30,224(%%r1,%[y])\n\t"
+    "vl  %%v31,240(%%r1,%[y])\n\t"
+    "vfmadb   %%v16,%%v0,%%v16,%%v20\n\t"
+    "vfmadb   %%v17,%%v0,%%v17,%%v21\n\t"
+    "vfmadb   %%v18,%%v0,%%v18,%%v22\n\t"
+    "vfmadb   %%v19,%%v0,%%v19,%%v23\n\t"
+    "vfmadb   %%v24,%%v0,%%v24,%%v28\n\t"
+    "vfmadb   %%v25,%%v0,%%v25,%%v29\n\t"
+    "vfmadb   %%v26,%%v0,%%v26,%%v30\n\t"
+    "vfmadb   %%v27,%%v0,%%v27,%%v31\n\t"
+    "vst  %%v16,128(%%r1,%[y])\n\t"
+    "vst  %%v17,144(%%r1,%[y])\n\t"
+    "vst  %%v18,160(%%r1,%[y])\n\t"
+    "vst  %%v19,176(%%r1,%[y])\n\t"
+    "vst  %%v24,192(%%r1,%[y])\n\t"
+    "vst  %%v25,208(%%r1,%[y])\n\t"
+    "vst  %%v26,224(%%r1,%[y])\n\t"
+    "vst  %%v27,240(%%r1,%[y])\n\t"
+    "agfi  %%r1,256\n\t"
+    "brctg %[n],0b"
+    : "+m"(*(struct { FLOAT x[n]; } *) y),[n] "+&r"(n)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x),
+       [alpha] "Q"(*alpha)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
 }
-#else
-static void   daxpy_kernel_32(BLASLONG n, FLOAT *x, FLOAT *y, FLOAT alpha)
-{ 
-        
-         __asm__ volatile( 
-#if defined(PREFETCH_INS)         
-                   "pfd      1, 0(%[x_tmp])   \n\t"
-                   "pfd      2, 0(%[y_tmp])   \n\t"
-#endif
-                    "lgdr    %%r0,%[alpha]    \n\t"
-                    "vlvgp   %%v0,%%r0,%%r0   \n\t"   
-                    "srlg    %%r0,%[n],5      \n\t" 
-                    "vlr     %%v1,%%v0        \n\t"
-                    ".align 16 \n\t"    
-                    "1: \n\t"
-#if defined(PREFETCH_INS)         
-                    "pfd      1, 256(%[x_tmp]) \n\t"
-                    "pfd      2, 256(%[y_tmp]) \n\t"
-#endif                  
-                    "vlm      %%v16,%%v23,  0(%[x_tmp])    \n\t"
-                    "vlm      %%v24, %%v31, 0(%[y_tmp])    \n\t"
-                    "vfmadb   %%v16,%%v0,%%v16,%%v24       \n\t"
-                    "vfmadb   %%v17,%%v1,%%v17,%%v25       \n\t"  
-                    "vfmadb   %%v18,%%v0,%%v18,%%v26       \n\t"
-                    "vfmadb   %%v19,%%v1,%%v19,%%v27       \n\t"
-                    "vfmadb   %%v20,%%v0,%%v20,%%v28       \n\t"
-                    "vfmadb   %%v21,%%v1,%%v21,%%v29       \n\t"  
-                    "vfmadb   %%v22,%%v0,%%v22,%%v30       \n\t"
-                    "vfmadb   %%v23,%%v1,%%v23,%%v31       \n\t"
-                    "vstm     %%v16,%%v23,   0(%[y_tmp])   \n\t" 
-                    "vlm      %%v24,%%v31, 128(%[x_tmp])   \n\t"
-                    "vlm      %%v16,%%v23, 128(%[y_tmp])   \n\t"
-                    "vfmadb   %%v24,%%v0,%%v24,%%v16       \n\t"
-                    "vfmadb   %%v25,%%v1,%%v25,%%v17       \n\t"  
-                    "vfmadb   %%v26,%%v0,%%v26,%%v18       \n\t"
-                    "vfmadb   %%v27,%%v1,%%v27,%%v19       \n\t"
-                    "vfmadb   %%v28,%%v0,%%v28,%%v20       \n\t"
-                    "vfmadb   %%v29,%%v1,%%v29,%%v21       \n\t"  
-                    "vfmadb   %%v30,%%v0,%%v30,%%v22       \n\t"
-                    "vfmadb   %%v31,%%v1,%%v31,%%v23       \n\t"  
-                    "la       %[x_tmp],256(%[x_tmp])       \n\t"
-                    "vstm     %%v24, %%v31, 128(%[y_tmp])  \n\t"
-                    "la       %[y_tmp],256(%[y_tmp])       \n\t" 
-                    "brctg    %%r0,1b"
-                    : [mem_y] "+m" (*(double (*)[n])y), [x_tmp] "+&a"(x), [y_tmp] "+&a"(y)
-                    : [mem_x] "m" (*(const double (*)[n])x), [n] "r"(n), [alpha] "f"(alpha)
-                    :"cc", "r0", "v0","v1","v16","v17","v18","v19","v20","v21",
-                    "v22","v23","v24","v25","v26","v27","v28","v29","v30","v31"
-                 );
- 
-
-}
- 
- 
-
-#endif
- 
-
-int CNAME(BLASLONG n, BLASLONG dummy0, BLASLONG dummy1, FLOAT da, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *dummy, BLASLONG dummy2)
-{
-    BLASLONG i=0;
-    BLASLONG ix=0,iy=0;
 
-    if ( n <= 0 )  return 0 ;
+int CNAME(BLASLONG n, BLASLONG dummy0, BLASLONG dummy1, FLOAT da, FLOAT *x,
+          BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *dummy,
+          BLASLONG dummy2) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
 
-    if ( (inc_x == 1) && (inc_y == 1) )
-    {
+  if (n <= 0)
+    return 0;
 
-        BLASLONG n1 = n & -32;
+  if ((inc_x == 1) && (inc_y == 1)) {
 
-        if ( n1 )
-            daxpy_kernel_32(n1, x, y , da );
+    BLASLONG n1 = n & -32;
 
-        i = n1;
-        while(i < n)
-        {
+    if (n1)
+      daxpy_kernel_32(n1, x, y, &da);
 
-            y[i] += da * x[i] ;
-            i++ ;
-
-        }
-        return 0 ;
+    i = n1;
+    while (i < n) {
 
+      y[i] += da * x[i];
+      i++;
 
     }
+    return 0;
 
-    BLASLONG n1 = n & -4;
-
-    while(i < n1)
-    {
+  }
 
-        FLOAT m1      = da * x[ix] ;
-        FLOAT m2      = da * x[ix+inc_x] ;
-        FLOAT m3      = da * x[ix+2*inc_x] ;
-        FLOAT m4      = da * x[ix+3*inc_x] ;
+  BLASLONG n1 = n & -4;
 
-        y[iy]         += m1 ;
-        y[iy+inc_y]   += m2 ;
-        y[iy+2*inc_y] += m3 ;
-        y[iy+3*inc_y] += m4 ;
+  while (i < n1) {
 
-        ix  += inc_x*4 ;
-        iy  += inc_y*4 ;
-        i+=4 ;
+    FLOAT m1 = da * x[ix];
+    FLOAT m2 = da * x[ix + inc_x];
+    FLOAT m3 = da * x[ix + 2 * inc_x];
+    FLOAT m4 = da * x[ix + 3 * inc_x];
 
-    }
+    y[iy] += m1;
+    y[iy + inc_y] += m2;
+    y[iy + 2 * inc_y] += m3;
+    y[iy + 3 * inc_y] += m4;
 
-    while(i < n)
-    {
+    ix += inc_x * 4;
+    iy += inc_y * 4;
+    i += 4;
 
-        y[iy] += da * x[ix] ;
-        ix  += inc_x ;
-        iy  += inc_y ;
-        i++ ;
+  }
 
-    }
-    return 0 ;
+  while (i < n) {
 
-}
+    y[iy] += da * x[ix];
+    ix += inc_x;
+    iy += inc_y;
+    i++;
 
+  }
+  return 0;
 
+}
diff --git a/kernel/zarch/dcopy.c b/kernel/zarch/dcopy.c
index 01aa86bb20..691b90c64c 100644
--- a/kernel/zarch/dcopy.c
+++ b/kernel/zarch/dcopy.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2013-2017, The OpenBLAS Project
+Copyright (c) 2013-2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -23,147 +23,57 @@ SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
 CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
 OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
- *****************************************************************************/
+*****************************************************************************/
 
 #include "common.h"
 
-#if defined(Z13mvc)
-
-static void  dcopy_kernel_32(BLASLONG n, FLOAT *x, FLOAT *y) {
-
-    __asm__ volatile(
-            "pfd   1, 0(%[ptr_x])    \n\t"
-            "pfd   2, 0(%[ptr_y])    \n\t"
-            "srlg  %[n_tmp],%[n_tmp],5  \n\t"
-            ".align 16 \n\t"
-            "1: \n\t"
-            "mvc   0(256,%[ptr_y]),0(%[ptr_x]) \n\t"
-            "la    %[ptr_x],256(%[ptr_x])       \n\t"
-            "la    %[ptr_y],256(%[ptr_y])       \n\t"
-            "brctg %[n_tmp],1b"
-            : [mem_y] "=m" (*(double (*)[n])y), [n_tmp] "+&r"(n),
-              [ptr_x] "+&a"(x), [ptr_y] "+&a"(y)
-            : [mem_x] "m" (*(const double (*)[n])x)
-            : "cc" 
-            );
-    return;
-
-}
-#else
-
-static void  dcopy_kernel_32(BLASLONG n, FLOAT *x, FLOAT *y) {
-
-    __asm__ volatile(
-            "pfd   1, 0(%[ptr_x]) \n\t"
-            "pfd   2, 0(%[ptr_y]) \n\t"
-            "srlg  %[n_tmp],%[n_tmp],5      \n\t"
-            "xgr   %%r1,%%r1       \n\t"
-            ".align 16 \n\t"
-            "1:    \n\t"
-            "pfd   1, 256(%%r1,%[ptr_x]) \n\t"
-            "pfd   2, 256(%%r1,%[ptr_y]) \n\t"
-
-            "vl    %%v24, 0(%%r1,%[ptr_x])   \n\t"
-            "vst   %%v24, 0(%%r1,%[ptr_y])   \n\t"
-            "vl    %%v25, 16(%%r1,%[ptr_x])  \n\t"
-            "vst   %%v25, 16(%%r1,%[ptr_y])  \n\t"
-            "vl    %%v26, 32(%%r1,%[ptr_x])  \n\t"
-            "vst   %%v26, 32(%%r1,%[ptr_y])  \n\t"
-            "vl    %%v27, 48(%%r1,%[ptr_x])  \n\t"
-            "vst   %%v27, 48(%%r1,%[ptr_y])  \n\t"
-
-            "vl    %%v24, 64(%%r1,%[ptr_x])  \n\t"
-            "vst   %%v24, 64(%%r1,%[ptr_y])  \n\t"
-            "vl    %%v25, 80(%%r1,%[ptr_x])  \n\t"
-            "vst   %%v25, 80(%%r1,%[ptr_y])  \n\t"
-            "vl    %%v26, 96(%%r1,%[ptr_x])  \n\t"
-            "vst   %%v26, 96(%%r1,%[ptr_y])  \n\t"
-            "vl    %%v27, 112(%%r1,%[ptr_x]) \n\t"
-            "vst   %%v27, 112(%%r1,%[ptr_y]) \n\t"
-
-
-            "vl    %%v24, 128(%%r1,%[ptr_x]) \n\t"
-            "vst   %%v24, 128(%%r1,%[ptr_y]) \n\t"
-
-            "vl    %%v25, 144(%%r1,%[ptr_x]) \n\t"
-            "vst   %%v25, 144(%%r1,%[ptr_y]) \n\t"
-
-            "vl    %%v26, 160(%%r1,%[ptr_x]) \n\t"
-            "vst   %%v26, 160(%%r1,%[ptr_y]) \n\t"
-
-            "vl    %%v27, 176(%%r1,%[ptr_x]) \n\t"
-            "vst   %%v27, 176(%%r1,%[ptr_y]) \n\t"
-
-            "vl    %%v24, 192(%%r1,%[ptr_x]) \n\t"
-            "vst   %%v24, 192(%%r1,%[ptr_y]) \n\t"
-            "vl    %%v25, 208(%%r1,%[ptr_x]) \n\t"
-            "vst   %%v25, 208(%%r1,%[ptr_y]) \n\t"
-            "vl    %%v26, 224(%%r1,%[ptr_x]) \n\t"
-            "vst   %%v26, 224(%%r1,%[ptr_y]) \n\t"
-            "vl    %%v27, 240(%%r1,%[ptr_x]) \n\t"
-            "vst   %%v27, 240(%%r1,%[ptr_y]) \n\t"
-            "la    %%r1,256(%%r1)      \n\t"
-            "brctg %[n_tmp],1b"
-            : [mem_y] "=m" (*(double (*)[n])y), [n_tmp] "+&r"(n)
-            : [mem_x] "m" (*(const double (*)[n])x), [ptr_x] "a"(x), [ptr_y] "a"(y)
-            : "cc",  "r1", "v24","v25","v26","v27"
-            );
-    return;
-
+static void dcopy_kernel_32(BLASLONG n, FLOAT *x, FLOAT *y) {
+  __asm__("srlg %[n],%[n],5\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%[x])\n\t"
+    "pfd 2, 1024(%[y])\n\t"
+    "mvc 0(256,%[y]),0(%[x])\n\t"
+    "la  %[x],256(%[x])\n\t"
+    "la  %[y],256(%[y])\n\t"
+    "brctg %[n],0b"
+    : "=m"(*(struct { FLOAT x[n]; } *) y),[x] "+&a"(x),[y] "+&a"(y),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x)
+    : "cc");
 }
-#endif
 
 int CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y) {
-    BLASLONG i = 0;
-    BLASLONG ix = 0, iy = 0;
-
-    if (n <= 0) return 0;
-
-    if ((inc_x == 1) && (inc_y == 1)) {
-
-        BLASLONG n1 = n & -32;
-        if (n1 > 0) {
-            dcopy_kernel_32(n1, x, y);
-            i = n1;
-        }
-
-        while (i < n) {
-            y[i] = x[i];
-            i++;
-
-        }
-
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
 
-    } else {
-
-        BLASLONG n1 = n & -4;
+  if (n <= 0)
+    return 0;
 
-        while (i < n1) {
+  if ((inc_x == 1) && (inc_y == 1)) {
 
-            y[iy] = x[ix];
-            y[iy + inc_y] = x[ix + inc_x];
-            y[iy + 2 * inc_y] = x[ix + 2 * inc_x];
-            y[iy + 3 * inc_y] = x[ix + 3 * inc_x];
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+      dcopy_kernel_32(n1, x, y);
+      i = n1;
+    }
 
-            ix += inc_x * 4;
-            iy += inc_y * 4;
-            i += 4;
+    while (i < n) {
+      y[i] = x[i];
+      i++;
 
-        }
+    }
 
-        while (i < n) {
+  } else {
 
-            y[iy] = x[ix];
-            ix += inc_x;
-            iy += inc_y;
-            i++;
+    while (i < n) {
 
-        }
+      y[iy] = x[ix];
+      ix += inc_x;
+      iy += inc_y;
+      i++;
 
     }
-    return 0;
 
+  }
+  return 0;
 
 }
-
-
diff --git a/kernel/zarch/ddot.c b/kernel/zarch/ddot.c
index c70cbd00d5..9cad68f4b6 100644
--- a/kernel/zarch/ddot.c
+++ b/kernel/zarch/ddot.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2013-2017, The OpenBLAS Project
+Copyright (c) 2013-2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -25,184 +25,129 @@ OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 *****************************************************************************/
 
-
 #include "common.h"
 
-
-#if  defined(Z13)
-static  FLOAT  ddot_kernel_16(BLASLONG n, FLOAT *x, FLOAT *y)
-{
-    FLOAT dot;
-         __asm__ volatile( 
-            "pfd   1, 0(%[ptr_x_tmp]) \n\t"
-            "pfd   1, 0(%[ptr_y_tmp]) \n\t"      
-            "vzero %%v24  \n\t"
-            "vzero %%v25  \n\t" 
-            "vzero %%v26  \n\t"
-            "vzero %%v27  \n\t"                  
-            "srlg  %[n_tmp],%[n_tmp],4    \n\t" 
-            "xgr   %%r1,%%r1    \n\t"
-            ".align 16 \n\t"    
-            "1:    \n\t"
-            "pfd    1,    256(%%r1,%[ptr_x_tmp]) \n\t"
-            "pfd    1,    256(%%r1,%[ptr_y_tmp]) \n\t"                
-            "vl     %%v16,  0(%%r1,%[ptr_x_tmp]) \n\t"
-            "vl     %%v17, 16(%%r1,%[ptr_x_tmp]) \n\t"
-            "vl     %%v18, 32(%%r1,%[ptr_x_tmp]) \n\t"
-            "vl     %%v19, 48(%%r1,%[ptr_x_tmp]) \n\t"
-
-            "vl     %%v28,  0(%%r1,%[ptr_y_tmp]) \n\t"
-            "vfmadb %%v24,%%v16,%%v28,%%v24      \n\t"  
-            "vl     %%v29, 16(%%r1,%[ptr_y_tmp]) \n\t"
-            "vfmadb %%v25,%%v17,%%v29,%%v25      \n\t"   
-     
-            "vl     %%v30, 32(%%r1,%[ptr_y_tmp]) \n\t"
-            "vfmadb %%v26,%%v18,%%v30,%%v26      \n\t"      
-            "vl     %%v31, 48(%%r1,%[ptr_y_tmp]) \n\t" 
-            "vfmadb %%v27,%%v19,%%v31,%%v27      \n\t"   
- 
-            "vl     %%v16,  64(%%r1 ,%[ptr_x_tmp]) \n\t"
-            "vl     %%v17,  80(%%r1,%[ptr_x_tmp])  \n\t"
-            "vl     %%v18,  96(%%r1,%[ptr_x_tmp])  \n\t"
-            "vl     %%v19, 112(%%r1,%[ptr_x_tmp])  \n\t"
-
-            "vl     %%v28, 64(%%r1,%[ptr_y_tmp]) \n\t"
-            "vfmadb %%v24,%%v16,%%v28,%%v24      \n\t"  
-            "vl     %%v29, 80(%%r1,%[ptr_y_tmp]) \n\t"
-            "vfmadb %%v25,%%v17,%%v29,%%v25      \n\t"  
-          
-     
-            "vl     %%v30, 96(%%r1,%[ptr_y_tmp])  \n\t"
-            "vfmadb %%v26,%%v18,%%v30,%%v26       \n\t" 
-            "vl     %%v31, 112(%%r1,%[ptr_y_tmp]) \n\t" 
-            "vfmadb %%v27,%%v19,%%v31,%%v27       \n\t"  
-             
-            
-            "la     %%r1,128(%%r1) \n\t"
-            "brctg  %[n_tmp],1b \n\t"
-            "vfadb  %%v24,%%v25,%%v24    \n\t"
-            "vfadb  %%v24,%%v26,%%v24    \n\t"
-            "vfadb  %%v24,%%v27,%%v24    \n\t"                 
-            "vrepg  %%v1,%%v24,1         \n\t"
-            "vfadb  %%v1,%%v24,%%v1      \n\t"  
-            "ldr    %[dot],  %%f1     \n\t"  
-            : [dot] "=f"(dot) ,[n_tmp] "+&r"(n)
-            : [mem_x] "m"( *(const double (*)[n])x),
-              [mem_y] "m"( *(const double (*)[n])y),
-              [ptr_x_tmp]"a"(x), [ptr_y_tmp] "a"(y) 
-            :"cc" , "r1","f1","v16", "v17","v18","v19","v20","v21","v22","v23",
-            "v24","v25","v26","v27","v28","v29","v30","v31"
-
-         );
-    return dot;        
-
+static FLOAT ddot_kernel_16(BLASLONG n, FLOAT *x, FLOAT *y) {
+  FLOAT dot;
+
+  __asm__("vzero %%v0\n\t"
+    "vzero %%v1\n\t"
+    "vzero %%v2\n\t"
+    "vzero %%v3\n\t"
+    "vzero %%v4\n\t"
+    "vzero %%v5\n\t"
+    "vzero %%v6\n\t"
+    "vzero %%v7\n\t"
+    "srlg  %[n],%[n],4\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[x])\n\t"
+    "pfd 1,1024(%%r1,%[y])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vl  %%v24,0(%%r1,%[y])\n\t"
+    "vl  %%v25,16(%%r1,%[y])\n\t"
+    "vl  %%v26,32(%%r1,%[y])\n\t"
+    "vl  %%v27,48(%%r1,%[y])\n\t"
+    "vl  %%v28,64(%%r1,%[y])\n\t"
+    "vl  %%v29,80(%%r1,%[y])\n\t"
+    "vl  %%v30,96(%%r1,%[y])\n\t"
+    "vl  %%v31,112(%%r1,%[y])\n\t"
+    "vfmadb   %%v0,%%v16,%%v24,%%v0\n\t"
+    "vfmadb   %%v1,%%v17,%%v25,%%v1\n\t"
+    "vfmadb   %%v2,%%v18,%%v26,%%v2\n\t"
+    "vfmadb   %%v3,%%v19,%%v27,%%v3\n\t"
+    "vfmadb   %%v4,%%v20,%%v28,%%v4\n\t"
+    "vfmadb   %%v5,%%v21,%%v29,%%v5\n\t"
+    "vfmadb   %%v6,%%v22,%%v30,%%v6\n\t"
+    "vfmadb   %%v7,%%v23,%%v31,%%v7\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %[n],0b\n\t"
+    "vfadb   %%v0,%%v0,%%v1\n\t"
+    "vfadb   %%v0,%%v0,%%v2\n\t"
+    "vfadb   %%v0,%%v0,%%v3\n\t"
+    "vfadb   %%v0,%%v0,%%v4\n\t"
+    "vfadb   %%v0,%%v0,%%v5\n\t"
+    "vfadb   %%v0,%%v0,%%v6\n\t"
+    "vfadb   %%v0,%%v0,%%v7\n\t"
+    "vrepg  %%v1,%%v0,1\n\t"
+    "adbr   %%f0,%%f1\n\t"
+    "ldr    %[dot],%%f0"
+    : [dot] "=f"(dot),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x),
+       "m"(*(const struct { FLOAT x[n]; } *) y),[y] "a"(y)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7", "v16",
+       "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
+       "v27", "v28", "v29", "v30", "v31");
+
+  return dot;
 }
 
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
 
-#else
-
-static FLOAT ddot_kernel_16(BLASLONG n, FLOAT *x, FLOAT *y )
-{
-    BLASLONG register i = 0;
-    FLOAT dot = 0.0;
-
-    while(i < n)
-        {
-            dot +=  y[i]  * x[i]
-                  + y[i+1] * x[i+1]
-                  + y[i+2] * x[i+2]
-                  + y[i+3] * x[i+3]
-                  + y[i+4] * x[i+4]
-                  + y[i+5] * x[i+5]
-                  + y[i+6] * x[i+6]
-                  + y[i+7] * x[i+7] ;
-            dot +=  y[i+8]  * x[i+8]
-                  + y[i+9] * x[i+9]
-                  + y[i+10] * x[i+10]
-                  + y[i+11] * x[i+11]
-                  + y[i+12] * x[i+12]
-                  + y[i+13] * x[i+13]
-                  + y[i+14] * x[i+14]
-                  + y[i+15] * x[i+15] ;
-    
-
-            i+=16 ;
-
-       }
-    return dot;
-    
-}
-
-#endif
-
-FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y)
-{
-    BLASLONG i=0;
-    BLASLONG ix=0,iy=0;
-
-    FLOAT  dot = 0.0 ;
+  FLOAT dot = 0.0;
 
-    if ( n <= 0 )  return(dot);
+  if (n <= 0)
+    return (dot);
 
-    if ( (inc_x == 1) && (inc_y == 1) )
-    {
+  if ((inc_x == 1) && (inc_y == 1)) {
 
-        BLASLONG n1 = n & -16;
-        
-        if ( n1 ){
-            dot = ddot_kernel_16(n1, x, y  );
-            i = n1;
-        }
+    BLASLONG n1 = n & -16;
 
-        
-        while(i < n)
-        {
+    if (n1)
+      dot = ddot_kernel_16(n1, x, y);
 
-            dot += y[i] * x[i] ;
-            i++ ;
-
-        } 
-        return(dot);
+    i = n1;
+    while (i < n) {
 
+      dot += y[i] * x[i];
+      i++;
 
     }
+    return (dot);
 
-    FLOAT temp1 = 0.0;
-    FLOAT temp2 = 0.0;
-
-    BLASLONG n1 = n & -4;    
+  }
 
-    while(i < n1)
-    {
+  FLOAT temp1 = 0.0;
+  FLOAT temp2 = 0.0;
 
-        FLOAT m1 = y[iy]       * x[ix] ;
-        FLOAT m2 = y[iy+inc_y] * x[ix+inc_x] ;
+  BLASLONG n1 = n & -4;
 
-        FLOAT m3 = y[iy+2*inc_y] * x[ix+2*inc_x] ;
-        FLOAT m4 = y[iy+3*inc_y] * x[ix+3*inc_x] ;
+  while (i < n1) {
 
-        ix  += inc_x*4 ;
-        iy  += inc_y*4 ;
+    FLOAT m1 = y[iy] * x[ix];
+    FLOAT m2 = y[iy + inc_y] * x[ix + inc_x];
 
-        temp1 += m1+m3;
-        temp2 += m2+m4;
+    FLOAT m3 = y[iy + 2 * inc_y] * x[ix + 2 * inc_x];
+    FLOAT m4 = y[iy + 3 * inc_y] * x[ix + 3 * inc_x];
 
-        i+=4 ;
+    ix += inc_x * 4;
+    iy += inc_y * 4;
 
-    }
+    temp1 += m1 + m3;
+    temp2 += m2 + m4;
 
-    while(i < n)
-    {
+    i += 4;
 
-        temp1 += y[iy] * x[ix] ;
-        ix  += inc_x ;
-        iy  += inc_y ;
-        i++ ;
+  }
 
-    }
-    dot = temp1 + temp2;
-    return(dot);
+  while (i < n) {
 
-}
+    temp1 += y[iy] * x[ix];
+    ix += inc_x;
+    iy += inc_y;
+    i++;
 
+  }
+  dot = temp1 + temp2;
+  return (dot);
 
+}
diff --git a/kernel/zarch/dgemv_n_4.c b/kernel/zarch/dgemv_n_4.c
index bb202e754e..502ba837ea 100644
--- a/kernel/zarch/dgemv_n_4.c
+++ b/kernel/zarch/dgemv_n_4.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2017, The OpenBLAS Project
+Copyright (c) 2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -25,461 +25,593 @@ OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 *****************************************************************************/
 
-
 #include "common.h"
 
 #define NBMAX 2048
 
-#define HAVE_KERNEL_4x4_VEC 1
-#define HAVE_KERNEL_4x2_VEC 1
-#define HAVE_KERNEL_4x1_VEC 1
-
-#if defined(HAVE_KERNEL_4x4_VEC) || defined(HAVE_KERNEL_4x2_VEC) || defined(HAVE_KERNEL_4x1_VEC)
- #include <vecintrin.h>
-#endif
-
-#ifdef HAVE_KERNEL_4x4
-
-#elif HAVE_KERNEL_4x4_VEC
-
-static void dgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *xo, FLOAT *y, FLOAT *alpha)
-{
-    BLASLONG i;
-    FLOAT x0,x1,x2,x3;
-    x0 = xo[0] * *alpha;
-    x1 = xo[1] * *alpha;
-    x2 = xo[2] * *alpha;
-    x3 = xo[3] * *alpha;
-    __vector double   v_x0 = {x0,x0};
-    __vector double   v_x1 = {x1,x1};
-    __vector double   v_x2 = {x2,x2};
-    __vector double   v_x3 = {x3,x3};
-    __vector double* v_y =(__vector double*)y;      
-    __vector double* va0 = (__vector double*)ap[0];
-    __vector double* va1 = (__vector double*)ap[1];
-    __vector double* va2 = (__vector double*)ap[2];
-    __vector double* va3 = (__vector double*)ap[3]; 
-
-    for ( i=0; i< n/2; i+=2 )
-    {
-        v_y[i]   += v_x0 * va0[i]   +  v_x1 * va1[i]   + v_x2 * va2[i]   + v_x3 * va3[i] ;
-        v_y[i+1] += v_x0 * va0[i+1] +  v_x1 * va1[i+1] + v_x2 * va2[i+1] + v_x3 * va3[i+1] ;        
-    }
+static void dgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y,
+                             FLOAT *alpha) {
+  register FLOAT *ap0 = ap[0];
+  register FLOAT *ap1 = ap[1];
+  register FLOAT *ap2 = ap[2];
+  register FLOAT *ap3 = ap[3];
+
+  __asm__("vlrepg %%v0,0(%[x])\n\t"
+    "vlrepg %%v1,8(%[x])\n\t"
+    "vlrepg %%v2,16(%[x])\n\t"
+    "vlrepg %%v3,24(%[x])\n\t"
+    "vlrepg %%v4,%[alpha]\n\t"
+    "vfmdb  %%v0,%%v0,%%v4\n\t"
+    "vfmdb  %%v1,%%v1,%%v4\n\t"
+    "vfmdb  %%v2,%%v2,%%v4\n\t"
+    "vfmdb  %%v3,%%v3,%%v4\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "lghi    %%r0,-16\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      1f\n\t"
+    "srlg  %%r0,%%r0,4\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[ap0])\n\t"
+    "pfd 1,1024(%%r1,%[ap1])\n\t"
+    "pfd 1,1024(%%r1,%[ap2])\n\t"
+    "pfd 1,1024(%%r1,%[ap3])\n\t"
+    "pfd 2,1024(%%r1,%[y])\n\t"
+    "vl  %%v16,0(%%r1,%[ap0])\n\t"
+    "vl  %%v17,0(%%r1,%[ap1])\n\t"
+    "vl  %%v18,0(%%r1,%[ap2])\n\t"
+    "vl  %%v19,0(%%r1,%[ap3])\n\t"
+    "vl  %%v20,16(%%r1,%[ap0])\n\t"
+    "vl  %%v21,16(%%r1,%[ap1])\n\t"
+    "vl  %%v22,16(%%r1,%[ap2])\n\t"
+    "vl  %%v23,16(%%r1,%[ap3])\n\t"
+    "vl  %%v24,32(%%r1,%[ap0])\n\t"
+    "vl  %%v25,32(%%r1,%[ap1])\n\t"
+    "vl  %%v26,32(%%r1,%[ap2])\n\t"
+    "vl  %%v27,32(%%r1,%[ap3])\n\t"
+    "vl  %%v28,48(%%r1,%[ap0])\n\t"
+    "vl  %%v29,48(%%r1,%[ap1])\n\t"
+    "vl  %%v30,48(%%r1,%[ap2])\n\t"
+    "vl  %%v31,48(%%r1,%[ap3])\n\t"
+    "vl  %%v4,0(%%r1,%[y])\n\t"
+    "vl  %%v5,16(%%r1,%[y])\n\t"
+    "vl  %%v6,32(%%r1,%[y])\n\t"
+    "vl  %%v7,48(%%r1,%[y])\n\t"
+    "vfmadb   %%v4,%%v16,%%v0,%%v4\n\t"
+    "vfmadb   %%v5,%%v20,%%v0,%%v5\n\t"
+    "vfmadb   %%v6,%%v24,%%v0,%%v6\n\t"
+    "vfmadb   %%v7,%%v28,%%v0,%%v7\n\t"
+    "vfmadb   %%v4,%%v17,%%v1,%%v4\n\t"
+    "vfmadb   %%v5,%%v21,%%v1,%%v5\n\t"
+    "vfmadb   %%v6,%%v25,%%v1,%%v6\n\t"
+    "vfmadb   %%v7,%%v29,%%v1,%%v7\n\t"
+    "vfmadb   %%v4,%%v18,%%v2,%%v4\n\t"
+    "vfmadb   %%v5,%%v22,%%v2,%%v5\n\t"
+    "vfmadb   %%v6,%%v26,%%v2,%%v6\n\t"
+    "vfmadb   %%v7,%%v30,%%v2,%%v7\n\t"
+    "vfmadb   %%v4,%%v19,%%v3,%%v4\n\t"
+    "vfmadb   %%v5,%%v23,%%v3,%%v5\n\t"
+    "vfmadb   %%v6,%%v27,%%v3,%%v6\n\t"
+    "vfmadb   %%v7,%%v31,%%v3,%%v7\n\t"
+    "vst %%v4,0(%%r1,%[y])\n\t"
+    "vst %%v5,16(%%r1,%[y])\n\t"
+    "vst %%v6,32(%%r1,%[y])\n\t"
+    "vst %%v7,48(%%r1,%[y])\n\t"
+    "vl  %%v16,64(%%r1,%[ap0])\n\t"
+    "vl  %%v17,64(%%r1,%[ap1])\n\t"
+    "vl  %%v18,64(%%r1,%[ap2])\n\t"
+    "vl  %%v19,64(%%r1,%[ap3])\n\t"
+    "vl  %%v20,80(%%r1,%[ap0])\n\t"
+    "vl  %%v21,80(%%r1,%[ap1])\n\t"
+    "vl  %%v22,80(%%r1,%[ap2])\n\t"
+    "vl  %%v23,80(%%r1,%[ap3])\n\t"
+    "vl  %%v24,96(%%r1,%[ap0])\n\t"
+    "vl  %%v25,96(%%r1,%[ap1])\n\t"
+    "vl  %%v26,96(%%r1,%[ap2])\n\t"
+    "vl  %%v27,96(%%r1,%[ap3])\n\t"
+    "vl  %%v28,112(%%r1,%[ap0])\n\t"
+    "vl  %%v29,112(%%r1,%[ap1])\n\t"
+    "vl  %%v30,112(%%r1,%[ap2])\n\t"
+    "vl  %%v31,112(%%r1,%[ap3])\n\t"
+    "vl  %%v4,64(%%r1,%[y])\n\t"
+    "vl  %%v5,80(%%r1,%[y])\n\t"
+    "vl  %%v6,96(%%r1,%[y])\n\t"
+    "vl  %%v7,112(%%r1,%[y])\n\t"
+    "vfmadb   %%v4,%%v16,%%v0,%%v4\n\t"
+    "vfmadb   %%v5,%%v20,%%v0,%%v5\n\t"
+    "vfmadb   %%v6,%%v24,%%v0,%%v6\n\t"
+    "vfmadb   %%v7,%%v28,%%v0,%%v7\n\t"
+    "vfmadb   %%v4,%%v17,%%v1,%%v4\n\t"
+    "vfmadb   %%v5,%%v21,%%v1,%%v5\n\t"
+    "vfmadb   %%v6,%%v25,%%v1,%%v6\n\t"
+    "vfmadb   %%v7,%%v29,%%v1,%%v7\n\t"
+    "vfmadb   %%v4,%%v18,%%v2,%%v4\n\t"
+    "vfmadb   %%v5,%%v22,%%v2,%%v5\n\t"
+    "vfmadb   %%v6,%%v26,%%v2,%%v6\n\t"
+    "vfmadb   %%v7,%%v30,%%v2,%%v7\n\t"
+    "vfmadb   %%v4,%%v19,%%v3,%%v4\n\t"
+    "vfmadb   %%v5,%%v23,%%v3,%%v5\n\t"
+    "vfmadb   %%v6,%%v27,%%v3,%%v6\n\t"
+    "vfmadb   %%v7,%%v31,%%v3,%%v7\n\t"
+    "vst %%v4,64(%%r1,%[y])\n\t"
+    "vst %%v5,80(%%r1,%[y])\n\t"
+    "vst %%v6,96(%%r1,%[y])\n\t"
+    "vst %%v7,112(%%r1,%[y])\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %%r0,0b\n\t"
+    "1:\n\t"
+    "lghi    %%r0,12\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      3f\n\t"
+    "srlg  %%r0,%%r0,2\n\t"
+    "2:\n\t"
+    "vl  %%v16,0(%%r1,%[ap0])\n\t"
+    "vl  %%v17,0(%%r1,%[ap1])\n\t"
+    "vl  %%v18,0(%%r1,%[ap2])\n\t"
+    "vl  %%v19,0(%%r1,%[ap3])\n\t"
+    "vl  %%v20,16(%%r1,%[ap0])\n\t"
+    "vl  %%v21,16(%%r1,%[ap1])\n\t"
+    "vl  %%v22,16(%%r1,%[ap2])\n\t"
+    "vl  %%v23,16(%%r1,%[ap3])\n\t"
+    "vl  %%v4,0(%%r1,%[y])\n\t"
+    "vl  %%v5,16(%%r1,%[y])\n\t"
+    "vfmadb   %%v4,%%v16,%%v0,%%v4\n\t"
+    "vfmadb   %%v5,%%v20,%%v0,%%v5\n\t"
+    "vfmadb   %%v4,%%v17,%%v1,%%v4\n\t"
+    "vfmadb   %%v5,%%v21,%%v1,%%v5\n\t"
+    "vfmadb   %%v4,%%v18,%%v2,%%v4\n\t"
+    "vfmadb   %%v5,%%v22,%%v2,%%v5\n\t"
+    "vfmadb   %%v4,%%v19,%%v3,%%v4\n\t"
+    "vfmadb   %%v5,%%v23,%%v3,%%v5\n\t"
+    "vst %%v4,0(%%r1,%[y])\n\t"
+    "vst %%v5,16(%%r1,%[y])\n\t"
+    "agfi   %%r1,32\n\t"
+    "brctg  %%r0,2b\n\t"
+    "3:\n\t"
+    "nop"
+    : "+m"(*(struct { FLOAT x[n]; } *) y)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n]; } *) ap0),[ap0] "a"(ap0),
+       "m"(*(const struct { FLOAT x[n]; } *) ap1),[ap1] "a"(ap1),
+       "m"(*(const struct { FLOAT x[n]; } *) ap2),[ap2] "a"(ap2),
+       "m"(*(const struct { FLOAT x[n]; } *) ap3),[ap3] "a"(ap3),
+       "m"(*(const struct { FLOAT x[4]; } *) x),[x] "a"(x),[alpha] "Q"(*alpha),
+       [n] "r"(n)
+    : "cc", "r0", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
+       "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25",
+       "v26", "v27", "v28", "v29", "v30", "v31");
 }
 
-#else
-
-static void dgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *xo, FLOAT *y, FLOAT *alpha)
-{
-    BLASLONG i;
-    FLOAT *a0,*a1,*a2,*a3;
-    FLOAT x[4]  __attribute__ ((aligned (16)));
-    a0 = ap[0];
-    a1 = ap[1];
-    a2 = ap[2];
-    a3 = ap[3];
-
-    for ( i=0; i<4; i++)
-        x[i] = xo[i] * *alpha;
-
-    for ( i=0; i< n; i+=4 )
-    {
-        y[i] += a0[i]*x[0] + a1[i]*x[1] + a2[i]*x[2] + a3[i]*x[3];        
-        y[i+1] += a0[i+1]*x[0] + a1[i+1]*x[1] + a2[i+1]*x[2] + a3[i+1]*x[3];        
-        y[i+2] += a0[i+2]*x[0] + a1[i+2]*x[1] + a2[i+2]*x[2] + a3[i+2]*x[3];        
-        y[i+3] += a0[i+3]*x[0] + a1[i+3]*x[1] + a2[i+3]*x[2] + a3[i+3]*x[3];        
-    }
+static void dgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y,
+                             FLOAT *alpha) {
+  register FLOAT *ap0 = ap[0];
+  register FLOAT *ap1 = ap[1];
+
+  __asm__("vlrepg %%v0,0(%[x])\n\t"
+    "vlrepg %%v1,8(%[x])\n\t"
+    "vlrepg %%v2,%[alpha]\n\t"
+    "vfmdb  %%v0,%%v0,%%v2\n\t"
+    "vfmdb  %%v1,%%v1,%%v2\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "lghi    %%r0,-16\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      1f\n\t"
+    "srlg  %%r0,%%r0,4\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[ap0])\n\t"
+    "pfd 1,1024(%%r1,%[ap1])\n\t"
+    "pfd 2,1024(%%r1,%[y])\n\t"
+    "vl  %%v16,0(%%r1,%[ap0])\n\t"
+    "vl  %%v17,0(%%r1,%[ap1])\n\t"
+    "vl  %%v18,16(%%r1,%[ap0])\n\t"
+    "vl  %%v19,16(%%r1,%[ap1])\n\t"
+    "vl  %%v20,32(%%r1,%[ap0])\n\t"
+    "vl  %%v21,32(%%r1,%[ap1])\n\t"
+    "vl  %%v22,48(%%r1,%[ap0])\n\t"
+    "vl  %%v23,48(%%r1,%[ap1])\n\t"
+    "vl  %%v24,64(%%r1,%[ap0])\n\t"
+    "vl  %%v25,64(%%r1,%[ap1])\n\t"
+    "vl  %%v26,80(%%r1,%[ap0])\n\t"
+    "vl  %%v27,80(%%r1,%[ap1])\n\t"
+    "vl  %%v28,96(%%r1,%[ap0])\n\t"
+    "vl  %%v29,96(%%r1,%[ap1])\n\t"
+    "vl  %%v30,112(%%r1,%[ap0])\n\t"
+    "vl  %%v31,112(%%r1,%[ap1])\n\t"
+    "vl  %%v2,0(%%r1,%[y])\n\t"
+    "vl  %%v3,16(%%r1,%[y])\n\t"
+    "vl  %%v4,32(%%r1,%[y])\n\t"
+    "vl  %%v5,48(%%r1,%[y])\n\t"
+    "vl  %%v6,64(%%r1,%[y])\n\t"
+    "vl  %%v7,80(%%r1,%[y])\n\t"
+    "vl  %%v8,96(%%r1,%[y])\n\t"
+    "vl  %%v9,112(%%r1,%[y])\n\t"
+    "vfmadb   %%v2,%%v16,%%v0,%%v2\n\t"
+    "vfmadb   %%v3,%%v18,%%v0,%%v3\n\t"
+    "vfmadb   %%v4,%%v20,%%v0,%%v4\n\t"
+    "vfmadb   %%v5,%%v22,%%v0,%%v5\n\t"
+    "vfmadb   %%v6,%%v24,%%v0,%%v6\n\t"
+    "vfmadb   %%v7,%%v26,%%v0,%%v7\n\t"
+    "vfmadb   %%v8,%%v28,%%v0,%%v8\n\t"
+    "vfmadb   %%v9,%%v30,%%v0,%%v9\n\t"
+    "vfmadb   %%v2,%%v17,%%v1,%%v2\n\t"
+    "vfmadb   %%v3,%%v19,%%v1,%%v3\n\t"
+    "vfmadb   %%v4,%%v21,%%v1,%%v4\n\t"
+    "vfmadb   %%v5,%%v23,%%v1,%%v5\n\t"
+    "vfmadb   %%v6,%%v25,%%v1,%%v6\n\t"
+    "vfmadb   %%v7,%%v27,%%v1,%%v7\n\t"
+    "vfmadb   %%v8,%%v29,%%v1,%%v8\n\t"
+    "vfmadb   %%v9,%%v31,%%v1,%%v9\n\t"
+    "vst %%v2,0(%%r1,%[y])\n\t"
+    "vst %%v3,16(%%r1,%[y])\n\t"
+    "vst %%v4,32(%%r1,%[y])\n\t"
+    "vst %%v5,48(%%r1,%[y])\n\t"
+    "vst %%v6,64(%%r1,%[y])\n\t"
+    "vst %%v7,80(%%r1,%[y])\n\t"
+    "vst %%v8,96(%%r1,%[y])\n\t"
+    "vst %%v9,112(%%r1,%[y])\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %%r0,0b\n\t"
+    "1:\n\t"
+    "lghi    %%r0,12\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      3f\n\t"
+    "srlg  %%r0,%%r0,2\n\t"
+    "2:\n\t"
+    "vl  %%v16,0(%%r1,%[ap0])\n\t"
+    "vl  %%v17,0(%%r1,%[ap1])\n\t"
+    "vl  %%v18,16(%%r1,%[ap0])\n\t"
+    "vl  %%v19,16(%%r1,%[ap1])\n\t"
+    "vl  %%v2,0(%%r1,%[y])\n\t"
+    "vl  %%v3,16(%%r1,%[y])\n\t"
+    "vfmadb   %%v2,%%v16,%%v0,%%v2\n\t"
+    "vfmadb   %%v3,%%v18,%%v0,%%v3\n\t"
+    "vfmadb   %%v2,%%v17,%%v1,%%v2\n\t"
+    "vfmadb   %%v3,%%v19,%%v1,%%v3\n\t"
+    "vst %%v2,0(%%r1,%[y])\n\t"
+    "vst %%v3,16(%%r1,%[y])\n\t"
+    "agfi   %%r1,32\n\t"
+    "brctg  %%r0,2b\n\t"
+    "3:\n\t"
+    "nop"
+    : "+m"(*(struct { FLOAT x[n]; } *) y)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n]; } *) ap0),[ap0] "a"(ap0),
+       "m"(*(const struct { FLOAT x[n]; } *) ap1),[ap1] "a"(ap1),
+       "m"(*(const struct { FLOAT x[2]; } *) x),[x] "a"(x),[alpha] "Q"(*alpha),
+       [n] "r"(n)
+    : "cc", "r0", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
+       "v8", "v9", "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23",
+       "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
 }
 
+static void dgemv_kernel_4x1(BLASLONG n, FLOAT *a0, FLOAT *x, FLOAT *y,
+                             FLOAT *alpha) {
+  __asm__("vlrepg %%v0,0(%[x])\n\t"
+    "vlrepg %%v16,%[alpha]\n\t"
+    "vfmdb  %%v0,%%v0,%%v16\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "lghi    %%r0,-16\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      1f\n\t"
+    "srlg  %%r0,%%r0,4\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[a0])\n\t"
+    "pfd 2,1024(%%r1,%[y])\n\t"
+    "vl  %%v16,0(%%r1,%[a0])\n\t"
+    "vl  %%v17,16(%%r1,%[a0])\n\t"
+    "vl  %%v18,32(%%r1,%[a0])\n\t"
+    "vl  %%v19,48(%%r1,%[a0])\n\t"
+    "vl  %%v20,64(%%r1,%[a0])\n\t"
+    "vl  %%v21,80(%%r1,%[a0])\n\t"
+    "vl  %%v22,96(%%r1,%[a0])\n\t"
+    "vl  %%v23,112(%%r1,%[a0])\n\t"
+    "vl  %%v24,0(%%r1,%[y])\n\t"
+    "vl  %%v25,16(%%r1,%[y])\n\t"
+    "vl  %%v26,32(%%r1,%[y])\n\t"
+    "vl  %%v27,48(%%r1,%[y])\n\t"
+    "vl  %%v28,64(%%r1,%[y])\n\t"
+    "vl  %%v29,80(%%r1,%[y])\n\t"
+    "vl  %%v30,96(%%r1,%[y])\n\t"
+    "vl  %%v31,112(%%r1,%[y])\n\t"
+    "vfmadb   %%v24,%%v16,%%v0,%%v24\n\t"
+    "vfmadb   %%v25,%%v17,%%v0,%%v25\n\t"
+    "vfmadb   %%v26,%%v18,%%v0,%%v26\n\t"
+    "vfmadb   %%v27,%%v19,%%v0,%%v27\n\t"
+    "vfmadb   %%v28,%%v20,%%v0,%%v28\n\t"
+    "vfmadb   %%v29,%%v21,%%v0,%%v29\n\t"
+    "vfmadb   %%v30,%%v22,%%v0,%%v30\n\t"
+    "vfmadb   %%v31,%%v23,%%v0,%%v31\n\t"
+    "vst %%v24,0(%%r1,%[y])\n\t"
+    "vst %%v25,16(%%r1,%[y])\n\t"
+    "vst %%v26,32(%%r1,%[y])\n\t"
+    "vst %%v27,48(%%r1,%[y])\n\t"
+    "vst %%v28,64(%%r1,%[y])\n\t"
+    "vst %%v29,80(%%r1,%[y])\n\t"
+    "vst %%v30,96(%%r1,%[y])\n\t"
+    "vst %%v31,112(%%r1,%[y])\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %%r0,0b\n\t"
+    "1:\n\t"
+    "lghi    %%r0,12\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      3f\n\t"
+    "srlg  %%r0,%%r0,2\n\t"
+    "2:\n\t"
+    "vl  %%v16,0(%%r1,%[a0])\n\t"
+    "vl  %%v17,16(%%r1,%[a0])\n\t"
+    "vl  %%v18,0(%%r1,%[y])\n\t"
+    "vl  %%v19,16(%%r1,%[y])\n\t"
+    "vfmadb   %%v18,%%v16,%%v0,%%v18\n\t"
+    "vfmadb   %%v19,%%v17,%%v0,%%v19\n\t"
+    "vst %%v18,0(%%r1,%[y])\n\t"
+    "vst %%v19,16(%%r1,%[y])\n\t"
+    "agfi   %%r1,32\n\t"
+    "brctg  %%r0,2b\n\t"
+    "3:\n\t"
+    "nop"
+    : "+m"(*(struct { FLOAT x[n]; } *) y)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n]; } *) a0),[a0] "a"(a0),
+       "m"(*(const FLOAT (*)[1]) x),[x] "a"(x),[alpha] "Q"(*alpha),
+       [n] "r"(n)
+    : "cc", "r0", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21",
+       "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
+}
 
-#endif
-
-#ifdef HAVE_KERNEL_4x2
+static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest) {
+  BLASLONG i;
+  for (i = 0; i < n; i++) {
+    *dest += src[i];
+    dest += inc_dest;
+  }
+}
 
-#elif HAVE_KERNEL_4x2_VEC
+int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha, FLOAT *a,
+          BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y,
+          FLOAT *buffer) {
+  BLASLONG i;
+  FLOAT *a_ptr;
+  FLOAT *x_ptr;
+  FLOAT *y_ptr;
+  FLOAT *ap[4];
+  BLASLONG n1;
+  BLASLONG m1;
+  BLASLONG m2;
+  BLASLONG m3;
+  BLASLONG n2;
+  BLASLONG lda4 = lda << 2;
+  FLOAT xbuffer[8], *ybuffer;
+
+  if (m < 1)
+    return (0);
+  if (n < 1)
+    return (0);
+
+  ybuffer = buffer;
+
+  n1 = n >> 2;
+  n2 = n & 3;
+
+  m3 = m & 3;
+  m1 = m & -4;
+  m2 = (m & (NBMAX - 1)) - m3;
+
+  y_ptr = y;
+
+  BLASLONG NB = NBMAX;
+
+  while (NB == NBMAX) {
+
+    m1 -= NB;
+    if (m1 < 0) {
+      if (m2 == 0)
+        break;
+      NB = m2;
+    }
 
-static void dgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *xo, FLOAT *y, FLOAT *alpha)
-{
-    BLASLONG i;
-    FLOAT x0,x1;
-    x0 = xo[0] * *alpha;
-    x1 = xo[1] * *alpha; 
-    __vector double   v_x0 = {x0,x0};
-    __vector double   v_x1 = {x1,x1}; 
-    __vector double* v_y =(__vector double*)y;      
-    __vector double* va0 = (__vector double*)ap[0];
-    __vector double* va1 = (__vector double*)ap[1]; 
+    a_ptr = a;
+    x_ptr = x;
+
+    ap[0] = a_ptr;
+    ap[1] = a_ptr + lda;
+    ap[2] = ap[1] + lda;
+    ap[3] = ap[2] + lda;
+
+    if (inc_y != 1)
+      memset(ybuffer, 0, NB * 8);
+    else
+      ybuffer = y_ptr;
+
+    if (inc_x == 1) {
+
+      for (i = 0; i < n1; i++) {
+        dgemv_kernel_4x4(NB, ap, x_ptr, ybuffer, &alpha);
+        ap[0] += lda4;
+        ap[1] += lda4;
+        ap[2] += lda4;
+        ap[3] += lda4;
+        a_ptr += lda4;
+        x_ptr += 4;
+      }
+
+      if (n2 & 2) {
+        dgemv_kernel_4x2(NB, ap, x_ptr, ybuffer, &alpha);
+        a_ptr += lda * 2;
+        x_ptr += 2;
+      }
+
+      if (n2 & 1) {
+        dgemv_kernel_4x1(NB, a_ptr, x_ptr, ybuffer, &alpha);
+        /* a_ptr += lda;
+           x_ptr += 1; */
+
+      }
+
+    } else {
+
+      for (i = 0; i < n1; i++) {
+        xbuffer[0] = x_ptr[0];
+        x_ptr += inc_x;
+        xbuffer[1] = x_ptr[0];
+        x_ptr += inc_x;
+        xbuffer[2] = x_ptr[0];
+        x_ptr += inc_x;
+        xbuffer[3] = x_ptr[0];
+        x_ptr += inc_x;
+        dgemv_kernel_4x4(NB, ap, xbuffer, ybuffer, &alpha);
+        ap[0] += lda4;
+        ap[1] += lda4;
+        ap[2] += lda4;
+        ap[3] += lda4;
+        a_ptr += lda4;
+      }
+
+      for (i = 0; i < n2; i++) {
+        xbuffer[0] = x_ptr[0];
+        x_ptr += inc_x;
+        dgemv_kernel_4x1(NB, a_ptr, xbuffer, ybuffer, &alpha);
+        a_ptr += lda;
+
+      }
 
-    for ( i=0; i< n/2; i+=2 )
-    {
-        v_y[i]   += v_x0 * va0[i] +  v_x1 * va1[i]   ;
-        v_y[i+1] += v_x0 * va0[i+1] +  v_x1 * va1[i+1]  ;        
-    } 
-}
-#else
-
-static void dgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *xo, FLOAT *y, FLOAT *alpha)
-{
-    BLASLONG i;
-    FLOAT *a0,*a1;
-    FLOAT x[4]  __attribute__ ((aligned (16)));
-    a0 = ap[0];
-    a1 = ap[1];
-
-    for ( i=0; i<2; i++)
-        x[i] = xo[i] * *alpha;
-
-    for ( i=0; i< n; i+=4 )
-    {
-        y[i] += a0[i]*x[0] + a1[i]*x[1];        
-        y[i+1] += a0[i+1]*x[0] + a1[i+1]*x[1];        
-        y[i+2] += a0[i+2]*x[0] + a1[i+2]*x[1];        
-        y[i+3] += a0[i+3]*x[0] + a1[i+3]*x[1];        
     }
-}
 
+    a += NB;
+    if (inc_y != 1) {
+      add_y(NB, ybuffer, y_ptr, inc_y);
+      y_ptr += NB * inc_y;
+    } else
+      y_ptr += NB;
 
-#endif
+  }
 
-#ifdef HAVE_KERNEL_4x1
+  if (m3 == 0)
+    return (0);
 
-#elif HAVE_KERNEL_4x1_VEC
-static void dgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *xo, FLOAT *y, FLOAT *alpha)
-{
-    
-    BLASLONG i;
-    FLOAT x0;
-    x0 = xo[0] * *alpha;
-    __vector double   v_x0 = {x0,x0};
-    __vector double* v_y =(__vector double*)y;      
-    __vector double* va0 = (__vector double*)ap;
+  if (m3 == 3) {
+    a_ptr = a;
+    x_ptr = x;
+    FLOAT temp0 = 0.0;
+    FLOAT temp1 = 0.0;
+    FLOAT temp2 = 0.0;
+    if (lda == 3 && inc_x == 1) {
 
-    for ( i=0; i< n/2; i+=2 )
-    {
-        v_y[i] += v_x0 * va0[i]    ;
-        v_y[i+1] += v_x0 * va0[i+1]  ;        
-    }
-        
- 
-}
+      for (i = 0; i < (n & -4); i += 4) {
 
-#else
-static void dgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *xo, FLOAT *y, FLOAT *alpha)
-{
-    BLASLONG i;
-    FLOAT *a0;
-    FLOAT x[4]  __attribute__ ((aligned (16)));
-    a0 = ap;
-
-    for ( i=0; i<1; i++)
-        x[i] = xo[i] * *alpha;
-
-    for ( i=0; i< n; i+=4 )
-    {
-        y[i] += a0[i]*x[0];        
-        y[i+1] += a0[i+1]*x[0];        
-        y[i+2] += a0[i+2]*x[0];        
-        y[i+3] += a0[i+3]*x[0];        
-    }
-}
+        temp0 += a_ptr[0] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+        temp1 += a_ptr[1] * x_ptr[0] + a_ptr[4] * x_ptr[1];
+        temp2 += a_ptr[2] * x_ptr[0] + a_ptr[5] * x_ptr[1];
 
+        temp0 += a_ptr[6] * x_ptr[2] + a_ptr[9] * x_ptr[3];
+        temp1 += a_ptr[7] * x_ptr[2] + a_ptr[10] * x_ptr[3];
+        temp2 += a_ptr[8] * x_ptr[2] + a_ptr[11] * x_ptr[3];
 
-#endif
+        a_ptr += 12;
+        x_ptr += 4;
+      }
 
- 
+      for (; i < n; i++) {
+        temp0 += a_ptr[0] * x_ptr[0];
+        temp1 += a_ptr[1] * x_ptr[0];
+        temp2 += a_ptr[2] * x_ptr[0];
+        a_ptr += 3;
+        x_ptr++;
+      }
 
-static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest)
-{
-    BLASLONG i;
-        
-    for ( i=0; i<n; i++ ){
-            *dest += *src;
-            src++;
-            dest += inc_dest;
-    }
-    return;
-     
-}
+    } else {
 
-int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha, FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *buffer)
-{
-    BLASLONG i;
-    BLASLONG j;
-    FLOAT *a_ptr;
-    FLOAT *x_ptr;
-    FLOAT *y_ptr;
-    FLOAT *ap[4];
-    BLASLONG n1;
-    BLASLONG m1;
-    BLASLONG m2;
-    BLASLONG m3;
-    BLASLONG n2;
-    BLASLONG lda4 =  lda << 2;
-    FLOAT xbuffer[8],*ybuffer;
-
-    if ( m < 1 ) return(0);
-    if ( n < 1 ) return(0);
-
-    ybuffer = buffer;
-    
-    n1 = n >> 2 ;
-    n2 = n &  3 ;
-
-    m3 = m & 3  ;
-    m1 = m & -4 ;
-    m2 = (m & (NBMAX-1)) - m3 ;
-
-    y_ptr = y;
-
-    BLASLONG NB = NBMAX;
-
-    while ( NB == NBMAX )
-    {
-        
-        m1 -= NB;
-        if ( m1 < 0)
-        {
-            if ( m2 == 0 ) break;    
-            NB = m2;
-        }
-        
-        a_ptr = a;
-        x_ptr = x;
-        
-        ap[0] = a_ptr;
-        ap[1] = a_ptr + lda;
-        ap[2] = ap[1] + lda;
-        ap[3] = ap[2] + lda;
-
-        if ( inc_y != 1 )
-            memset(ybuffer,0,NB*8);
-        else
-            ybuffer = y_ptr;
-
-        if ( inc_x == 1 )
-        {
-
-
-            for( i = 0; i < n1 ; i++)
-            {
-                dgemv_kernel_4x4(NB,ap,x_ptr,ybuffer,&alpha);
-                ap[0] += lda4; 
-                ap[1] += lda4; 
-                ap[2] += lda4; 
-                ap[3] += lda4; 
-                a_ptr += lda4;
-                x_ptr += 4;    
-            }
-
-            if ( n2 & 2 )
-            {
-                dgemv_kernel_4x2(NB,ap,x_ptr,ybuffer,&alpha);
-                a_ptr += lda*2;
-                x_ptr += 2;    
-            }
-
-
-            if ( n2 & 1 )
-            {
-                dgemv_kernel_4x1(NB,a_ptr,x_ptr,ybuffer,&alpha);
-                a_ptr += lda;
-                x_ptr += 1;    
-
-            }
-
-
-        }
-        else
-        {
-
-            for( i = 0; i < n1 ; i++)
-            {
-                xbuffer[0] = x_ptr[0];
-                x_ptr += inc_x;    
-                xbuffer[1] =  x_ptr[0];
-                x_ptr += inc_x;    
-                xbuffer[2] =  x_ptr[0];
-                x_ptr += inc_x;    
-                xbuffer[3] = x_ptr[0];
-                x_ptr += inc_x;    
-                dgemv_kernel_4x4(NB,ap,xbuffer,ybuffer,&alpha);
-                ap[0] += lda4; 
-                ap[1] += lda4; 
-                ap[2] += lda4; 
-                ap[3] += lda4; 
-                a_ptr += lda4;
-            }
-
-            for( i = 0; i < n2 ; i++)
-            {
-                xbuffer[0] = x_ptr[0];
-                x_ptr += inc_x;    
-                dgemv_kernel_4x1(NB,a_ptr,xbuffer,ybuffer,&alpha);
-                a_ptr += lda;
-
-            }
-
-        }
-
-        a     += NB;
-        if ( inc_y != 1 )
-        {
-            add_y(NB,ybuffer,y_ptr,inc_y);
-            y_ptr += NB * inc_y;
-        }
-        else
-            y_ptr += NB ;
+      for (i = 0; i < n; i++) {
+        temp0 += a_ptr[0] * x_ptr[0];
+        temp1 += a_ptr[1] * x_ptr[0];
+        temp2 += a_ptr[2] * x_ptr[0];
+        a_ptr += lda;
+        x_ptr += inc_x;
 
-    }
+      }
 
-    if ( m3 == 0 ) return(0);
-
-    if ( m3 == 3 )
-    {
-        a_ptr = a;
-        x_ptr = x;
-        FLOAT temp0 = 0.0;
-        FLOAT temp1 = 0.0;
-        FLOAT temp2 = 0.0;
-        if ( lda == 3 && inc_x ==1 )
-        {
-
-            for( i = 0; i < ( n & -4 ); i+=4 )
-            {
-
-                temp0 += a_ptr[0] * x_ptr[0] + a_ptr[3] * x_ptr[1];
-                temp1 += a_ptr[1] * x_ptr[0] + a_ptr[4] * x_ptr[1];
-                temp2 += a_ptr[2] * x_ptr[0] + a_ptr[5] * x_ptr[1];
-
-                temp0 += a_ptr[6] * x_ptr[2] + a_ptr[9]  * x_ptr[3];
-                temp1 += a_ptr[7] * x_ptr[2] + a_ptr[10] * x_ptr[3];
-                temp2 += a_ptr[8] * x_ptr[2] + a_ptr[11] * x_ptr[3];
-
-                a_ptr += 12;
-                x_ptr += 4;
-            }
-
-            for( ; i < n; i++ )
-            {
-                temp0 += a_ptr[0] * x_ptr[0];
-                temp1 += a_ptr[1] * x_ptr[0];
-                temp2 += a_ptr[2] * x_ptr[0];
-                a_ptr += 3;
-                x_ptr ++;
-            }
-
-        }
-        else
-        {
-
-            for( i = 0; i < n; i++ )
-            {
-                temp0 += a_ptr[0] * x_ptr[0];
-                temp1 += a_ptr[1] * x_ptr[0];
-                temp2 += a_ptr[2] * x_ptr[0];
-                a_ptr += lda;
-                x_ptr += inc_x;
-
-
-            }
-
-        }
-        y_ptr[0] += alpha * temp0;
-        y_ptr += inc_y;
-        y_ptr[0] += alpha * temp1;
-        y_ptr += inc_y;
-        y_ptr[0] += alpha * temp2;
-        return(0);
     }
+    y_ptr[0] += alpha * temp0;
+    y_ptr += inc_y;
+    y_ptr[0] += alpha * temp1;
+    y_ptr += inc_y;
+    y_ptr[0] += alpha * temp2;
+    return (0);
+  }
+
+  if (m3 == 2) {
+    a_ptr = a;
+    x_ptr = x;
+    FLOAT temp0 = 0.0;
+    FLOAT temp1 = 0.0;
+    if (lda == 2 && inc_x == 1) {
+
+      for (i = 0; i < (n & -4); i += 4) {
+        temp0 += a_ptr[0] * x_ptr[0] + a_ptr[2] * x_ptr[1];
+        temp1 += a_ptr[1] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+        temp0 += a_ptr[4] * x_ptr[2] + a_ptr[6] * x_ptr[3];
+        temp1 += a_ptr[5] * x_ptr[2] + a_ptr[7] * x_ptr[3];
+        a_ptr += 8;
+        x_ptr += 4;
+
+      }
+
+      for (; i < n; i++) {
+        temp0 += a_ptr[0] * x_ptr[0];
+        temp1 += a_ptr[1] * x_ptr[0];
+        a_ptr += 2;
+        x_ptr++;
+      }
+
+    } else {
+
+      for (i = 0; i < n; i++) {
+        temp0 += a_ptr[0] * x_ptr[0];
+        temp1 += a_ptr[1] * x_ptr[0];
+        a_ptr += lda;
+        x_ptr += inc_x;
+
+      }
 
-
-    if ( m3 == 2 )
-    {
-        a_ptr = a;
-        x_ptr = x;
-        FLOAT temp0 = 0.0;
-        FLOAT temp1 = 0.0;
-        if ( lda == 2 && inc_x ==1 )
-        {
-
-            for( i = 0; i < (n & -4) ; i+=4 )
-            {
-                temp0 += a_ptr[0] * x_ptr[0] + a_ptr[2] * x_ptr[1];
-                temp1 += a_ptr[1] * x_ptr[0] + a_ptr[3] * x_ptr[1];
-                temp0 += a_ptr[4] * x_ptr[2] + a_ptr[6] * x_ptr[3];
-                temp1 += a_ptr[5] * x_ptr[2] + a_ptr[7] * x_ptr[3];
-                a_ptr += 8;
-                x_ptr += 4;
-
-            }
-
-
-            for( ; i < n; i++ )
-            {
-                temp0 += a_ptr[0]   * x_ptr[0];
-                temp1 += a_ptr[1]   * x_ptr[0];
-                a_ptr += 2;
-                x_ptr ++;
-            }
-
-        }
-        else
-        {
-
-            for( i = 0; i < n; i++ )
-            {
-                temp0 += a_ptr[0] * x_ptr[0];
-                temp1 += a_ptr[1] * x_ptr[0];
-                a_ptr += lda;
-                x_ptr += inc_x;
-
-
-            }
-
-        }
-        y_ptr[0] += alpha * temp0;
-        y_ptr += inc_y;
-        y_ptr[0] += alpha * temp1;
-        return(0);
     }
+    y_ptr[0] += alpha * temp0;
+    y_ptr += inc_y;
+    y_ptr[0] += alpha * temp1;
+    return (0);
+  }
+
+  if (m3 == 1) {
+    a_ptr = a;
+    x_ptr = x;
+    FLOAT temp = 0.0;
+    if (lda == 1 && inc_x == 1) {
+
+      for (i = 0; i < (n & -4); i += 4) {
+        temp +=
+          a_ptr[i] * x_ptr[i] + a_ptr[i + 1] * x_ptr[i + 1] + a_ptr[i +
+                                                                    2] *
+          x_ptr[i + 2] + a_ptr[i + 3] * x_ptr[i + 3];
+
+      }
+
+      for (; i < n; i++) {
+        temp += a_ptr[i] * x_ptr[i];
+      }
+
+    } else {
+
+      for (i = 0; i < n; i++) {
+        temp += a_ptr[0] * x_ptr[0];
+        a_ptr += lda;
+        x_ptr += inc_x;
+      }
 
-    if ( m3 == 1 )
-    {
-        a_ptr = a;
-        x_ptr = x;
-        FLOAT temp = 0.0;
-        if ( lda == 1 && inc_x ==1 )
-        {
-
-            for( i = 0; i < (n & -4); i+=4 )
-            {
-                temp += a_ptr[i] * x_ptr[i] + a_ptr[i+1] * x_ptr[i+1] + a_ptr[i+2] * x_ptr[i+2] + a_ptr[i+3] * x_ptr[i+3];
-    
-            }
-
-            for( ; i < n; i++ )
-            {
-                temp += a_ptr[i] * x_ptr[i];
-            }
-
-        }
-        else
-        {
-
-            for( i = 0; i < n; i++ )
-            {
-                temp += a_ptr[0] * x_ptr[0];
-                a_ptr += lda;
-                x_ptr += inc_x;
-            }
-
-        }
-        y_ptr[0] += alpha * temp;
-        return(0);
     }
+    y_ptr[0] += alpha * temp;
+    return (0);
+  }
 
-
-    return(0);
+  return (0);
 }
-
-
diff --git a/kernel/zarch/dgemv_t_4.c b/kernel/zarch/dgemv_t_4.c
index 96af0139ce..de72a1798a 100644
--- a/kernel/zarch/dgemv_t_4.c
+++ b/kernel/zarch/dgemv_t_4.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2017, The OpenBLAS Project
+Copyright (c) 2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -25,517 +25,736 @@ OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 *****************************************************************************/
 
-
 #include "common.h"
 
-#define HAVE_KERNEL_4x4_VEC 1
-#define HAVE_KERNEL_4x2_VEC 1
-#define HAVE_KERNEL_4x1_VEC 1
-
-#if defined(HAVE_KERNEL_4x4_VEC) || defined(HAVE_KERNEL_4x2_VEC) || defined(HAVE_KERNEL_4x1_VEC)
- #include <vecintrin.h>
-#endif
 #define NBMAX 2048
 
-#ifdef HAVE_KERNEL_4x4
-
-#elif HAVE_KERNEL_4x4_VEC
-
-static void dgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-    BLASLONG i; 
-    __vector double* va0 = (__vector double*)ap[0];
-    __vector double* va1 = (__vector double*)ap[1];
-    __vector double* va2 = (__vector double*)ap[2];
-    __vector double* va3 = (__vector double*)ap[3];     
-    __vector double* v_x =(__vector double*)x;           
-    __vector double temp0 = {0,0};      
-    __vector double temp1 = {0,0};       
-    __vector double temp2 = {0,0};       
-    __vector double temp3 = {0,0};       
-
-    for ( i=0; i< n/2; i+=2 )
-    {
-        temp0 += v_x[i] * va0[i]  + v_x[i+1] * va0[i+1] ;        
-        temp1 += v_x[i] * va1[i]  + v_x[i+1] * va1[i+1] ;    
-        temp2 += v_x[i] * va2[i]  + v_x[i+1] * va2[i+1] ;    
-        temp3 += v_x[i] * va3[i]  + v_x[i+1] * va3[i+1] ;        
-    }
-        
-    y[0] = temp0[0] + temp0[1];
-    y[1] = temp1[0] + temp1[1];
-    y[2] = temp2[0] + temp2[1];
-    y[3] = temp3[0] + temp3[1];; 
+static void dgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) {
+  register FLOAT *ap0 = ap[0];
+  register FLOAT *ap1 = ap[1];
+  register FLOAT *ap2 = ap[2];
+  register FLOAT *ap3 = ap[3];
+
+  __asm__("vzero %%v0\n\t"
+    "vzero %%v1\n\t"
+    "vzero %%v2\n\t"
+    "vzero %%v3\n\t"
+    "vzero %%v4\n\t"
+    "vzero %%v5\n\t"
+    "vzero %%v6\n\t"
+    "vzero %%v7\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "lghi    %%r0,-16\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      1f\n\t"
+    "srlg  %%r0,%%r0,4\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[ap0])\n\t"
+    "pfd 1,1024(%%r1,%[ap1])\n\t"
+    "pfd 1,1024(%%r1,%[ap2])\n\t"
+    "pfd 1,1024(%%r1,%[ap3])\n\t"
+    "pfd 1,1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vl  %%v24,0(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v0,%%v16,%%v24,%%v0\n\t"
+    "vl  %%v25,0(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v1,%%v16,%%v25,%%v1\n\t"
+    "vl  %%v26,0(%%r1,%[ap2])\n\t"
+    "vfmadb   %%v2,%%v16,%%v26,%%v2\n\t"
+    "vl  %%v27,0(%%r1,%[ap3])\n\t"
+    "vfmadb   %%v3,%%v16,%%v27,%%v3\n\t"
+    "vl  %%v28,16(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v4,%%v17,%%v28,%%v4\n\t"
+    "vl  %%v29,16(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v5,%%v17,%%v29,%%v5\n\t"
+    "vl  %%v30,16(%%r1,%[ap2])\n\t"
+    "vfmadb   %%v6,%%v17,%%v30,%%v6\n\t"
+    "vl  %%v31,16(%%r1,%[ap3])\n\t"
+    "vfmadb   %%v7,%%v17,%%v31,%%v7\n\t"
+    "vl  %%v24,32(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v0,%%v18,%%v24,%%v0\n\t"
+    "vl  %%v25,32(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v1,%%v18,%%v25,%%v1\n\t"
+    "vl  %%v26,32(%%r1,%[ap2])\n\t"
+    "vfmadb   %%v2,%%v18,%%v26,%%v2\n\t"
+    "vl  %%v27,32(%%r1,%[ap3])\n\t"
+    "vfmadb   %%v3,%%v18,%%v27,%%v3\n\t"
+    "vl  %%v28,48(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v4,%%v19,%%v28,%%v4\n\t"
+    "vl  %%v29,48(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v5,%%v19,%%v29,%%v5\n\t"
+    "vl  %%v30,48(%%r1,%[ap2])\n\t"
+    "vfmadb   %%v6,%%v19,%%v30,%%v6\n\t"
+    "vl  %%v31,48(%%r1,%[ap3])\n\t"
+    "vfmadb   %%v7,%%v19,%%v31,%%v7\n\t"
+    "vl  %%v24,64(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v0,%%v20,%%v24,%%v0\n\t"
+    "vl  %%v25,64(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v1,%%v20,%%v25,%%v1\n\t"
+    "vl  %%v26,64(%%r1,%[ap2])\n\t"
+    "vfmadb   %%v2,%%v20,%%v26,%%v2\n\t"
+    "vl  %%v27,64(%%r1,%[ap3])\n\t"
+    "vfmadb   %%v3,%%v20,%%v27,%%v3\n\t"
+    "vl  %%v28,80(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v4,%%v21,%%v28,%%v4\n\t"
+    "vl  %%v29,80(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v5,%%v21,%%v29,%%v5\n\t"
+    "vl  %%v30,80(%%r1,%[ap2])\n\t"
+    "vfmadb   %%v6,%%v21,%%v30,%%v6\n\t"
+    "vl  %%v31,80(%%r1,%[ap3])\n\t"
+    "vfmadb   %%v7,%%v21,%%v31,%%v7\n\t"
+    "vl  %%v24,96(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v0,%%v22,%%v24,%%v0\n\t"
+    "vl  %%v25,96(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v1,%%v22,%%v25,%%v1\n\t"
+    "vl  %%v26,96(%%r1,%[ap2])\n\t"
+    "vfmadb   %%v2,%%v22,%%v26,%%v2\n\t"
+    "vl  %%v27,96(%%r1,%[ap3])\n\t"
+    "vfmadb   %%v3,%%v22,%%v27,%%v3\n\t"
+    "vl  %%v28,112(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v4,%%v23,%%v28,%%v4\n\t"
+    "vl  %%v29,112(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v5,%%v23,%%v29,%%v5\n\t"
+    "vl  %%v30,112(%%r1,%[ap2])\n\t"
+    "vfmadb   %%v6,%%v23,%%v30,%%v6\n\t"
+    "vl  %%v31,112(%%r1,%[ap3])\n\t"
+    "vfmadb   %%v7,%%v23,%%v31,%%v7\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %%r0,0b\n\t"
+    "1:\n\t"
+    "lghi    %%r0,12\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      3f\n\t"
+    "srlg  %%r0,%%r0,2\n\t"
+    "2:\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v24,0(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v0,%%v16,%%v24,%%v0\n\t"
+    "vl  %%v25,0(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v1,%%v16,%%v25,%%v1\n\t"
+    "vl  %%v26,0(%%r1,%[ap2])\n\t"
+    "vfmadb   %%v2,%%v16,%%v26,%%v2\n\t"
+    "vl  %%v27,0(%%r1,%[ap3])\n\t"
+    "vfmadb   %%v3,%%v16,%%v27,%%v3\n\t"
+    "vl  %%v28,16(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v4,%%v17,%%v28,%%v4\n\t"
+    "vl  %%v29,16(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v5,%%v17,%%v29,%%v5\n\t"
+    "vl  %%v30,16(%%r1,%[ap2])\n\t"
+    "vfmadb   %%v6,%%v17,%%v30,%%v6\n\t"
+    "vl  %%v31,16(%%r1,%[ap3])\n\t"
+    "vfmadb   %%v7,%%v17,%%v31,%%v7\n\t"
+    "agfi   %%r1,32\n\t"
+    "brctg  %%r0,2b\n\t"
+    "3:\n\t"
+    "vfadb  %%v0,%%v0,%%v4\n\t"
+    "vfadb  %%v1,%%v1,%%v5\n\t"
+    "vfadb  %%v2,%%v2,%%v6\n\t"
+    "vfadb  %%v3,%%v3,%%v7\n\t"
+    "vrepg  %%v4,%%v0,1\n\t"
+    "adbr   %%f0,%%f4\n\t"
+    "std    %%f0,0(%[y])\n\t"
+    "vrepg  %%v4,%%v1,1\n\t"
+    "adbr   %%f1,%%f4\n\t"
+    "std    %%f1,8(%[y])\n\t"
+    "vrepg  %%v4,%%v2,1\n\t"
+    "adbr   %%f2,%%f4\n\t"
+    "std    %%f2,16(%[y])\n\t"
+    "vrepg  %%v4,%%v3,1\n\t"
+    "adbr   %%f3,%%f4\n\t"
+    "std    %%f3,24(%[y])"
+    : "=m"(*(struct { FLOAT x[4]; } *) y)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n]; } *) ap0),[ap0] "a"(ap0),
+       "m"(*(const struct { FLOAT x[n]; } *) ap1),[ap1] "a"(ap1),
+       "m"(*(const struct { FLOAT x[n]; } *) ap2),[ap2] "a"(ap2),
+       "m"(*(const struct { FLOAT x[n]; } *) ap3),[ap3] "a"(ap3),
+       "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x),[n] "r"(n)
+    : "cc", "r0", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
+       "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25",
+       "v26", "v27", "v28", "v29", "v30", "v31");
 }
-#else
-static void dgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-    BLASLONG i;
-    FLOAT *a0,*a1,*a2,*a3;
-    a0 = ap[0];
-    a1 = ap[1];
-    a2 = ap[2];
-    a3 = ap[3];
-    FLOAT temp0 = 0.0;
-    FLOAT temp1 = 0.0;
-    FLOAT temp2 = 0.0;
-    FLOAT temp3 = 0.0;
-
-    for ( i=0; i< n; i+=4 )
-    {
-        temp0 += a0[i]*x[i] + a0[i+1]*x[i+1] + a0[i+2]*x[i+2] + a0[i+3]*x[i+3];        
-        temp1 += a1[i]*x[i] + a1[i+1]*x[i+1] + a1[i+2]*x[i+2] + a1[i+3]*x[i+3];        
-        temp2 += a2[i]*x[i] + a2[i+1]*x[i+1] + a2[i+2]*x[i+2] + a2[i+3]*x[i+3];        
-        temp3 += a3[i]*x[i] + a3[i+1]*x[i+1] + a3[i+2]*x[i+2] + a3[i+3]*x[i+3];        
-    }
-    y[0] = temp0;
-    y[1] = temp1;
-    y[2] = temp2;
-    y[3] = temp3;
+
+static void dgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) {
+  register FLOAT *ap0 = ap[0];
+  register FLOAT *ap1 = ap[1];
+
+  __asm__("vzero %%v0\n\t"
+    "vzero %%v1\n\t"
+    "vzero %%v2\n\t"
+    "vzero %%v3\n\t"
+    "vzero %%v4\n\t"
+    "vzero %%v5\n\t"
+    "vzero %%v6\n\t"
+    "vzero %%v7\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "lghi    %%r0,-16\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      1f\n\t"
+    "srlg  %%r0,%%r0,4\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[ap0])\n\t"
+    "pfd 1,1024(%%r1,%[ap1])\n\t"
+    "pfd 1,1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vl  %%v24,0(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v0,%%v16,%%v24,%%v0\n\t"
+    "vl  %%v25,0(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v1,%%v16,%%v25,%%v1\n\t"
+    "vl  %%v26,16(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v2,%%v17,%%v26,%%v2\n\t"
+    "vl  %%v27,16(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v3,%%v17,%%v27,%%v3\n\t"
+    "vl  %%v28,32(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v4,%%v18,%%v28,%%v4\n\t"
+    "vl  %%v29,32(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v5,%%v18,%%v29,%%v5\n\t"
+    "vl  %%v30,48(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v6,%%v19,%%v30,%%v6\n\t"
+    "vl  %%v31,48(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v7,%%v19,%%v31,%%v7\n\t"
+    "vl  %%v24,64(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v0,%%v20,%%v24,%%v0\n\t"
+    "vl  %%v25,64(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v1,%%v20,%%v25,%%v1\n\t"
+    "vl  %%v26,80(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v2,%%v21,%%v26,%%v2\n\t"
+    "vl  %%v27,80(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v3,%%v21,%%v27,%%v3\n\t"
+    "vl  %%v28,96(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v4,%%v22,%%v28,%%v4\n\t"
+    "vl  %%v29,96(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v5,%%v22,%%v29,%%v5\n\t"
+    "vl  %%v30,112(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v6,%%v23,%%v30,%%v6\n\t"
+    "vl  %%v31,112(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v7,%%v23,%%v31,%%v7\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %%r0,0b\n\t"
+    "1:\n\t"
+    "lghi    %%r0,12\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      3f\n\t"
+    "srlg  %%r0,%%r0,2\n\t"
+    "2:\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v24,0(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v0,%%v16,%%v24,%%v0\n\t"
+    "vl  %%v25,0(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v1,%%v16,%%v25,%%v1\n\t"
+    "vl  %%v26,16(%%r1,%[ap0])\n\t"
+    "vfmadb   %%v2,%%v17,%%v26,%%v2\n\t"
+    "vl  %%v27,16(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v3,%%v17,%%v27,%%v3\n\t"
+    "agfi   %%r1,32\n\t"
+    "brctg  %%r0,2b\n\t"
+    "3:\n\t"
+    "vfadb  %%v0,%%v0,%%v2\n\t"
+    "vfadb  %%v0,%%v0,%%v4\n\t"
+    "vfadb  %%v0,%%v0,%%v6\n\t"
+    "vfadb  %%v1,%%v1,%%v3\n\t"
+    "vfadb  %%v1,%%v1,%%v5\n\t"
+    "vfadb  %%v1,%%v1,%%v7\n\t"
+    "vrepg  %%v2,%%v0,1\n\t"
+    "adbr   %%f0,%%f2\n\t"
+    "std    %%f0,0(%[y])\n\t"
+    "vrepg  %%v2,%%v1,1\n\t"
+    "adbr   %%f1,%%f2\n\t"
+    "std    %%f1,8(%[y])"
+    : "=m"(*(struct { FLOAT x[2]; } *) y)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n]; } *) ap0),[ap0] "a"(ap0),
+       "m"(*(const struct { FLOAT x[n]; } *) ap1),[ap1] "a"(ap1),
+       "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x),[n] "r"(n)
+    : "cc", "r0", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
+       "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25",
+       "v26", "v27", "v28", "v29", "v30", "v31");
 }
-    
-#endif
- 
-#ifdef HAVE_KERNEL_4x2
-
-#elif HAVE_KERNEL_4x2_VEC
-
-static void dgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-    BLASLONG i; 
-    __vector double* va0 = (__vector double*)ap[0];
-    __vector double* va1 = (__vector double*)ap[1];     
-    __vector double* v_x =(__vector double*)x;           
-    __vector double temp0 = {0,0};      
-    __vector double temp1 = {0,0};         
-
-    for ( i=0; i< n/2; i+=2 )
-    {
-        temp0 += v_x[i] * va0[i]  + v_x[i+1] * va0[i+1] ;        
-        temp1 += v_x[i] * va1[i]  + v_x[i+1] * va1[i+1] ;        
-    }
-        
-    y[0] = temp0[0] + temp0[1];
-    y[1] = temp1[0] + temp1[1]; 
+
+static void dgemv_kernel_4x1(BLASLONG n, FLOAT *a0, FLOAT *x, FLOAT *y) {
+  __asm__("vzero %%v0\n\t"
+    "vzero %%v1\n\t"
+    "vzero %%v2\n\t"
+    "vzero %%v3\n\t"
+    "vzero %%v4\n\t"
+    "vzero %%v5\n\t"
+    "vzero %%v6\n\t"
+    "vzero %%v7\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "lghi    %%r0,-16\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      1f\n\t"
+    "srlg  %%r0,%%r0,4\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[a0])\n\t"
+    "pfd 1,1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vl  %%v24,0(%%r1,%[a0])\n\t"
+    "vfmadb   %%v0,%%v16,%%v24,%%v0\n\t"
+    "vl  %%v25,16(%%r1,%[a0])\n\t"
+    "vfmadb   %%v1,%%v17,%%v25,%%v1\n\t"
+    "vl  %%v26,32(%%r1,%[a0])\n\t"
+    "vfmadb   %%v2,%%v18,%%v26,%%v2\n\t"
+    "vl  %%v27,48(%%r1,%[a0])\n\t"
+    "vfmadb   %%v3,%%v19,%%v27,%%v3\n\t"
+    "vl  %%v28,64(%%r1,%[a0])\n\t"
+    "vfmadb   %%v4,%%v20,%%v28,%%v4\n\t"
+    "vl  %%v29,80(%%r1,%[a0])\n\t"
+    "vfmadb   %%v5,%%v21,%%v29,%%v5\n\t"
+    "vl  %%v30,96(%%r1,%[a0])\n\t"
+    "vfmadb   %%v6,%%v22,%%v30,%%v6\n\t"
+    "vl  %%v31,112(%%r1,%[a0])\n\t"
+    "vfmadb   %%v7,%%v23,%%v31,%%v7\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %%r0,0b\n\t"
+    "1:\n\t"
+    "lghi    %%r0,12\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      3f\n\t"
+    "srlg  %%r0,%%r0,2\n\t"
+    "2:\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v24,0(%%r1,%[a0])\n\t"
+    "vfmadb   %%v0,%%v16,%%v24,%%v0\n\t"
+    "vl  %%v25,16(%%r1,%[a0])\n\t"
+    "vfmadb   %%v1,%%v17,%%v25,%%v1\n\t"
+    "agfi   %%r1,32\n\t"
+    "brctg  %%r0,2b\n\t"
+    "3:\n\t"
+    "vfadb  %%v0,%%v0,%%v1\n\t"
+    "vfadb  %%v0,%%v0,%%v2\n\t"
+    "vfadb  %%v0,%%v0,%%v3\n\t"
+    "vfadb  %%v0,%%v0,%%v4\n\t"
+    "vfadb  %%v0,%%v0,%%v5\n\t"
+    "vfadb  %%v0,%%v0,%%v6\n\t"
+    "vfadb  %%v0,%%v0,%%v7\n\t"
+    "vrepg  %%v1,%%v0,1\n\t"
+    "adbr   %%f0,%%f1\n\t"
+    "std    %%f0,0(%[y])"
+    : "=m"(*(FLOAT (*)[1]) y)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n]; } *) a0),[a0] "a"(a0),
+       "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x),[n] "r"(n)
+    : "cc", "r0", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
+       "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25",
+       "v26", "v27", "v28", "v29", "v30", "v31");
 }
-#else
-static void dgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
 
+static void copy_x(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_src) {
+  BLASLONG i;
+  for (i = 0; i < n; i++) {
+    dest[i] = *src;
+    src += inc_src;
+  }
+}
+
+static void add_y_kernel_4(BLASLONG n, FLOAT da, FLOAT *src, FLOAT *dest) {
+  __asm__("vlrepg %%v0,%[da]\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "lghi    %%r0,-16\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      1f\n\t"
+    "srlg  %%r0,%%r0,4\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[src])\n\t"
+    "pfd 2,1024(%%r1,%[dest])\n\t"
+    "vl  %%v16,0(%%r1,%[src])\n\t"
+    "vl  %%v17,16(%%r1,%[src])\n\t"
+    "vl  %%v18,32(%%r1,%[src])\n\t"
+    "vl  %%v19,48(%%r1,%[src])\n\t"
+    "vl  %%v20,64(%%r1,%[src])\n\t"
+    "vl  %%v21,80(%%r1,%[src])\n\t"
+    "vl  %%v22,96(%%r1,%[src])\n\t"
+    "vl  %%v23,112(%%r1,%[src])\n\t"
+    "vl  %%v24, 0(%%r1,%[dest])\n\t"
+    "vfmadb   %%v24,%%v16,%%v0,%%v24\n\t"
+    "vst  %%v24, 0(%%r1,%[dest])\n\t"
+    "vl  %%v25, 16(%%r1,%[dest])\n\t"
+    "vfmadb   %%v25,%%v17,%%v0,%%v25\n\t"
+    "vst  %%v25, 16(%%r1,%[dest])\n\t"
+    "vl  %%v26, 32(%%r1,%[dest])\n\t"
+    "vfmadb   %%v26,%%v18,%%v0,%%v26\n\t"
+    "vst  %%v26, 32(%%r1,%[dest])\n\t"
+    "vl  %%v27, 48(%%r1,%[dest])\n\t"
+    "vfmadb   %%v27,%%v19,%%v0,%%v27\n\t"
+    "vst  %%v27, 48(%%r1,%[dest])\n\t"
+    "vl  %%v28, 64(%%r1,%[dest])\n\t"
+    "vfmadb   %%v28,%%v20,%%v0,%%v28\n\t"
+    "vst  %%v28, 64(%%r1,%[dest])\n\t"
+    "vl  %%v29, 80(%%r1,%[dest])\n\t"
+    "vfmadb   %%v29,%%v21,%%v0,%%v29\n\t"
+    "vst  %%v29, 80(%%r1,%[dest])\n\t"
+    "vl  %%v30, 96(%%r1,%[dest])\n\t"
+    "vfmadb   %%v30,%%v22,%%v0,%%v30\n\t"
+    "vst  %%v30, 96(%%r1,%[dest])\n\t"
+    "vl  %%v31, 112(%%r1,%[dest])\n\t"
+    "vfmadb   %%v31,%%v23,%%v0,%%v31\n\t"
+    "vst  %%v31, 112(%%r1,%[dest])\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %%r0,0b\n\t"
+    "1:\n\t"
+    "lghi    %%r0,12\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      3f\n\t"
+    "srlg  %%r0,%%r0,2\n\t"
+    "2:\n\t"
+    "vl  %%v16,0(%%r1,%[src])\n\t"
+    "vl  %%v17,16(%%r1,%[src])\n\t"
+    "vl  %%v24, 0(%%r1,%[dest])\n\t"
+    "vfmadb   %%v24,%%v16,%%v0,%%v24\n\t"
+    "vst  %%v24, 0(%%r1,%[dest])\n\t"
+    "vl  %%v25, 16(%%r1,%[dest])\n\t"
+    "vfmadb   %%v25,%%v17,%%v0,%%v25\n\t"
+    "vst  %%v25, 16(%%r1,%[dest])\n\t"
+    "agfi   %%r1,32\n\t"
+    "brctg  %%r0,2b\n\t"
+    "3:\n\t"
+    "nop"
+    : "+m"(*(struct { FLOAT x[n]; } *) dest)
+    : [dest] "a"(dest),[da] "Q"(da), "m"(*(const struct { FLOAT x[n]; } *) src),
+       [src] "a"(src),[n] "r"(n)
+    : "cc", "r0", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21",
+       "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
+}
+static void add_y(BLASLONG n, FLOAT da, FLOAT *src, FLOAT *dest,
+                  BLASLONG inc_dest) {
+  if (inc_dest == 1)
+    add_y_kernel_4(n, da, src, dest);
+  else {
     BLASLONG i;
-    FLOAT *a0,*a1;
-    a0 = ap[0];
-    a1 = ap[1]; 
-    FLOAT temp0 = 0.0;
-    FLOAT temp1 = 0.0; 
-
-    for ( i=0; i< n; i+=4 )
-    {
-        temp0 += a0[i]*x[i] + a0[i+1]*x[i+1] + a0[i+2]*x[i+2] + a0[i+3]*x[i+3];        
-        temp1 += a1[i]*x[i] + a1[i+1]*x[i+1] + a1[i+2]*x[i+2] + a1[i+3]*x[i+3];         
+    for (i = 0; i < n; i++) {
+      *dest += src[i] * da;
+      dest += inc_dest;
     }
-    y[0] = temp0;
-    y[1] = temp1; 
-
+  }
 }
-#endif    
 
-#ifdef HAVE_KERNEL_4x1
+int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha, FLOAT *a,
+          BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y,
+          FLOAT *buffer) {
+  BLASLONG register i;
+  BLASLONG register j;
+  FLOAT *a_ptr;
+  FLOAT *x_ptr;
+  FLOAT *y_ptr;
+  BLASLONG n0;
+  BLASLONG n1;
+  BLASLONG m1;
+  BLASLONG m2;
+  BLASLONG m3;
+  BLASLONG n2;
+  FLOAT ybuffer[2] __attribute__ ((aligned(16)));
+  FLOAT *xbuffer;
+  FLOAT *ytemp;
+
+  if (m < 1)
+    return (0);
+  if (n < 1)
+    return (0);
+
+  xbuffer = buffer;
+  ytemp = buffer + (m < NBMAX ? m : NBMAX);
+
+  n0 = n / NBMAX;
+  n1 = (n % NBMAX) >> 2;
+  n2 = n & 3;
+
+  m3 = m & 3;
+  m1 = m & -4;
+  m2 = (m & (NBMAX - 1)) - m3;
+
+  BLASLONG NB = NBMAX;
+
+  while (NB == NBMAX) {
+    m1 -= NB;
+    if (m1 < 0) {
+      if (m2 == 0)
+        break;
+      NB = m2;
+    }
 
-#elif HAVE_KERNEL_4x1_VEC
+    y_ptr = y;
+    a_ptr = a;
+    x_ptr = x;
 
-static void dgemv_kernel_4x1(BLASLONG n, FLOAT *a0, FLOAT *x, FLOAT *y)
-{
-    BLASLONG i; 
-    __vector double* va0 = (__vector double*)a0;      
-    __vector double* v_x =(__vector double*)x;           
-    __vector double temp0 = {0,0};          
+    if (inc_x == 1)
+      xbuffer = x_ptr;
+    else
+      copy_x(NB, x_ptr, xbuffer, inc_x);
 
-    for ( i=0; i< n/2; i+=2 )
-    {
-        temp0 += v_x[i] * va0[i]  + v_x[i+1] * va0[i+1] ;         
-    }
-        
-    y[0] = temp0[0] + temp0[1]; 
-}
-#else
-static void dgemv_kernel_4x1(BLASLONG n, FLOAT *a0, FLOAT *x, FLOAT *y)
-{
-    BLASLONG i;
-    
-     
-    FLOAT temp0 = 0.0; 
+    FLOAT *ap[4];
+    FLOAT *yp;
+    BLASLONG register lda4 = 4 * lda;
+    ap[0] = a_ptr;
+    ap[1] = a_ptr + lda;
+    ap[2] = ap[1] + lda;
+    ap[3] = ap[2] + lda;
 
-    for ( i=0; i< n; i+=4 )
-    {
-        temp0 += a0[i]*x[i] + a0[i+1]*x[i+1] + a0[i+2]*x[i+2] + a0[i+3]*x[i+3];         
-    }
-    y[0] = temp0; 
-}
-#endif
-    
-static void copy_x(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_src)
-{
-        BLASLONG i;
-        for ( i=0; i<n; i++ )
-        {
-                *dest = *src;
-                dest++;
-                src += inc_src;
-        }
-}
- 
-static void add_y(BLASLONG n, FLOAT da , FLOAT *src, FLOAT *dest, BLASLONG inc_dest)
-{
-
-        BLASLONG i;
- 
-        for ( i=0; i<n; i++ )
-        {
-                *dest += src[i]  * da;
-                dest  += inc_dest;
-        }
-        return; 
-         
-}
+    if (n0 > 0) {
+      BLASLONG nb1 = NBMAX / 4;
+      for (j = 0; j < n0; j++) {
 
-int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha, FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *buffer)
-{
-    BLASLONG register i;
-    BLASLONG register j;
-    FLOAT *a_ptr;
-    FLOAT *x_ptr;
-    FLOAT *y_ptr;
-    BLASLONG n0;
-    BLASLONG n1;
-    BLASLONG m1;
-    BLASLONG m2;
-    BLASLONG m3;
-    BLASLONG n2;
-    FLOAT ybuffer[4],*xbuffer;
-    FLOAT *ytemp;
-
-    if ( m < 1 ) return(0);
-    if ( n < 1 ) return(0);
-
-    xbuffer = buffer;
-    ytemp   = buffer + (m < NBMAX ? m : NBMAX);
-    
-    n0 = n / NBMAX;
-    n1 = (n % NBMAX)  >> 2 ;
-    n2 = n & 3  ;
-
-    m3 = m & 3  ;
-    m1 = m & -4 ;
-    m2 = (m & (NBMAX-1)) - m3 ;
-
-
-    BLASLONG NB = NBMAX;
-
-    while ( NB == NBMAX )
-    {
-        
-        m1 -= NB;
-        if ( m1 < 0)
-        {
-            if ( m2 == 0 ) break;    
-            NB = m2;
+        yp = ytemp;
+        for (i = 0; i < nb1; i++) {
+          dgemv_kernel_4x4(NB, ap, xbuffer, yp);
+          ap[0] += lda4;
+          ap[1] += lda4;
+          ap[2] += lda4;
+          ap[3] += lda4;
+          yp += 4;
         }
-        
-        y_ptr = y;
-        a_ptr = a;
-        x_ptr = x;
-
-        if ( inc_x == 1 )
-            xbuffer = x_ptr;
-        else
-            copy_x(NB,x_ptr,xbuffer,inc_x);
-
-
-        FLOAT *ap[4];
-        FLOAT *yp;
-        BLASLONG register lda4 = 4 * lda;
-        ap[0] = a_ptr;
-        ap[1] = a_ptr + lda;
-        ap[2] = ap[1] + lda;
-        ap[3] = ap[2] + lda;
-
-        if ( n0 > 0 )
-        {
-            BLASLONG nb1 = NBMAX / 4;
-            for( j=0; j<n0; j++)
-            {
-
-                yp = ytemp;
-                for( i = 0; i < nb1  ; i++)
-                {
-                    dgemv_kernel_4x4(NB,ap,xbuffer,yp);
-                    ap[0] += lda4 ;
-                    ap[1] += lda4 ;
-                    ap[2] += lda4 ;
-                    ap[3] += lda4 ;
-                    yp += 4;
-                }
-                add_y(nb1*4, alpha, ytemp, y_ptr, inc_y );
-                y_ptr += nb1 * inc_y * 4;
-                a_ptr += nb1 * lda4 ;
-
-            }
+        add_y(nb1 * 4, alpha, ytemp, y_ptr, inc_y);
+        y_ptr += nb1 * inc_y * 4;
+        a_ptr += nb1 * lda4;
 
-        }
+      }
 
+    }
 
-        yp = ytemp;
+    yp = ytemp;
 
-        for( i = 0; i < n1 ; i++)
-        {
-            dgemv_kernel_4x4(NB,ap,xbuffer,yp);
-            ap[0] += lda4 ;
-            ap[1] += lda4 ;
-            ap[2] += lda4 ;
-            ap[3] += lda4 ;
-            yp += 4;
-        }
-        if ( n1 > 0 )
-        {
-            add_y(n1*4, alpha, ytemp, y_ptr, inc_y );
-            y_ptr += n1 * inc_y * 4;
-            a_ptr += n1 * lda4 ;
-        }
+    for (i = 0; i < n1; i++) {
+      dgemv_kernel_4x4(NB, ap, xbuffer, yp);
+      ap[0] += lda4;
+      ap[1] += lda4;
+      ap[2] += lda4;
+      ap[3] += lda4;
+      yp += 4;
+    }
+    if (n1 > 0) {
+      add_y(n1 * 4, alpha, ytemp, y_ptr, inc_y);
+      y_ptr += n1 * inc_y * 4;
+      a_ptr += n1 * lda4;
+    }
 
-        if ( n2 & 2 )
-        {
+    if (n2 & 2) {
 
-            dgemv_kernel_4x2(NB,ap,xbuffer,ybuffer);
-            a_ptr  += lda * 2;
-            *y_ptr += ybuffer[0] * alpha;
-            y_ptr  += inc_y;
-            *y_ptr += ybuffer[1] * alpha;
-            y_ptr  += inc_y;
+      dgemv_kernel_4x2(NB, ap, xbuffer, ybuffer);
+      a_ptr += lda * 2;
+      *y_ptr += ybuffer[0] * alpha;
+      y_ptr += inc_y;
+      *y_ptr += ybuffer[1] * alpha;
+      y_ptr += inc_y;
 
-        }
+    }
 
-        if ( n2 & 1 )
-        {
+    if (n2 & 1) {
 
-            dgemv_kernel_4x1(NB,a_ptr,xbuffer,ybuffer);
-            a_ptr  += lda;
-            *y_ptr += ybuffer[0] * alpha;
-            y_ptr  += inc_y;
+      dgemv_kernel_4x1(NB, a_ptr, xbuffer, ybuffer);
+      // a_ptr  += lda;
+      *y_ptr += ybuffer[0] * alpha;
+      // y_ptr  += inc_y;
 
-        }
-        a += NB;
-        x += NB * inc_x;    
     }
+    a += NB;
+    x += NB * inc_x;
+  }
+
+  if (m3 == 0)
+    return (0);
+
+  x_ptr = x;
+  a_ptr = a;
+  if (m3 == 3) {
+    FLOAT xtemp0 = *x_ptr * alpha;
+    x_ptr += inc_x;
+    FLOAT xtemp1 = *x_ptr * alpha;
+    x_ptr += inc_x;
+    FLOAT xtemp2 = *x_ptr * alpha;
 
-    if ( m3 == 0 ) return(0);
+    FLOAT *aj = a_ptr;
+    y_ptr = y;
 
-    x_ptr = x;
-    a_ptr = a;
-    if ( m3 == 3 )
-    {
-        FLOAT xtemp0 = *x_ptr * alpha;
-        x_ptr += inc_x;
-        FLOAT xtemp1 = *x_ptr * alpha;
-        x_ptr += inc_x;
-        FLOAT xtemp2 = *x_ptr * alpha;
-
-        FLOAT *aj = a_ptr;
-        y_ptr = y;
-
-        if ( lda == 3 && inc_y == 1 )
-        {
-
-            for ( j=0; j< ( n & -4) ; j+=4 )
-            {
-
-                y_ptr[j]   += aj[0] * xtemp0 + aj[1]  * xtemp1 + aj[2]  * xtemp2;
-                y_ptr[j+1] += aj[3] * xtemp0 + aj[4]  * xtemp1 + aj[5]  * xtemp2;
-                y_ptr[j+2] += aj[6] * xtemp0 + aj[7]  * xtemp1 + aj[8]  * xtemp2;
-                y_ptr[j+3] += aj[9] * xtemp0 + aj[10] * xtemp1 + aj[11] * xtemp2;
-                 aj        += 12;
-            }
-
-            for ( ; j<n; j++ )
-            {
-                y_ptr[j]  += aj[0] * xtemp0 + aj[1] * xtemp1 + aj[2] * xtemp2;
-                 aj        += 3;
-            }
+    if (lda == 3 && inc_y == 1) {
 
-        }
-        else
-        {
+      for (j = 0; j < (n & -4); j += 4) {
 
-            if ( inc_y == 1 )
-            {
+        y_ptr[j] += aj[0] * xtemp0 + aj[1] * xtemp1 + aj[2] * xtemp2;
+        y_ptr[j + 1] += aj[3] * xtemp0 + aj[4] * xtemp1 + aj[5] * xtemp2;
+        y_ptr[j + 2] += aj[6] * xtemp0 + aj[7] * xtemp1 + aj[8] * xtemp2;
+        y_ptr[j + 3] += aj[9] * xtemp0 + aj[10] * xtemp1 + aj[11] * xtemp2;
+        aj += 12;
+      }
 
-                BLASLONG register lda2 = lda << 1;
-                BLASLONG register lda4 = lda << 2;
-                BLASLONG register lda3 = lda2 + lda;
+      for (; j < n; j++) {
+        y_ptr[j] += aj[0] * xtemp0 + aj[1] * xtemp1 + aj[2] * xtemp2;
+        aj += 3;
+      }
 
-                for ( j=0; j< ( n & -4 ); j+=4 )
-                {
+    } else {
 
-                    y_ptr[j]    += *aj        * xtemp0 + *(aj+1)      * xtemp1 + *(aj+2)      * xtemp2;
-                    y_ptr[j+1]  += *(aj+lda)  * xtemp0 + *(aj+lda+1)  * xtemp1 + *(aj+lda+2)  * xtemp2;
-                    y_ptr[j+2]  += *(aj+lda2) * xtemp0 + *(aj+lda2+1) * xtemp1 + *(aj+lda2+2) * xtemp2;
-                    y_ptr[j+3]  += *(aj+lda3) * xtemp0 + *(aj+lda3+1) * xtemp1 + *(aj+lda3+2) * xtemp2;
-                     aj          += lda4;
-                }
+      if (inc_y == 1) {
 
-                for ( ; j< n ; j++ )
-                {
+        BLASLONG register lda2 = lda << 1;
+        BLASLONG register lda4 = lda << 2;
+        BLASLONG register lda3 = lda2 + lda;
 
-                    y_ptr[j]    += *aj * xtemp0 + *(aj+1) * xtemp1 + *(aj+2) * xtemp2 ;
-                     aj          += lda;
-                }
+        for (j = 0; j < (n & -4); j += 4) {
 
-            }
-            else
-            {
+          y_ptr[j] += *aj * xtemp0 + *(aj + 1) * xtemp1 + *(aj + 2) * xtemp2;
+          y_ptr[j + 1] +=
+            *(aj + lda) * xtemp0 + *(aj + lda + 1) * xtemp1 + *(aj + lda +
+                                                                2) * xtemp2;
+          y_ptr[j + 2] +=
+            *(aj + lda2) * xtemp0 + *(aj + lda2 + 1) * xtemp1 + *(aj + lda2 +
+                                                                  2) * xtemp2;
+          y_ptr[j + 3] +=
+            *(aj + lda3) * xtemp0 + *(aj + lda3 + 1) * xtemp1 + *(aj + lda3 +
+                                                                  2) * xtemp2;
+          aj += lda4;
+        }
 
-                for ( j=0; j<n; j++ )
-                {
-                    *y_ptr += *aj * xtemp0 + *(aj+1) * xtemp1 + *(aj+2) * xtemp2;
-                     y_ptr += inc_y;
-                     aj    += lda;
-                }
+        for (; j < n; j++) {
 
+          y_ptr[j] += *aj * xtemp0 + *(aj + 1) * xtemp1 + *(aj + 2) * xtemp2;
+          aj += lda;
+        }
 
-            }
+      } else {
 
+        for (j = 0; j < n; j++) {
+          *y_ptr += *aj * xtemp0 + *(aj + 1) * xtemp1 + *(aj + 2) * xtemp2;
+          y_ptr += inc_y;
+          aj += lda;
         }
-        return(0);
-    }
 
-    if ( m3 == 2 )
-    {
-        FLOAT xtemp0 = *x_ptr * alpha;
-        x_ptr += inc_x;
-        FLOAT xtemp1 = *x_ptr * alpha;
+      }
 
-        FLOAT *aj = a_ptr;
-        y_ptr = y;
+    }
+    return (0);
+  }
 
-        if ( lda == 2 && inc_y == 1 )
-        {
+  if (m3 == 2) {
+    FLOAT xtemp0 = *x_ptr * alpha;
+    x_ptr += inc_x;
+    FLOAT xtemp1 = *x_ptr * alpha;
 
-            for ( j=0; j< ( n & -4) ; j+=4 )
-            {
-                y_ptr[j]   += aj[0] * xtemp0 + aj[1] * xtemp1 ;
-                y_ptr[j+1] += aj[2] * xtemp0 + aj[3] * xtemp1 ;
-                y_ptr[j+2] += aj[4] * xtemp0 + aj[5] * xtemp1 ;
-                y_ptr[j+3] += aj[6] * xtemp0 + aj[7] * xtemp1 ;
-                 aj         += 8;
+    FLOAT *aj = a_ptr;
+    y_ptr = y;
 
-            }
+    if (lda == 2 && inc_y == 1) {
 
-            for ( ; j<n; j++ )
-            {
-                y_ptr[j] += aj[0] * xtemp0 + aj[1] * xtemp1 ;
-                 aj       += 2;
-            }
+      for (j = 0; j < (n & -4); j += 4) {
+        y_ptr[j] += aj[0] * xtemp0 + aj[1] * xtemp1;
+        y_ptr[j + 1] += aj[2] * xtemp0 + aj[3] * xtemp1;
+        y_ptr[j + 2] += aj[4] * xtemp0 + aj[5] * xtemp1;
+        y_ptr[j + 3] += aj[6] * xtemp0 + aj[7] * xtemp1;
+        aj += 8;
 
-        }
-        else
-        {
-            if ( inc_y == 1 )
-            {
-
-                BLASLONG register lda2 = lda << 1;
-                BLASLONG register lda4 = lda << 2;
-                BLASLONG register lda3 = lda2 + lda;
-
-                for ( j=0; j< ( n & -4 ); j+=4 )
-                {
-
-                    y_ptr[j]    += *aj        * xtemp0 + *(aj+1)      * xtemp1 ;
-                    y_ptr[j+1]  += *(aj+lda)  * xtemp0 + *(aj+lda+1)  * xtemp1 ;
-                    y_ptr[j+2]  += *(aj+lda2) * xtemp0 + *(aj+lda2+1) * xtemp1 ;
-                    y_ptr[j+3]  += *(aj+lda3) * xtemp0 + *(aj+lda3+1) * xtemp1 ;
-                     aj          += lda4;
-                }
-
-                for ( ; j< n ; j++ )
-                {
-
-                    y_ptr[j]    += *aj * xtemp0 + *(aj+1) * xtemp1 ;
-                     aj          += lda;
-                }
-
-            }
-            else
-            {
-                for ( j=0; j<n; j++ )
-                {
-                    *y_ptr += *aj * xtemp0 + *(aj+1) * xtemp1 ;
-                     y_ptr += inc_y;
-                     aj    += lda;
-                }
-            }
+      }
 
-        }
-        return(0);
+      for (; j < n; j++) {
+        y_ptr[j] += aj[0] * xtemp0 + aj[1] * xtemp1;
+        aj += 2;
+      }
 
-    }
+    } else {
+      if (inc_y == 1) {
 
-    FLOAT xtemp = *x_ptr * alpha;
-    FLOAT *aj = a_ptr;
-    y_ptr = y;
-    if ( lda == 1 && inc_y == 1 )
-    {
-        for ( j=0; j< ( n & -4) ; j+=4 )
-        {
-            y_ptr[j]   += aj[j]   * xtemp;
-            y_ptr[j+1] += aj[j+1] * xtemp;
-            y_ptr[j+2] += aj[j+2] * xtemp;
-            y_ptr[j+3] += aj[j+3] * xtemp;
-        }
-        for ( ; j<n   ; j++ )
-        {
-            y_ptr[j] += aj[j] * xtemp;
-        }
+        BLASLONG register lda2 = lda << 1;
+        BLASLONG register lda4 = lda << 2;
+        BLASLONG register lda3 = lda2 + lda;
 
+        for (j = 0; j < (n & -4); j += 4) {
 
+          y_ptr[j] += *aj * xtemp0 + *(aj + 1) * xtemp1;
+          y_ptr[j + 1] += *(aj + lda) * xtemp0 + *(aj + lda + 1) * xtemp1;
+          y_ptr[j + 2] += *(aj + lda2) * xtemp0 + *(aj + lda2 + 1) * xtemp1;
+          y_ptr[j + 3] += *(aj + lda3) * xtemp0 + *(aj + lda3 + 1) * xtemp1;
+          aj += lda4;
+        }
 
-    }
-    else
-    {
-        if ( inc_y == 1 )
-        {
-
-            BLASLONG register lda2 = lda << 1;
-            BLASLONG register lda4 = lda << 2;
-            BLASLONG register lda3 = lda2 + lda;
-            for ( j=0; j< ( n & -4 ); j+=4 )
-            {
-                y_ptr[j]    += *aj        * xtemp;
-                y_ptr[j+1]  += *(aj+lda)  * xtemp;
-                y_ptr[j+2]  += *(aj+lda2) * xtemp;
-                y_ptr[j+3]  += *(aj+lda3) * xtemp;
-                 aj          += lda4  ;
-            }
-
-            for ( ; j<n; j++ )
-            {
-                y_ptr[j]  += *aj * xtemp;
-                 aj        += lda;
-            }
+        for (; j < n; j++) {
 
+          y_ptr[j] += *aj * xtemp0 + *(aj + 1) * xtemp1;
+          aj += lda;
         }
-        else
-        {
-            for ( j=0; j<n; j++ )
-            {
-                *y_ptr += *aj * xtemp;
-                 y_ptr += inc_y;
-                 aj    += lda;
-            }
 
+      } else {
+        for (j = 0; j < n; j++) {
+          *y_ptr += *aj * xtemp0 + *(aj + 1) * xtemp1;
+          y_ptr += inc_y;
+          aj += lda;
         }
+      }
+
+    }
+    return (0);
+
+  }
+
+  FLOAT xtemp = *x_ptr * alpha;
+  FLOAT *aj = a_ptr;
+  y_ptr = y;
+  if (lda == 1 && inc_y == 1) {
+    for (j = 0; j < (n & -4); j += 4) {
+      y_ptr[j] += aj[j] * xtemp;
+      y_ptr[j + 1] += aj[j + 1] * xtemp;
+      y_ptr[j + 2] += aj[j + 2] * xtemp;
+      y_ptr[j + 3] += aj[j + 3] * xtemp;
+    }
+    for (; j < n; j++) {
+      y_ptr[j] += aj[j] * xtemp;
     }
 
-    return(0);
-}
+  } else {
+    if (inc_y == 1) {
+
+      BLASLONG register lda2 = lda << 1;
+      BLASLONG register lda4 = lda << 2;
+      BLASLONG register lda3 = lda2 + lda;
+      for (j = 0; j < (n & -4); j += 4) {
+        y_ptr[j] += *aj * xtemp;
+        y_ptr[j + 1] += *(aj + lda) * xtemp;
+        y_ptr[j + 2] += *(aj + lda2) * xtemp;
+        y_ptr[j + 3] += *(aj + lda3) * xtemp;
+        aj += lda4;
+      }
+
+      for (; j < n; j++) {
+        y_ptr[j] += *aj * xtemp;
+        aj += lda;
+      }
+
+    } else {
+      for (j = 0; j < n; j++) {
+        *y_ptr += *aj * xtemp;
+        y_ptr += inc_y;
+        aj += lda;
+      }
 
+    }
+  }
 
+  return (0);
+}
diff --git a/kernel/zarch/dmax.c b/kernel/zarch/dmax.c
new file mode 100644
index 0000000000..cdc8d5d08f
--- /dev/null
+++ b/kernel/zarch/dmax.c
@@ -0,0 +1,147 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static FLOAT dmax_kernel_32(BLASLONG n, FLOAT *x) {
+  FLOAT max;
+
+  __asm__("vl    %%v0,0(%[x])\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vl  %%v24,128(%%r1,%[x])\n\t"
+    "vl  %%v25,144(%%r1,%[x])\n\t"
+    "vl  %%v26,160(%%r1,%[x])\n\t"
+    "vl  %%v27,176(%%r1,%[x])\n\t"
+    "vl  %%v28,192(%%r1,%[x])\n\t"
+    "vl  %%v29,208(%%r1,%[x])\n\t"
+    "vl  %%v30,224(%%r1,%[x])\n\t"
+    "vl  %%v31,240(%%r1,%[x])\n\t"
+    "vfmaxdb  %%v16,%%v16,%%v24,0\n\t"
+    "vfmaxdb  %%v17,%%v17,%%v25,0\n\t"
+    "vfmaxdb  %%v18,%%v18,%%v26,0\n\t"
+    "vfmaxdb  %%v19,%%v19,%%v27,0\n\t"
+    "vfmaxdb  %%v20,%%v20,%%v28,0\n\t"
+    "vfmaxdb  %%v21,%%v21,%%v29,0\n\t"
+    "vfmaxdb  %%v22,%%v22,%%v30,0\n\t"
+    "vfmaxdb  %%v23,%%v23,%%v31,0\n\t"
+    "vfmaxdb  %%v16,%%v16,%%v20,0\n\t"
+    "vfmaxdb  %%v17,%%v17,%%v21,0\n\t"
+    "vfmaxdb  %%v18,%%v18,%%v22,0\n\t"
+    "vfmaxdb  %%v19,%%v19,%%v23,0\n\t"
+    "vfmaxdb  %%v16,%%v16,%%v18,0\n\t"
+    "vfmaxdb  %%v17,%%v17,%%v19,0\n\t"
+    "vfmaxdb  %%v16,%%v16,%%v17,0\n\t"
+    "vfmaxdb  %%v0,%%v0,%%v16,0\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "vrepg   %%v16,%%v0,1\n\t"
+    "wfmaxdb %%v0,%%v0,%%v16,0\n\t"
+    "ldr    %[max],%%f0"
+    : [max] "=f"(max),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return max;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT maxf = 0.0;
+
+  if (n <= 0 || inc_x <= 0)
+    return (maxf);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+
+      maxf = dmax_kernel_32(n1, x);
+
+      i = n1;
+    } else {
+      maxf = x[0];
+      i++;
+    }
+
+    while (i < n) {
+      if (x[i] > maxf) {
+        maxf = x[i];
+      }
+      i++;
+    }
+    return (maxf);
+
+  } else {
+
+    maxf = x[0];
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (x[i] > maxf) {
+        maxf = x[i];
+      }
+      if (x[i + inc_x] > maxf) {
+        maxf = x[i + inc_x];
+      }
+      if (x[i + 2 * inc_x] > maxf) {
+        maxf = x[i + 2 * inc_x];
+      }
+      if (x[i + 3 * inc_x] > maxf) {
+        maxf = x[i + 3 * inc_x];
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
+
+    while (j < n) {
+      if (x[i] > maxf) {
+        maxf = x[i];
+      }
+      i += inc_x;
+      j++;
+    }
+    return (maxf);
+  }
+}
diff --git a/kernel/zarch/dmax_z13.c b/kernel/zarch/dmax_z13.c
new file mode 100644
index 0000000000..c4e8d91f87
--- /dev/null
+++ b/kernel/zarch/dmax_z13.c
@@ -0,0 +1,164 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static FLOAT dmax_kernel_32(BLASLONG n, FLOAT *x) {
+  FLOAT max;
+
+  __asm__("vl    %%v0,0(%[x])\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vfchdb  %%v24,%%v16,%%v17\n\t"
+    "vfchdb  %%v25,%%v18,%%v19\n\t"
+    "vfchdb  %%v26,%%v20,%%v21\n\t"
+    "vfchdb  %%v27,%%v22,%%v23\n\t"
+    "vsel    %%v24,%%v16,%%v17,%%v24\n\t"
+    "vsel    %%v25,%%v18,%%v19,%%v25\n\t"
+    "vsel    %%v26,%%v20,%%v21,%%v26\n\t"
+    "vsel    %%v27,%%v22,%%v23,%%v27\n\t"
+    "vfchdb  %%v28,%%v24,%%v25\n\t"
+    "vfchdb  %%v29,%%v26,%%v27\n\t"
+    "vsel    %%v28,%%v24,%%v25,%%v28\n\t"
+    "vsel    %%v29,%%v26,%%v27,%%v29\n\t"
+    "vfchdb  %%v30,%%v28,%%v29\n\t"
+    "vsel    %%v30,%%v28,%%v29,%%v30\n\t"
+    "vfchdb  %%v31,%%v30,%%v0\n\t"
+    "vsel    %%v0,%%v30,%%v0,%%v31\n\t"
+    "vl  %%v16,128(%%r1,%[x])\n\t"
+    "vl  %%v17,144(%%r1,%[x])\n\t"
+    "vl  %%v18,160(%%r1,%[x])\n\t"
+    "vl  %%v19,176(%%r1,%[x])\n\t"
+    "vl  %%v20,192(%%r1,%[x])\n\t"
+    "vl  %%v21,208(%%r1,%[x])\n\t"
+    "vl  %%v22,224(%%r1,%[x])\n\t"
+    "vl  %%v23,240(%%r1,%[x])\n\t"
+    "vfchdb  %%v24,%%v16,%%v17\n\t"
+    "vfchdb  %%v25,%%v18,%%v19\n\t"
+    "vfchdb  %%v26,%%v20,%%v21\n\t"
+    "vfchdb  %%v27,%%v22,%%v23\n\t"
+    "vsel    %%v24,%%v16,%%v17,%%v24\n\t"
+    "vsel    %%v25,%%v18,%%v19,%%v25\n\t"
+    "vsel    %%v26,%%v20,%%v21,%%v26\n\t"
+    "vsel    %%v27,%%v22,%%v23,%%v27\n\t"
+    "vfchdb  %%v28,%%v24,%%v25\n\t"
+    "vfchdb  %%v29,%%v26,%%v27\n\t"
+    "vsel    %%v28,%%v24,%%v25,%%v28\n\t"
+    "vsel    %%v29,%%v26,%%v27,%%v29\n\t"
+    "vfchdb  %%v30,%%v28,%%v29\n\t"
+    "vsel    %%v30,%%v28,%%v29,%%v30\n\t"
+    "vfchdb  %%v31,%%v30,%%v0\n\t"
+    "vsel    %%v0,%%v30,%%v0,%%v31\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "vrepg  %%v16,%%v0,1\n\t"
+    "wfchdb %%v17,%%v0,%%v16\n\t"
+    "vsel   %%v0,%%v0,%%v16,%%v17\n\t"
+    "ldr    %[max],%%f0"
+    : [max] "=f"(max),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return max;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT maxf = 0.0;
+
+  if (n <= 0 || inc_x <= 0)
+    return (maxf);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+
+      maxf = dmax_kernel_32(n1, x);
+
+      i = n1;
+    } else {
+      maxf = x[0];
+      i++;
+    }
+
+    while (i < n) {
+      if (x[i] > maxf) {
+        maxf = x[i];
+      }
+      i++;
+    }
+    return (maxf);
+
+  } else {
+
+    maxf = x[0];
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (x[i] > maxf) {
+        maxf = x[i];
+      }
+      if (x[i + inc_x] > maxf) {
+        maxf = x[i + inc_x];
+      }
+      if (x[i + 2 * inc_x] > maxf) {
+        maxf = x[i + 2 * inc_x];
+      }
+      if (x[i + 3 * inc_x] > maxf) {
+        maxf = x[i + 3 * inc_x];
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
+
+    while (j < n) {
+      if (x[i] > maxf) {
+        maxf = x[i];
+      }
+      i += inc_x;
+      j++;
+    }
+    return (maxf);
+  }
+}
diff --git a/kernel/zarch/dmin.c b/kernel/zarch/dmin.c
new file mode 100644
index 0000000000..f9b129cbd9
--- /dev/null
+++ b/kernel/zarch/dmin.c
@@ -0,0 +1,147 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static FLOAT dmin_kernel_32(BLASLONG n, FLOAT *x) {
+  FLOAT min;
+
+  __asm__("vl    %%v0,0(%[x])\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vl  %%v24,128(%%r1,%[x])\n\t"
+    "vl  %%v25,144(%%r1,%[x])\n\t"
+    "vl  %%v26,160(%%r1,%[x])\n\t"
+    "vl  %%v27,176(%%r1,%[x])\n\t"
+    "vl  %%v28,192(%%r1,%[x])\n\t"
+    "vl  %%v29,208(%%r1,%[x])\n\t"
+    "vl  %%v30,224(%%r1,%[x])\n\t"
+    "vl  %%v31,240(%%r1,%[x])\n\t"
+    "vfmindb  %%v16,%%v16,%%v24,0\n\t"
+    "vfmindb  %%v17,%%v17,%%v25,0\n\t"
+    "vfmindb  %%v18,%%v18,%%v26,0\n\t"
+    "vfmindb  %%v19,%%v19,%%v27,0\n\t"
+    "vfmindb  %%v20,%%v20,%%v28,0\n\t"
+    "vfmindb  %%v21,%%v21,%%v29,0\n\t"
+    "vfmindb  %%v22,%%v22,%%v30,0\n\t"
+    "vfmindb  %%v23,%%v23,%%v31,0\n\t"
+    "vfmindb  %%v16,%%v16,%%v20,0\n\t"
+    "vfmindb  %%v17,%%v17,%%v21,0\n\t"
+    "vfmindb  %%v18,%%v18,%%v22,0\n\t"
+    "vfmindb  %%v19,%%v19,%%v23,0\n\t"
+    "vfmindb  %%v16,%%v16,%%v18,0\n\t"
+    "vfmindb  %%v17,%%v17,%%v19,0\n\t"
+    "vfmindb  %%v16,%%v16,%%v17,0\n\t"
+    "vfmindb  %%v0,%%v0,%%v16,0\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "vrepg   %%v16,%%v0,1\n\t"
+    "wfmindb %%v0,%%v0,%%v16,0\n\t"
+    "ldr    %[min],%%f0"
+    : [min] "=f"(min),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return min;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT minf = 0.0;
+
+  if (n <= 0 || inc_x <= 0)
+    return (minf);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+
+      minf = dmin_kernel_32(n1, x);
+
+      i = n1;
+    } else {
+      minf = x[0];
+      i++;
+    }
+
+    while (i < n) {
+      if (x[i] < minf) {
+        minf = x[i];
+      }
+      i++;
+    }
+    return (minf);
+
+  } else {
+
+    minf = x[0];
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (x[i] < minf) {
+        minf = x[i];
+      }
+      if (x[i + inc_x] < minf) {
+        minf = x[i + inc_x];
+      }
+      if (x[i + 2 * inc_x] < minf) {
+        minf = x[i + 2 * inc_x];
+      }
+      if (x[i + 3 * inc_x] < minf) {
+        minf = x[i + 3 * inc_x];
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
+
+    while (j < n) {
+      if (x[i] < minf) {
+        minf = x[i];
+      }
+      i += inc_x;
+      j++;
+    }
+    return (minf);
+  }
+}
diff --git a/kernel/zarch/dmin_z13.c b/kernel/zarch/dmin_z13.c
new file mode 100644
index 0000000000..77f021c1d9
--- /dev/null
+++ b/kernel/zarch/dmin_z13.c
@@ -0,0 +1,164 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static FLOAT dmin_kernel_32(BLASLONG n, FLOAT *x) {
+  FLOAT min;
+
+  __asm__("vl    %%v0,0(%[x])\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vfchdb  %%v24,%%v17,%%v16\n\t"
+    "vfchdb  %%v25,%%v19,%%v18\n\t"
+    "vfchdb  %%v26,%%v21,%%v20\n\t"
+    "vfchdb  %%v27,%%v23,%%v22\n\t"
+    "vsel    %%v24,%%v16,%%v17,%%v24\n\t"
+    "vsel    %%v25,%%v18,%%v19,%%v25\n\t"
+    "vsel    %%v26,%%v20,%%v21,%%v26\n\t"
+    "vsel    %%v27,%%v22,%%v23,%%v27\n\t"
+    "vfchdb  %%v28,%%v25,%%v24\n\t"
+    "vfchdb  %%v29,%%v27,%%v26\n\t"
+    "vsel    %%v28,%%v24,%%v25,%%v28\n\t"
+    "vsel    %%v29,%%v26,%%v27,%%v29\n\t"
+    "vfchdb  %%v30,%%v29,%%v28\n\t"
+    "vsel    %%v30,%%v28,%%v29,%%v30\n\t"
+    "vfchdb  %%v31,%%v0,%%v30\n\t"
+    "vsel    %%v0,%%v30,%%v0,%%v31\n\t"
+    "vl  %%v16,128(%%r1,%[x])\n\t"
+    "vl  %%v17,144(%%r1,%[x])\n\t"
+    "vl  %%v18,160(%%r1,%[x])\n\t"
+    "vl  %%v19,176(%%r1,%[x])\n\t"
+    "vl  %%v20,192(%%r1,%[x])\n\t"
+    "vl  %%v21,208(%%r1,%[x])\n\t"
+    "vl  %%v22,224(%%r1,%[x])\n\t"
+    "vl  %%v23,240(%%r1,%[x])\n\t"
+    "vfchdb  %%v24,%%v17,%%v16\n\t"
+    "vfchdb  %%v25,%%v19,%%v18\n\t"
+    "vfchdb  %%v26,%%v21,%%v20\n\t"
+    "vfchdb  %%v27,%%v23,%%v22\n\t"
+    "vsel    %%v24,%%v16,%%v17,%%v24\n\t"
+    "vsel    %%v25,%%v18,%%v19,%%v25\n\t"
+    "vsel    %%v26,%%v20,%%v21,%%v26\n\t"
+    "vsel    %%v27,%%v22,%%v23,%%v27\n\t"
+    "vfchdb  %%v28,%%v25,%%v24\n\t"
+    "vfchdb  %%v29,%%v27,%%v26\n\t"
+    "vsel    %%v28,%%v24,%%v25,%%v28\n\t"
+    "vsel    %%v29,%%v26,%%v27,%%v29\n\t"
+    "vfchdb  %%v30,%%v29,%%v28\n\t"
+    "vsel    %%v30,%%v28,%%v29,%%v30\n\t"
+    "vfchdb  %%v31,%%v0,%%v30\n\t"
+    "vsel    %%v0,%%v30,%%v0,%%v31\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "vrepg  %%v16,%%v0,1\n\t"
+    "wfchdb %%v17,%%v16,%%v0\n\t"
+    "vsel   %%v0,%%v0,%%v16,%%v17\n\t"
+    "ldr    %[min],%%f0"
+    : [min] "=f"(min),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return min;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT minf = 0.0;
+
+  if (n <= 0 || inc_x <= 0)
+    return (minf);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+
+      minf = dmin_kernel_32(n1, x);
+
+      i = n1;
+    } else {
+      minf = x[0];
+      i++;
+    }
+
+    while (i < n) {
+      if (x[i] < minf) {
+        minf = x[i];
+      }
+      i++;
+    }
+    return (minf);
+
+  } else {
+
+    minf = x[0];
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (x[i] < minf) {
+        minf = x[i];
+      }
+      if (x[i + inc_x] < minf) {
+        minf = x[i + inc_x];
+      }
+      if (x[i + 2 * inc_x] < minf) {
+        minf = x[i + 2 * inc_x];
+      }
+      if (x[i + 3 * inc_x] < minf) {
+        minf = x[i + 3 * inc_x];
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
+
+    while (j < n) {
+      if (x[i] < minf) {
+        minf = x[i];
+      }
+      i += inc_x;
+      j++;
+    }
+    return (minf);
+  }
+}
diff --git a/kernel/zarch/drot.c b/kernel/zarch/drot.c
index bf29538c7a..11fbe15b6d 100644
--- a/kernel/zarch/drot.c
+++ b/kernel/zarch/drot.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2013-2017, The OpenBLAS Project
+Copyright (c) 2013-2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -27,226 +27,200 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 
 #include "common.h"
 
-static void drot_kernel_32(BLASLONG n, FLOAT *x, FLOAT *y, FLOAT cosA, FLOAT sinA)
-{
-          __asm__  (
-            "pfd    2, 0(%[ptr_x]) \n\t"
-            "pfd    2, 0(%[ptr_y]) \n\t"
-            "lgdr   %%r1,%[cos]    \n\t"
-            "vlvgp  %%v0,%%r1,%%r1 \n\t"
-            "lgdr   %%r1,%[sin]    \n\t"
-            "vlvgp  %%v1,%%r1,%%r1 \n\t"
-            "srlg   %[n_tmp],%[n_tmp],5  \n\t"
-            "xgr    %%r1,%%r1  \n\t"
-            ".align 16 \n\t"
-            "1:     \n\t"
-            "pfd    2, 256(%%r1,%[ptr_x]) \n\t"
-            "pfd    2, 256(%%r1,%[ptr_y]) \n\t"
-            "vl     %%v24, 0(%%r1,%[ptr_x])  \n\t" 
-            "vl     %%v25, 16(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v26, 32(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v27, 48(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v16, 0(%%r1,%[ptr_y])  \n\t" 
-            "vl     %%v17, 16(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v18, 32(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v19, 48(%%r1,%[ptr_y]) \n\t"  
-           
-            "vfmdb  %%v28,%%v24,%%v0 \n\t"
-            "vfmdb  %%v29,%%v25,%%v0 \n\t"
-            "vfmdb  %%v20,%%v24,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v21,%%v25,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v30,%%v26,%%v0 \n\t"
-            "vfmdb  %%v22,%%v26,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v31,%%v27,%%v0 \n\t"
-            "vfmdb  %%v23,%%v27,%%v1 \n\t" /* yn=x*s  */
-            /* 2nd parts*/
-            "vfmadb %%v28,%%v16,%%v1,%%v28 \n\t"  
-            "vfmsdb %%v20,%%v16,%%v0,%%v20 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v29,%%v17,%%v1,%%v29 \n\t"  
-            "vfmsdb %%v21,%%v17,%%v0,%%v21 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v30,%%v18,%%v1,%%v30 \n\t" 
-            "vfmsdb %%v22,%%v18,%%v0,%%v22 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v31,%%v19,%%v1,%%v31 \n\t" 
-            "vfmsdb %%v23,%%v19,%%v0,%%v23 \n\t"  /* yn=y*c-yn */
-
-            "vst    %%v28, 0(%%r1,%[ptr_x])  \n\t" 
-            "vst    %%v29, 16(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v30, 32(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v31, 48(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v20, 0(%%r1,%[ptr_y])  \n\t" 
-            "vst    %%v21, 16(%%r1,%[ptr_y]) \n\t" 
-            "vst    %%v22, 32(%%r1,%[ptr_y]) \n\t" 
-            "vst    %%v23, 48(%%r1,%[ptr_y]) \n\t"  
-           
-            "vl     %%v24, 64(%%r1,%[ptr_x])  \n\t" 
-            "vl     %%v25, 80(%%r1,%[ptr_x])  \n\t" 
-            "vl     %%v26, 96(%%r1,%[ptr_x])  \n\t" 
-            "vl     %%v27, 112(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v16, 64(%%r1,%[ptr_y])  \n\t" 
-            "vl     %%v17, 80(%%r1,%[ptr_y])  \n\t" 
-            "vl     %%v18, 96(%%r1,%[ptr_y])  \n\t" 
-            "vl     %%v19, 112(%%r1,%[ptr_y]) \n\t"  
-           
-            "vfmdb  %%v28,%%v24,%%v0 \n\t"
-            "vfmdb  %%v29,%%v25,%%v0 \n\t"
-            "vfmdb  %%v20,%%v24,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v21,%%v25,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v30,%%v26,%%v0 \n\t"
-            "vfmdb  %%v22,%%v26,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v31,%%v27,%%v0 \n\t"
-            "vfmdb  %%v23,%%v27,%%v1 \n\t" /* yn=x*s  */
-            /* 2nd parts*/
-            "vfmadb %%v28,%%v16,%%v1,%%v28 \n\t"  
-            "vfmsdb %%v20,%%v16,%%v0,%%v20 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v29,%%v17,%%v1,%%v29 \n\t"  
-            "vfmsdb %%v21,%%v17,%%v0,%%v21 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v30,%%v18,%%v1,%%v30 \n\t" 
-            "vfmsdb %%v22,%%v18,%%v0,%%v22 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v31,%%v19,%%v1,%%v31 \n\t" 
-            "vfmsdb %%v23,%%v19,%%v0,%%v23 \n\t"  /* yn=y*c-yn */
-
-            "vst    %%v28, 64(%%r1,%[ptr_x])  \n\t" 
-            "vst    %%v29, 80(%%r1,%[ptr_x])  \n\t" 
-            "vst    %%v30, 96(%%r1,%[ptr_x])  \n\t" 
-            "vst    %%v31, 112(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v20, 64(%%r1,%[ptr_y])  \n\t" 
-            "vst    %%v21, 80(%%r1,%[ptr_y])  \n\t" 
-            "vst    %%v22, 96(%%r1,%[ptr_y])  \n\t" 
-            "vst    %%v23, 112(%%r1,%[ptr_y]) \n\t"
-           
-            "vl     %%v24, 128(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v25, 144(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v26, 160(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v27, 176(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v16, 128(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v17, 144(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v18, 160(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v19, 176(%%r1,%[ptr_y]) \n\t"  
-           
-            "vfmdb  %%v28,%%v24,%%v0 \n\t"
-            "vfmdb  %%v29,%%v25,%%v0 \n\t"
-            "vfmdb  %%v20,%%v24,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v21,%%v25,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v30,%%v26,%%v0 \n\t"
-            "vfmdb  %%v22,%%v26,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v31,%%v27,%%v0 \n\t"
-            "vfmdb  %%v23,%%v27,%%v1 \n\t" /* yn=x*s  */
-            /* 2nd parts*/
-            "vfmadb %%v28,%%v16,%%v1,%%v28 \n\t"  
-            "vfmsdb %%v20,%%v16,%%v0,%%v20 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v29,%%v17,%%v1,%%v29 \n\t"  
-            "vfmsdb %%v21,%%v17,%%v0,%%v21 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v30,%%v18,%%v1,%%v30 \n\t" 
-            "vfmsdb %%v22,%%v18,%%v0,%%v22 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v31,%%v19,%%v1,%%v31 \n\t" 
-            "vfmsdb %%v23,%%v19,%%v0,%%v23 \n\t"  /* yn=y*c-yn */
-
-            "vst    %%v28, 128(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v29, 144(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v30, 160(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v31, 176(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v20, 128(%%r1,%[ptr_y]) \n\t" 
-            "vst    %%v21, 144(%%r1,%[ptr_y]) \n\t" 
-            "vst    %%v22, 160(%%r1,%[ptr_y]) \n\t" 
-            "vst    %%v23, 176(%%r1,%[ptr_y]) \n\t"  
-           
-            "vl     %%v24, 192(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v25, 208(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v26, 224(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v27, 240(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v16, 192(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v17, 208(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v18, 224(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v19, 240(%%r1,%[ptr_y]) \n\t"  
-           
-            "vfmdb  %%v28,%%v24,%%v0 \n\t"
-            "vfmdb  %%v29,%%v25,%%v0 \n\t"
-            "vfmdb  %%v20,%%v24,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v21,%%v25,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v30,%%v26,%%v0 \n\t"
-            "vfmdb  %%v22,%%v26,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v31,%%v27,%%v0 \n\t"
-            "vfmdb  %%v23,%%v27,%%v1 \n\t" /* yn=x*s  */
-            /* 2nd parts*/
-            "vfmadb %%v28,%%v16,%%v1,%%v28 \n\t"  
-            "vfmsdb %%v20,%%v16,%%v0,%%v20 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v29,%%v17,%%v1,%%v29 \n\t"  
-            "vfmsdb %%v21,%%v17,%%v0,%%v21 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v30,%%v18,%%v1,%%v30 \n\t" 
-            "vfmsdb %%v22,%%v18,%%v0,%%v22 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v31,%%v19,%%v1,%%v31 \n\t" 
-            "vfmsdb %%v23,%%v19,%%v0,%%v23 \n\t"  /* yn=y*c-yn */
-
-            "vst    %%v28, 192(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v29, 208(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v30, 224(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v31, 240(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v20, 192(%%r1,%[ptr_y]) \n\t" 
-            "vst    %%v21, 208(%%r1,%[ptr_y]) \n\t" 
-            "vst    %%v22, 224(%%r1,%[ptr_y]) \n\t" 
-            "vst    %%v23, 240(%%r1,%[ptr_y]) \n\t"
-
-            "la     %%r1,256(%%r1) \n\t"
-            "brctg  %[n_tmp],1b"
-            : [mem_x] "+m" (*(double (*)[n])x),
-              [mem_y] "+m" (*(double (*)[n])y),
-              [n_tmp] "+&r"(n)
-            : [ptr_x] "a"(x), [ptr_y]  "a"(y),[cos] "f"(cosA),[sin] "f"(sinA)
-            : "cc", "r1" ,"v0","v1","v16",
-            "v17","v18","v19","v20","v21","v22","v23","v24","v25","v26","v27","v28","v29","v30","v31"
-            );
-      return;
-
+static void drot_kernel_32(BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *c, FLOAT *s) {
+  __asm__("vlrepg %%v0,%[c]\n\t"
+    "vlrepg %%v1,%[s]\n\t"
+    "srlg   %[n],%[n],5\n\t"
+    "xgr    %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "pfd 2, 1024(%%r1,%[y])\n\t"
+    "vl  %%v24, 0(%%r1,%[x])\n\t"
+    "vl  %%v25, 16(%%r1,%[x])\n\t"
+    "vl  %%v26, 32(%%r1,%[x])\n\t"
+    "vl  %%v27, 48(%%r1,%[x])\n\t"
+    "vl  %%v16, 0(%%r1,%[y])\n\t"
+    "vl  %%v17, 16(%%r1,%[y])\n\t"
+    "vl  %%v18, 32(%%r1,%[y])\n\t"
+    "vl  %%v19, 48(%%r1,%[y])\n\t"
+    "vfmdb %%v28,%%v24,%%v0\n\t"
+    "vfmdb %%v29,%%v25,%%v0\n\t"
+    "vfmdb %%v20,%%v24,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v21,%%v25,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v30,%%v26,%%v0\n\t"
+    "vfmdb %%v22,%%v26,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v31,%%v27,%%v0\n\t"
+    "vfmdb %%v23,%%v27,%%v1\n\t" /* yn=x*s */
+    /* 2nd parts */
+    "vfmadb %%v28,%%v16,%%v1,%%v28\n\t"
+    "vfmsdb %%v20,%%v16,%%v0,%%v20\n\t" /* yn=y*c-yn */
+    "vfmadb %%v29,%%v17,%%v1,%%v29\n\t"
+    "vfmsdb %%v21,%%v17,%%v0,%%v21\n\t" /* yn=y*c-yn */
+    "vfmadb %%v30,%%v18,%%v1,%%v30\n\t"
+    "vfmsdb %%v22,%%v18,%%v0,%%v22\n\t" /* yn=y*c-yn */
+    "vfmadb %%v31,%%v19,%%v1,%%v31\n\t"
+    "vfmsdb %%v23,%%v19,%%v0,%%v23\n\t" /* yn=y*c-yn */
+    "vst  %%v28, 0(%%r1,%[x])\n\t"
+    "vst  %%v29, 16(%%r1,%[x])\n\t"
+    "vst  %%v30, 32(%%r1,%[x])\n\t"
+    "vst  %%v31, 48(%%r1,%[x])\n\t"
+    "vst  %%v20, 0(%%r1,%[y])\n\t"
+    "vst  %%v21, 16(%%r1,%[y])\n\t"
+    "vst  %%v22, 32(%%r1,%[y])\n\t"
+    "vst  %%v23, 48(%%r1,%[y])\n\t"
+    "vl  %%v24, 64(%%r1,%[x])\n\t"
+    "vl  %%v25, 80(%%r1,%[x])\n\t"
+    "vl  %%v26, 96(%%r1,%[x])\n\t"
+    "vl  %%v27, 112(%%r1,%[x])\n\t"
+    "vl  %%v16, 64(%%r1,%[y])\n\t"
+    "vl  %%v17, 80(%%r1,%[y])\n\t"
+    "vl  %%v18, 96(%%r1,%[y])\n\t"
+    "vl  %%v19, 112(%%r1,%[y])\n\t"
+    "vfmdb %%v28,%%v24,%%v0\n\t"
+    "vfmdb %%v29,%%v25,%%v0\n\t"
+    "vfmdb %%v20,%%v24,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v21,%%v25,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v30,%%v26,%%v0\n\t"
+    "vfmdb %%v22,%%v26,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v31,%%v27,%%v0\n\t"
+    "vfmdb %%v23,%%v27,%%v1\n\t" /* yn=x*s */
+    /* 2nd parts */
+    "vfmadb %%v28,%%v16,%%v1,%%v28\n\t"
+    "vfmsdb %%v20,%%v16,%%v0,%%v20\n\t" /* yn=y*c-yn */
+    "vfmadb %%v29,%%v17,%%v1,%%v29\n\t"
+    "vfmsdb %%v21,%%v17,%%v0,%%v21\n\t" /* yn=y*c-yn */
+    "vfmadb %%v30,%%v18,%%v1,%%v30\n\t"
+    "vfmsdb %%v22,%%v18,%%v0,%%v22\n\t" /* yn=y*c-yn */
+    "vfmadb %%v31,%%v19,%%v1,%%v31\n\t"
+    "vfmsdb %%v23,%%v19,%%v0,%%v23\n\t" /* yn=y*c-yn */
+    "vst  %%v28, 64(%%r1,%[x])\n\t"
+    "vst  %%v29, 80(%%r1,%[x])\n\t"
+    "vst  %%v30, 96(%%r1,%[x])\n\t"
+    "vst  %%v31, 112(%%r1,%[x])\n\t"
+    "vst  %%v20, 64(%%r1,%[y])\n\t"
+    "vst  %%v21, 80(%%r1,%[y])\n\t"
+    "vst  %%v22, 96(%%r1,%[y])\n\t"
+    "vst  %%v23, 112(%%r1,%[y])\n\t"
+    "vl  %%v24, 128(%%r1,%[x])\n\t"
+    "vl  %%v25, 144(%%r1,%[x])\n\t"
+    "vl  %%v26, 160(%%r1,%[x])\n\t"
+    "vl  %%v27, 176(%%r1,%[x])\n\t"
+    "vl  %%v16, 128(%%r1,%[y])\n\t"
+    "vl  %%v17, 144(%%r1,%[y])\n\t"
+    "vl  %%v18, 160(%%r1,%[y])\n\t"
+    "vl  %%v19, 176(%%r1,%[y])\n\t"
+    "vfmdb %%v28,%%v24,%%v0\n\t"
+    "vfmdb %%v29,%%v25,%%v0\n\t"
+    "vfmdb %%v20,%%v24,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v21,%%v25,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v30,%%v26,%%v0\n\t"
+    "vfmdb %%v22,%%v26,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v31,%%v27,%%v0\n\t"
+    "vfmdb %%v23,%%v27,%%v1\n\t" /* yn=x*s */
+    /* 2nd parts */
+    "vfmadb %%v28,%%v16,%%v1,%%v28\n\t"
+    "vfmsdb %%v20,%%v16,%%v0,%%v20\n\t" /* yn=y*c-yn */
+    "vfmadb %%v29,%%v17,%%v1,%%v29\n\t"
+    "vfmsdb %%v21,%%v17,%%v0,%%v21\n\t" /* yn=y*c-yn */
+    "vfmadb %%v30,%%v18,%%v1,%%v30\n\t"
+    "vfmsdb %%v22,%%v18,%%v0,%%v22\n\t" /* yn=y*c-yn */
+    "vfmadb %%v31,%%v19,%%v1,%%v31\n\t"
+    "vfmsdb %%v23,%%v19,%%v0,%%v23\n\t" /* yn=y*c-yn */
+    "vst  %%v28, 128(%%r1,%[x])\n\t"
+    "vst  %%v29, 144(%%r1,%[x])\n\t"
+    "vst  %%v30, 160(%%r1,%[x])\n\t"
+    "vst  %%v31, 176(%%r1,%[x])\n\t"
+    "vst  %%v20, 128(%%r1,%[y])\n\t"
+    "vst  %%v21, 144(%%r1,%[y])\n\t"
+    "vst  %%v22, 160(%%r1,%[y])\n\t"
+    "vst  %%v23, 176(%%r1,%[y])\n\t"
+    "vl  %%v24, 192(%%r1,%[x])\n\t"
+    "vl  %%v25, 208(%%r1,%[x])\n\t"
+    "vl  %%v26, 224(%%r1,%[x])\n\t"
+    "vl  %%v27, 240(%%r1,%[x])\n\t"
+    "vl  %%v16, 192(%%r1,%[y])\n\t"
+    "vl  %%v17, 208(%%r1,%[y])\n\t"
+    "vl  %%v18, 224(%%r1,%[y])\n\t"
+    "vl  %%v19, 240(%%r1,%[y])\n\t"
+    "vfmdb %%v28,%%v24,%%v0\n\t"
+    "vfmdb %%v29,%%v25,%%v0\n\t"
+    "vfmdb %%v20,%%v24,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v21,%%v25,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v30,%%v26,%%v0\n\t"
+    "vfmdb %%v22,%%v26,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v31,%%v27,%%v0\n\t"
+    "vfmdb %%v23,%%v27,%%v1\n\t" /* yn=x*s */
+    /* 2nd parts */
+    "vfmadb %%v28,%%v16,%%v1,%%v28\n\t"
+    "vfmsdb %%v20,%%v16,%%v0,%%v20\n\t" /* yn=y*c-yn */
+    "vfmadb %%v29,%%v17,%%v1,%%v29\n\t"
+    "vfmsdb %%v21,%%v17,%%v0,%%v21\n\t" /* yn=y*c-yn */
+    "vfmadb %%v30,%%v18,%%v1,%%v30\n\t"
+    "vfmsdb %%v22,%%v18,%%v0,%%v22\n\t" /* yn=y*c-yn */
+    "vfmadb %%v31,%%v19,%%v1,%%v31\n\t"
+    "vfmsdb %%v23,%%v19,%%v0,%%v23\n\t" /* yn=y*c-yn */
+    "vst  %%v28, 192(%%r1,%[x])\n\t"
+    "vst  %%v29, 208(%%r1,%[x])\n\t"
+    "vst  %%v30, 224(%%r1,%[x])\n\t"
+    "vst  %%v31, 240(%%r1,%[x])\n\t"
+    "vst  %%v20, 192(%%r1,%[y])\n\t"
+    "vst  %%v21, 208(%%r1,%[y])\n\t"
+    "vst  %%v22, 224(%%r1,%[y])\n\t"
+    "vst  %%v23, 240(%%r1,%[y])\n\t"
+    "agfi  %%r1,256\n\t"
+    "brctg %[n],0b"
+    : "+m"(*(struct { FLOAT x[n]; } *) x), "+m"(*(struct { FLOAT x[n]; } *) y),
+       [n] "+&r"(n)
+    : [x] "a"(x),[y] "a"(y),[c] "Q"(*c),[s] "Q"(*s)
+    : "cc", "r1", "v0", "v1", "v16", "v17", "v18", "v19", "v20", "v21",
+       "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
 }
 
-int CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT c, FLOAT s)
-{
-    BLASLONG i=0;
-    BLASLONG ix=0,iy=0;
-     
-    FLOAT temp;
+int CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y,
+          FLOAT c, FLOAT s) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
 
-    if ( n <= 0 )  return(0);
+  FLOAT temp;
 
-    if ( (inc_x == 1) && (inc_y == 1) )
-    {
+  if (n <= 0)
+    return (0);
 
-        BLASLONG n1 = n & -32;
-        if ( n1 > 0 )
-        {
-            
-            drot_kernel_32(n1, x, y, c, s);
-            i=n1;
-        }
+  if ((inc_x == 1) && (inc_y == 1)) {
 
-        while(i < n)
-        {
-            temp  = c*x[i] + s*y[i] ;
-            y[i]  = c*y[i] - s*x[i] ;
-            x[i]  = temp ;
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+      FLOAT cosa, sina;
+      cosa = c;
+      sina = s;
+      drot_kernel_32(n1, x, y, &cosa, &sina);
+      i = n1;
+    }
 
-            i++ ;
+    while (i < n) {
+      temp = c * x[i] + s * y[i];
+      y[i] = c * y[i] - s * x[i];
+      x[i] = temp;
 
-        }
+      i++;
 
     }
-    else
-    {
 
-        while(i < n)
-        {
-            temp   = c*x[ix] + s*y[iy] ;
-            y[iy]  = c*y[iy] - s*x[ix] ;
-            x[ix]  = temp ;
+  } else {
 
-            ix += inc_x ;
-            iy += inc_y ;
-            i++ ;
+    while (i < n) {
+      temp = c * x[ix] + s * y[iy];
+      y[iy] = c * y[iy] - s * x[ix];
+      x[ix] = temp;
 
-        }
+      ix += inc_x;
+      iy += inc_y;
+      i++;
 
     }
-    return(0);
 
-}
+  }
+  return (0);
 
+}
diff --git a/kernel/zarch/dscal.c b/kernel/zarch/dscal.c
index e29f51012c..2961eff202 100644
--- a/kernel/zarch/dscal.c
+++ b/kernel/zarch/dscal.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2013-2017, The OpenBLAS Project
+Copyright (c) 2013-2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -27,237 +27,151 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 
 #include "common.h"
 
-#ifdef Z13_A
-static void   dscal_kernel_32( BLASLONG n, FLOAT  da , FLOAT *x )
-{
-
-          
-             __asm__ ("pfd    2, 0(%[x_ptr])   \n\t"
-                      "lgdr   %%r0,%[alpha]    \n\t"
-                      "vlvgp  %%v0,%%r0,%%r0   \n\t"
-                      "srlg   %[n],%[n],4 \n\t"
-                      "vlr    %%v1,%%v0        \n\t"
-                      "vlm    %%v16,%%v23, 0(%[x_ptr])          \n\t"
-                      "la     %[x_ptr], 128(%[x_ptr])     \n\t"
-                      "aghik  %[n], %[n], -1             \n\t"
-                      "jle     2f     \n\t"
-                       ".align 16 \n\t"
-                      "1:          \n\t"
-                      "vfmdb  %%v24, %%v16, %%v0          \n\t"
-                      "vfmdb  %%v25, %%v17, %%v0          \n\t"
-                      "vfmdb  %%v26, %%v18, %%v0          \n\t"
-                      "vfmdb  %%v27, %%v19, %%v1          \n\t"
-                      "vlm     %%v16,%%v19, 0(%[x_ptr])         \n\t"
-                      "vfmdb  %%v28, %%v20, %%v0          \n\t"
-                      "vfmdb  %%v29, %%v21, %%v1          \n\t"
-                      "vfmdb  %%v30, %%v22, %%v0          \n\t"
-                      "vfmdb  %%v31, %%v23, %%v1          \n\t"
-                      "vlm     %%v20,%%v23, 64(%[x_ptr])         \n\t"
-                      "lay    %[x_ptr], -128(%[x_ptr])    \n\t"
-                      "vstm   %%v24,%%v31, 0(%[x_ptr])          \n\t"
-                      "la     %[x_ptr],256(%[x_ptr])      \n\t"
-                      "brctg %[n],1b     \n\t"
-                      "2:            \n\t"
-                      "vfmdb  %%v24, %%v16, %%v0          \n\t"
-                      "vfmdb  %%v25, %%v17, %%v1          \n\t"
-                      "vfmdb  %%v26, %%v18, %%v0          \n\t"
-                      "vfmdb  %%v27, %%v19, %%v1          \n\t"
-                      "lay    %[x_ptr] , -128(%[x_ptr])   \n\t"
-                      "vfmdb  %%v28, %%v20, %%v0          \n\t"
-                      "vfmdb  %%v29, %%v21, %%v1          \n\t"
-                      "vfmdb  %%v30, %%v22, %%v0          \n\t"
-                      "vfmdb  %%v31, %%v23, %%v1          \n\t"
-                      "vstm   %%v24,%%v31, 0(%[x_ptr])         \n\t"
-                      : [mem] "+m" (*(double (*)[n])x) ,[x_ptr] "+&a"(x),[n] "+&r"(n)
-                                       : [alpha] "f"(da)
-                                       :"cc" ,  "r0","v0","v1","v16","v17","v18","v19","v20","v21",
-                                       "v22","v23","v24","v25","v26","v27","v28","v29","v30","v31"
-                 );
- }
-#else
-static void   dscal_kernel_32( BLASLONG n, FLOAT  da , FLOAT *x )
-{
-
-             /* faster than sequence of triples(vl vfmd vst) (tested OPENBLAS_LOOPS=10000) */
-             __asm__ ("pfd    2, 0(%[x_ptr])   \n\t"      
-                      "lgdr   %%r0,%[alpha]    \n\t"
-                      "vlvgp  %%v0,%%r0,%%r0   \n\t"
-                      "vlr    %%v1,%%v0        \n\t"
-                      "sllg   %%r0,%[n],3      \n\t" 
-                      "agr    %%r0,%[x_ptr]    \n\t"
-                      ".align 16 \n\t"    
-                      "1:     \n\t" 
-                      "pfd    2,         256(%[x_ptr])     \n\t"    
-                      "vlm    %%v16,%%v23, 0(%[x_ptr])     \n\t"
-                      "vfmdb  %%v16,%%v16,%%v0 \n\t"
-                      "vfmdb  %%v17,%%v17,%%v1 \n\t"
-                      "vfmdb  %%v18,%%v18,%%v0 \n\t"
-                      "vfmdb  %%v19,%%v19,%%v1 \n\t"
-                      "vfmdb  %%v20,%%v20,%%v0 \n\t"
-                      "vfmdb  %%v21,%%v21,%%v1 \n\t"
-                      "vfmdb  %%v22,%%v22,%%v0 \n\t"
-                      "vfmdb  %%v23,%%v23,%%v1 \n\t" 
-                      "vstm   %%v16,%%v23, 0(%[x_ptr])      \n\t"  
-                      "vlm    %%v24,%%v31,128(%[x_ptr])     \n\t"                                              
-                      "vfmdb  %%v24,%%v24,%%v0 \n\t"       
-                      "vfmdb  %%v25,%%v25,%%v1 \n\t"
-                      "vfmdb  %%v26,%%v26,%%v0 \n\t"
-                      "vfmdb  %%v27,%%v27,%%v1 \n\t"
-                      "vfmdb  %%v28,%%v28,%%v0 \n\t"
-                      "vfmdb  %%v29,%%v29,%%v1 \n\t"
-                      "vfmdb  %%v30,%%v30,%%v0 \n\t"
-                      "vfmdb  %%v31,%%v31,%%v1 \n\t"                                     
-                      "vstm   %%v24,%%v31,128(%[x_ptr])    \n\t"  
-                      "la     %[x_ptr],  256(%[x_ptr])    \n\t"
-                      "clgrjl %[x_ptr],%%r0,1b \n\t"  
-                      : [mem] "+m" (*(double (*)[n])x) ,[x_ptr] "+&a"(x)
-                      : [n] "r"(n),[alpha] "f"(da)
-                      :"cc" ,  "r0","v0","v1","v16","v17","v18","v19","v20","v21",
-                      "v22","v23","v24","v25","v26","v27","v28","v29","v30","v31"
-                 );
-
- }
-#endif
-static void   dscal_kernel_32_zero( BLASLONG n,  FLOAT *x )
-{
-   
-             __asm__ ("pfd    2, 0(%[x_ptr])   \n\t"      
-                      "vzero  %%v24            \n\t"
-                      "sllg   %%r0,%[n],3      \n\t" 
-                      "vzero  %%v25            \n\t"
-                      "agr    %%r0,%[x_ptr]    \n\t"
-                      ".align 16 \n\t"    
-                      "1:        \n\t" 
-                      "pfd    2,      256(%[x_ptr])  \n\t"     
-                      "vst    %%v24,    0(%[x_ptr])  \n\t" 
-                      "vst    %%v25,    16(%[x_ptr]) \n\t" 
-                      "vst    %%v24,    32(%[x_ptr]) \n\t"   
-                      "vst    %%v25,    48(%[x_ptr]) \n\t"  
-                      "vst    %%v24,    64(%[x_ptr]) \n\t" 
-                      "vst    %%v25,    80(%[x_ptr]) \n\t" 
-                      "vst    %%v24,    96(%[x_ptr]) \n\t"  
-                      "vst    %%v25,   112(%[x_ptr]) \n\t"  
-                      "vst    %%v24,   128(%[x_ptr]) \n\t" 
-                      "vst    %%v25,   144(%[x_ptr]) \n\t" 
-                      "vst    %%v24,   160(%[x_ptr]) \n\t"   
-                      "vst    %%v25,   176(%[x_ptr]) \n\t"  
-                      "vst    %%v24,   192(%[x_ptr]) \n\t" 
-                      "vst    %%v25,   208(%[x_ptr]) \n\t" 
-                      "vst    %%v24,   224(%[x_ptr]) \n\t"  
-                      "vst    %%v25,   240(%[x_ptr]) \n\t"                        
-                      "la     %[x_ptr],256(%[x_ptr]) \n\t"
-                      "clgrjl %[x_ptr],%%r0,1b \n\t"
-                      : [mem] "=m" (*(double (*)[n])x) ,[x_ptr] "+&a"(x)
-                      : [n] "r"(n)
-                      :"cc" ,  "r0", "v24" ,"v25"
-                 );
+static void dscal_kernel_16(BLASLONG n, FLOAT da, FLOAT *x) {
+  __asm__("vlrepg %%v0,%[da]\n\t"
+    "srlg  %[n],%[n],4\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "vl    %%v24,0(%%r1,%[x])\n\t"
+    "vfmdb %%v24,%%v24,%%v0\n\t"
+    "vst   %%v24,0(%%r1,%[x])\n\t"
+    "vl    %%v25,16(%%r1,%[x])\n\t"
+    "vfmdb %%v25,%%v25,%%v0\n\t"
+    "vst   %%v25,16(%%r1,%[x])\n\t"
+    "vl    %%v26,32(%%r1,%[x])\n\t"
+    "vfmdb %%v26,%%v26,%%v0\n\t"
+    "vst   %%v26,32(%%r1,%[x])\n\t"
+    "vl    %%v27,48(%%r1,%[x])\n\t"
+    "vfmdb %%v27,%%v27,%%v0\n\t"
+    "vst   %%v27,48(%%r1,%[x])\n\t"
+    "vl    %%v28,64(%%r1,%[x])\n\t"
+    "vfmdb %%v28,%%v28,%%v0\n\t"
+    "vst   %%v28,64(%%r1,%[x])\n\t"
+    "vl    %%v29,80(%%r1,%[x])\n\t"
+    "vfmdb %%v29,%%v29,%%v0\n\t"
+    "vst   %%v29,80(%%r1,%[x])\n\t"
+    "vl    %%v30,96(%%r1,%[x])\n\t"
+    "vfmdb %%v30,%%v30,%%v0\n\t"
+    "vst   %%v30,96(%%r1,%[x])\n\t"
+    "vl    %%v31,112(%%r1,%[x])\n\t"
+    "vfmdb %%v31,%%v31,%%v0\n\t"
+    "vst   %%v31,112(%%r1,%[x])\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %[n],0b"
+    : "+m"(*(struct { FLOAT x[n]; } *) x),[n] "+&r"(n)
+    : [x] "a"(x),[da] "Q"(da)
+    : "cc", "r1", "v0", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
 }
- 
-
 
+static void dscal_kernel_16_zero(BLASLONG n, FLOAT *x) {
+  __asm__("vzero %%v0\n\t"
+    "srlg %[n],%[n],4\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "vst  %%v0,0(%%r1,%[x])\n\t"
+    "vst  %%v0,16(%%r1,%[x])\n\t"
+    "vst  %%v0,32(%%r1,%[x])\n\t"
+    "vst  %%v0,48(%%r1,%[x])\n\t"
+    "vst  %%v0,64(%%r1,%[x])\n\t"
+    "vst  %%v0,80(%%r1,%[x])\n\t"
+    "vst  %%v0,96(%%r1,%[x])\n\t"
+    "vst  %%v0,112(%%r1,%[x])\n\t"
+    "agfi  %%r1,128\n\t"
+    "brctg %[n],0b"
+    : "=m"(*(struct { FLOAT x[n]; } *) x),[n] "+&r"(n)
+    : [x] "a"(x)
+    : "cc", "r1", "v0");
+}
 
-int CNAME(BLASLONG n, BLASLONG dummy0, BLASLONG dummy1, FLOAT da, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *dummy, BLASLONG dummy2)
-{
-    BLASLONG i=0,j=0;
-    if ( n <= 0 || inc_x <=0 )
-        return(0);
-
- 
-    if ( inc_x == 1 )
-    {
+int CNAME(BLASLONG n, BLASLONG dummy0, BLASLONG dummy1, FLOAT da, FLOAT *x,
+          BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *dummy,
+          BLASLONG dummy2) {
+  BLASLONG i = 0, j = 0;
+  if (n <= 0 || inc_x <= 0)
+    return (0);
 
-        if ( da == 0.0 )
-        {        
+  if (inc_x == 1) {
 
-            BLASLONG n1 = n & -32;
-            if ( n1 > 0 )
-            {
-                
-                dscal_kernel_32_zero(n1 ,  x);
-                j=n1;
-            }
+    if (da == 0.0) {
 
-            while(j < n)
-            {
+      BLASLONG n1 = n & -16;
+      if (n1 > 0) {
 
-                x[j]=0.0;
-                j++;
-            }
+        dscal_kernel_16_zero(n1, x);
+        j = n1;
+      }
 
-        }
-        else
-        {
+      while (j < n) {
 
-            BLASLONG n1 = n & -32;
-            if ( n1 > 0 )
-            { 
-                dscal_kernel_32(n1 , da , x);
-                j=n1;
-            }
-            while(j < n)
-            {
+        x[j] = 0.0;
+        j++;
+      }
 
-                x[j] = da * x[j] ;
-                j++;
-            }
-        }
+    } else {
 
+      BLASLONG n1 = n & -16;
+      if (n1 > 0) {
+        dscal_kernel_16(n1, da, x);
+        j = n1;
+      }
+      while (j < n) {
 
+        x[j] = da * x[j];
+        j++;
+      }
     }
-    else
-    {
 
-        if ( da == 0.0 )
-        {        
+  } else {
 
-                        BLASLONG n1 = n & -4;
+    if (da == 0.0) {
 
-                        while (j < n1) {
+      BLASLONG n1 = n & -4;
 
-                            x[i]=0.0;
-                            x[i + inc_x]=0.0;
-                            x[i + 2 * inc_x]=0.0;
-                            x[i + 3 * inc_x]=0.0;
+      while (j < n1) {
 
-                            i += inc_x * 4; 
-                            j += 4;
+        x[i] = 0.0;
+        x[i + inc_x] = 0.0;
+        x[i + 2 * inc_x] = 0.0;
+        x[i + 3 * inc_x] = 0.0;
 
-                        } 
-            while(j < n)
-            {
+        i += inc_x * 4;
+        j += 4;
 
-                x[i]=0.0;
-                i += inc_x ;
-                j++;
-            }
+      }
+      while (j < n) {
 
-        }
-        else
-        {
-                        BLASLONG n1 = n & -4;
+        x[i] = 0.0;
+        i += inc_x;
+        j++;
+      }
 
-                        while (j < n1) {
+    } else {
+      BLASLONG n1 = n & -4;
 
-                            x[i] = da * x[i] ;
-                            x[i + inc_x] = da * x[i + inc_x];
-                            x[i + 2 * inc_x] = da *  x[i + 2 * inc_x];
-                            x[i + 3 * inc_x] = da * x[i + 3 * inc_x];
+      while (j < n1) {
 
-                            i += inc_x * 4; 
-                            j += 4;
+        x[i] = da * x[i];
+        x[i + inc_x] = da * x[i + inc_x];
+        x[i + 2 * inc_x] = da * x[i + 2 * inc_x];
+        x[i + 3 * inc_x] = da * x[i + 3 * inc_x];
 
-                        }  
+        i += inc_x * 4;
+        j += 4;
 
-            while(j < n)
-            {
+      }
 
-                x[i] = da * x[i] ;
-                i += inc_x ;
-                j++;
-            }
-        }
+      while (j < n) {
 
+        x[i] = da * x[i];
+        i += inc_x;
+        j++;
+      }
     }
-    return 0;
 
-}
\ No newline at end of file
+  }
+  return 0;
+
+}
diff --git a/kernel/zarch/dsdot.c b/kernel/zarch/dsdot.c
new file mode 100644
index 0000000000..5fa88c3b92
--- /dev/null
+++ b/kernel/zarch/dsdot.c
@@ -0,0 +1,173 @@
+/***************************************************************************
+Copyright (c) 2013-2019,The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms,with or without
+modification,are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice,this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice,this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES,INCLUDING,BUT NOT LIMITED TO,THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT,INDIRECT,INCIDENTAL,SPECIAL,EXEMPLARY,OR CONSEQUENTIAL
+DAMAGES (INCLUDING,BUT NOT LIMITED TO,PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE,DATA,OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY,WHETHER IN CONTRACT,STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE,EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static double dsdot_kernel_16(BLASLONG n, FLOAT *x, FLOAT *y) {
+  double dot;
+
+  __asm__("vzero %%v0\n\t"
+    "vzero %%v1\n\t"
+    "vzero %%v2\n\t"
+    "vzero %%v3\n\t"
+    "vzero %%v4\n\t"
+    "vzero %%v5\n\t"
+    "vzero %%v6\n\t"
+    "vzero %%v7\n\t"
+    "srlg  %[n],%[n],4\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[x])\n\t"
+    "pfd 1,1024(%%r1,%[y])\n\t"
+    "vlef  %%v16,0(%%r1,%[x]),0\n\t"
+    "vlef  %%v16,4(%%r1,%[x]),2\n\t"
+    "vlef  %%v17,8(%%r1,%[x]),0\n\t"
+    "vlef  %%v17,12(%%r1,%[x]),2\n\t"
+    "vlef  %%v18,16(%%r1,%[x]),0\n\t"
+    "vlef  %%v18,20(%%r1,%[x]),2\n\t"
+    "vlef  %%v19,24(%%r1,%[x]),0\n\t"
+    "vlef  %%v19,28(%%r1,%[x]),2\n\t"
+    "vlef  %%v20,32(%%r1,%[x]),0\n\t"
+    "vlef  %%v20,36(%%r1,%[x]),2\n\t"
+    "vlef  %%v21,40(%%r1,%[x]),0\n\t"
+    "vlef  %%v21,44(%%r1,%[x]),2\n\t"
+    "vlef  %%v22,48(%%r1,%[x]),0\n\t"
+    "vlef  %%v22,52(%%r1,%[x]),2\n\t"
+    "vlef  %%v23,56(%%r1,%[x]),0\n\t"
+    "vlef  %%v23,60(%%r1,%[x]),2\n\t"
+    "vflls   %%v16,%%v16\n\t"
+    "vflls   %%v17,%%v17\n\t"
+    "vflls   %%v18,%%v18\n\t"
+    "vflls   %%v19,%%v19\n\t"
+    "vflls   %%v20,%%v20\n\t"
+    "vflls   %%v21,%%v21\n\t"
+    "vflls   %%v22,%%v22\n\t"
+    "vflls   %%v23,%%v23\n\t"
+    "vlef    %%v24,0(%%r1,%[y]),0\n\t"
+    "vlef    %%v24,4(%%r1,%[y]),2\n\t"
+    "vflls   %%v24,%%v24\n\t"
+    "vfmadb  %%v0,%%v16,%%v24,%%v0\n\t"
+    "vlef    %%v25,8(%%r1,%[y]),0\n\t"
+    "vlef    %%v25,12(%%r1,%[y]),2\n\t"
+    "vflls   %%v25,%%v25\n\t"
+    "vfmadb  %%v1,%%v17,%%v25,%%v1\n\t"
+    "vlef    %%v26,16(%%r1,%[y]),0\n\t"
+    "vlef    %%v26,20(%%r1,%[y]),2\n\t"
+    "vflls   %%v26,%%v26\n\t"
+    "vfmadb  %%v2,%%v18,%%v26,%%v2\n\t"
+    "vlef    %%v27,24(%%r1,%[y]),0\n\t"
+    "vlef    %%v27,28(%%r1,%[y]),2\n\t"
+    "vflls   %%v27,%%v27\n\t"
+    "vfmadb  %%v3,%%v19,%%v27,%%v3\n\t"
+    "vlef    %%v28,32(%%r1,%[y]),0\n\t"
+    "vlef    %%v28,36(%%r1,%[y]),2\n\t"
+    "vflls   %%v28,%%v28\n\t"
+    "vfmadb  %%v4,%%v20,%%v28,%%v4\n\t"
+    "vlef    %%v29,40(%%r1,%[y]),0\n\t"
+    "vlef    %%v29,44(%%r1,%[y]),2\n\t"
+    "vflls   %%v29,%%v29\n\t"
+    "vfmadb  %%v5,%%v21,%%v29,%%v5\n\t"
+    "vlef    %%v30,48(%%r1,%[y]),0\n\t"
+    "vlef    %%v30,52(%%r1,%[y]),2\n\t"
+    "vflls   %%v30,%%v30\n\t"
+    "vfmadb  %%v6,%%v22,%%v30,%%v6\n\t"
+    "vlef    %%v31,56(%%r1,%[y]),0\n\t"
+    "vlef    %%v31,60(%%r1,%[y]),2\n\t"
+    "vflls   %%v31,%%v31\n\t"
+    "vfmadb  %%v7,%%v23,%%v31,%%v7\n\t"
+    "agfi   %%r1,64\n\t"
+    "brctg  %[n],0b\n\t"
+    "vfadb  %%v0,%%v0,%%v1\n\t"
+    "vfadb  %%v0,%%v0,%%v2\n\t"
+    "vfadb  %%v0,%%v0,%%v3\n\t"
+    "vfadb  %%v0,%%v0,%%v4\n\t"
+    "vfadb  %%v0,%%v0,%%v5\n\t"
+    "vfadb  %%v0,%%v0,%%v6\n\t"
+    "vfadb  %%v0,%%v0,%%v7\n\t"
+    "vrepg  %%v1,%%v0,1\n\t"
+    "adbr   %%f0,%%f1\n\t"
+    "ldr    %[dot],%%f0"
+    : [dot] "=f"(dot),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x),
+       "m"(*(const struct { FLOAT x[n]; } *) y),[y] "a"(y)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7", "v16",
+       "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
+       "v27", "v28", "v29", "v30", "v31");
+
+  return dot;
+}
+
+double CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
+
+  double dot = 0.0;
+
+  if (n <= 0)
+    return (dot);
+
+  if ((inc_x == 1) && (inc_y == 1)) {
+
+    BLASLONG n1 = n & -16;
+
+    if (n1)
+      dot = dsdot_kernel_16(n1, x, y);
+
+    i = n1;
+    while (i < n) {
+
+      dot += (double) y[i] * (double) x[i];
+      i++;
+
+    }
+    return (dot);
+
+  }
+
+  BLASLONG n1 = n & -2;
+
+  while (i < n1) {
+
+    dot += (double) y[iy] * (double) x[ix];
+    dot += (double) y[iy + inc_y] * (double) x[ix + inc_x];
+    ix += inc_x * 2;
+    iy += inc_y * 2;
+    i += 2;
+
+  }
+
+  while (i < n) {
+
+    dot += (double) y[iy] * (double) x[ix];
+    ix += inc_x;
+    iy += inc_y;
+    i++;
+
+  }
+  return (dot);
+
+}
diff --git a/kernel/zarch/dswap.c b/kernel/zarch/dswap.c
index d7e079147e..f0c9ded511 100644
--- a/kernel/zarch/dswap.c
+++ b/kernel/zarch/dswap.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2013-2017, The OpenBLAS Project
+Copyright (c) 2013-2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -25,264 +25,127 @@ OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 *****************************************************************************/
 
-
-
 #include "common.h"
 
-
-
-#if defined(Z13_SWAP_A)
-static void   dswap_kernel_32(BLASLONG n, FLOAT *x, FLOAT *y)
-{
-         __asm__ volatile(
-            "pfd  1, 0(%[ptr_x]) \n\t"
-            "pfd  2, 0(%[ptr_y]) \n\t"
-            "srlg %[n_tmp],%[n_tmp],5      \n\t"
-            "xgr  %%r1,%%r1      \n\t"
-            ".align 16 \n\t"
-            "1:  \n\t"
-            "pfd 2, 256(%%r1,%[ptr_x]) \n\t"
-            "pfd 2, 256(%%r1,%[ptr_y]) \n\t"
-            
-            "vl  %%v24, 0(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v16, 0(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v24, 0(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v16, 0(%%r1,%[ptr_x]) \n\t" 
-
-            "vl  %%v25, 16(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v17, 16(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v25, 16(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v17, 16(%%r1,%[ptr_x]) \n\t" 
-
-            "vl  %%v26, 32(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v18, 32(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v26, 32(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v18, 32(%%r1,%[ptr_x]) \n\t"           
-
-            "vl  %%v27, 48(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v19, 48(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v27, 48(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v19, 48(%%r1,%[ptr_x]) \n\t"    
-
-            "vl  %%v28, 64(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v20, 64(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v28, 64(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v20, 64(%%r1,%[ptr_x]) \n\t"   
-
-            "vl  %%v29, 80(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v21, 80(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v29, 80(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v21, 80(%%r1,%[ptr_x]) \n\t" 
-
-            "vl  %%v30, 96(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v22, 96(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v30, 96(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v22, 96(%%r1,%[ptr_x]) \n\t" 
-
-            "vl  %%v31, 112(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v23, 112(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v31, 112(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v23, 112(%%r1,%[ptr_x]) \n\t" 
-
-            "vl  %%v24, 128(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v16, 128(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v24, 128(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v16, 128(%%r1,%[ptr_x]) \n\t" 
-
-            "vl  %%v25, 144(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v17, 144(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v25, 144(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v17, 144(%%r1,%[ptr_x]) \n\t" 
-
-            "vl  %%v26, 160(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v18, 160(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v26, 160(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v18, 160(%%r1,%[ptr_x]) \n\t"           
-
-            "vl  %%v27, 176(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v19, 176(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v27, 176(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v19, 176(%%r1,%[ptr_x]) \n\t"    
-
-            "vl  %%v28, 192(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v20, 192(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v28, 192(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v20, 192(%%r1,%[ptr_x]) \n\t"   
-
-            "vl  %%v29, 208(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v21, 208(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v29, 208(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v21, 208(%%r1,%[ptr_x]) \n\t" 
-
-            "vl  %%v30, 224(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v22, 224(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v30, 224(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v22, 224(%%r1,%[ptr_x]) \n\t" 
-
-            "vl  %%v31, 240(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v23, 240(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v31, 240(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v23, 240(%%r1,%[ptr_x]) \n\t"    
-          
-            "la  %%r1,256(%%r1) \n\t"
-            "brctg %[n_tmp],1b"
-            : [mem_x] "+m" (*(double (*)[n])x),
-              [mem_y] "+m" (*(double (*)[n])y),
-              [n_tmp] "+&r"(n)
-            : [ptr_x] "a"(x), [ptr_y] "a"(y) 
-            : "cc", "r1", "v16","v17","v18","v19","v20","v21","v22","v23"
-              ,"v24","v25","v26","v27","v28","v29","v30","v31"
-            );
-    return;
-
+static void dswap_kernel_32(BLASLONG n, FLOAT *x, FLOAT *y) {
+  __asm__("srlg %[n],%[n],5\n\t"
+    "xgr  %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "pfd 2, 1024(%%r1,%[y])\n\t"
+    "vl  %%v16, 0(%%r1,%[x])\n\t"
+    "vl  %%v17, 16(%%r1,%[x])\n\t"
+    "vl  %%v18, 32(%%r1,%[x])\n\t"
+    "vl  %%v19, 48(%%r1,%[x])\n\t"
+    "vl  %%v20, 64(%%r1,%[x])\n\t"
+    "vl  %%v21, 80(%%r1,%[x])\n\t"
+    "vl  %%v22, 96(%%r1,%[x])\n\t"
+    "vl  %%v23, 112(%%r1,%[x])\n\t"
+    "vl  %%v24, 128(%%r1,%[x])\n\t"
+    "vl  %%v25, 144(%%r1,%[x])\n\t"
+    "vl  %%v26, 160(%%r1,%[x])\n\t"
+    "vl  %%v27, 176(%%r1,%[x])\n\t"
+    "vl  %%v28, 192(%%r1,%[x])\n\t"
+    "vl  %%v29, 208(%%r1,%[x])\n\t"
+    "vl  %%v30, 224(%%r1,%[x])\n\t"
+    "vl  %%v31, 240(%%r1,%[x])\n\t"
+    "vl  %%v0, 0(%%r1,%[y])\n\t"
+    "vl  %%v1, 16(%%r1,%[y])\n\t"
+    "vl  %%v2, 32(%%r1,%[y])\n\t"
+    "vl  %%v3, 48(%%r1,%[y])\n\t"
+    "vl  %%v4, 64(%%r1,%[y])\n\t"
+    "vl  %%v5, 80(%%r1,%[y])\n\t"
+    "vl  %%v6, 96(%%r1,%[y])\n\t"
+    "vl  %%v7, 112(%%r1,%[y])\n\t"
+    "vst  %%v0, 0(%%r1,%[x])\n\t"
+    "vst  %%v1, 16(%%r1,%[x])\n\t"
+    "vst  %%v2, 32(%%r1,%[x])\n\t"
+    "vst  %%v3, 48(%%r1,%[x])\n\t"
+    "vst  %%v4, 64(%%r1,%[x])\n\t"
+    "vst  %%v5, 80(%%r1,%[x])\n\t"
+    "vst  %%v6, 96(%%r1,%[x])\n\t"
+    "vst  %%v7, 112(%%r1,%[x])\n\t"
+    "vl  %%v0, 128(%%r1,%[y])\n\t"
+    "vl  %%v1, 144(%%r1,%[y])\n\t"
+    "vl  %%v2, 160(%%r1,%[y])\n\t"
+    "vl  %%v3, 176(%%r1,%[y])\n\t"
+    "vl  %%v4, 192(%%r1,%[y])\n\t"
+    "vl  %%v5, 208(%%r1,%[y])\n\t"
+    "vl  %%v6, 224(%%r1,%[y])\n\t"
+    "vl  %%v7, 240(%%r1,%[y])\n\t"
+    "vst  %%v0, 128(%%r1,%[x])\n\t"
+    "vst  %%v1, 144(%%r1,%[x])\n\t"
+    "vst  %%v2, 160(%%r1,%[x])\n\t"
+    "vst  %%v3, 176(%%r1,%[x])\n\t"
+    "vst  %%v4, 192(%%r1,%[x])\n\t"
+    "vst  %%v5, 208(%%r1,%[x])\n\t"
+    "vst  %%v6, 224(%%r1,%[x])\n\t"
+    "vst  %%v7, 240(%%r1,%[x])\n\t"
+    "vst  %%v16, 0(%%r1,%[y])\n\t"
+    "vst  %%v17, 16(%%r1,%[y])\n\t"
+    "vst  %%v18, 32(%%r1,%[y])\n\t"
+    "vst  %%v19, 48(%%r1,%[y])\n\t"
+    "vst  %%v20, 64(%%r1,%[y])\n\t"
+    "vst  %%v21, 80(%%r1,%[y])\n\t"
+    "vst  %%v22, 96(%%r1,%[y])\n\t"
+    "vst  %%v23, 112(%%r1,%[y])\n\t"
+    "vst  %%v24, 128(%%r1,%[y])\n\t"
+    "vst  %%v25, 144(%%r1,%[y])\n\t"
+    "vst  %%v26, 160(%%r1,%[y])\n\t"
+    "vst  %%v27, 176(%%r1,%[y])\n\t"
+    "vst  %%v28, 192(%%r1,%[y])\n\t"
+    "vst  %%v29, 208(%%r1,%[y])\n\t"
+    "vst  %%v30, 224(%%r1,%[y])\n\t"
+    "vst  %%v31, 240(%%r1,%[y])\n\t"
+    "agfi   %%r1,256\n\t"
+    "brctg  %[n],0b"
+    : "+m"(*(struct { FLOAT x[n]; } *) x), "+m"(*(struct { FLOAT x[n]; } *) y),
+       [n] "+&r"(n)
+    : [x] "a"(x),[y] "a"(y)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7", "v16",
+       "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
+       "v27", "v28", "v29", "v30", "v31");
 }
 
-#else
-
-static void   dswap_kernel_32(BLASLONG n, FLOAT *x, FLOAT *y)
-{
-         __asm__ volatile(
-            "pfd 2, 0(%[ptr_x]) \n\t"
-            "pfd 2, 0(%[ptr_y]) \n\t"
-            "srlg %[n_tmp],%[n_tmp],5       \n\t"
-            "xgr %%r1,%%r1       \n\t"
-            ".align 16 \n\t"
-            "1: \n\t"
-            "pfd 2, 256(%%r1,%[ptr_x]) \n\t"
-            "pfd 2, 256(%%r1,%[ptr_y]) \n\t"
-            
-            "vl  %%v16, 0(%%r1,%[ptr_x])   \n\t" 
-            "vl  %%v17, 16(%%r1,%[ptr_x])  \n\t" 
-            "vl  %%v18, 32(%%r1,%[ptr_x])  \n\t" 
-            "vl  %%v19, 48(%%r1,%[ptr_x])  \n\t"  
-            "vl  %%v20, 64(%%r1,%[ptr_x])  \n\t" 
-            "vl  %%v21, 80(%%r1,%[ptr_x])  \n\t" 
-            "vl  %%v22, 96(%%r1,%[ptr_x])  \n\t" 
-            "vl  %%v23, 112(%%r1,%[ptr_x]) \n\t"
-            "vl  %%v24, 128(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v25, 144(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v26, 160(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v27, 176(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v28, 192(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v29, 208(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v30, 224(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v31, 240(%%r1,%[ptr_x]) \n\t"
-
-
-            "vl  %%v0, 0(%%r1,%[ptr_y])    \n\t" 
-            "vl  %%v1, 16(%%r1,%[ptr_y])   \n\t" 
-            "vl  %%v2, 32(%%r1,%[ptr_y])   \n\t" 
-            "vl  %%v3, 48(%%r1,%[ptr_y])   \n\t"  
-            "vl  %%v4, 64(%%r1,%[ptr_y])   \n\t" 
-            "vl  %%v5, 80(%%r1,%[ptr_y])   \n\t" 
-            "vl  %%v6, 96(%%r1,%[ptr_y])   \n\t" 
-            "vl  %%v7, 112(%%r1,%[ptr_y])  \n\t"
-            "vst %%v0,  0(%%r1,%[ptr_x])   \n\t" 
-            "vst %%v1, 16(%%r1,%[ptr_x])   \n\t" 
-            "vst %%v2, 32(%%r1,%[ptr_x])   \n\t" 
-            "vst %%v3, 48(%%r1,%[ptr_x])   \n\t"  
-            "vst %%v4, 64(%%r1,%[ptr_x])   \n\t" 
-            "vst %%v5, 80(%%r1,%[ptr_x])   \n\t" 
-            "vst %%v6, 96(%%r1,%[ptr_x])   \n\t" 
-            "vst %%v7, 112(%%r1,%[ptr_x])  \n\t" 
-
-            "vl  %%v0, 128(%%r1,%[ptr_y])  \n\t" 
-            "vl  %%v1, 144(%%r1,%[ptr_y])  \n\t" 
-            "vl  %%v2, 160(%%r1,%[ptr_y])  \n\t" 
-            "vl  %%v3, 176(%%r1,%[ptr_y])  \n\t"  
-            "vl  %%v4, 192(%%r1,%[ptr_y])  \n\t" 
-            "vl  %%v5, 208(%%r1,%[ptr_y])  \n\t" 
-            "vl  %%v6, 224(%%r1,%[ptr_y])  \n\t" 
-            "vl  %%v7, 240(%%r1,%[ptr_y])  \n\t" 
-            "vst %%v0, 128(%%r1,%[ptr_x])  \n\t" 
-            "vst %%v1, 144(%%r1,%[ptr_x])  \n\t" 
-            "vst %%v2, 160(%%r1,%[ptr_x])  \n\t" 
-            "vst %%v3, 176(%%r1,%[ptr_x])  \n\t"  
-            "vst %%v4, 192(%%r1,%[ptr_x])  \n\t" 
-            "vst %%v5, 208(%%r1,%[ptr_x])  \n\t" 
-            "vst %%v6, 224(%%r1,%[ptr_x])  \n\t" 
-            "vst %%v7, 240(%%r1,%[ptr_x])  \n\t"
-
-            "vst %%v16,  0(%%r1,%[ptr_y])  \n\t" 
-            "vst %%v17, 16(%%r1,%[ptr_y])  \n\t" 
-            "vst %%v18, 32(%%r1,%[ptr_y])  \n\t" 
-            "vst %%v19, 48(%%r1,%[ptr_y])  \n\t"  
-            "vst %%v20, 64(%%r1,%[ptr_y])  \n\t" 
-            "vst %%v21, 80(%%r1,%[ptr_y])  \n\t" 
-            "vst %%v22, 96(%%r1,%[ptr_y])  \n\t" 
-            "vst %%v23, 112(%%r1,%[ptr_y]) \n\t"
-            "vst %%v24, 128(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v25, 144(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v26, 160(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v27, 176(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v28, 192(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v29, 208(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v30, 224(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v31, 240(%%r1,%[ptr_y]) \n\t"
- 
-          
-            "la  %%r1,256(%%r1) \n\t"
-            "brctg %[n_tmp],1b"
-            : [mem_x] "+m" (*(double (*)[n])x),
-              [mem_y] "+m" (*(double (*)[n])y),
-              [n_tmp] "+&r"(n)
-            : [ptr_x] "a"(x), [ptr_y] "a"(y) 
-            : "cc", "r1", "v0","v1","v2","v3","v4","v5","v6","v7","v16",
-            "v17","v18","v19","v20","v21","v22","v23","v24","v25","v26","v27","v28","v29","v30","v31" 
-            );
-    return;
-
-}
+int CNAME(BLASLONG n, BLASLONG dummy0, BLASLONG dummy1, FLOAT dummy3, FLOAT *x,
+          BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *dummy,
+          BLASLONG dummy2) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
+  FLOAT temp;
 
-#endif
+  if (n <= 0)
+    return (0);
 
-int CNAME(BLASLONG n, BLASLONG dummy0, BLASLONG dummy1, FLOAT dummy3, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *dummy, BLASLONG dummy2)
-{
-    BLASLONG i=0;
-    BLASLONG ix=0,iy=0;
-    FLOAT temp;
+  if ((inc_x == 1) && (inc_y == 1)) {
 
-    if ( n <= 0     )  return(0);
-
-    if ( (inc_x == 1) && (inc_y == 1 ))
-    {
-
-        BLASLONG n1 = n & -32;
-        if ( n1 > 0 )
-        {
-            dswap_kernel_32(n1, x, y);
-            i=n1;
-        }
-
-        while(i < n)
-        {
-            temp = y[i];    
-            y[i] = x[i] ;
-            x[i] = temp;
-            i++ ;
-
-        }
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+      dswap_kernel_32(n1, x, y);
+      i = n1;
+    }
 
+    while (i < n) {
+      temp = y[i];
+      y[i] = x[i];
+      x[i] = temp;
+      i++;
 
     }
-    else
-    {
 
-        while(i < n)
-        {
-            temp  = y[iy];
-            y[iy] = x[ix] ;
-            x[ix] = temp;
-            ix += inc_x ;
-            iy += inc_y ;
-            i++ ;
+  } else {
 
-        }
+    while (i < n) {
+      temp = y[iy];
+      y[iy] = x[ix];
+      x[ix] = temp;
+      ix += inc_x;
+      iy += inc_y;
+      i++;
 
     }
-    return(0);
-    
-
-}
 
+  }
+  return (0);
 
+}
diff --git a/kernel/zarch/icamax.c b/kernel/zarch/icamax.c
new file mode 100644
index 0000000000..a2546b8124
--- /dev/null
+++ b/kernel/zarch/icamax.c
@@ -0,0 +1,302 @@
+/***************************************************************************
+Copyright (c) 2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+#include <math.h>
+
+#define CABS1(x,i) (fabsf(x[i]) + fabsf(x[i + 1]))
+
+static BLASLONG icamax_kernel_32(BLASLONG n, FLOAT *x, FLOAT *amax) {
+  BLASLONG iamax;
+
+  __asm__("vlef   %%v0,0(%[x]),0\n\t"
+    "vlef   %%v1,4(%[x]),0\n\t"
+    "vlef   %%v0,8(%[x]),1\n\t"
+    "vlef   %%v1,12(%[x]),1\n\t"
+    "vlef   %%v0,16(%[x]),2\n\t"
+    "vlef   %%v1,20(%[x]),2\n\t"
+    "vlef   %%v0,24(%[x]),3\n\t"
+    "vlef   %%v1,28(%[x]),3\n\t"
+    "vflpsb %%v0,%%v0\n\t"
+    "vflpsb %%v1,%%v1\n\t"
+    "vfasb  %%v0,%%v0,%%v1\n\t"
+    "vleig  %%v1,0,0\n\t"
+    "vleig  %%v1,2,1\n\t"
+    "vleig  %%v2,1,0\n\t"
+    "vleig  %%v2,3,1\n\t"
+    "vrepig %%v3,16\n\t"
+    "vzero  %%v4\n\t"
+    "vleib  %%v9,0,0\n\t"
+    "vleib  %%v9,1,1\n\t"
+    "vleib  %%v9,2,2\n\t"
+    "vleib  %%v9,3,3\n\t"
+    "vleib  %%v9,8,4\n\t"
+    "vleib  %%v9,9,5\n\t"
+    "vleib  %%v9,10,6\n\t"
+    "vleib  %%v9,11,7\n\t"
+    "vleib  %%v9,16,8\n\t"
+    "vleib  %%v9,17,9\n\t"
+    "vleib  %%v9,18,10\n\t"
+    "vleib  %%v9,19,11\n\t"
+    "vleib  %%v9,24,12\n\t"
+    "vleib  %%v9,25,13\n\t"
+    "vleib  %%v9,26,14\n\t"
+    "vleib  %%v9,27,15\n\t"
+    "vleif  %%v24,0,0\n\t"
+    "vleif  %%v24,1,1\n\t"
+    "vleif  %%v24,2,2\n\t"
+    "vleif  %%v24,3,3\n\t"
+    "vleif  %%v25,4,0\n\t"
+    "vleif  %%v25,5,1\n\t"
+    "vleif  %%v25,6,2\n\t"
+    "vleif  %%v25,7,3\n\t"
+    "vleif  %%v26,8,0\n\t"
+    "vleif  %%v26,9,1\n\t"
+    "vleif  %%v26,10,2\n\t"
+    "vleif  %%v26,11,3\n\t"
+    "vleif  %%v27,12,0\n\t"
+    "vleif  %%v27,13,1\n\t"
+    "vleif  %%v27,14,2\n\t"
+    "vleif  %%v27,15,3\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl    %%v16,0(%%r1,%[x])\n\t"
+    "vl    %%v28,16(%%r1,%[x])\n\t"
+    "vpkg  %%v17,%%v16,%%v28\n\t"
+    "vperm %%v16,%%v16,%%v28,%%v9\n\t"
+    "vl    %%v18,32(%%r1,%[x])\n\t"
+    "vl    %%v29,48(%%r1,%[x])\n\t"
+    "vpkg  %%v19,%%v18,%%v29\n\t"
+    "vperm %%v18,%%v18,%%v29,%%v9\n\t"
+    "vl    %%v20,64(%%r1,%[x])\n\t"
+    "vl    %%v30,80(%%r1,%[x])\n\t"
+    "vpkg  %%v21,%%v20,%%v30\n\t"
+    "vperm %%v20,%%v20,%%v30,%%v9\n\t"
+    "vl    %%v22,96(%%r1,%[x])\n\t"
+    "vl    %%v31,112(%%r1,%[x])\n\t"
+    "vpkg  %%v23,%%v22,%%v31\n\t"
+    "vperm %%v22,%%v22,%%v31,%%v9\n\t"
+    "vflpsb  %%v16, %%v16\n\t"
+    "vflpsb  %%v17, %%v17\n\t"
+    "vflpsb  %%v18, %%v18\n\t"
+    "vflpsb  %%v19, %%v19\n\t"
+    "vflpsb  %%v20, %%v20\n\t"
+    "vflpsb  %%v21, %%v21\n\t"
+    "vflpsb  %%v22, %%v22\n\t"
+    "vflpsb  %%v23, %%v23\n\t"
+    "vfasb %%v16,%%v16,%%v17\n\t"
+    "vfasb %%v17,%%v18,%%v19\n\t"
+    "vfasb %%v18,%%v20,%%v21\n\t"
+    "vfasb %%v19,%%v22,%%v23\n\t"
+    "vfchesb  %%v5,%%v16,%%v17\n\t"
+    "vfchesb  %%v6,%%v18,%%v19\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v5\n\t"
+    "vsel    %%v5,%%v24,%%v25,%%v5\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v6\n\t"
+    "vsel    %%v6,%%v26,%%v27,%%v6\n\t"
+    "vfchesb  %%v18,%%v16,%%v17\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v18\n\t"
+    "vsegf   %%v6,%%v5\n\t"
+    "vesrlg  %%v5,%%v5,32\n\t"
+    "vag     %%v5,%%v5,%%v4\n\t"
+    "vag     %%v6,%%v6,%%v4\n\t"
+    "vfchesb  %%v7,%%v0,%%v16\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v7\n\t"
+    "vsegf   %%v8,%%v7\n\t"
+    "vesrlg  %%v7,%%v7,32\n\t"
+    "vsegf   %%v7,%%v7\n\t"
+    "vsel    %%v1,%%v1,%%v5,%%v7\n\t"
+    "vsel    %%v2,%%v2,%%v6,%%v8\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "vl    %%v16,128(%%r1,%[x])\n\t"
+    "vl    %%v28,144(%%r1,%[x])\n\t"
+    "vpkg  %%v17,%%v16,%%v28\n\t"
+    "vperm %%v16,%%v16,%%v28,%%v9\n\t"
+    "vl    %%v18,160(%%r1,%[x])\n\t"
+    "vl    %%v29,176(%%r1,%[x])\n\t"
+    "vpkg  %%v19,%%v18,%%v29\n\t"
+    "vperm %%v18,%%v18,%%v29,%%v9\n\t"
+    "vl    %%v20,192(%%r1,%[x])\n\t"
+    "vl    %%v30,208(%%r1,%[x])\n\t"
+    "vpkg  %%v21,%%v20,%%v30\n\t"
+    "vperm %%v20,%%v20,%%v30,%%v9\n\t"
+    "vl    %%v22,224(%%r1,%[x])\n\t"
+    "vl    %%v31,240(%%r1,%[x])\n\t"
+    "vpkg  %%v23,%%v22,%%v31\n\t"
+    "vperm %%v22,%%v22,%%v31,%%v9\n\t"
+    "vflpsb  %%v16, %%v16\n\t"
+    "vflpsb  %%v17, %%v17\n\t"
+    "vflpsb  %%v18, %%v18\n\t"
+    "vflpsb  %%v19, %%v19\n\t"
+    "vflpsb  %%v20, %%v20\n\t"
+    "vflpsb  %%v21, %%v21\n\t"
+    "vflpsb  %%v22, %%v22\n\t"
+    "vflpsb  %%v23, %%v23\n\t"
+    "vfasb %%v16,%%v16,%%v17\n\t"
+    "vfasb %%v17,%%v18,%%v19\n\t"
+    "vfasb %%v18,%%v20,%%v21\n\t"
+    "vfasb %%v19,%%v22,%%v23\n\t"
+    "vfchesb  %%v5,%%v16,%%v17\n\t"
+    "vfchesb  %%v6,%%v18,%%v19\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v5\n\t"
+    "vsel    %%v5,%%v24,%%v25,%%v5\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v6\n\t"
+    "vsel    %%v6,%%v26,%%v27,%%v6\n\t"
+    "vfchesb  %%v18,%%v16,%%v17\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v18\n\t"
+    "vsegf   %%v6,%%v5\n\t"
+    "vesrlg  %%v5,%%v5,32\n\t"
+    "vag     %%v5,%%v5,%%v4\n\t"
+    "vag     %%v6,%%v6,%%v4\n\t"
+    "vfchesb  %%v7,%%v0,%%v16\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v7\n\t"
+    "vsegf   %%v8,%%v7\n\t"
+    "vesrlg  %%v7,%%v7,32\n\t"
+    "vsegf   %%v7,%%v7\n\t"
+    "vsel    %%v1,%%v1,%%v5,%%v7\n\t"
+    "vsel    %%v2,%%v2,%%v6,%%v8\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "veslg   %%v3,%%v0,32\n\t"
+    "vfchsb  %%v4,%%v0,%%v3\n\t"
+    "vchlg   %%v5,%%v2,%%v1\n\t"
+    "vfcesb  %%v6,%%v0,%%v3\n\t"
+    "vn      %%v5,%%v5,%%v6\n\t"
+    "vo      %%v4,%%v4,%%v5\n\t"
+    "vsel    %%v0,%%v0,%%v3,%%v4\n\t"
+    "vesrlg  %%v4,%%v4,32\n\t"
+    "vsegf   %%v4,%%v4\n\t"
+    "vsel    %%v1,%%v1,%%v2,%%v4\n\t"
+    "vrepf  %%v2,%%v0,2\n\t"
+    "vrepg  %%v3,%%v1,1\n\t"
+    "wfcsb  %%v2,%%v0\n\t"
+    "jne 1f\n\t"
+    "vstef  %%v0,%[amax],0\n\t"
+    "vmnlg  %%v0,%%v1,%%v3\n\t"
+    "vlgvg  %[iamax],%%v0,0\n\t"
+    "j 2f\n\t"
+    "1:\n\t"
+    "wfchsb %%v4,%%v2,%%v0\n\t"
+    "vesrlg %%v4,%%v4,32\n\t"
+    "vsegf  %%v4,%%v4\n\t"
+    "vsel   %%v1,%%v3,%%v1,%%v4\n\t"
+    "vsel   %%v0,%%v2,%%v0,%%v4\n\t"
+    "ste    %%f0,%[amax]\n\t"
+    "vlgvg  %[iamax],%%v1,0\n\t"
+    "2:\n\t"
+    "nop"
+    : [iamax] "=r"(iamax),[amax] "=Q"(*amax),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7", "v8",
+       "v9", "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24",
+       "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return iamax;
+}
+
+BLASLONG CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0;
+  FLOAT maxf = 0;
+  BLASLONG max = 0;
+  BLASLONG inc_x2;
+
+  if (n <= 0 || inc_x <= 0)
+    return (max);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+
+      max = icamax_kernel_32(n1, x, &maxf);
+      ix = n1 * 2;
+      i = n1;
+    } else {
+      maxf = CABS1(x, 0);
+      ix += 2;
+      i++;
+    }
+
+    while (i < n) {
+      if (CABS1(x, ix) > maxf) {
+        max = i;
+        maxf = CABS1(x, ix);
+      }
+      ix += 2;
+      i++;
+    }
+    return (max + 1);
+
+  } else {
+
+    max = 0;
+    maxf = CABS1(x, 0);
+    inc_x2 = 2 * inc_x;
+
+    BLASLONG n1 = n & -4;
+    while (i < n1) {
+
+      if (CABS1(x, ix) > maxf) {
+        max = i;
+        maxf = CABS1(x, ix);
+      }
+      if (CABS1(x, ix + inc_x2) > maxf) {
+        max = i + 1;
+        maxf = CABS1(x, ix + inc_x2);
+      }
+      if (CABS1(x, ix + 2 * inc_x2) > maxf) {
+        max = i + 2;
+        maxf = CABS1(x, ix + 2 * inc_x2);
+      }
+      if (CABS1(x, ix + 3 * inc_x2) > maxf) {
+        max = i + 3;
+        maxf = CABS1(x, ix + 3 * inc_x2);
+      }
+
+      ix += inc_x2 * 4;
+
+      i += 4;
+
+    }
+
+    while (i < n) {
+      if (CABS1(x, ix) > maxf) {
+        max = i;
+        maxf = CABS1(x, ix);
+      }
+      ix += inc_x2;
+      i++;
+    }
+    return (max + 1);
+  }
+}
diff --git a/kernel/zarch/icamin.c b/kernel/zarch/icamin.c
new file mode 100644
index 0000000000..09654b7426
--- /dev/null
+++ b/kernel/zarch/icamin.c
@@ -0,0 +1,302 @@
+/***************************************************************************
+Copyright (c) 2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+#include <math.h>
+
+#define CABS1(x,i) (fabsf(x[i]) + fabsf(x[i + 1]))
+
+static BLASLONG icamin_kernel_32(BLASLONG n, FLOAT *x, FLOAT *amin) {
+  BLASLONG iamin;
+
+  __asm__("vlef   %%v0,0(%[x]),0\n\t"
+    "vlef   %%v1,4(%[x]),0\n\t"
+    "vlef   %%v0,8(%[x]),1\n\t"
+    "vlef   %%v1,12(%[x]),1\n\t"
+    "vlef   %%v0,16(%[x]),2\n\t"
+    "vlef   %%v1,20(%[x]),2\n\t"
+    "vlef   %%v0,24(%[x]),3\n\t"
+    "vlef   %%v1,28(%[x]),3\n\t"
+    "vflpsb %%v0,%%v0\n\t"
+    "vflpsb %%v1,%%v1\n\t"
+    "vfasb  %%v0,%%v0,%%v1\n\t"
+    "vleig  %%v1,0,0\n\t"
+    "vleig  %%v1,2,1\n\t"
+    "vleig  %%v2,1,0\n\t"
+    "vleig  %%v2,3,1\n\t"
+    "vrepig %%v3,16\n\t"
+    "vzero  %%v4\n\t"
+    "vleib  %%v9,0,0\n\t"
+    "vleib  %%v9,1,1\n\t"
+    "vleib  %%v9,2,2\n\t"
+    "vleib  %%v9,3,3\n\t"
+    "vleib  %%v9,8,4\n\t"
+    "vleib  %%v9,9,5\n\t"
+    "vleib  %%v9,10,6\n\t"
+    "vleib  %%v9,11,7\n\t"
+    "vleib  %%v9,16,8\n\t"
+    "vleib  %%v9,17,9\n\t"
+    "vleib  %%v9,18,10\n\t"
+    "vleib  %%v9,19,11\n\t"
+    "vleib  %%v9,24,12\n\t"
+    "vleib  %%v9,25,13\n\t"
+    "vleib  %%v9,26,14\n\t"
+    "vleib  %%v9,27,15\n\t"
+    "vleif  %%v24,0,0\n\t"
+    "vleif  %%v24,1,1\n\t"
+    "vleif  %%v24,2,2\n\t"
+    "vleif  %%v24,3,3\n\t"
+    "vleif  %%v25,4,0\n\t"
+    "vleif  %%v25,5,1\n\t"
+    "vleif  %%v25,6,2\n\t"
+    "vleif  %%v25,7,3\n\t"
+    "vleif  %%v26,8,0\n\t"
+    "vleif  %%v26,9,1\n\t"
+    "vleif  %%v26,10,2\n\t"
+    "vleif  %%v26,11,3\n\t"
+    "vleif  %%v27,12,0\n\t"
+    "vleif  %%v27,13,1\n\t"
+    "vleif  %%v27,14,2\n\t"
+    "vleif  %%v27,15,3\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl    %%v16,0(%%r1,%[x])\n\t"
+    "vl    %%v28,16(%%r1,%[x])\n\t"
+    "vpkg  %%v17,%%v16,%%v28\n\t"
+    "vperm %%v16,%%v16,%%v28,%%v9\n\t"
+    "vl    %%v18,32(%%r1,%[x])\n\t"
+    "vl    %%v29,48(%%r1,%[x])\n\t"
+    "vpkg  %%v19,%%v18,%%v29\n\t"
+    "vperm %%v18,%%v18,%%v29,%%v9\n\t"
+    "vl    %%v20,64(%%r1,%[x])\n\t"
+    "vl    %%v30,80(%%r1,%[x])\n\t"
+    "vpkg  %%v21,%%v20,%%v30\n\t"
+    "vperm %%v20,%%v20,%%v30,%%v9\n\t"
+    "vl    %%v22,96(%%r1,%[x])\n\t"
+    "vl    %%v31,112(%%r1,%[x])\n\t"
+    "vpkg  %%v23,%%v22,%%v31\n\t"
+    "vperm %%v22,%%v22,%%v31,%%v9\n\t"
+    "vflpsb  %%v16, %%v16\n\t"
+    "vflpsb  %%v17, %%v17\n\t"
+    "vflpsb  %%v18, %%v18\n\t"
+    "vflpsb  %%v19, %%v19\n\t"
+    "vflpsb  %%v20, %%v20\n\t"
+    "vflpsb  %%v21, %%v21\n\t"
+    "vflpsb  %%v22, %%v22\n\t"
+    "vflpsb  %%v23, %%v23\n\t"
+    "vfasb %%v16,%%v16,%%v17\n\t"
+    "vfasb %%v17,%%v18,%%v19\n\t"
+    "vfasb %%v18,%%v20,%%v21\n\t"
+    "vfasb %%v19,%%v22,%%v23\n\t"
+    "vfchesb  %%v5,%%v17,%%v16\n\t"
+    "vfchesb  %%v6,%%v19,%%v18\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v5\n\t"
+    "vsel    %%v5,%%v24,%%v25,%%v5\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v6\n\t"
+    "vsel    %%v6,%%v26,%%v27,%%v6\n\t"
+    "vfchesb  %%v18,%%v17,%%v16\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v18\n\t"
+    "vsegf   %%v6,%%v5\n\t"
+    "vesrlg  %%v5,%%v5,32\n\t"
+    "vag     %%v5,%%v5,%%v4\n\t"
+    "vag     %%v6,%%v6,%%v4\n\t"
+    "vfchesb  %%v7,%%v16,%%v0\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v7\n\t"
+    "vsegf   %%v8,%%v7\n\t"
+    "vesrlg  %%v7,%%v7,32\n\t"
+    "vsegf   %%v7,%%v7\n\t"
+    "vsel    %%v1,%%v1,%%v5,%%v7\n\t"
+    "vsel    %%v2,%%v2,%%v6,%%v8\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "vl    %%v16,128(%%r1,%[x])\n\t"
+    "vl    %%v28,144(%%r1,%[x])\n\t"
+    "vpkg  %%v17,%%v16,%%v28\n\t"
+    "vperm %%v16,%%v16,%%v28,%%v9\n\t"
+    "vl    %%v18,160(%%r1,%[x])\n\t"
+    "vl    %%v29,176(%%r1,%[x])\n\t"
+    "vpkg  %%v19,%%v18,%%v29\n\t"
+    "vperm %%v18,%%v18,%%v29,%%v9\n\t"
+    "vl    %%v20,192(%%r1,%[x])\n\t"
+    "vl    %%v30,208(%%r1,%[x])\n\t"
+    "vpkg  %%v21,%%v20,%%v30\n\t"
+    "vperm %%v20,%%v20,%%v30,%%v9\n\t"
+    "vl    %%v22,224(%%r1,%[x])\n\t"
+    "vl    %%v31,240(%%r1,%[x])\n\t"
+    "vpkg  %%v23,%%v22,%%v31\n\t"
+    "vperm %%v22,%%v22,%%v31,%%v9\n\t"
+    "vflpsb  %%v16, %%v16\n\t"
+    "vflpsb  %%v17, %%v17\n\t"
+    "vflpsb  %%v18, %%v18\n\t"
+    "vflpsb  %%v19, %%v19\n\t"
+    "vflpsb  %%v20, %%v20\n\t"
+    "vflpsb  %%v21, %%v21\n\t"
+    "vflpsb  %%v22, %%v22\n\t"
+    "vflpsb  %%v23, %%v23\n\t"
+    "vfasb %%v16,%%v16,%%v17\n\t"
+    "vfasb %%v17,%%v18,%%v19\n\t"
+    "vfasb %%v18,%%v20,%%v21\n\t"
+    "vfasb %%v19,%%v22,%%v23\n\t"
+    "vfchesb  %%v5,%%v17,%%v16\n\t"
+    "vfchesb  %%v6,%%v19,%%v18\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v5\n\t"
+    "vsel    %%v5,%%v24,%%v25,%%v5\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v6\n\t"
+    "vsel    %%v6,%%v26,%%v27,%%v6\n\t"
+    "vfchesb  %%v18,%%v17,%%v16\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v18\n\t"
+    "vsegf   %%v6,%%v5\n\t"
+    "vesrlg  %%v5,%%v5,32\n\t"
+    "vag     %%v5,%%v5,%%v4\n\t"
+    "vag     %%v6,%%v6,%%v4\n\t"
+    "vfchesb  %%v7,%%v16,%%v0\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v7\n\t"
+    "vsegf   %%v8,%%v7\n\t"
+    "vesrlg  %%v7,%%v7,32\n\t"
+    "vsegf   %%v7,%%v7\n\t"
+    "vsel    %%v1,%%v1,%%v5,%%v7\n\t"
+    "vsel    %%v2,%%v2,%%v6,%%v8\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "veslg   %%v3,%%v0,32\n\t"
+    "vfchsb  %%v4,%%v3,%%v0\n\t"
+    "vchlg   %%v5,%%v2,%%v1\n\t"
+    "vfcesb  %%v6,%%v0,%%v3\n\t"
+    "vn      %%v5,%%v5,%%v6\n\t"
+    "vo      %%v4,%%v4,%%v5\n\t"
+    "vsel    %%v0,%%v0,%%v3,%%v4\n\t"
+    "vesrlg  %%v4,%%v4,32\n\t"
+    "vsegf   %%v4,%%v4\n\t"
+    "vsel    %%v1,%%v1,%%v2,%%v4\n\t"
+    "vrepf  %%v2,%%v0,2\n\t"
+    "vrepg  %%v3,%%v1,1\n\t"
+    "wfcsb  %%v2,%%v0\n\t"
+    "jne 1f\n\t"
+    "vstef  %%v0,%[amin],0\n\t"
+    "vmnlg  %%v0,%%v1,%%v3\n\t"
+    "vlgvg  %[iamin],%%v0,0\n\t"
+    "j 2f\n\t"
+    "1:\n\t"
+    "wfchsb %%v4,%%v0,%%v2\n\t"
+    "vesrlg %%v4,%%v4,32\n\t"
+    "vsegf  %%v4,%%v4\n\t"
+    "vsel   %%v1,%%v3,%%v1,%%v4\n\t"
+    "vsel   %%v0,%%v2,%%v0,%%v4\n\t"
+    "ste    %%f0,%[amin]\n\t"
+    "vlgvg  %[iamin],%%v1,0\n\t"
+    "2:\n\t"
+    "nop"
+    : [iamin] "=r"(iamin),[amin] "=Q"(*amin),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7", "v8",
+       "v9", "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24",
+       "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return iamin;
+}
+
+BLASLONG CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0;
+  FLOAT minf = 0;
+  BLASLONG min = 0;
+  BLASLONG inc_x2;
+
+  if (n <= 0 || inc_x <= 0)
+    return (min);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+
+      min = icamin_kernel_32(n1, x, &minf);
+      ix = n1 * 2;
+      i = n1;
+    } else {
+      minf = CABS1(x, 0);
+      ix += 2;
+      i++;
+    }
+
+    while (i < n) {
+      if (CABS1(x, ix) < minf) {
+        min = i;
+        minf = CABS1(x, ix);
+      }
+      ix += 2;
+      i++;
+    }
+    return (min + 1);
+
+  } else {
+
+    min = 0;
+    minf = CABS1(x, 0);
+    inc_x2 = 2 * inc_x;
+
+    BLASLONG n1 = n & -4;
+    while (i < n1) {
+
+      if (CABS1(x, ix) < minf) {
+        min = i;
+        minf = CABS1(x, ix);
+      }
+      if (CABS1(x, ix + inc_x2) < minf) {
+        min = i + 1;
+        minf = CABS1(x, ix + inc_x2);
+      }
+      if (CABS1(x, ix + 2 * inc_x2) < minf) {
+        min = i + 2;
+        minf = CABS1(x, ix + 2 * inc_x2);
+      }
+      if (CABS1(x, ix + 3 * inc_x2) < minf) {
+        min = i + 3;
+        minf = CABS1(x, ix + 3 * inc_x2);
+      }
+
+      ix += inc_x2 * 4;
+
+      i += 4;
+
+    }
+
+    while (i < n) {
+      if (CABS1(x, ix) < minf) {
+        min = i;
+        minf = CABS1(x, ix);
+      }
+      ix += inc_x2;
+      i++;
+    }
+    return (min + 1);
+  }
+}
diff --git a/kernel/zarch/idamax.c b/kernel/zarch/idamax.c
index b670911480..b292c1d151 100644
--- a/kernel/zarch/idamax.c
+++ b/kernel/zarch/idamax.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2013-2017, The OpenBLAS Project
+Copyright (c) 2013-2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -23,225 +23,223 @@ SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
 CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
 OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
- *****************************************************************************/
+*****************************************************************************/
+
 #include "common.h"
 #include <math.h>
 
-#if defined(DOUBLE)
-
 #define ABS fabs
 
-#else
-
-#define ABS fabsf
-
-#endif
-
- 
-/**
- * Find  maximum index 
- * Warning: requirements n>0  and n % 32 == 0
- * @param n     
- * @param x     pointer to the vector
- * @param maxf  (out) maximum absolute value .( only for output )
- * @return  index 
- */
-static BLASLONG diamax_kernel_32_TUNED(BLASLONG n, FLOAT *x, FLOAT *maxf) {
-    BLASLONG index;
-   __asm__(
-            "pfd 1, 0(%[ptr_x])      \n\t"
-            "sllg   %%r0,%[n],3      \n\t"
-            "agr    %%r0,%[ptr_x]    \n\t"
-            "vleig  %%v20,0,0  \n\t"
-            "vleig  %%v20,1,1  \n\t"
-            "vleig  %%v21,2,0  \n\t"
-            "vleig  %%v21,3,1  \n\t"
-            "vleig  %%v22,4,0  \n\t"
-            "vleig  %%v22,5,1  \n\t"
-            "vleig  %%v23,6,0  \n\t"
-            "vleig  %%v23,7,1  \n\t"
-            "vrepig %%v4,8     \n\t"
-            "vzero  %%v5       \n\t"
-            "vzero  %%v18      \n\t"
-            "vzero  %%v19      \n\t"
-            ".align 16 \n\t"
-            "1: \n\t"
-            "pfd 1, 256(%[ptr_tmp] ) \n\t"
-            "vlm     %%v24,%%v31, 0(%[ptr_tmp] ) \n\t"
-            "vflpdb  %%v24, %%v24 \n\t"
-            "vflpdb  %%v25, %%v25 \n\t"
-            "vflpdb  %%v26, %%v26 \n\t"
-            "vflpdb  %%v27, %%v27 \n\t"
-            "vflpdb  %%v28, %%v28 \n\t"
-            "vflpdb  %%v29, %%v29 \n\t"
-            "vflpdb  %%v30, %%v30 \n\t"
-            "vflpdb  %%v31, %%v31 \n\t"
-            "vfchdb  %%v16,%%v25,%%v24  \n\t "
-            "vfchdb  %%v17,%%v27,%%v26  \n\t "
-            "vsel    %%v1,%%v21,%%v20,%%v16 \n\t"
-            "vsel    %%v0,%%v25,%%v24,%%v16 \n\t"
-            "vsel    %%v2,%%v23,%%v22,%%v17 \n\t"
-            "vsel    %%v3,%%v27,%%v26,%%v17 \n\t"
-            "vfchdb  %%v16,%%v29,%%v28  \n\t "
-            "vfchdb  %%v17,%%v31,%%v30  \n\t"
-            "vsel    %%v24,%%v21,%%v20,%%v16 \n\t"
-            "vsel    %%v25,%%v29,%%v28,%%v16 \n\t"
-            "vsel    %%v26,%%v23,%%v22,%%v17 \n\t"
-            "vsel    %%v27,%%v31,%%v30,%%v17 \n\t"
-
-            "vfchdb  %%v28, %%v3,%%v0        \n\t"
-            "vfchdb  %%v29,%%v27, %%v25      \n\t"
-            "vsel    %%v1,%%v2,%%v1,%%v28    \n\t"
-            "vsel    %%v0,%%v3,%%v0,%%v28    \n\t"
-            "vsel    %%v24,%%v26,%%v24,%%v29 \n\t"
-            "vsel    %%v25,%%v27,%%v25,%%v29 \n\t"
-            "vag     %%v1,%%v1,%%v5    \n\t"
-            "vag     %%v24,%%v24,%%v5  \n\t"
-            "vag     %%v24,%%v24,%%v4  \n\t"
-            "vfchdb  %%v16,%%v25 , %%v0      \n\t"
-            "vag     %%v5,%%v5,%%v4          \n\t"
-            "vsel    %%v29,%%v25,%%v0,%%v16  \n\t"
-            "vsel    %%v28,%%v24,%%v1,%%v16  \n\t"
-            "vfchdb  %%v17, %%v29,%%v18      \n\t"
-            "vsel    %%v19,%%v28,%%v19,%%v17 \n\t"
-            "vsel    %%v18,%%v29,%%v18,%%v17 \n\t"
-            "vag     %%v5,%%v5,%%v4          \n\t"
-            "vlm     %%v24,%%v31,128(%[ptr_tmp] ) \n\t"
-            "vflpdb  %%v24, %%v24 \n\t"
-            "vflpdb  %%v25, %%v25 \n\t"
-            "vflpdb  %%v26, %%v26 \n\t"
-            "vflpdb  %%v27, %%v27 \n\t"
-            "vflpdb  %%v28, %%v28 \n\t"
-            "vflpdb  %%v29, %%v29 \n\t"
-            "vflpdb  %%v30, %%v30 \n\t"
-            "vflpdb  %%v31, %%v31 \n\t"
-            "vfchdb  %%v16,%%v25,%%v24  \n\t "
-            "vfchdb  %%v17,%%v27,%%v26  \n\t "
-            "vsel    %%v1,%%v21,%%v20,%%v16 \n\t"
-            "vsel    %%v0,%%v25,%%v24,%%v16 \n\t"
-            "vsel    %%v2,%%v23,%%v22,%%v17 \n\t"
-            "vsel    %%v3,%%v27,%%v26,%%v17 \n\t"
-            "vfchdb  %%v16,%%v29,%%v28  \n\t "
-            "vfchdb  %%v17,%%v31,%%v30  \n\t"
-            "vsel    %%v24,%%v21,%%v20,%%v16 \n\t"
-            "vsel    %%v25,%%v29,%%v28,%%v16 \n\t"
-            "vsel    %%v26,%%v23,%%v22,%%v17 \n\t"
-            "vsel    %%v27,%%v31,%%v30,%%v17 \n\t"
-
-            "vfchdb  %%v28, %%v3,%%v0     \n\t"
-            "vfchdb  %%v29,%%v27, %%v25   \n\t"
-            "vsel    %%v1,%%v2,%%v1,%%v28 \n\t"
-            "vsel    %%v0,%%v3,%%v0,%%v28 \n\t"
-            "vsel    %%v24,%%v26,%%v24,%%v29 \n\t"
-            "vsel    %%v25,%%v27,%%v25,%%v29 \n\t"
-            "vag     %%v1,%%v1,%%v5      \n\t"
-            "vag     %%v24,%%v24,%%v5    \n\t"
-            "la      %[ptr_tmp],256(%[ptr_tmp])   \n\t"
-            "vag     %%v24,%%v24,%%v4    \n\t"
-            "vfchdb  %%v16,%%v25 , %%v0  \n\t"
-            "vag     %%v5,%%v5,%%v4      \n\t"
-            "vsel    %%v29,%%v25,%%v0,%%v16  \n\t"
-            "vsel    %%v28,%%v24,%%v1,%%v16  \n\t"
-            "vfchdb  %%v17, %%v29,%%v18      \n\t"
-            "vsel    %%v19,%%v28,%%v19,%%v17 \n\t"
-            "vsel    %%v18,%%v29,%%v18,%%v17 \n\t"
-            "vag     %%v5,%%v5,%%v4 \n\t"
-            "clgrjl  %[ptr_tmp],%%r0,1b  \n\t"
-
-            "vrepg   %%v26,%%v18,1     \n\t"
-            "vrepg   %%v5,%%v19,1      \n\t"
-            "wfcdb   %%v26,%%v18       \n\t"
-            "jne 2f  \n\t"
-            "vsteg   %%v18,%[maxf],0   \n\t"
-            "vmnlg   %%v1,%%v5,%%v19   \n\t"
-            "j 3f    \n\t"
-
-            "2:      \n\t"
-            "wfchdb  %%v16,%%v26,%%v18      \n\t"
-            "vsel    %%v1,%%v5,%%v19,%%v16  \n\t"
-            "vsel    %%v0,%%v26,%%v18,%%v16 \n\t"
-            "std     %%f0,%[maxf]           \n\t"
-             
-            "3:      \n\t"
-            "vlgvg   %[index],%%v1,0        \n\t"
-            : [index] "+r"(index) ,[maxf] "=m"(*maxf), [ptr_tmp] "+&a"(x)
-            : [mem] "m"( *(const double (*)[n])x), [n] "r"(n), [ptr_x] "r"(x) 
-            : "cc", "r0", "f0","v0","v1","v2","v3","v4","v5","v6","v7","v16",
-            "v17","v18","v19","v20","v21","v22","v23","v24","v25","v26","v27","v28","v29","v30","v31"
-            );
-    
-    return index;
-
+static BLASLONG idamax_kernel_32(BLASLONG n, FLOAT *x, FLOAT *amax) {
+  BLASLONG iamax;
+
+  __asm__("vl     %%v0,0(%[x])\n\t"
+    "vflpdb %%v0,%%v0\n\t"
+    "vleig  %%v1,0,0\n\t"
+    "vleig  %%v1,1,1\n\t"
+    "vrepig %%v2,16\n\t"
+    "vzero  %%v3\n\t"
+    "vleig  %%v24,0,0\n\t"
+    "vleig  %%v24,1,1\n\t"
+    "vleig  %%v25,2,0\n\t"
+    "vleig  %%v25,3,1\n\t"
+    "vleig  %%v26,4,0\n\t"
+    "vleig  %%v26,5,1\n\t"
+    "vleig  %%v27,6,0\n\t"
+    "vleig  %%v27,7,1\n\t"
+    "vleig  %%v28,8,0\n\t"
+    "vleig  %%v28,9,1\n\t"
+    "vleig  %%v29,10,0\n\t"
+    "vleig  %%v29,11,1\n\t"
+    "vleig  %%v30,12,0\n\t"
+    "vleig  %%v30,13,1\n\t"
+    "vleig  %%v31,14,0\n\t"
+    "vleig  %%v31,15,1\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfchedb  %%v4,%%v16,%%v17\n\t"
+    "vfchedb  %%v5,%%v18,%%v19\n\t"
+    "vfchedb  %%v6,%%v20,%%v21\n\t"
+    "vfchedb  %%v7,%%v22,%%v23\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v4\n\t"
+    "vsel    %%v4,%%v24,%%v25,%%v4\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v5\n\t"
+    "vsel    %%v5,%%v26,%%v27,%%v5\n\t"
+    "vsel    %%v18,%%v20,%%v21,%%v6\n\t"
+    "vsel    %%v6,%%v28,%%v29,%%v6\n\t"
+    "vsel    %%v19,%%v22,%%v23,%%v7\n\t"
+    "vsel    %%v7,%%v30,%%v31,%%v7\n\t"
+    "vfchedb  %%v20,%%v16,%%v17\n\t"
+    "vfchedb  %%v21,%%v18,%%v19\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v20\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v20\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v21\n\t"
+    "vsel    %%v5,%%v6,%%v7,%%v21\n\t"
+    "vfchedb  %%v18,%%v16,%%v17\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v18\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "vfchedb  %%v5,%%v0,%%v16\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v5\n\t"
+    "vsel    %%v1,%%v1,%%v4,%%v5\n\t"
+    "vag     %%v3,%%v3,%%v2\n\t"
+    "vl  %%v16,128(%%r1,%[x])\n\t"
+    "vl  %%v17,144(%%r1,%[x])\n\t"
+    "vl  %%v18,160(%%r1,%[x])\n\t"
+    "vl  %%v19,176(%%r1,%[x])\n\t"
+    "vl  %%v20,192(%%r1,%[x])\n\t"
+    "vl  %%v21,208(%%r1,%[x])\n\t"
+    "vl  %%v22,224(%%r1,%[x])\n\t"
+    "vl  %%v23,240(%%r1,%[x])\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfchedb  %%v4,%%v16,%%v17\n\t"
+    "vfchedb  %%v5,%%v18,%%v19\n\t"
+    "vfchedb  %%v6,%%v20,%%v21\n\t"
+    "vfchedb  %%v7,%%v22,%%v23\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v4\n\t"
+    "vsel    %%v4,%%v24,%%v25,%%v4\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v5\n\t"
+    "vsel    %%v5,%%v26,%%v27,%%v5\n\t"
+    "vsel    %%v18,%%v20,%%v21,%%v6\n\t"
+    "vsel    %%v6,%%v28,%%v29,%%v6\n\t"
+    "vsel    %%v19,%%v22,%%v23,%%v7\n\t"
+    "vsel    %%v7,%%v30,%%v31,%%v7\n\t"
+    "vfchedb  %%v20,%%v16,%%v17\n\t"
+    "vfchedb  %%v21,%%v18,%%v19\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v20\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v20\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v21\n\t"
+    "vsel    %%v5,%%v6,%%v7,%%v21\n\t"
+    "vfchedb  %%v18,%%v16,%%v17\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v18\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "vfchedb  %%v5,%%v0,%%v16\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v5\n\t"
+    "vsel    %%v1,%%v1,%%v4,%%v5\n\t"
+    "vag     %%v3,%%v3,%%v2\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "vrepg  %%v2,%%v0,1\n\t"
+    "vrepg  %%v3,%%v1,1\n\t"
+    "wfcdb  %%v2,%%v0\n\t"
+    "jne 1f\n\t"
+    "vsteg  %%v0,%[amax],0\n\t"
+    "vmnlg  %%v0,%%v1,%%v3\n\t"
+    "vlgvg  %[iamax],%%v0,0\n\t"
+    "j 2f\n\t"
+    "1:\n\t"
+    "wfchdb %%v4,%%v2,%%v0\n\t"
+    "vsel   %%v1,%%v3,%%v1,%%v4\n\t"
+    "vsel   %%v0,%%v2,%%v0,%%v4\n\t"
+    "std    %%f0,%[amax]\n\t"
+    "vlgvg  %[iamax],%%v1,0\n\t"
+    "2:\n\t"
+    "nop"
+    : [iamax] "=r"(iamax),[amax] "=Q"(*amax),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7", "v16",
+       "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
+       "v27", "v28", "v29", "v30", "v31");
+
+  return iamax;
 }
 
-
- 
- 
 BLASLONG CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
-    BLASLONG i = 0;
-    BLASLONG j = 0;
-    BLASLONG ix = 0;
-    FLOAT maxf = 0.0;
-    BLASLONG max = 0;
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT maxf = 0.0;
+  BLASLONG max = 0;
 
-    if (n <= 0 || inc_x <= 0) return (max);
+  if (n <= 0 || inc_x <= 0)
+    return (max);
 
-    if (inc_x == 1) {
+  if (inc_x == 1) {
 
-        BLASLONG n1 = n & -32;
-        if (n1 > 0) {
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
 
-            max = diamax_kernel_32_TUNED(n1, x, &maxf);
+      max = idamax_kernel_32(n1, x, &maxf);
 
-            i = n1;
-        }
+      i = n1;
+    } else {
+      maxf = ABS(x[0]);
+      i++;
+    }
 
-        while (i < n) {
-            if (ABS(x[i]) > maxf) {
-                max = i;
-                maxf = ABS(x[i]);
-            }
-            i++;
-        }
-        return (max + 1);
+    while (i < n) {
+      if (ABS(x[i]) > maxf) {
+        max = i;
+        maxf = ABS(x[i]);
+      }
+      i++;
+    }
+    return (max + 1);
 
-    } else {
+  } else {
+
+    max = 0;
+    maxf = ABS(x[0]);
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (ABS(x[i]) > maxf) {
+        max = j;
+        maxf = ABS(x[i]);
+      }
+      if (ABS(x[i + inc_x]) > maxf) {
+        max = j + 1;
+        maxf = ABS(x[i + inc_x]);
+      }
+      if (ABS(x[i + 2 * inc_x]) > maxf) {
+        max = j + 2;
+        maxf = ABS(x[i + 2 * inc_x]);
+      }
+      if (ABS(x[i + 3 * inc_x]) > maxf) {
+        max = j + 3;
+        maxf = ABS(x[i + 3 * inc_x]);
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
 
-        BLASLONG n1 = n & -4;
-        while (j < n1) {
-
-            if (ABS(x[i]) > maxf) {
-                max = j;
-                maxf = ABS(x[i]);
-            }
-            if (ABS(x[i + inc_x]) > maxf) {
-                max = j + 1;
-                maxf = ABS(x[i + inc_x]);
-            }
-            if (ABS(x[i + 2 * inc_x]) > maxf) {
-                max = j + 2;
-                maxf = ABS(x[i + 2 * inc_x]);
-            }
-            if (ABS(x[i + 3 * inc_x]) > maxf) {
-                max = j + 3;
-                maxf = ABS(x[i + 3 * inc_x]);
-            }
-
-            i += inc_x * 4;
-
-            j += 4;
-
-        }
-
-
-        while (j < n) {
-            if (ABS(x[i]) > maxf) {
-                max = j;
-                maxf = ABS(x[i]);
-            }
-            i += inc_x;
-            j++;
-        }
-        return (max + 1);
+    while (j < n) {
+      if (ABS(x[i]) > maxf) {
+        max = j;
+        maxf = ABS(x[i]);
+      }
+      i += inc_x;
+      j++;
     }
+    return (max + 1);
+  }
 }
diff --git a/kernel/zarch/idamin.c b/kernel/zarch/idamin.c
index 8a7ff1659a..f9a8119e15 100644
--- a/kernel/zarch/idamin.c
+++ b/kernel/zarch/idamin.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2013-2017, The OpenBLAS Project
+Copyright (c) 2013-2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -23,241 +23,223 @@ SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
 CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
 OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
- *****************************************************************************/
+*****************************************************************************/
+
 #include "common.h"
 #include <math.h>
 
-#if defined(DOUBLE)
-
 #define ABS fabs
 
-#else
-
-#define ABS fabsf
-
-#endif
-
-/**
- * Find  minimum index 
- * Warning: requirements n>0  and n % 32 == 0
- * @param n     
- * @param x     pointer to the vector
- * @param minf  (out) minimum absolute value .( only for output )
- * @return minimum index 
- */
-static BLASLONG diamin_kernel_32(BLASLONG n, FLOAT *x, FLOAT *minf) {
-     BLASLONG index;
-    __asm__( 
-            "pfd    1, 0(%[ptr_x]) \n\t"
-            "sllg   %%r0,%[n],3    \n\t" 
-            "agr    %%r0,%[ptr_x]  \n\t"
-            "vleig  %%v20,0,0  \n\t"
-            "vleig  %%v20,1,1  \n\t"
-            "vleig  %%v21,2,0  \n\t"
-            "vleig  %%v21,3,1  \n\t"
-            "vleig  %%v22,4,0  \n\t"
-            "vleig  %%v22,5,1  \n\t"
-            "vleig  %%v23,6,0  \n\t"
-            "vleig  %%v23,7,1  \n\t"
-            "vrepig %%v4,8     \n\t"
-            "vlrepg %%v18,0(%[ptr_x])   \n\t"
-            "vzero  %%v5        \n\t" 
-            "vflpdb %%v18, %%v18 \n\t"
-            "vzero  %%v19          \n\t"
-            ".align 16 \n\t"
-            "1: \n\t"
-            "pfd     1, 256(%[ptr_tmp] ) \n\t"
-            "vlm     %%v24,%%v31, 0(%[ptr_tmp] ) \n\t"
-
-            "vflpdb  %%v24, %%v24 \n\t"
-            "vflpdb  %%v25, %%v25 \n\t"
-            "vflpdb  %%v26, %%v26 \n\t"
-            "vflpdb  %%v27, %%v27 \n\t"
-            "vflpdb  %%v28, %%v28 \n\t"
-            "vflpdb  %%v29, %%v29 \n\t"
-            "vflpdb  %%v30, %%v30 \n\t"
-            "vflpdb  %%v31, %%v31 \n\t"
-
-            "vfchdb  %%v16,%%v24,%%v25  \n\t "
-            "vfchdb  %%v17,%%v26 ,%%v27 \n\t "
-            "vsel    %%v1,%%v21,%%v20,%%v16 \n\t"
-            "vsel    %%v0,%%v25,%%v24,%%v16 \n\t"
-            "vsel    %%v2,%%v23,%%v22,%%v17 \n\t"
-            "vsel    %%v3,%%v27,%%v26,%%v17 \n\t"
-            "vfchdb  %%v16,%%v28, %%v29 \n\t "
-            "vfchdb  %%v17,%%v30,%%v31  \n\t"
-            "vsel    %%v24,%%v21,%%v20,%%v16 \n\t"
-            "vsel    %%v25,%%v29,%%v28,%%v16 \n\t"
-            "vsel    %%v26,%%v23,%%v22,%%v17 \n\t"
-            "vsel    %%v27,%%v31,%%v30,%%v17 \n\t"
-
-
-            "vfchdb  %%v28,%%v0 , %%v3       \n\t"
-            "vfchdb  %%v29, %%v25,%%v27      \n\t"
-            "vsel    %%v1,%%v2,%%v1,%%v28    \n\t"
-            "vsel    %%v0,%%v3,%%v0,%%v28    \n\t"
-            "vsel    %%v24,%%v26,%%v24,%%v29 \n\t"
-            "vsel    %%v25,%%v27,%%v25,%%v29 \n\t"
-
-            "vag     %%v1,%%v1,%%v5   \n\t"
-            "vag     %%v24,%%v24,%%v5   \n\t"
-            "vag     %%v24,%%v24,%%v4   \n\t"
-
-            "vfchdb  %%v16, %%v0,%%v25      \n\t"
-            "vag     %%v5,%%v5,%%v4         \n\t"
-            "vsel    %%v29,%%v25,%%v0,%%v16 \n\t"
-            "vsel    %%v28,%%v24,%%v1,%%v16 \n\t"
-
-            "vfchdb  %%v17,%%v18, %%v29      \n\t"
-            "vsel    %%v19,%%v28,%%v19,%%v17 \n\t"
-            "vsel    %%v18,%%v29,%%v18,%%v17 \n\t"
-
-            "vag     %%v5,%%v5,%%v4 \n\t"
-
-            "vlm     %%v24,%%v31,128(%[ptr_tmp] ) \n\t"
-            "vflpdb  %%v24, %%v24 \n\t"
-            "vflpdb  %%v25, %%v25 \n\t"
-            "vflpdb  %%v26, %%v26 \n\t"
-            "vflpdb  %%v27, %%v27 \n\t"
-            "vflpdb  %%v28, %%v28 \n\t"
-            "vflpdb  %%v29, %%v29 \n\t"
-            "vflpdb  %%v30, %%v30 \n\t"
-            "vflpdb  %%v31, %%v31 \n\t"
-
-            "vfchdb  %%v16,%%v24,%%v25  \n\t"
-            "vfchdb  %%v17,%%v26 ,%%v27 \n\t"
-            "vsel    %%v1,%%v21,%%v20,%%v16 \n\t"
-            "vsel    %%v0,%%v25,%%v24,%%v16 \n\t"
-            "vsel    %%v2,%%v23,%%v22,%%v17 \n\t"
-            "vsel    %%v3,%%v27,%%v26,%%v17 \n\t"
-            "vfchdb  %%v16,%%v28 ,%%v29 \n\t"
-            "vfchdb  %%v17,%%v30,%%v31  \n\t"
-            "vsel    %%v24,%%v21,%%v20,%%v16 \n\t"
-            "vsel    %%v25,%%v29,%%v28,%%v16 \n\t"
-            "vsel    %%v26,%%v23,%%v22,%%v17 \n\t"
-            "vsel    %%v27,%%v31,%%v30,%%v17 \n\t"
-
-
-            "vfchdb  %%v28,%%v0 , %%v3       \n\t"
-            "vfchdb  %%v29, %%v25,%%v27      \n\t"
-            "vsel    %%v1,%%v2,%%v1,%%v28    \n\t"
-            "vsel    %%v0,%%v3,%%v0,%%v28    \n\t"
-            "vsel    %%v24,%%v26,%%v24,%%v29 \n\t"
-            "vsel    %%v25,%%v27,%%v25,%%v29 \n\t"
-
-            "vag     %%v1,%%v1,%%v5     \n\t"
-            "vag     %%v24,%%v24,%%v5   \n\t"
-            "la      %[ptr_tmp],256(%[ptr_tmp])   \n\t"
-            "vag     %%v24,%%v24,%%v4   \n\t"
-
-            "vfchdb  %%v16, %%v0,%%v25      \n\t"
-            "vag     %%v5,%%v5,%%v4         \n\t"
-            "vsel    %%v29,%%v25,%%v0,%%v16 \n\t"
-            "vsel    %%v28,%%v24,%%v1,%%v16 \n\t"
-
-            "vfchdb  %%v17,%%v18, %%v29      \n\t"
-            "vsel    %%v19,%%v28,%%v19,%%v17 \n\t"
-            "vsel    %%v18,%%v29,%%v18,%%v17 \n\t"
-
-            "vag     %%v5,%%v5,%%v4 \n\t"
-
-            "clgrjl  %[ptr_tmp],%%r0,1b \n\t"
-
-
-            "vrepg   %%v26,%%v18,1   \n\t"
-            "vrepg   %%v5,%%v19,1    \n\t"
-            "wfcdb   %%v26,%%v18     \n\t"
-            "jne 2f  \n\t"
-            "vsteg   %%v18,%[minf],0  \n\t"
-            "vmnlg   %%v1,%%v5,%%v19  \n\t"
-            "j 3f    \n\t"
-            
-            "2:      \n\t"
-            "wfchdb  %%v16,%%v18 ,%%v26     \n\t "
-            "vsel    %%v1,%%v5,%%v19,%%v16  \n\t"
-            "vsel    %%v0,%%v26,%%v18,%%v16 \n\t"
-            "std     %%f0,%[minf]     \n\t"            
-
-            "3:   \n\t"
-            "vlgvg   %[index],%%v1,0  \n\t" 
-
-            : [index] "+r"(index) ,[minf] "=m"(*minf), [ptr_tmp] "+&a"(x)
-            : [mem] "m"( *(const double (*)[n])x), [n] "r"(n), [ptr_x] "r"(x) 
-            : "cc","r0", "f0","v0","v1","v2","v3","v4","v5","v6","v7","v16",
-            "v17","v18","v19","v20","v21","v22","v23","v24","v25","v26","v27","v28","v29","v30","v31"
-
-            );
-    
-    return index;
-
+static BLASLONG idamin_kernel_32(BLASLONG n, FLOAT *x, FLOAT *amin) {
+  BLASLONG iamin;
+
+  __asm__("vl     %%v0,0(%[x])\n\t"
+    "vflpdb %%v0,%%v0\n\t"
+    "vleig  %%v1,0,0\n\t"
+    "vleig  %%v1,1,1\n\t"
+    "vrepig %%v2,16\n\t"
+    "vzero  %%v3\n\t"
+    "vleig  %%v24,0,0\n\t"
+    "vleig  %%v24,1,1\n\t"
+    "vleig  %%v25,2,0\n\t"
+    "vleig  %%v25,3,1\n\t"
+    "vleig  %%v26,4,0\n\t"
+    "vleig  %%v26,5,1\n\t"
+    "vleig  %%v27,6,0\n\t"
+    "vleig  %%v27,7,1\n\t"
+    "vleig  %%v28,8,0\n\t"
+    "vleig  %%v28,9,1\n\t"
+    "vleig  %%v29,10,0\n\t"
+    "vleig  %%v29,11,1\n\t"
+    "vleig  %%v30,12,0\n\t"
+    "vleig  %%v30,13,1\n\t"
+    "vleig  %%v31,14,0\n\t"
+    "vleig  %%v31,15,1\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfchedb  %%v4,%%v17,%%v16\n\t"
+    "vfchedb  %%v5,%%v19,%%v18\n\t"
+    "vfchedb  %%v6,%%v21,%%v20\n\t"
+    "vfchedb  %%v7,%%v23,%%v22\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v4\n\t"
+    "vsel    %%v4,%%v24,%%v25,%%v4\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v5\n\t"
+    "vsel    %%v5,%%v26,%%v27,%%v5\n\t"
+    "vsel    %%v18,%%v20,%%v21,%%v6\n\t"
+    "vsel    %%v6,%%v28,%%v29,%%v6\n\t"
+    "vsel    %%v19,%%v22,%%v23,%%v7\n\t"
+    "vsel    %%v7,%%v30,%%v31,%%v7\n\t"
+    "vfchedb  %%v20,%%v17,%%v16\n\t"
+    "vfchedb  %%v21,%%v19,%%v18\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v20\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v20\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v21\n\t"
+    "vsel    %%v5,%%v6,%%v7,%%v21\n\t"
+    "vfchedb  %%v18,%%v17,%%v16\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v18\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "vfchedb  %%v5,%%v16,%%v0\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v5\n\t"
+    "vsel    %%v1,%%v1,%%v4,%%v5\n\t"
+    "vag     %%v3,%%v3,%%v2\n\t"
+    "vl  %%v16,128(%%r1,%[x])\n\t"
+    "vl  %%v17,144(%%r1,%[x])\n\t"
+    "vl  %%v18,160(%%r1,%[x])\n\t"
+    "vl  %%v19,176(%%r1,%[x])\n\t"
+    "vl  %%v20,192(%%r1,%[x])\n\t"
+    "vl  %%v21,208(%%r1,%[x])\n\t"
+    "vl  %%v22,224(%%r1,%[x])\n\t"
+    "vl  %%v23,240(%%r1,%[x])\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfchedb  %%v4,%%v17,%%v16\n\t"
+    "vfchedb  %%v5,%%v19,%%v18\n\t"
+    "vfchedb  %%v6,%%v21,%%v20\n\t"
+    "vfchedb  %%v7,%%v23,%%v22\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v4\n\t"
+    "vsel    %%v4,%%v24,%%v25,%%v4\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v5\n\t"
+    "vsel    %%v5,%%v26,%%v27,%%v5\n\t"
+    "vsel    %%v18,%%v20,%%v21,%%v6\n\t"
+    "vsel    %%v6,%%v28,%%v29,%%v6\n\t"
+    "vsel    %%v19,%%v22,%%v23,%%v7\n\t"
+    "vsel    %%v7,%%v30,%%v31,%%v7\n\t"
+    "vfchedb  %%v20,%%v17,%%v16\n\t"
+    "vfchedb  %%v21,%%v19,%%v18\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v20\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v20\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v21\n\t"
+    "vsel    %%v5,%%v6,%%v7,%%v21\n\t"
+    "vfchedb  %%v18,%%v17,%%v16\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v18\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "vfchedb  %%v5,%%v16,%%v0\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v5\n\t"
+    "vsel    %%v1,%%v1,%%v4,%%v5\n\t"
+    "vag     %%v3,%%v3,%%v2\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "vrepg  %%v2,%%v0,1\n\t"
+    "vrepg  %%v3,%%v1,1\n\t"
+    "wfcdb  %%v2,%%v0\n\t"
+    "jne 1f\n\t"
+    "vsteg  %%v0,%[amin],0\n\t"
+    "vmnlg  %%v0,%%v1,%%v3\n\t"
+    "vlgvg  %[iamin],%%v0,0\n\t"
+    "j 2f\n\t"
+    "1:\n\t"
+    "wfchdb %%v4,%%v0,%%v2\n\t"
+    "vsel   %%v1,%%v3,%%v1,%%v4\n\t"
+    "vsel   %%v0,%%v2,%%v0,%%v4\n\t"
+    "std    %%f0,%[amin]\n\t"
+    "vlgvg  %[iamin],%%v1,0\n\t"
+    "2:\n\t"
+    "nop"
+    : [iamin] "=r"(iamin),[amin] "=Q"(*amin),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7", "v16",
+       "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
+       "v27", "v28", "v29", "v30", "v31");
+
+  return iamin;
 }
 
-
-
 BLASLONG CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
-    BLASLONG i = 0;
-    BLASLONG j = 0;
-    BLASLONG ix = 0;
-    BLASLONG min = 0;
-    FLOAT minf = 0.0;
-    
-    if (n <= 0 || inc_x <= 0) return (min);
-    minf = ABS(x[0]); //index's not incremented,though it will make first comparision redundant
-    if (inc_x == 1) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT minf = 0.0;
+  BLASLONG min = 0;
 
-        BLASLONG n1 = n & -32;
-        if (n1 > 0) {
+  if (n <= 0 || inc_x <= 0)
+    return (min);
 
-            min = diamin_kernel_32(n1, x, &minf);
-            i = n1;
-        }
+  if (inc_x == 1) {
 
-        while (i < n) {
-            if (ABS(x[i]) < minf) {
-                min = i;
-                minf = ABS(x[i]);
-            }
-            i++;
-        }
-        return (min + 1);
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
 
+      min = idamin_kernel_32(n1, x, &minf);
+
+      i = n1;
     } else {
+      minf = ABS(x[0]);
+      i++;
+    }
 
-        BLASLONG n1 = n & -4;
-        while (j < n1) {
+    while (i < n) {
+      if (ABS(x[i]) < minf) {
+        min = i;
+        minf = ABS(x[i]);
+      }
+      i++;
+    }
+    return (min + 1);
+
+  } else {
 
-            if (ABS(x[i]) < minf) {
-                min = j;
-                minf = ABS(x[i]);
-            }
-            if (ABS(x[i + inc_x]) < minf) {
-                min = j + 1;
-                minf = ABS(x[i + inc_x]);
-            }
-            if (ABS(x[i + 2 * inc_x]) < minf) {
-                min = j + 2;
-                minf = ABS(x[i + 2 * inc_x]);
-            }
-            if (ABS(x[i + 3 * inc_x]) < minf) {
-                min = j + 3;
-                minf = ABS(x[i + 3 * inc_x]);
-            }
+    min = 0;
+    minf = ABS(x[0]);
 
-            i += inc_x * 4;
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
 
-            j += 4;
+      if (ABS(x[i]) < minf) {
+        min = j;
+        minf = ABS(x[i]);
+      }
+      if (ABS(x[i + inc_x]) < minf) {
+        min = j + 1;
+        minf = ABS(x[i + inc_x]);
+      }
+      if (ABS(x[i + 2 * inc_x]) < minf) {
+        min = j + 2;
+        minf = ABS(x[i + 2 * inc_x]);
+      }
+      if (ABS(x[i + 3 * inc_x]) < minf) {
+        min = j + 3;
+        minf = ABS(x[i + 3 * inc_x]);
+      }
 
-        }
+      i += inc_x * 4;
 
+      j += 4;
+
+    }
 
-        while (j < n) {
-            if (ABS(x[i]) < minf) {
-                min = j;
-                minf = ABS(x[i]);
-            }
-            i += inc_x;
-            j++;
-        }
-        return (min + 1);
+    while (j < n) {
+      if (ABS(x[i]) < minf) {
+        min = j;
+        minf = ABS(x[i]);
+      }
+      i += inc_x;
+      j++;
     }
+    return (min + 1);
+  }
 }
diff --git a/kernel/zarch/idmax.c b/kernel/zarch/idmax.c
new file mode 100644
index 0000000000..8f283bc170
--- /dev/null
+++ b/kernel/zarch/idmax.c
@@ -0,0 +1,225 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static BLASLONG idmax_kernel_32(BLASLONG n, FLOAT *x, FLOAT *max) {
+  BLASLONG imax;
+
+  __asm__("vl     %%v0,0(%[x])\n\t"
+    "vleig  %%v1,0,0\n\t"
+    "vleig  %%v1,1,1\n\t"
+    "vrepig %%v2,16\n\t"
+    "vzero  %%v3\n\t"
+    "vleig  %%v24,0,0\n\t"
+    "vleig  %%v24,1,1\n\t"
+    "vleig  %%v25,2,0\n\t"
+    "vleig  %%v25,3,1\n\t"
+    "vleig  %%v26,4,0\n\t"
+    "vleig  %%v26,5,1\n\t"
+    "vleig  %%v27,6,0\n\t"
+    "vleig  %%v27,7,1\n\t"
+    "vleig  %%v28,8,0\n\t"
+    "vleig  %%v28,9,1\n\t"
+    "vleig  %%v29,10,0\n\t"
+    "vleig  %%v29,11,1\n\t"
+    "vleig  %%v30,12,0\n\t"
+    "vleig  %%v30,13,1\n\t"
+    "vleig  %%v31,14,0\n\t"
+    "vleig  %%v31,15,1\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vfchedb  %%v4,%%v16,%%v17\n\t"
+    "vfchedb  %%v5,%%v18,%%v19\n\t"
+    "vfchedb  %%v6,%%v20,%%v21\n\t"
+    "vfchedb  %%v7,%%v22,%%v23\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v4\n\t"
+    "vsel    %%v4,%%v24,%%v25,%%v4\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v5\n\t"
+    "vsel    %%v5,%%v26,%%v27,%%v5\n\t"
+    "vsel    %%v18,%%v20,%%v21,%%v6\n\t"
+    "vsel    %%v6,%%v28,%%v29,%%v6\n\t"
+    "vsel    %%v19,%%v22,%%v23,%%v7\n\t"
+    "vsel    %%v7,%%v30,%%v31,%%v7\n\t"
+    "vfchedb  %%v20,%%v16,%%v17\n\t"
+    "vfchedb  %%v21,%%v18,%%v19\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v20\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v20\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v21\n\t"
+    "vsel    %%v5,%%v6,%%v7,%%v21\n\t"
+    "vfchedb  %%v18,%%v16,%%v17\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v18\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "vfchedb  %%v5,%%v0,%%v16\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v5\n\t"
+    "vsel    %%v1,%%v1,%%v4,%%v5\n\t"
+    "vag     %%v3,%%v3,%%v2\n\t"
+    "vl  %%v16,128(%%r1,%[x])\n\t"
+    "vl  %%v17,144(%%r1,%[x])\n\t"
+    "vl  %%v18,160(%%r1,%[x])\n\t"
+    "vl  %%v19,176(%%r1,%[x])\n\t"
+    "vl  %%v20,192(%%r1,%[x])\n\t"
+    "vl  %%v21,208(%%r1,%[x])\n\t"
+    "vl  %%v22,224(%%r1,%[x])\n\t"
+    "vl  %%v23,240(%%r1,%[x])\n\t"
+    "vfchedb  %%v4,%%v16,%%v17\n\t"
+    "vfchedb  %%v5,%%v18,%%v19\n\t"
+    "vfchedb  %%v6,%%v20,%%v21\n\t"
+    "vfchedb  %%v7,%%v22,%%v23\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v4\n\t"
+    "vsel    %%v4,%%v24,%%v25,%%v4\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v5\n\t"
+    "vsel    %%v5,%%v26,%%v27,%%v5\n\t"
+    "vsel    %%v18,%%v20,%%v21,%%v6\n\t"
+    "vsel    %%v6,%%v28,%%v29,%%v6\n\t"
+    "vsel    %%v19,%%v22,%%v23,%%v7\n\t"
+    "vsel    %%v7,%%v30,%%v31,%%v7\n\t"
+    "vfchedb  %%v20,%%v16,%%v17\n\t"
+    "vfchedb  %%v21,%%v18,%%v19\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v20\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v20\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v21\n\t"
+    "vsel    %%v5,%%v6,%%v7,%%v21\n\t"
+    "vfchedb  %%v18,%%v16,%%v17\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v18\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "vfchedb  %%v5,%%v0,%%v16\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v5\n\t"
+    "vsel    %%v1,%%v1,%%v4,%%v5\n\t"
+    "vag     %%v3,%%v3,%%v2\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "vrepg  %%v2,%%v0,1\n\t"
+    "vrepg  %%v3,%%v1,1\n\t"
+    "wfcdb  %%v2,%%v0\n\t"
+    "jne 1f\n\t"
+    "vsteg  %%v0,%[max],0\n\t"
+    "vmnlg  %%v0,%%v1,%%v3\n\t"
+    "vlgvg  %[imax],%%v0,0\n\t"
+    "j 2f\n\t"
+    "1:\n\t"
+    "wfchdb %%v4,%%v2,%%v0\n\t"
+    "vsel   %%v1,%%v3,%%v1,%%v4\n\t"
+    "vsel   %%v0,%%v2,%%v0,%%v4\n\t"
+    "std    %%f0,%[max]\n\t"
+    "vlgvg  %[imax],%%v1,0\n\t"
+    "2:\n\t"
+    "nop"
+    : [imax] "=r"(imax),[max] "=Q"(*max),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7", "v16",
+       "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
+       "v27", "v28", "v29", "v30", "v31");
+
+  return imax;
+}
+
+BLASLONG CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT maxf = 0.0;
+  BLASLONG max = 0;
+
+  if (n <= 0 || inc_x <= 0)
+    return (max);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+
+      max = idmax_kernel_32(n1, x, &maxf);
+
+      i = n1;
+    } else {
+      maxf = x[0];
+      i++;
+    }
+
+    while (i < n) {
+      if (x[i] > maxf) {
+        max = i;
+        maxf = x[i];
+      }
+      i++;
+    }
+    return (max + 1);
+
+  } else {
+
+    max = 0;
+    maxf = x[0];
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (x[i] > maxf) {
+        max = j;
+        maxf = x[i];
+      }
+      if (x[i + inc_x] > maxf) {
+        max = j + 1;
+        maxf = x[i + inc_x];
+      }
+      if (x[i + 2 * inc_x] > maxf) {
+        max = j + 2;
+        maxf = x[i + 2 * inc_x];
+      }
+      if (x[i + 3 * inc_x] > maxf) {
+        max = j + 3;
+        maxf = x[i + 3 * inc_x];
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
+
+    while (j < n) {
+      if (x[i] > maxf) {
+        max = j;
+        maxf = x[i];
+      }
+      i += inc_x;
+      j++;
+    }
+    return (max + 1);
+  }
+}
diff --git a/kernel/zarch/idmin.c b/kernel/zarch/idmin.c
new file mode 100644
index 0000000000..e4b7bb4fe3
--- /dev/null
+++ b/kernel/zarch/idmin.c
@@ -0,0 +1,225 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static BLASLONG idmin_kernel_32(BLASLONG n, FLOAT *x, FLOAT *min) {
+  BLASLONG imin;
+
+  __asm__("vl     %%v0,0(%[x])\n\t"
+    "vleig  %%v1,0,0\n\t"
+    "vleig  %%v1,1,1\n\t"
+    "vrepig %%v2,16\n\t"
+    "vzero  %%v3\n\t"
+    "vleig  %%v24,0,0\n\t"
+    "vleig  %%v24,1,1\n\t"
+    "vleig  %%v25,2,0\n\t"
+    "vleig  %%v25,3,1\n\t"
+    "vleig  %%v26,4,0\n\t"
+    "vleig  %%v26,5,1\n\t"
+    "vleig  %%v27,6,0\n\t"
+    "vleig  %%v27,7,1\n\t"
+    "vleig  %%v28,8,0\n\t"
+    "vleig  %%v28,9,1\n\t"
+    "vleig  %%v29,10,0\n\t"
+    "vleig  %%v29,11,1\n\t"
+    "vleig  %%v30,12,0\n\t"
+    "vleig  %%v30,13,1\n\t"
+    "vleig  %%v31,14,0\n\t"
+    "vleig  %%v31,15,1\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vfchedb  %%v4,%%v17,%%v16\n\t"
+    "vfchedb  %%v5,%%v19,%%v18\n\t"
+    "vfchedb  %%v6,%%v21,%%v20\n\t"
+    "vfchedb  %%v7,%%v23,%%v22\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v4\n\t"
+    "vsel    %%v4,%%v24,%%v25,%%v4\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v5\n\t"
+    "vsel    %%v5,%%v26,%%v27,%%v5\n\t"
+    "vsel    %%v18,%%v20,%%v21,%%v6\n\t"
+    "vsel    %%v6,%%v28,%%v29,%%v6\n\t"
+    "vsel    %%v19,%%v22,%%v23,%%v7\n\t"
+    "vsel    %%v7,%%v30,%%v31,%%v7\n\t"
+    "vfchedb  %%v20,%%v17,%%v16\n\t"
+    "vfchedb  %%v21,%%v19,%%v18\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v20\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v20\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v21\n\t"
+    "vsel    %%v5,%%v6,%%v7,%%v21\n\t"
+    "vfchedb  %%v18,%%v17,%%v16\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v18\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "vfchedb  %%v5,%%v16,%%v0\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v5\n\t"
+    "vsel    %%v1,%%v1,%%v4,%%v5\n\t"
+    "vag     %%v3,%%v3,%%v2\n\t"
+    "vl  %%v16,128(%%r1,%[x])\n\t"
+    "vl  %%v17,144(%%r1,%[x])\n\t"
+    "vl  %%v18,160(%%r1,%[x])\n\t"
+    "vl  %%v19,176(%%r1,%[x])\n\t"
+    "vl  %%v20,192(%%r1,%[x])\n\t"
+    "vl  %%v21,208(%%r1,%[x])\n\t"
+    "vl  %%v22,224(%%r1,%[x])\n\t"
+    "vl  %%v23,240(%%r1,%[x])\n\t"
+    "vfchedb  %%v4,%%v17,%%v16\n\t"
+    "vfchedb  %%v5,%%v19,%%v18\n\t"
+    "vfchedb  %%v6,%%v21,%%v20\n\t"
+    "vfchedb  %%v7,%%v23,%%v22\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v4\n\t"
+    "vsel    %%v4,%%v24,%%v25,%%v4\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v5\n\t"
+    "vsel    %%v5,%%v26,%%v27,%%v5\n\t"
+    "vsel    %%v18,%%v20,%%v21,%%v6\n\t"
+    "vsel    %%v6,%%v28,%%v29,%%v6\n\t"
+    "vsel    %%v19,%%v22,%%v23,%%v7\n\t"
+    "vsel    %%v7,%%v30,%%v31,%%v7\n\t"
+    "vfchedb  %%v20,%%v17,%%v16\n\t"
+    "vfchedb  %%v21,%%v19,%%v18\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v20\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v20\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v21\n\t"
+    "vsel    %%v5,%%v6,%%v7,%%v21\n\t"
+    "vfchedb  %%v18,%%v17,%%v16\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v18\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "vfchedb  %%v5,%%v16,%%v0\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v5\n\t"
+    "vsel    %%v1,%%v1,%%v4,%%v5\n\t"
+    "vag     %%v3,%%v3,%%v2\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "vrepg  %%v2,%%v0,1\n\t"
+    "vrepg  %%v3,%%v1,1\n\t"
+    "wfcdb  %%v2,%%v0\n\t"
+    "jne 1f\n\t"
+    "vsteg  %%v0,%[min],0\n\t"
+    "vmnlg  %%v0,%%v1,%%v3\n\t"
+    "vlgvg  %[imin],%%v0,0\n\t"
+    "j 2f\n\t"
+    "1:\n\t"
+    "wfchdb %%v4,%%v0,%%v2\n\t"
+    "vsel   %%v1,%%v3,%%v1,%%v4\n\t"
+    "vsel   %%v0,%%v2,%%v0,%%v4\n\t"
+    "std    %%f0,%[min]\n\t"
+    "vlgvg  %[imin],%%v1,0\n\t"
+    "2:\n\t"
+    "nop"
+    : [imin] "=r"(imin),[min] "=Q"(*min),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7", "v16",
+       "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
+       "v27", "v28", "v29", "v30", "v31");
+
+  return imin;
+}
+
+BLASLONG CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT minf = 0.0;
+  BLASLONG min = 0;
+
+  if (n <= 0 || inc_x <= 0)
+    return (min);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -32;
+    if (n1 > 0) {
+
+      min = idmin_kernel_32(n1, x, &minf);
+
+      i = n1;
+    } else {
+      minf = x[0];
+      i++;
+    }
+
+    while (i < n) {
+      if (x[i] < minf) {
+        min = i;
+        minf = x[i];
+      }
+      i++;
+    }
+    return (min + 1);
+
+  } else {
+
+    min = 0;
+    minf = x[0];
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (x[i] < minf) {
+        min = j;
+        minf = x[i];
+      }
+      if (x[i + inc_x] < minf) {
+        min = j + 1;
+        minf = x[i + inc_x];
+      }
+      if (x[i + 2 * inc_x] < minf) {
+        min = j + 2;
+        minf = x[i + 2 * inc_x];
+      }
+      if (x[i + 3 * inc_x] < minf) {
+        min = j + 3;
+        minf = x[i + 3 * inc_x];
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
+
+    while (j < n) {
+      if (x[i] < minf) {
+        min = j;
+        minf = x[i];
+      }
+      i += inc_x;
+      j++;
+    }
+    return (min + 1);
+  }
+}
diff --git a/kernel/zarch/isamax.c b/kernel/zarch/isamax.c
new file mode 100644
index 0000000000..ac86435d77
--- /dev/null
+++ b/kernel/zarch/isamax.c
@@ -0,0 +1,289 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+#include <math.h>
+
+#define ABS fabsf
+
+static BLASLONG isamax_kernel_64(BLASLONG n, FLOAT *x, FLOAT *amax) {
+  BLASLONG iamax;
+
+  __asm__("vl     %%v0,0(%[x])\n\t"
+    "vflpsb %%v0,%%v0\n\t"
+    "vleig  %%v1,0,0\n\t"
+    "vleig  %%v1,2,1\n\t"
+    "vleig  %%v2,1,0\n\t"
+    "vleig  %%v2,3,1\n\t"
+    "vrepig %%v3,32\n\t"
+    "vzero  %%v4\n\t"
+    "vleif  %%v24,0,0\n\t"
+    "vleif  %%v24,1,1\n\t"
+    "vleif  %%v24,2,2\n\t"
+    "vleif  %%v24,3,3\n\t"
+    "vleif  %%v25,4,0\n\t"
+    "vleif  %%v25,5,1\n\t"
+    "vleif  %%v25,6,2\n\t"
+    "vleif  %%v25,7,3\n\t"
+    "vleif  %%v26,8,0\n\t"
+    "vleif  %%v26,9,1\n\t"
+    "vleif  %%v26,10,2\n\t"
+    "vleif  %%v26,11,3\n\t"
+    "vleif  %%v27,12,0\n\t"
+    "vleif  %%v27,13,1\n\t"
+    "vleif  %%v27,14,2\n\t"
+    "vleif  %%v27,15,3\n\t"
+    "vleif  %%v28,16,0\n\t"
+    "vleif  %%v28,17,1\n\t"
+    "vleif  %%v28,18,2\n\t"
+    "vleif  %%v28,19,3\n\t"
+    "vleif  %%v29,20,0\n\t"
+    "vleif  %%v29,21,1\n\t"
+    "vleif  %%v29,22,2\n\t"
+    "vleif  %%v29,23,3\n\t"
+    "vleif  %%v30,24,0\n\t"
+    "vleif  %%v30,25,1\n\t"
+    "vleif  %%v30,26,2\n\t"
+    "vleif  %%v30,27,3\n\t"
+    "vleif  %%v31,28,0\n\t"
+    "vleif  %%v31,29,1\n\t"
+    "vleif  %%v31,30,2\n\t"
+    "vleif  %%v31,31,3\n\t"
+    "srlg  %[n],%[n],6\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vflpsb  %%v16, %%v16\n\t"
+    "vflpsb  %%v17, %%v17\n\t"
+    "vflpsb  %%v18, %%v18\n\t"
+    "vflpsb  %%v19, %%v19\n\t"
+    "vflpsb  %%v20, %%v20\n\t"
+    "vflpsb  %%v21, %%v21\n\t"
+    "vflpsb  %%v22, %%v22\n\t"
+    "vflpsb  %%v23, %%v23\n\t"
+    "vfchesb  %%v5,%%v16,%%v17\n\t"
+    "vfchesb  %%v6,%%v18,%%v19\n\t"
+    "vfchesb  %%v7,%%v20,%%v21\n\t"
+    "vfchesb  %%v8,%%v22,%%v23\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v5\n\t"
+    "vsel    %%v5,%%v24,%%v25,%%v5\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v6\n\t"
+    "vsel    %%v6,%%v26,%%v27,%%v6\n\t"
+    "vsel    %%v18,%%v20,%%v21,%%v7\n\t"
+    "vsel    %%v7,%%v28,%%v29,%%v7\n\t"
+    "vsel    %%v19,%%v22,%%v23,%%v8\n\t"
+    "vsel    %%v8,%%v30,%%v31,%%v8\n\t"
+    "vfchesb  %%v20,%%v16,%%v17\n\t"
+    "vfchesb  %%v21,%%v18,%%v19\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v20\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v20\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v21\n\t"
+    "vsel    %%v6,%%v7,%%v8,%%v21\n\t"
+    "vfchesb  %%v18,%%v16,%%v17\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v18\n\t"
+    "vsegf   %%v6,%%v5\n\t"
+    "vesrlg  %%v5,%%v5,32\n\t"
+    "vag     %%v5,%%v5,%%v4\n\t"
+    "vag     %%v6,%%v6,%%v4\n\t"
+    "vfchesb  %%v7,%%v0,%%v16\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v7\n\t"
+    "vsegf   %%v8,%%v7\n\t"
+    "vesrlg  %%v7,%%v7,32\n\t"
+    "vsegf   %%v7,%%v7\n\t"
+    "vsel    %%v1,%%v1,%%v5,%%v7\n\t"
+    "vsel    %%v2,%%v2,%%v6,%%v8\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "vl  %%v16,128(%%r1,%[x])\n\t"
+    "vl  %%v17,144(%%r1,%[x])\n\t"
+    "vl  %%v18,160(%%r1,%[x])\n\t"
+    "vl  %%v19,176(%%r1,%[x])\n\t"
+    "vl  %%v20,192(%%r1,%[x])\n\t"
+    "vl  %%v21,208(%%r1,%[x])\n\t"
+    "vl  %%v22,224(%%r1,%[x])\n\t"
+    "vl  %%v23,240(%%r1,%[x])\n\t"
+    "vflpsb  %%v16, %%v16\n\t"
+    "vflpsb  %%v17, %%v17\n\t"
+    "vflpsb  %%v18, %%v18\n\t"
+    "vflpsb  %%v19, %%v19\n\t"
+    "vflpsb  %%v20, %%v20\n\t"
+    "vflpsb  %%v21, %%v21\n\t"
+    "vflpsb  %%v22, %%v22\n\t"
+    "vflpsb  %%v23, %%v23\n\t"
+    "vfchesb  %%v5,%%v16,%%v17\n\t"
+    "vfchesb  %%v6,%%v18,%%v19\n\t"
+    "vfchesb  %%v7,%%v20,%%v21\n\t"
+    "vfchesb  %%v8,%%v22,%%v23\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v5\n\t"
+    "vsel    %%v5,%%v24,%%v25,%%v5\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v6\n\t"
+    "vsel    %%v6,%%v26,%%v27,%%v6\n\t"
+    "vsel    %%v18,%%v20,%%v21,%%v7\n\t"
+    "vsel    %%v7,%%v28,%%v29,%%v7\n\t"
+    "vsel    %%v19,%%v22,%%v23,%%v8\n\t"
+    "vsel    %%v8,%%v30,%%v31,%%v8\n\t"
+    "vfchesb  %%v20,%%v16,%%v17\n\t"
+    "vfchesb  %%v21,%%v18,%%v19\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v20\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v20\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v21\n\t"
+    "vsel    %%v6,%%v7,%%v8,%%v21\n\t"
+    "vfchesb  %%v18,%%v16,%%v17\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v18\n\t"
+    "vsegf   %%v6,%%v5\n\t"
+    "vesrlg  %%v5,%%v5,32\n\t"
+    "vag     %%v5,%%v5,%%v4\n\t"
+    "vag     %%v6,%%v6,%%v4\n\t"
+    "vfchesb  %%v7,%%v0,%%v16\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v7\n\t"
+    "vsegf   %%v8,%%v7\n\t"
+    "vesrlg  %%v7,%%v7,32\n\t"
+    "vsegf   %%v7,%%v7\n\t"
+    "vsel    %%v1,%%v1,%%v5,%%v7\n\t"
+    "vsel    %%v2,%%v2,%%v6,%%v8\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "veslg   %%v3,%%v0,32\n\t"
+    "vfchsb  %%v4,%%v0,%%v3\n\t"
+    "vchlg   %%v5,%%v2,%%v1\n\t"
+    "vfcesb  %%v6,%%v0,%%v3\n\t"
+    "vn      %%v5,%%v5,%%v6\n\t"
+    "vo      %%v4,%%v4,%%v5\n\t"
+    "vsel    %%v0,%%v0,%%v3,%%v4\n\t"
+    "vesrlg  %%v4,%%v4,32\n\t"
+    "vsegf   %%v4,%%v4\n\t"
+    "vsel    %%v1,%%v1,%%v2,%%v4\n\t"
+    "vrepf  %%v2,%%v0,2\n\t"
+    "vrepg  %%v3,%%v1,1\n\t"
+    "wfcsb  %%v2,%%v0\n\t"
+    "jne 1f\n\t"
+    "vstef  %%v0,%[amax],0\n\t"
+    "vmnlg  %%v0,%%v1,%%v3\n\t"
+    "vlgvg  %[iamax],%%v0,0\n\t"
+    "j 2f\n\t"
+    "1:\n\t"
+    "wfchsb %%v4,%%v2,%%v0\n\t"
+    "vesrlg %%v4,%%v4,32\n\t"
+    "vsegf  %%v4,%%v4\n\t"
+    "vsel   %%v1,%%v3,%%v1,%%v4\n\t"
+    "vsel   %%v0,%%v2,%%v0,%%v4\n\t"
+    "ste    %%f0,%[amax]\n\t"
+    "vlgvg  %[iamax],%%v1,0\n\t"
+    "2:\n\t"
+    "nop"
+    : [iamax] "=r"(iamax),[amax] "=Q"(*amax),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v2", "v4", "v5", "v6", "v7", "v8", "v16",
+       "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
+       "v27", "v28", "v29", "v30", "v31");
+
+  return iamax;
+}
+
+BLASLONG CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT maxf = 0.0;
+  BLASLONG max = 0;
+
+  if (n <= 0 || inc_x <= 0)
+    return (max);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -64;
+    if (n1 > 0) {
+
+      max = isamax_kernel_64(n1, x, &maxf);
+
+      i = n1;
+    } else {
+      maxf = ABS(x[0]);
+      i++;
+    }
+
+    while (i < n) {
+      if (ABS(x[i]) > maxf) {
+        max = i;
+        maxf = ABS(x[i]);
+      }
+      i++;
+    }
+    return (max + 1);
+
+  } else {
+
+    max = 0;
+    maxf = ABS(x[0]);
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (ABS(x[i]) > maxf) {
+        max = j;
+        maxf = ABS(x[i]);
+      }
+      if (ABS(x[i + inc_x]) > maxf) {
+        max = j + 1;
+        maxf = ABS(x[i + inc_x]);
+      }
+      if (ABS(x[i + 2 * inc_x]) > maxf) {
+        max = j + 2;
+        maxf = ABS(x[i + 2 * inc_x]);
+      }
+      if (ABS(x[i + 3 * inc_x]) > maxf) {
+        max = j + 3;
+        maxf = ABS(x[i + 3 * inc_x]);
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
+
+    while (j < n) {
+      if (ABS(x[i]) > maxf) {
+        max = j;
+        maxf = ABS(x[i]);
+      }
+      i += inc_x;
+      j++;
+    }
+    return (max + 1);
+  }
+}
diff --git a/kernel/zarch/isamin.c b/kernel/zarch/isamin.c
new file mode 100644
index 0000000000..3f2d039eb9
--- /dev/null
+++ b/kernel/zarch/isamin.c
@@ -0,0 +1,289 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+#include <math.h>
+
+#define ABS fabsf
+
+static BLASLONG isamin_kernel_64(BLASLONG n, FLOAT *x, FLOAT *amin) {
+  BLASLONG iamin;
+
+  __asm__("vl     %%v0,0(%[x])\n\t"
+    "vflpsb %%v0,%%v0\n\t"
+    "vleig  %%v1,0,0\n\t"
+    "vleig  %%v1,2,1\n\t"
+    "vleig  %%v2,1,0\n\t"
+    "vleig  %%v2,3,1\n\t"
+    "vrepig %%v3,32\n\t"
+    "vzero  %%v4\n\t"
+    "vleif  %%v24,0,0\n\t"
+    "vleif  %%v24,1,1\n\t"
+    "vleif  %%v24,2,2\n\t"
+    "vleif  %%v24,3,3\n\t"
+    "vleif  %%v25,4,0\n\t"
+    "vleif  %%v25,5,1\n\t"
+    "vleif  %%v25,6,2\n\t"
+    "vleif  %%v25,7,3\n\t"
+    "vleif  %%v26,8,0\n\t"
+    "vleif  %%v26,9,1\n\t"
+    "vleif  %%v26,10,2\n\t"
+    "vleif  %%v26,11,3\n\t"
+    "vleif  %%v27,12,0\n\t"
+    "vleif  %%v27,13,1\n\t"
+    "vleif  %%v27,14,2\n\t"
+    "vleif  %%v27,15,3\n\t"
+    "vleif  %%v28,16,0\n\t"
+    "vleif  %%v28,17,1\n\t"
+    "vleif  %%v28,18,2\n\t"
+    "vleif  %%v28,19,3\n\t"
+    "vleif  %%v29,20,0\n\t"
+    "vleif  %%v29,21,1\n\t"
+    "vleif  %%v29,22,2\n\t"
+    "vleif  %%v29,23,3\n\t"
+    "vleif  %%v30,24,0\n\t"
+    "vleif  %%v30,25,1\n\t"
+    "vleif  %%v30,26,2\n\t"
+    "vleif  %%v30,27,3\n\t"
+    "vleif  %%v31,28,0\n\t"
+    "vleif  %%v31,29,1\n\t"
+    "vleif  %%v31,30,2\n\t"
+    "vleif  %%v31,31,3\n\t"
+    "srlg  %[n],%[n],6\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vflpsb  %%v16, %%v16\n\t"
+    "vflpsb  %%v17, %%v17\n\t"
+    "vflpsb  %%v18, %%v18\n\t"
+    "vflpsb  %%v19, %%v19\n\t"
+    "vflpsb  %%v20, %%v20\n\t"
+    "vflpsb  %%v21, %%v21\n\t"
+    "vflpsb  %%v22, %%v22\n\t"
+    "vflpsb  %%v23, %%v23\n\t"
+    "vfchesb  %%v5,%%v17,%%v16\n\t"
+    "vfchesb  %%v6,%%v19,%%v18\n\t"
+    "vfchesb  %%v7,%%v21,%%v20\n\t"
+    "vfchesb  %%v8,%%v23,%%v22\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v5\n\t"
+    "vsel    %%v5,%%v24,%%v25,%%v5\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v6\n\t"
+    "vsel    %%v6,%%v26,%%v27,%%v6\n\t"
+    "vsel    %%v18,%%v20,%%v21,%%v7\n\t"
+    "vsel    %%v7,%%v28,%%v29,%%v7\n\t"
+    "vsel    %%v19,%%v22,%%v23,%%v8\n\t"
+    "vsel    %%v8,%%v30,%%v31,%%v8\n\t"
+    "vfchesb  %%v20,%%v17,%%v16\n\t"
+    "vfchesb  %%v21,%%v19,%%v18\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v20\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v20\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v21\n\t"
+    "vsel    %%v6,%%v7,%%v8,%%v21\n\t"
+    "vfchesb  %%v18,%%v17,%%v16\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v18\n\t"
+    "vsegf   %%v6,%%v5\n\t"
+    "vesrlg  %%v5,%%v5,32\n\t"
+    "vag     %%v5,%%v5,%%v4\n\t"
+    "vag     %%v6,%%v6,%%v4\n\t"
+    "vfchesb  %%v7,%%v16,%%v0\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v7\n\t"
+    "vsegf   %%v8,%%v7\n\t"
+    "vesrlg  %%v7,%%v7,32\n\t"
+    "vsegf   %%v7,%%v7\n\t"
+    "vsel    %%v1,%%v1,%%v5,%%v7\n\t"
+    "vsel    %%v2,%%v2,%%v6,%%v8\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "vl  %%v16,128(%%r1,%[x])\n\t"
+    "vl  %%v17,144(%%r1,%[x])\n\t"
+    "vl  %%v18,160(%%r1,%[x])\n\t"
+    "vl  %%v19,176(%%r1,%[x])\n\t"
+    "vl  %%v20,192(%%r1,%[x])\n\t"
+    "vl  %%v21,208(%%r1,%[x])\n\t"
+    "vl  %%v22,224(%%r1,%[x])\n\t"
+    "vl  %%v23,240(%%r1,%[x])\n\t"
+    "vflpsb  %%v16, %%v16\n\t"
+    "vflpsb  %%v17, %%v17\n\t"
+    "vflpsb  %%v18, %%v18\n\t"
+    "vflpsb  %%v19, %%v19\n\t"
+    "vflpsb  %%v20, %%v20\n\t"
+    "vflpsb  %%v21, %%v21\n\t"
+    "vflpsb  %%v22, %%v22\n\t"
+    "vflpsb  %%v23, %%v23\n\t"
+    "vfchesb  %%v5,%%v17,%%v16\n\t"
+    "vfchesb  %%v6,%%v19,%%v18\n\t"
+    "vfchesb  %%v7,%%v21,%%v20\n\t"
+    "vfchesb  %%v8,%%v23,%%v22\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v5\n\t"
+    "vsel    %%v5,%%v24,%%v25,%%v5\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v6\n\t"
+    "vsel    %%v6,%%v26,%%v27,%%v6\n\t"
+    "vsel    %%v18,%%v20,%%v21,%%v7\n\t"
+    "vsel    %%v7,%%v28,%%v29,%%v7\n\t"
+    "vsel    %%v19,%%v22,%%v23,%%v8\n\t"
+    "vsel    %%v8,%%v30,%%v31,%%v8\n\t"
+    "vfchesb  %%v20,%%v17,%%v16\n\t"
+    "vfchesb  %%v21,%%v19,%%v18\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v20\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v20\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v21\n\t"
+    "vsel    %%v6,%%v7,%%v8,%%v21\n\t"
+    "vfchesb  %%v18,%%v17,%%v16\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v18\n\t"
+    "vsegf   %%v6,%%v5\n\t"
+    "vesrlg  %%v5,%%v5,32\n\t"
+    "vag     %%v5,%%v5,%%v4\n\t"
+    "vag     %%v6,%%v6,%%v4\n\t"
+    "vfchesb  %%v7,%%v16,%%v0\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v7\n\t"
+    "vsegf   %%v8,%%v7\n\t"
+    "vesrlg  %%v7,%%v7,32\n\t"
+    "vsegf   %%v7,%%v7\n\t"
+    "vsel    %%v1,%%v1,%%v5,%%v7\n\t"
+    "vsel    %%v2,%%v2,%%v6,%%v8\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "veslg   %%v3,%%v0,32\n\t"
+    "vfchsb  %%v4,%%v3,%%v0\n\t"
+    "vchlg   %%v5,%%v2,%%v1\n\t"
+    "vfcesb  %%v6,%%v0,%%v3\n\t"
+    "vn      %%v5,%%v5,%%v6\n\t"
+    "vo      %%v4,%%v4,%%v5\n\t"
+    "vsel    %%v0,%%v0,%%v3,%%v4\n\t"
+    "vesrlg  %%v4,%%v4,32\n\t"
+    "vsegf   %%v4,%%v4\n\t"
+    "vsel    %%v1,%%v1,%%v2,%%v4\n\t"
+    "vrepf  %%v2,%%v0,2\n\t"
+    "vrepg  %%v3,%%v1,1\n\t"
+    "wfcsb  %%v2,%%v0\n\t"
+    "jne 1f\n\t"
+    "vstef  %%v0,%[amin],0\n\t"
+    "vmnlg  %%v0,%%v1,%%v3\n\t"
+    "vlgvg  %[iamin],%%v0,0\n\t"
+    "j 2f\n\t"
+    "1:\n\t"
+    "wfchsb %%v4,%%v0,%%v2\n\t"
+    "vesrlg %%v4,%%v4,32\n\t"
+    "vsegf  %%v4,%%v4\n\t"
+    "vsel   %%v1,%%v3,%%v1,%%v4\n\t"
+    "vsel   %%v0,%%v2,%%v0,%%v4\n\t"
+    "ste    %%f0,%[amin]\n\t"
+    "vlgvg  %[iamin],%%v1,0\n\t"
+    "2:\n\t"
+    "nop"
+    : [iamin] "=r"(iamin),[amin] "=Q"(*amin),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v2", "v4", "v5", "v6", "v7", "v8", "v16",
+       "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
+       "v27", "v28", "v29", "v30", "v31");
+
+  return iamin;
+}
+
+BLASLONG CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT minf = 0.0;
+  BLASLONG min = 0;
+
+  if (n <= 0 || inc_x <= 0)
+    return (min);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -64;
+    if (n1 > 0) {
+
+      min = isamin_kernel_64(n1, x, &minf);
+
+      i = n1;
+    } else {
+      minf = ABS(x[0]);
+      i++;
+    }
+
+    while (i < n) {
+      if (ABS(x[i]) < minf) {
+        min = i;
+        minf = ABS(x[i]);
+      }
+      i++;
+    }
+    return (min + 1);
+
+  } else {
+
+    min = 0;
+    minf = ABS(x[0]);
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (ABS(x[i]) < minf) {
+        min = j;
+        minf = ABS(x[i]);
+      }
+      if (ABS(x[i + inc_x]) < minf) {
+        min = j + 1;
+        minf = ABS(x[i + inc_x]);
+      }
+      if (ABS(x[i + 2 * inc_x]) < minf) {
+        min = j + 2;
+        minf = ABS(x[i + 2 * inc_x]);
+      }
+      if (ABS(x[i + 3 * inc_x]) < minf) {
+        min = j + 3;
+        minf = ABS(x[i + 3 * inc_x]);
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
+
+    while (j < n) {
+      if (ABS(x[i]) < minf) {
+        min = j;
+        minf = ABS(x[i]);
+      }
+      i += inc_x;
+      j++;
+    }
+    return (min + 1);
+  }
+}
diff --git a/kernel/zarch/ismax.c b/kernel/zarch/ismax.c
new file mode 100644
index 0000000000..41172c1bd3
--- /dev/null
+++ b/kernel/zarch/ismax.c
@@ -0,0 +1,269 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static BLASLONG ismax_kernel_64(BLASLONG n, FLOAT *x, FLOAT *max) {
+  BLASLONG imax;
+
+  __asm__("vl     %%v0,0(%[x])\n\t"
+    "vleig  %%v1,0,0\n\t"
+    "vleig  %%v1,2,1\n\t"
+    "vleig  %%v2,1,0\n\t"
+    "vleig  %%v2,3,1\n\t"
+    "vrepig %%v3,32\n\t"
+    "vzero  %%v4\n\t"
+    "vleif  %%v24,0,0\n\t"
+    "vleif  %%v24,1,1\n\t"
+    "vleif  %%v24,2,2\n\t"
+    "vleif  %%v24,3,3\n\t"
+    "vleif  %%v25,4,0\n\t"
+    "vleif  %%v25,5,1\n\t"
+    "vleif  %%v25,6,2\n\t"
+    "vleif  %%v25,7,3\n\t"
+    "vleif  %%v26,8,0\n\t"
+    "vleif  %%v26,9,1\n\t"
+    "vleif  %%v26,10,2\n\t"
+    "vleif  %%v26,11,3\n\t"
+    "vleif  %%v27,12,0\n\t"
+    "vleif  %%v27,13,1\n\t"
+    "vleif  %%v27,14,2\n\t"
+    "vleif  %%v27,15,3\n\t"
+    "vleif  %%v28,16,0\n\t"
+    "vleif  %%v28,17,1\n\t"
+    "vleif  %%v28,18,2\n\t"
+    "vleif  %%v28,19,3\n\t"
+    "vleif  %%v29,20,0\n\t"
+    "vleif  %%v29,21,1\n\t"
+    "vleif  %%v29,22,2\n\t"
+    "vleif  %%v29,23,3\n\t"
+    "vleif  %%v30,24,0\n\t"
+    "vleif  %%v30,25,1\n\t"
+    "vleif  %%v30,26,2\n\t"
+    "vleif  %%v30,27,3\n\t"
+    "vleif  %%v31,28,0\n\t"
+    "vleif  %%v31,29,1\n\t"
+    "vleif  %%v31,30,2\n\t"
+    "vleif  %%v31,31,3\n\t"
+    "srlg  %[n],%[n],6\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vfchesb  %%v5,%%v16,%%v17\n\t"
+    "vfchesb  %%v6,%%v18,%%v19\n\t"
+    "vfchesb  %%v7,%%v20,%%v21\n\t"
+    "vfchesb  %%v8,%%v22,%%v23\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v5\n\t"
+    "vsel    %%v5,%%v24,%%v25,%%v5\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v6\n\t"
+    "vsel    %%v6,%%v26,%%v27,%%v6\n\t"
+    "vsel    %%v18,%%v20,%%v21,%%v7\n\t"
+    "vsel    %%v7,%%v28,%%v29,%%v7\n\t"
+    "vsel    %%v19,%%v22,%%v23,%%v8\n\t"
+    "vsel    %%v8,%%v30,%%v31,%%v8\n\t"
+    "vfchesb  %%v20,%%v16,%%v17\n\t"
+    "vfchesb  %%v21,%%v18,%%v19\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v20\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v20\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v21\n\t"
+    "vsel    %%v6,%%v7,%%v8,%%v21\n\t"
+    "vfchesb  %%v18,%%v16,%%v17\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v18\n\t"
+    "vsegf   %%v6,%%v5\n\t"
+    "vesrlg  %%v5,%%v5,32\n\t"
+    "vag     %%v5,%%v5,%%v4\n\t"
+    "vag     %%v6,%%v6,%%v4\n\t"
+    "vfchesb  %%v7,%%v0,%%v16\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v7\n\t"
+    "vsegf   %%v8,%%v7\n\t"
+    "vesrlg  %%v7,%%v7,32\n\t"
+    "vsegf   %%v7,%%v7\n\t"
+    "vsel    %%v1,%%v1,%%v5,%%v7\n\t"
+    "vsel    %%v2,%%v2,%%v6,%%v8\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "vl  %%v16,128(%%r1,%[x])\n\t"
+    "vl  %%v17,144(%%r1,%[x])\n\t"
+    "vl  %%v18,160(%%r1,%[x])\n\t"
+    "vl  %%v19,176(%%r1,%[x])\n\t"
+    "vl  %%v20,192(%%r1,%[x])\n\t"
+    "vl  %%v21,208(%%r1,%[x])\n\t"
+    "vl  %%v22,224(%%r1,%[x])\n\t"
+    "vl  %%v23,240(%%r1,%[x])\n\t"
+    "vfchesb  %%v5,%%v16,%%v17\n\t"
+    "vfchesb  %%v6,%%v18,%%v19\n\t"
+    "vfchesb  %%v7,%%v20,%%v21\n\t"
+    "vfchesb  %%v8,%%v22,%%v23\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v5\n\t"
+    "vsel    %%v5,%%v24,%%v25,%%v5\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v6\n\t"
+    "vsel    %%v6,%%v26,%%v27,%%v6\n\t"
+    "vsel    %%v18,%%v20,%%v21,%%v7\n\t"
+    "vsel    %%v7,%%v28,%%v29,%%v7\n\t"
+    "vsel    %%v19,%%v22,%%v23,%%v8\n\t"
+    "vsel    %%v8,%%v30,%%v31,%%v8\n\t"
+    "vfchesb  %%v20,%%v16,%%v17\n\t"
+    "vfchesb  %%v21,%%v18,%%v19\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v20\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v20\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v21\n\t"
+    "vsel    %%v6,%%v7,%%v8,%%v21\n\t"
+    "vfchesb  %%v18,%%v16,%%v17\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v18\n\t"
+    "vsegf   %%v6,%%v5\n\t"
+    "vesrlg  %%v5,%%v5,32\n\t"
+    "vag     %%v5,%%v5,%%v4\n\t"
+    "vag     %%v6,%%v6,%%v4\n\t"
+    "vfchesb  %%v7,%%v0,%%v16\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v7\n\t"
+    "vsegf   %%v8,%%v7\n\t"
+    "vesrlg  %%v7,%%v7,32\n\t"
+    "vsegf   %%v7,%%v7\n\t"
+    "vsel    %%v1,%%v1,%%v5,%%v7\n\t"
+    "vsel    %%v2,%%v2,%%v6,%%v8\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "veslg   %%v3,%%v0,32\n\t"
+    "vfchsb  %%v4,%%v0,%%v3\n\t"
+    "vchlg   %%v5,%%v2,%%v1\n\t"
+    "vfcesb  %%v6,%%v0,%%v3\n\t"
+    "vn      %%v5,%%v5,%%v6\n\t"
+    "vo      %%v4,%%v4,%%v5\n\t"
+    "vsel    %%v0,%%v0,%%v3,%%v4\n\t"
+    "vesrlg  %%v4,%%v4,32\n\t"
+    "vsegf   %%v4,%%v4\n\t"
+    "vsel    %%v1,%%v1,%%v2,%%v4\n\t"
+    "vrepf  %%v2,%%v0,2\n\t"
+    "vrepg  %%v3,%%v1,1\n\t"
+    "wfcsb  %%v2,%%v0\n\t"
+    "jne 1f\n\t"
+    "vstef  %%v0,%[max],0\n\t"
+    "vmnlg  %%v0,%%v1,%%v3\n\t"
+    "vlgvg  %[imax],%%v0,0\n\t"
+    "j 2f\n\t"
+    "1:\n\t"
+    "wfchsb %%v4,%%v2,%%v0\n\t"
+    "vesrlg %%v4,%%v4,32\n\t"
+    "vsegf  %%v4,%%v4\n\t"
+    "vsel   %%v1,%%v3,%%v1,%%v4\n\t"
+    "vsel   %%v0,%%v2,%%v0,%%v4\n\t"
+    "ste    %%f0,%[max]\n\t"
+    "vlgvg  %[imax],%%v1,0\n\t"
+    "2:\n\t"
+    "nop"
+    : [imax] "=r"(imax),[max] "=Q"(*max),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v2", "v4", "v5", "v6", "v7", "v8", "v16",
+       "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
+       "v27", "v28", "v29", "v30", "v31");
+
+  return imax;
+}
+
+BLASLONG CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT maxf = 0.0;
+  BLASLONG max = 0;
+
+  if (n <= 0 || inc_x <= 0)
+    return (max);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -64;
+    if (n1 > 0) {
+
+      max = ismax_kernel_64(n1, x, &maxf);
+
+      i = n1;
+    } else {
+      maxf = x[0];
+      i++;
+    }
+
+    while (i < n) {
+      if (x[i] > maxf) {
+        max = i;
+        maxf = x[i];
+      }
+      i++;
+    }
+    return (max + 1);
+
+  } else {
+
+    max = 0;
+    maxf = x[0];
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (x[i] > maxf) {
+        max = j;
+        maxf = x[i];
+      }
+      if (x[i + inc_x] > maxf) {
+        max = j + 1;
+        maxf = x[i + inc_x];
+      }
+      if (x[i + 2 * inc_x] > maxf) {
+        max = j + 2;
+        maxf = x[i + 2 * inc_x];
+      }
+      if (x[i + 3 * inc_x] > maxf) {
+        max = j + 3;
+        maxf = x[i + 3 * inc_x];
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
+
+    while (j < n) {
+      if (x[i] > maxf) {
+        max = j;
+        maxf = x[i];
+      }
+      i += inc_x;
+      j++;
+    }
+    return (max + 1);
+  }
+}
diff --git a/kernel/zarch/ismin.c b/kernel/zarch/ismin.c
new file mode 100644
index 0000000000..e2684df416
--- /dev/null
+++ b/kernel/zarch/ismin.c
@@ -0,0 +1,269 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static BLASLONG ismin_kernel_64(BLASLONG n, FLOAT *x, FLOAT *min) {
+  BLASLONG imin;
+
+  __asm__("vl     %%v0,0(%[x])\n\t"
+    "vleig  %%v1,0,0\n\t"
+    "vleig  %%v1,2,1\n\t"
+    "vleig  %%v2,1,0\n\t"
+    "vleig  %%v2,3,1\n\t"
+    "vrepig %%v3,32\n\t"
+    "vzero  %%v4\n\t"
+    "vleif  %%v24,0,0\n\t"
+    "vleif  %%v24,1,1\n\t"
+    "vleif  %%v24,2,2\n\t"
+    "vleif  %%v24,3,3\n\t"
+    "vleif  %%v25,4,0\n\t"
+    "vleif  %%v25,5,1\n\t"
+    "vleif  %%v25,6,2\n\t"
+    "vleif  %%v25,7,3\n\t"
+    "vleif  %%v26,8,0\n\t"
+    "vleif  %%v26,9,1\n\t"
+    "vleif  %%v26,10,2\n\t"
+    "vleif  %%v26,11,3\n\t"
+    "vleif  %%v27,12,0\n\t"
+    "vleif  %%v27,13,1\n\t"
+    "vleif  %%v27,14,2\n\t"
+    "vleif  %%v27,15,3\n\t"
+    "vleif  %%v28,16,0\n\t"
+    "vleif  %%v28,17,1\n\t"
+    "vleif  %%v28,18,2\n\t"
+    "vleif  %%v28,19,3\n\t"
+    "vleif  %%v29,20,0\n\t"
+    "vleif  %%v29,21,1\n\t"
+    "vleif  %%v29,22,2\n\t"
+    "vleif  %%v29,23,3\n\t"
+    "vleif  %%v30,24,0\n\t"
+    "vleif  %%v30,25,1\n\t"
+    "vleif  %%v30,26,2\n\t"
+    "vleif  %%v30,27,3\n\t"
+    "vleif  %%v31,28,0\n\t"
+    "vleif  %%v31,29,1\n\t"
+    "vleif  %%v31,30,2\n\t"
+    "vleif  %%v31,31,3\n\t"
+    "srlg  %[n],%[n],6\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vfchesb  %%v5,%%v17,%%v16\n\t"
+    "vfchesb  %%v6,%%v19,%%v18\n\t"
+    "vfchesb  %%v7,%%v21,%%v20\n\t"
+    "vfchesb  %%v8,%%v23,%%v22\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v5\n\t"
+    "vsel    %%v5,%%v24,%%v25,%%v5\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v6\n\t"
+    "vsel    %%v6,%%v26,%%v27,%%v6\n\t"
+    "vsel    %%v18,%%v20,%%v21,%%v7\n\t"
+    "vsel    %%v7,%%v28,%%v29,%%v7\n\t"
+    "vsel    %%v19,%%v22,%%v23,%%v8\n\t"
+    "vsel    %%v8,%%v30,%%v31,%%v8\n\t"
+    "vfchesb  %%v20,%%v17,%%v16\n\t"
+    "vfchesb  %%v21,%%v19,%%v18\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v20\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v20\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v21\n\t"
+    "vsel    %%v6,%%v7,%%v8,%%v21\n\t"
+    "vfchesb  %%v18,%%v17,%%v16\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v18\n\t"
+    "vsegf   %%v6,%%v5\n\t"
+    "vesrlg  %%v5,%%v5,32\n\t"
+    "vag     %%v5,%%v5,%%v4\n\t"
+    "vag     %%v6,%%v6,%%v4\n\t"
+    "vfchesb  %%v7,%%v16,%%v0\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v7\n\t"
+    "vsegf   %%v8,%%v7\n\t"
+    "vesrlg  %%v7,%%v7,32\n\t"
+    "vsegf   %%v7,%%v7\n\t"
+    "vsel    %%v1,%%v1,%%v5,%%v7\n\t"
+    "vsel    %%v2,%%v2,%%v6,%%v8\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "vl  %%v16,128(%%r1,%[x])\n\t"
+    "vl  %%v17,144(%%r1,%[x])\n\t"
+    "vl  %%v18,160(%%r1,%[x])\n\t"
+    "vl  %%v19,176(%%r1,%[x])\n\t"
+    "vl  %%v20,192(%%r1,%[x])\n\t"
+    "vl  %%v21,208(%%r1,%[x])\n\t"
+    "vl  %%v22,224(%%r1,%[x])\n\t"
+    "vl  %%v23,240(%%r1,%[x])\n\t"
+    "vfchesb  %%v5,%%v17,%%v16\n\t"
+    "vfchesb  %%v6,%%v19,%%v18\n\t"
+    "vfchesb  %%v7,%%v21,%%v20\n\t"
+    "vfchesb  %%v8,%%v23,%%v22\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v5\n\t"
+    "vsel    %%v5,%%v24,%%v25,%%v5\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v6\n\t"
+    "vsel    %%v6,%%v26,%%v27,%%v6\n\t"
+    "vsel    %%v18,%%v20,%%v21,%%v7\n\t"
+    "vsel    %%v7,%%v28,%%v29,%%v7\n\t"
+    "vsel    %%v19,%%v22,%%v23,%%v8\n\t"
+    "vsel    %%v8,%%v30,%%v31,%%v8\n\t"
+    "vfchesb  %%v20,%%v17,%%v16\n\t"
+    "vfchesb  %%v21,%%v19,%%v18\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v20\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v20\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v21\n\t"
+    "vsel    %%v6,%%v7,%%v8,%%v21\n\t"
+    "vfchesb  %%v18,%%v17,%%v16\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v5,%%v5,%%v6,%%v18\n\t"
+    "vsegf   %%v6,%%v5\n\t"
+    "vesrlg  %%v5,%%v5,32\n\t"
+    "vag     %%v5,%%v5,%%v4\n\t"
+    "vag     %%v6,%%v6,%%v4\n\t"
+    "vfchesb  %%v7,%%v16,%%v0\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v7\n\t"
+    "vsegf   %%v8,%%v7\n\t"
+    "vesrlg  %%v7,%%v7,32\n\t"
+    "vsegf   %%v7,%%v7\n\t"
+    "vsel    %%v1,%%v1,%%v5,%%v7\n\t"
+    "vsel    %%v2,%%v2,%%v6,%%v8\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "veslg   %%v3,%%v0,32\n\t"
+    "vfchsb  %%v4,%%v3,%%v0\n\t"
+    "vchlg   %%v5,%%v2,%%v1\n\t"
+    "vfcesb  %%v6,%%v0,%%v3\n\t"
+    "vn      %%v5,%%v5,%%v6\n\t"
+    "vo      %%v4,%%v4,%%v5\n\t"
+    "vsel    %%v0,%%v0,%%v3,%%v4\n\t"
+    "vesrlg  %%v4,%%v4,32\n\t"
+    "vsegf   %%v4,%%v4\n\t"
+    "vsel    %%v1,%%v1,%%v2,%%v4\n\t"
+    "vrepf  %%v2,%%v0,2\n\t"
+    "vrepg  %%v3,%%v1,1\n\t"
+    "wfcsb  %%v2,%%v0\n\t"
+    "jne 1f\n\t"
+    "vstef  %%v0,%[min],0\n\t"
+    "vmnlg  %%v0,%%v1,%%v3\n\t"
+    "vlgvg  %[imin],%%v0,0\n\t"
+    "j 2f\n\t"
+    "1:\n\t"
+    "wfchsb %%v4,%%v0,%%v2\n\t"
+    "vesrlg %%v4,%%v4,32\n\t"
+    "vsegf  %%v4,%%v4\n\t"
+    "vsel   %%v1,%%v3,%%v1,%%v4\n\t"
+    "vsel   %%v0,%%v2,%%v0,%%v4\n\t"
+    "ste    %%f0,%[min]\n\t"
+    "vlgvg  %[imin],%%v1,0\n\t"
+    "2:\n\t"
+    "nop"
+    : [imin] "=r"(imin),[min] "=Q"(*min),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v2", "v4", "v5", "v6", "v7", "v8", "v16",
+       "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
+       "v27", "v28", "v29", "v30", "v31");
+
+  return imin;
+}
+
+BLASLONG CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT minf = 0.0;
+  BLASLONG min = 0;
+
+  if (n <= 0 || inc_x <= 0)
+    return (min);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -64;
+    if (n1 > 0) {
+
+      min = ismin_kernel_64(n1, x, &minf);
+
+      i = n1;
+    } else {
+      minf = x[0];
+      i++;
+    }
+
+    while (i < n) {
+      if (x[i] < minf) {
+        min = i;
+        minf = x[i];
+      }
+      i++;
+    }
+    return (min + 1);
+
+  } else {
+
+    min = 0;
+    minf = x[0];
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (x[i] < minf) {
+        min = j;
+        minf = x[i];
+      }
+      if (x[i + inc_x] < minf) {
+        min = j + 1;
+        minf = x[i + inc_x];
+      }
+      if (x[i + 2 * inc_x] < minf) {
+        min = j + 2;
+        minf = x[i + 2 * inc_x];
+      }
+      if (x[i + 3 * inc_x] < minf) {
+        min = j + 3;
+        minf = x[i + 3 * inc_x];
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
+
+    while (j < n) {
+      if (x[i] < minf) {
+        min = j;
+        minf = x[i];
+      }
+      i += inc_x;
+      j++;
+    }
+    return (min + 1);
+  }
+}
diff --git a/kernel/zarch/izamax.c b/kernel/zarch/izamax.c
index 216c3414a6..daca1d6f71 100644
--- a/kernel/zarch/izamax.c
+++ b/kernel/zarch/izamax.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2017, The OpenBLAS Project
+Copyright (c) 2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -24,243 +24,222 @@ CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
 OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 *****************************************************************************/
- 
 
 #include "common.h"
 #include <math.h>
- 
-#define ABS fabs 
-#define CABS1(x,i)    ABS(x[i])+ABS(x[i+1])
-
 
+#define CABS1(x,i) (fabs(x[i]) + fabs(x[i + 1]))
+
+static BLASLONG izamax_kernel_16(BLASLONG n, FLOAT *x, FLOAT *amax) {
+  BLASLONG iamax;
+
+  __asm__("vleg   %%v0,0(%[x]),0\n\t"
+    "vleg   %%v1,8(%[x]),0\n\t"
+    "vleg   %%v0,16(%[x]),1\n\t"
+    "vleg   %%v1,24(%[x]),1\n\t"
+    "vflpdb %%v0,%%v0\n\t"
+    "vflpdb %%v1,%%v1\n\t"
+    "vfadb  %%v0,%%v0,%%v1\n\t"
+    "vleig  %%v1,0,0\n\t"
+    "vleig  %%v1,1,1\n\t"
+    "vrepig %%v2,8\n\t"
+    "vzero  %%v3\n\t"
+    "vleig  %%v24,0,0\n\t"
+    "vleig  %%v24,1,1\n\t"
+    "vleig  %%v25,2,0\n\t"
+    "vleig  %%v25,3,1\n\t"
+    "vleig  %%v26,4,0\n\t"
+    "vleig  %%v26,5,1\n\t"
+    "vleig  %%v27,6,0\n\t"
+    "vleig  %%v27,7,1\n\t"
+    "srlg  %[n],%[n],4\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vleg  %%v16,0(%%r1,%[x]),0\n\t"
+    "vleg  %%v17,8(%%r1,%[x]),0\n\t"
+    "vleg  %%v16,16(%%r1,%[x]),1\n\t"
+    "vleg  %%v17,24(%%r1,%[x]),1\n\t"
+    "vleg  %%v18,32(%%r1,%[x]),0\n\t"
+    "vleg  %%v19,40(%%r1,%[x]),0\n\t"
+    "vleg  %%v18,48(%%r1,%[x]),1\n\t"
+    "vleg  %%v19,56(%%r1,%[x]),1\n\t"
+    "vleg  %%v20,64(%%r1,%[x]),0\n\t"
+    "vleg  %%v21,72(%%r1,%[x]),0\n\t"
+    "vleg  %%v20,80(%%r1,%[x]),1\n\t"
+    "vleg  %%v21,88(%%r1,%[x]),1\n\t"
+    "vleg  %%v22,96(%%r1,%[x]),0\n\t"
+    "vleg  %%v23,104(%%r1,%[x]),0\n\t"
+    "vleg  %%v22,112(%%r1,%[x]),1\n\t"
+    "vleg  %%v23,120(%%r1,%[x]),1\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfadb %%v16,%%v16,%%v17\n\t"
+    "vfadb %%v17,%%v18,%%v19\n\t"
+    "vfadb %%v18,%%v20,%%v21\n\t"
+    "vfadb %%v19,%%v22,%%v23\n\t"
+    "vfchedb  %%v4,%%v16,%%v17\n\t"
+    "vfchedb  %%v5,%%v18,%%v19\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v4\n\t"
+    "vsel    %%v4,%%v24,%%v25,%%v4\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v5\n\t"
+    "vsel    %%v5,%%v26,%%v27,%%v5\n\t"
+    "vfchedb  %%v18,%%v16,%%v17\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v18\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "vfchedb  %%v5,%%v0,%%v16\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v5\n\t"
+    "vsel    %%v1,%%v1,%%v4,%%v5\n\t"
+    "vag     %%v3,%%v3,%%v2\n\t"
+    "vleg  %%v16,128(%%r1,%[x]),0\n\t"
+    "vleg  %%v17,136(%%r1,%[x]),0\n\t"
+    "vleg  %%v16,144(%%r1,%[x]),1\n\t"
+    "vleg  %%v17,152(%%r1,%[x]),1\n\t"
+    "vleg  %%v18,160(%%r1,%[x]),0\n\t"
+    "vleg  %%v19,168(%%r1,%[x]),0\n\t"
+    "vleg  %%v18,176(%%r1,%[x]),1\n\t"
+    "vleg  %%v19,184(%%r1,%[x]),1\n\t"
+    "vleg  %%v20,192(%%r1,%[x]),0\n\t"
+    "vleg  %%v21,200(%%r1,%[x]),0\n\t"
+    "vleg  %%v20,208(%%r1,%[x]),1\n\t"
+    "vleg  %%v21,216(%%r1,%[x]),1\n\t"
+    "vleg  %%v22,224(%%r1,%[x]),0\n\t"
+    "vleg  %%v23,232(%%r1,%[x]),0\n\t"
+    "vleg  %%v22,240(%%r1,%[x]),1\n\t"
+    "vleg  %%v23,248(%%r1,%[x]),1\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfadb %%v16,%%v16,%%v17\n\t"
+    "vfadb %%v17,%%v18,%%v19\n\t"
+    "vfadb %%v18,%%v20,%%v21\n\t"
+    "vfadb %%v19,%%v22,%%v23\n\t"
+    "vfchedb  %%v4,%%v16,%%v17\n\t"
+    "vfchedb  %%v5,%%v18,%%v19\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v4\n\t"
+    "vsel    %%v4,%%v24,%%v25,%%v4\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v5\n\t"
+    "vsel    %%v5,%%v26,%%v27,%%v5\n\t"
+    "vfchedb  %%v18,%%v16,%%v17\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v18\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "vfchedb  %%v5,%%v0,%%v16\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v5\n\t"
+    "vsel    %%v1,%%v1,%%v4,%%v5\n\t"
+    "vag     %%v3,%%v3,%%v2\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "vrepg  %%v2,%%v0,1\n\t"
+    "vrepg  %%v3,%%v1,1\n\t"
+    "wfcdb  %%v2,%%v0\n\t"
+    "jne 1f\n\t"
+    "vsteg  %%v0,%[amax],0\n\t"
+    "vmnlg  %%v0,%%v1,%%v3\n\t"
+    "vlgvg  %[iamax],%%v0,0\n\t"
+    "j 2f\n\t"
+    "1:\n\t"
+    "wfchdb %%v4,%%v2,%%v0\n\t"
+    "vsel   %%v1,%%v3,%%v1,%%v4\n\t"
+    "vsel   %%v0,%%v2,%%v0,%%v4\n\t"
+    "std    %%f0,%[amax]\n\t"
+    "vlgvg  %[iamax],%%v1,0\n\t"
+    "2:\n\t"
+    "nop"
+    : [iamax] "=r"(iamax),[amax] "=Q"(*amax),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v16", "v17", "v18",
+       "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26", "v27");
+
+  return iamax;
+}
 
- 
-/**
- * Find  maximum index 
- * Warning: requirements n>0  and n % 16 == 0
- * @param n     
- * @param x     pointer to the vector
- * @param maxf  (out) maximum absolute value .( only for output )
- * @return  index 
- */
-static BLASLONG   ziamax_kernel_16_TUNED(BLASLONG n, FLOAT *x, FLOAT *maxf) { 
-    BLASLONG index;
-    __asm__(
-            "pfd 1, 0(%[ptr_x]) \n\t" 
-            "vleig  %%v16,0,0  \n\t"
-            "vleig  %%v16,1,1  \n\t"
-            "vleig  %%v17,2,0  \n\t"
-            "vleig  %%v17,3,1  \n\t"
-            "vleig  %%v18,4,0  \n\t"
-            "vleig  %%v18,5,1  \n\t"
-            "vleig  %%v19,6,0  \n\t"
-            "vleig  %%v19,7,1  \n\t" 
-            "vleig  %%v20,8,0  \n\t"
-            "vleig  %%v20,9,1  \n\t"
-            "vleig  %%v21,10,0 \n\t"
-            "vleig  %%v21,11,1 \n\t"
-            "vleig  %%v22,12,0 \n\t"
-            "vleig  %%v22,13,1 \n\t"
-            "vleig  %%v23,14,0 \n\t"
-            "vleig  %%v23,15,1 \n\t" 
-    
-    
-            "sllg   %%r0,%[n],4 \n\t"
-            "agr    %%r0,%[ptr_x]    \n\t" 
-            "vzero  %%v6      \n\t"
-            "vzero  %%v7      \n\t"
-            "vrepig %%v4,16   \n\t"
-            "vzero  %%v5      \n\t"
-            ".align 16 \n\t"
-            "1:     \n\t"
-            "pfd    1, 256(%[ptr_tmp] ) \n\t"
-        
-            "vleg    %%v24 ,  0(%[ptr_tmp]),0 \n\t" 
-            "vleg    %%v25 ,  8(%[ptr_tmp]),0 \n\t"
-            "vleg    %%v24 , 16(%[ptr_tmp]),1 \n\t" 
-            "vleg    %%v25 , 24(%[ptr_tmp]),1 \n\t"
-            "vleg    %%v26 , 32(%[ptr_tmp]),0 \n\t"  
-            "vleg    %%v27 , 40(%[ptr_tmp]),0 \n\t"
-            "vleg    %%v26 , 48(%[ptr_tmp]),1 \n\t" 
-            "vleg    %%v27 , 56(%[ptr_tmp]),1 \n\t" 
-            "vleg    %%v28 , 64(%[ptr_tmp]),0 \n\t" 
-            "vleg    %%v29 , 72(%[ptr_tmp]),0 \n\t" 
-            "vleg    %%v28 , 80(%[ptr_tmp]),1 \n\t"
-            "vleg    %%v29 , 88(%[ptr_tmp]),1 \n\t" 
-            "vleg    %%v30 , 96(%[ptr_tmp]),0 \n\t"  
-            "vleg    %%v31 ,104(%[ptr_tmp]),0 \n\t"
-            "vleg    %%v30 ,112(%[ptr_tmp]),1 \n\t"
-            "vleg    %%v31 ,120(%[ptr_tmp]),1 \n\t"  
-            "vflpdb  %%v24, %%v24   \n\t" 
-            "vflpdb  %%v25, %%v25   \n\t" 
-            "vflpdb  %%v26, %%v26   \n\t" 
-            "vflpdb  %%v27, %%v27   \n\t" 
-            "vflpdb  %%v28, %%v28   \n\t" 
-            "vflpdb  %%v29, %%v29   \n\t"
-            "vflpdb  %%v30, %%v30   \n\t" 
-            "vflpdb  %%v31, %%v31   \n\t"    
-     
-            "vfadb   %%v0,%%v24,%%v25 \n\t"
-            "vfadb   %%v1,%%v26,%%v27 \n\t"
-            "vfadb   %%v2,%%v28,%%v29 \n\t"
-            "vfadb   %%v3,%%v30,%%v31 \n\t"
-     
-    
-            "vleg    %%v24 , 128(%[ptr_tmp]),0  \n\t" 
-            "vleg    %%v25 , 136(%[ptr_tmp]),0  \n\t"
-            "vleg    %%v24 , 144(%[ptr_tmp]),1  \n\t" 
-            "vleg    %%v25 , 152(%[ptr_tmp]),1  \n\t"
-            "vleg    %%v26 , 160(%[ptr_tmp]),0  \n\t"  
-            "vleg    %%v27 , 168(%[ptr_tmp]),0  \n\t"
-            "vleg    %%v26 , 176(%[ptr_tmp]),1  \n\t" 
-            "vleg    %%v27 , 184(%[ptr_tmp]),1  \n\t" 
-            "vleg    %%v28 , 192(%[ptr_tmp]),0  \n\t" 
-            "vleg    %%v29 , 200(%[ptr_tmp]),0  \n\t" 
-            "vleg    %%v28 , 208(%[ptr_tmp]),1  \n\t"
-            "vleg    %%v29 , 216(%[ptr_tmp]),1  \n\t" 
-            "vleg    %%v30 , 224(%[ptr_tmp]),0  \n\t"  
-            "vleg    %%v31 , 232(%[ptr_tmp]),0  \n\t"
-            "vleg    %%v30 , 240(%[ptr_tmp]),1  \n\t"
-            "vleg    %%v31 , 248(%[ptr_tmp]),1  \n\t"  
-            "vflpdb  %%v24, %%v24 \n\t" 
-            "vflpdb  %%v25, %%v25 \n\t" 
-            "vflpdb  %%v26, %%v26 \n\t" 
-            "vflpdb  %%v27, %%v27 \n\t" 
-            "vflpdb  %%v28, %%v28 \n\t" 
-            "vflpdb  %%v29, %%v29 \n\t"
-            "vflpdb  %%v30, %%v30 \n\t" 
-            "vflpdb  %%v31, %%v31 \n\t"    
-     
-            "vfadb   %%v24,%%v24,%%v25  \n\t"
-            "vfadb   %%v26,%%v26,%%v27  \n\t"
-            "vfadb   %%v28,%%v28,%%v29  \n\t"
-            "vfadb   %%v30,%%v30,%%v31  \n\t"
-    
-            "vfchdb  %%v25,%%v1,%%v0  \n\t" 
-            "vsel    %%v29,%%v17,%%v16,%%v25 \n\t"
-            "vsel    %%v31,%%v1,%%v0,%%v25   \n\t"  
-    
-            "vfchdb  %%v27,%%v3,%%v2 \n\t "   
-            "vsel    %%v0,%%v19,%%v18,%%v27 \n\t"
-            "vsel    %%v1,%%v3,%%v2,%%v27   \n\t"  
-    
-            "vfchdb  %%v25,%%v26,%%v24      \n\t" 
-            "vsel    %%v2,%%v21,%%v20,%%v25 \n\t"
-            "vsel    %%v3,%%v26,%%v24,%%v25 \n\t" 
-    
-            "vfchdb  %%v27,%%v30,%%v28       \n\t"   
-            "vsel    %%v25,%%v23,%%v22,%%v27 \n\t"
-            "vsel    %%v27,%%v30,%%v28,%%v27 \n\t"  
-    
-            "vfchdb  %%v24, %%v1,%%v31       \n\t" 
-            "vsel    %%v26,%%v0,%%v29,%%v24  \n\t" 
-            "vsel    %%v28,%%v1,%%v31,%%v24  \n\t"
-    
-            "vfchdb  %%v30, %%v27,%%v3       \n\t" 
-            "vsel    %%v29,%%v25,%%v2,%%v30  \n\t" 
-            "vsel    %%v31,%%v27,%%v3 ,%%v30 \n\t" 
-    
-            "la      %[ptr_tmp],256(%[ptr_tmp])      \n\t"  
-           
-            "vfchdb  %%v0, %%v31,%%v28      \n\t" 
-            "vsel    %%v25,%%v29,%%v26,%%v0 \n\t" 
-            "vsel    %%v27,%%v31,%%v28,%%v0 \n\t"
-    
-            "vag     %%v25,%%v25,%%v5 \n\t"
-    
-             //cmp with previous
-            "vfchdb %%v30, %%v27,%%v6     \n\t"
-            "vsel   %%v7,%%v25,%%v7,%%v30 \n\t" 
-            "vsel   %%v6,%%v27,%%v6,%%v30 \n\t"
-    
-            "vag    %%v5,%%v5,%%v4 \n\t" 
-    
-            "clgrjl %[ptr_tmp],%%r0,1b \n\t"
+BLASLONG CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0;
+  FLOAT maxf = 0;
+  BLASLONG max = 0;
+  BLASLONG inc_x2;
 
-            //xtract index
-            "vrepg  %%v26,%%v6,1      \n\t"
-            "vrepg  %%v5,%%v7,1       \n\t"
-            "wfcdb  %%v26,%%v6       \n\t"
-            "jne 2f \n\t"
-            "vsteg  %%v6,%[maxf],0  \n\t"
-            "vmnlg  %%v1,%%v5,%%v7 \n\t"
-            "vlgvg  %[index],%%v1,0  \n\t"
-            "j 3    \n\t"
-            "2:     \n\t"
-            "wfchdb %%v16,%%v26,%%v6      \n\t"
-            "vsel   %%v1,%%v5,%%v7,%%v16  \n\t"
-            "vsel   %%v0,%%v26,%%v6,%%v16 \n\t"
-            "vlgvg  %[index],%%v1,0  \n\t"
-            "std    %%f0,%[maxf]    \n\t"
-            "3:     \n\t"
-            : [index] "+r"(index) ,[maxf] "=m"(*maxf), [ptr_tmp] "+&a"(x)
-            : [mem] "m"( *(const double (*)[2*n])x), [n] "r"(n), [ptr_x] "r"(x)             
-            : "cc","r0", "f0","v0","v1","v2","v3","v4","v5","v6","v7","v16",
-            "v17","v18","v19","v20","v21","v22","v23","v24","v25","v26","v27","v28","v29","v30","v31"
+  if (n <= 0 || inc_x <= 0)
+    return (max);
 
-            );
-    return index;
+  if (inc_x == 1) {
 
-}
+    BLASLONG n1 = n & -16;
+    if (n1 > 0) {
 
-  
+      max = izamax_kernel_16(n1, x, &maxf);
+      ix = n1 * 2;
+      i = n1;
+    } else {
+      maxf = CABS1(x, 0);
+      ix += 2;
+      i++;
+    }
 
- 
- 
+    while (i < n) {
+      if (CABS1(x, ix) > maxf) {
+        max = i;
+        maxf = CABS1(x, ix);
+      }
+      ix += 2;
+      i++;
+    }
+    return (max + 1);
 
-BLASLONG CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x)
-{
-    BLASLONG i = 0;
-    BLASLONG ix = 0;
-    FLOAT maxf = 0;
-    BLASLONG max = 0;
-    BLASLONG inc_x2;
+  } else {
 
-    if (n <= 0 || inc_x <= 0) return(max);
-     
-    if (inc_x == 1) {
+    max = 0;
+    maxf = CABS1(x, 0);
+    inc_x2 = 2 * inc_x;
 
-      BLASLONG n1 = n & -16;
-      if (n1 > 0) {
+    BLASLONG n1 = n & -4;
+    while (i < n1) {
 
-            max = ziamax_kernel_16_TUNED(n1, x, &maxf); 
-            i = n1;
-            ix = n1 << 1;
+      if (CABS1(x, ix) > maxf) {
+        max = i;
+        maxf = CABS1(x, ix);
+      }
+      if (CABS1(x, ix + inc_x2) > maxf) {
+        max = i + 1;
+        maxf = CABS1(x, ix + inc_x2);
+      }
+      if (CABS1(x, ix + 2 * inc_x2) > maxf) {
+        max = i + 2;
+        maxf = CABS1(x, ix + 2 * inc_x2);
+      }
+      if (CABS1(x, ix + 3 * inc_x2) > maxf) {
+        max = i + 3;
+        maxf = CABS1(x, ix + 3 * inc_x2);
       }
 
-      while(i < n)
-    {
-        if( CABS1(x,ix) > maxf )
-        {
-            max = i;
-            maxf = CABS1(x,ix);
-        }
-        ix += 2;
-        i++;
-    }
-        return (max + 1);
-
-    } else {
- 
-      inc_x2 = 2 * inc_x;
+      ix += inc_x2 * 4;
 
-    maxf = CABS1(x,0);
-    ix += inc_x2;
-    i++;
+      i += 4;
 
-    while(i < n)
-    {
-        if( CABS1(x,ix) > maxf )
-        {
-            max = i;
-            maxf = CABS1(x,ix);
-        }
-        ix += inc_x2;
-        i++;
     }
-        return (max + 1);
+
+    while (i < n) {
+      if (CABS1(x, ix) > maxf) {
+        max = i;
+        maxf = CABS1(x, ix);
+      }
+      ix += inc_x2;
+      i++;
     }
- 
+    return (max + 1);
+  }
 }
-
-
diff --git a/kernel/zarch/izamin.c b/kernel/zarch/izamin.c
index 9b2a653a77..9ababb91fd 100644
--- a/kernel/zarch/izamin.c
+++ b/kernel/zarch/izamin.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2017, The OpenBLAS Project
+Copyright (c) 2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -24,253 +24,222 @@ CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
 OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 *****************************************************************************/
- 
 
 #include "common.h"
 #include <math.h>
- 
-#define ABS fabs 
-#define CABS1(x,i)    ABS(x[i])+ABS(x[i+1])
 
- 
-/**
- * Find  minimum index 
- * Warning: requirements n>0  and n % 16 == 0
- * @param n     
- * @param x     pointer to the vector
- * @param minf  (out) minimum absolute value .( only for output )
- * @return minimum index 
- */
-static BLASLONG ziamin_kernel_16_TUNED(BLASLONG n, FLOAT *x, FLOAT *minf) { 
-    BLASLONG index ;
-    __asm__(
-            "pfd    1, 0(%[ptr_x]) \n\t" 
-            "vleig  %%v16,0,0  \n\t"
-            "vleig  %%v16,1,1  \n\t"
-            "vleig  %%v17,2,0  \n\t"
-            "vleig  %%v17,3,1  \n\t"
-            "vleig  %%v18,4,0  \n\t"
-            "vleig  %%v18,5,1  \n\t"
-            "vleig  %%v19,6,0  \n\t"
-            "vleig  %%v19,7,1  \n\t" 
-            "vleig  %%v20,8,0  \n\t"
-            "vleig  %%v20,9,1  \n\t"
-            "vleig  %%v21,10,0 \n\t"
-            "vleig  %%v21,11,1 \n\t"
-            "vleig  %%v22,12,0 \n\t"
-            "vleig  %%v22,13,1 \n\t"
-            "vleig  %%v23,14,0 \n\t"
-            "vleig  %%v23,15,1 \n\t" 
-            "ld     %%f6,0(%[ptr_x])     \n\t"
-            "lpdbr  %%f6,%%f6  \n\t" 
-            "ld     %%f7,8(%[ptr_x])     \n\t"
-            "lpdbr  %%f7,%%f7   \n\t"   
-            "adbr   %%f6,%%f7   \n\t"      
-            "sllg   %%r0,%[n],4 \n\t"
-            "agr    %%r0,%[ptr_x]        \n\t" 
-            "vrepg  %%v6,%%v6,0 \n\t"
-            "vzero  %%v7        \n\t"
-            "vrepig %%v4,16     \n\t"
-            "vzero  %%v5        \n\t"
-            ".align 16 \n\t"
-            "1:     \n\t"
-            "pfd    1, 256(%[ptr_tmp] ) \n\t"
-        
-            "vleg   %%v24 ,  0(%[ptr_tmp]),0 \n\t" 
-            "vleg   %%v25 ,  8(%[ptr_tmp]),0 \n\t"
-            "vleg   %%v24 , 16(%[ptr_tmp]),1 \n\t" 
-            "vleg   %%v25 , 24(%[ptr_tmp]),1 \n\t"
-            "vleg   %%v26 , 32(%[ptr_tmp]),0 \n\t"  
-            "vleg   %%v27 , 40(%[ptr_tmp]),0 \n\t"
-            "vleg   %%v26 , 48(%[ptr_tmp]),1 \n\t" 
-            "vleg   %%v27 , 56(%[ptr_tmp]),1 \n\t" 
-            "vleg   %%v28 , 64(%[ptr_tmp]),0 \n\t" 
-            "vleg   %%v29 , 72(%[ptr_tmp]),0 \n\t" 
-            "vleg   %%v28 , 80(%[ptr_tmp]),1 \n\t"
-            "vleg   %%v29 , 88(%[ptr_tmp]),1 \n\t" 
-            "vleg   %%v30 , 96(%[ptr_tmp]),0 \n\t"  
-            "vleg   %%v31 ,104(%[ptr_tmp]),0 \n\t"
-            "vleg   %%v30 ,112(%[ptr_tmp]),1 \n\t"
-            "vleg   %%v31 ,120(%[ptr_tmp]),1 \n\t"  
-            "vflpdb %%v24, %%v24   \n\t" 
-            "vflpdb %%v25, %%v25   \n\t" 
-            "vflpdb %%v26, %%v26   \n\t" 
-            "vflpdb %%v27, %%v27   \n\t" 
-            "vflpdb %%v28, %%v28   \n\t" 
-            "vflpdb %%v29, %%v29   \n\t"
-            "vflpdb %%v30, %%v30   \n\t" 
-            "vflpdb %%v31, %%v31   \n\t"    
-     
-            "vfadb  %%v0,%%v24,%%v25 \n\t"
-            "vfadb  %%v1,%%v26,%%v27 \n\t"
-            "vfadb  %%v2,%%v28,%%v29 \n\t"
-            "vfadb  %%v3,%%v30,%%v31 \n\t"
-     
-    
-            "vleg   %%v24 ,128(%[ptr_tmp]),0 \n\t" 
-            "vleg   %%v25 ,136(%[ptr_tmp]),0 \n\t"
-            "vleg   %%v24 ,144(%[ptr_tmp]),1 \n\t" 
-            "vleg   %%v25 ,152(%[ptr_tmp]),1 \n\t"
-            "vleg   %%v26 ,160(%[ptr_tmp]),0 \n\t"  
-            "vleg   %%v27 ,168(%[ptr_tmp]),0 \n\t"
-            "vleg   %%v26 ,176(%[ptr_tmp]),1 \n\t" 
-            "vleg   %%v27 ,184(%[ptr_tmp]),1 \n\t" 
-            "vleg   %%v28 ,192(%[ptr_tmp]),0 \n\t" 
-            "vleg   %%v29 ,200(%[ptr_tmp]),0 \n\t" 
-            "vleg   %%v28 ,208(%[ptr_tmp]),1 \n\t"
-            "vleg   %%v29 ,216(%[ptr_tmp]),1 \n\t" 
-            "vleg   %%v30 ,224(%[ptr_tmp]),0 \n\t"  
-            "vleg   %%v31 ,232(%[ptr_tmp]),0 \n\t"
-            "vleg   %%v30 ,240(%[ptr_tmp]),1 \n\t"
-            "vleg   %%v31 ,248(%[ptr_tmp]),1 \n\t"  
-            "vflpdb %%v24, %%v24   \n\t" 
-            "vflpdb %%v25, %%v25   \n\t" 
-            "vflpdb %%v26, %%v26   \n\t" 
-            "vflpdb %%v27, %%v27   \n\t" 
-            "vflpdb %%v28, %%v28   \n\t" 
-            "vflpdb %%v29, %%v29   \n\t"
-            "vflpdb %%v30, %%v30   \n\t" 
-            "vflpdb %%v31, %%v31   \n\t"    
-     
-            "vfadb  %%v24,%%v24,%%v25  \n\t"
-            "vfadb  %%v26,%%v26,%%v27  \n\t"
-            "vfadb  %%v28,%%v28,%%v29  \n\t"
-            "vfadb  %%v30,%%v30,%%v31  \n\t"
-    
-    
-            "vfchdb %%v25,%%v0 ,%%v1        \n\t" 
-            "vsel   %%v29,%%v17,%%v16,%%v25 \n\t"
-            "vsel   %%v31,%%v1,%%v0,%%v25   \n\t"  
-    
-            "vfchdb %%v27,%%v2,%%v3         \n\t"   
-            "vsel   %%v0,%%v19,%%v18,%%v27  \n\t"
-            "vsel   %%v1,%%v3,%%v2,%%v27    \n\t"  
-    
-            "vfchdb %%v25,%%v24,%%v26       \n\t" 
-            "vsel   %%v2,%%v21,%%v20,%%v25  \n\t"
-            "vsel   %%v3,%%v26,%%v24,%%v25  \n\t" 
-    
-            "vfchdb %%v27,%%v28,%%v30       \n\t"   
-            "vsel   %%v25,%%v23,%%v22,%%v27 \n\t"
-            "vsel   %%v27,%%v30,%%v28,%%v27 \n\t"  
-    
-            "vfchdb %%v24,%%v31, %%v1       \n\t" 
-            "vsel   %%v26,%%v0,%%v29,%%v24  \n\t" 
-            "vsel   %%v28,%%v1,%%v31,%%v24  \n\t"
-    
-            "vfchdb %%v30,%%v3, %%v27       \n\t" 
-            "vsel   %%v29,%%v25,%%v2,%%v30  \n\t" 
-            "vsel   %%v31,%%v27,%%v3 ,%%v30 \n\t" 
-    
-            "la     %[ptr_tmp],256(%[ptr_tmp])      \n\t"  
-           
-            "vfchdb %%v0,%%v28, %%v31       \n\t" 
-            "vsel   %%v25,%%v29,%%v26,%%v0  \n\t" 
-            "vsel   %%v27,%%v31,%%v28,%%v0  \n\t"
-    
-            "vag    %%v25,%%v25,%%v5 \n\t"
-    
-             //cmp with previous
-            "vfchdb %%v30,%%v6 , %%v27      \n\t"
-            "vsel   %%v7,%%v25,%%v7,%%v30   \n\t" 
-            "vsel   %%v6,%%v27,%%v6,%%v30   \n\t"
-    
-            "vag    %%v5,%%v5,%%v4  \n\t" 
-    
-            "clgrjl %[ptr_tmp],%%r0,1b  \n\t"
-
-            //xtract index
-            "vrepg  %%v26,%%v6,1      \n\t"
-            "vrepg  %%v5,%%v7,1       \n\t"
-            "wfcdb  %%v26,%%v6        \n\t"
-            "jne 2f \n\t"
-            "vsteg  %%v6,%[minf],0    \n\t"
-            "vmnlg  %%v1,%%v5,%%v7   \n\t"
-            "vlgvg  %[index],%%v1,0      \n\t"
-            "j 3f   \n\t"
-            "2: \n\t"
-            "wfchdb %%v16,%%v6 ,%%v26     \n\t"
-            "vsel   %%v1,%%v5,%%v7,%%v16  \n\t"
-            "vsel   %%v0,%%v26,%%v6,%%v16 \n\t"
-            "vlgvg  %[index],%%v1,0  \n\t"
-            "std    %%f0,%[minf]       \n\t"
-            "3: \n\t"
-
-            : [index] "+r"(index) ,[minf] "=m"(*minf), [ptr_tmp] "+&a"(x)
-            : [mem] "m"( *(const double (*)[2*n])x), [n] "r"(n), [ptr_x] "r"(x) 
-            : "cc","r0","f0","v0","v1","v2","v3","v4","v5","v6","v7","v16",
-            "v17","v18","v19","v20","v21","v22","v23","v24","v25","v26","v27","v28","v29","v30","v31"
-
-            );
-
-    return index;
+#define CABS1(x,i) (fabs(x[i]) + fabs(x[i + 1]))
+
+static BLASLONG izamin_kernel_16(BLASLONG n, FLOAT *x, FLOAT *amin) {
+  BLASLONG iamin;
+
+  __asm__("vleg   %%v0,0(%[x]),0\n\t"
+    "vleg   %%v1,8(%[x]),0\n\t"
+    "vleg   %%v0,16(%[x]),1\n\t"
+    "vleg   %%v1,24(%[x]),1\n\t"
+    "vflpdb %%v0,%%v0\n\t"
+    "vflpdb %%v1,%%v1\n\t"
+    "vfadb  %%v0,%%v0,%%v1\n\t"
+    "vleig  %%v1,0,0\n\t"
+    "vleig  %%v1,1,1\n\t"
+    "vrepig %%v2,8\n\t"
+    "vzero  %%v3\n\t"
+    "vleig  %%v24,0,0\n\t"
+    "vleig  %%v24,1,1\n\t"
+    "vleig  %%v25,2,0\n\t"
+    "vleig  %%v25,3,1\n\t"
+    "vleig  %%v26,4,0\n\t"
+    "vleig  %%v26,5,1\n\t"
+    "vleig  %%v27,6,0\n\t"
+    "vleig  %%v27,7,1\n\t"
+    "srlg  %[n],%[n],4\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vleg  %%v16,0(%%r1,%[x]),0\n\t"
+    "vleg  %%v17,8(%%r1,%[x]),0\n\t"
+    "vleg  %%v16,16(%%r1,%[x]),1\n\t"
+    "vleg  %%v17,24(%%r1,%[x]),1\n\t"
+    "vleg  %%v18,32(%%r1,%[x]),0\n\t"
+    "vleg  %%v19,40(%%r1,%[x]),0\n\t"
+    "vleg  %%v18,48(%%r1,%[x]),1\n\t"
+    "vleg  %%v19,56(%%r1,%[x]),1\n\t"
+    "vleg  %%v20,64(%%r1,%[x]),0\n\t"
+    "vleg  %%v21,72(%%r1,%[x]),0\n\t"
+    "vleg  %%v20,80(%%r1,%[x]),1\n\t"
+    "vleg  %%v21,88(%%r1,%[x]),1\n\t"
+    "vleg  %%v22,96(%%r1,%[x]),0\n\t"
+    "vleg  %%v23,104(%%r1,%[x]),0\n\t"
+    "vleg  %%v22,112(%%r1,%[x]),1\n\t"
+    "vleg  %%v23,120(%%r1,%[x]),1\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfadb %%v16,%%v16,%%v17\n\t"
+    "vfadb %%v17,%%v18,%%v19\n\t"
+    "vfadb %%v18,%%v20,%%v21\n\t"
+    "vfadb %%v19,%%v22,%%v23\n\t"
+    "vfchedb  %%v4,%%v17,%%v16\n\t"
+    "vfchedb  %%v5,%%v19,%%v18\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v4\n\t"
+    "vsel    %%v4,%%v24,%%v25,%%v4\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v5\n\t"
+    "vsel    %%v5,%%v26,%%v27,%%v5\n\t"
+    "vfchedb  %%v18,%%v17,%%v16\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v18\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "vfchedb  %%v5,%%v16,%%v0\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v5\n\t"
+    "vsel    %%v1,%%v1,%%v4,%%v5\n\t"
+    "vag     %%v3,%%v3,%%v2\n\t"
+    "vleg  %%v16,128(%%r1,%[x]),0\n\t"
+    "vleg  %%v17,136(%%r1,%[x]),0\n\t"
+    "vleg  %%v16,144(%%r1,%[x]),1\n\t"
+    "vleg  %%v17,152(%%r1,%[x]),1\n\t"
+    "vleg  %%v18,160(%%r1,%[x]),0\n\t"
+    "vleg  %%v19,168(%%r1,%[x]),0\n\t"
+    "vleg  %%v18,176(%%r1,%[x]),1\n\t"
+    "vleg  %%v19,184(%%r1,%[x]),1\n\t"
+    "vleg  %%v20,192(%%r1,%[x]),0\n\t"
+    "vleg  %%v21,200(%%r1,%[x]),0\n\t"
+    "vleg  %%v20,208(%%r1,%[x]),1\n\t"
+    "vleg  %%v21,216(%%r1,%[x]),1\n\t"
+    "vleg  %%v22,224(%%r1,%[x]),0\n\t"
+    "vleg  %%v23,232(%%r1,%[x]),0\n\t"
+    "vleg  %%v22,240(%%r1,%[x]),1\n\t"
+    "vleg  %%v23,248(%%r1,%[x]),1\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfadb %%v16,%%v16,%%v17\n\t"
+    "vfadb %%v17,%%v18,%%v19\n\t"
+    "vfadb %%v18,%%v20,%%v21\n\t"
+    "vfadb %%v19,%%v22,%%v23\n\t"
+    "vfchedb  %%v4,%%v17,%%v16\n\t"
+    "vfchedb  %%v5,%%v19,%%v18\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v4\n\t"
+    "vsel    %%v4,%%v24,%%v25,%%v4\n\t"
+    "vsel    %%v17,%%v18,%%v19,%%v5\n\t"
+    "vsel    %%v5,%%v26,%%v27,%%v5\n\t"
+    "vfchedb  %%v18,%%v17,%%v16\n\t"
+    "vsel    %%v16,%%v16,%%v17,%%v18\n\t"
+    "vsel    %%v4,%%v4,%%v5,%%v18\n\t"
+    "vag     %%v4,%%v4,%%v3\n\t"
+    "vfchedb  %%v5,%%v16,%%v0\n\t"
+    "vsel    %%v0,%%v0,%%v16,%%v5\n\t"
+    "vsel    %%v1,%%v1,%%v4,%%v5\n\t"
+    "vag     %%v3,%%v3,%%v2\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "vrepg  %%v2,%%v0,1\n\t"
+    "vrepg  %%v3,%%v1,1\n\t"
+    "wfcdb  %%v2,%%v0\n\t"
+    "jne 1f\n\t"
+    "vsteg  %%v0,%[amin],0\n\t"
+    "vmnlg  %%v0,%%v1,%%v3\n\t"
+    "vlgvg  %[iamin],%%v0,0\n\t"
+    "j 2f\n\t"
+    "1:\n\t"
+    "wfchdb %%v4,%%v0,%%v2\n\t"
+    "vsel   %%v1,%%v3,%%v1,%%v4\n\t"
+    "vsel   %%v0,%%v2,%%v0,%%v4\n\t"
+    "std    %%f0,%[amin]\n\t"
+    "vlgvg  %[iamin],%%v1,0\n\t"
+    "2:\n\t"
+    "nop"
+    : [iamin] "=r"(iamin),[amin] "=Q"(*amin),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v16", "v17", "v18",
+       "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26", "v27");
+
+  return iamin;
 }
 
- 
-
- 
- 
-
-BLASLONG CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x)
-{
-    BLASLONG i=0;
-    BLASLONG ix=0;
-    FLOAT minf;
-    BLASLONG min=0;
-    BLASLONG inc_x2;
-
-    if (n <= 0 || inc_x <= 0) return(min);
-    
+BLASLONG CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0;
+  FLOAT minf = 0;
+  BLASLONG min = 0;
+  BLASLONG inc_x2;
 
-    if (inc_x == 1) {
+  if (n <= 0 || inc_x <= 0)
+    return (min);
 
-        BLASLONG n1 = n & -16;
-        if (n1 > 0) {
+  if (inc_x == 1) {
 
-            min = ziamin_kernel_16_TUNED(n1, x, &minf);
-            i = n1;
-            ix = n1 << 1;
-        }
-        else {
-            //assign minf
-             minf = CABS1(x,0);
-             ix += 2;
-             i++;
-         }
-
-        while(i < n)
-        {
-            if( CABS1(x,ix) < minf )
-            {
-                min = i;
-                minf = CABS1(x,ix);
-            }
-            ix += 2;
-            i++;
-        }
-        return (min + 1);
+    BLASLONG n1 = n & -16;
+    if (n1 > 0) {
 
+      min = izamin_kernel_16(n1, x, &minf);
+      ix = n1 * 2;
+      i = n1;
     } else {
- 
-        inc_x2 = 2 * inc_x;
-
-        minf = CABS1(x,0);
-        ix += inc_x2;
-        i++;
+      minf = CABS1(x, 0);
+      ix += 2;
+      i++;
+    }
 
-        while(i < n)
-        {
-            if( CABS1(x,ix) < minf )
-            {
-                min = i;
-                minf = CABS1(x,ix);
-            }
-            ix += inc_x2;
-            i++;
-        }
-        return (min + 1);
+    while (i < n) {
+      if (CABS1(x, ix) < minf) {
+        min = i;
+        minf = CABS1(x, ix);
+      }
+      ix += 2;
+      i++;
     }
- 
-}
+    return (min + 1);
+
+  } else {
+
+    min = 0;
+    minf = CABS1(x, 0);
+    inc_x2 = 2 * inc_x;
+
+    BLASLONG n1 = n & -4;
+    while (i < n1) {
+
+      if (CABS1(x, ix) < minf) {
+        min = i;
+        minf = CABS1(x, ix);
+      }
+      if (CABS1(x, ix + inc_x2) < minf) {
+        min = i + 1;
+        minf = CABS1(x, ix + inc_x2);
+      }
+      if (CABS1(x, ix + 2 * inc_x2) < minf) {
+        min = i + 2;
+        minf = CABS1(x, ix + 2 * inc_x2);
+      }
+      if (CABS1(x, ix + 3 * inc_x2) < minf) {
+        min = i + 3;
+        minf = CABS1(x, ix + 3 * inc_x2);
+      }
+
+      ix += inc_x2 * 4;
+
+      i += 4;
 
+    }
 
+    while (i < n) {
+      if (CABS1(x, ix) < minf) {
+        min = i;
+        minf = CABS1(x, ix);
+      }
+      ix += inc_x2;
+      i++;
+    }
+    return (min + 1);
+  }
+}
diff --git a/kernel/zarch/samax.c b/kernel/zarch/samax.c
new file mode 100644
index 0000000000..fdda6dd321
--- /dev/null
+++ b/kernel/zarch/samax.c
@@ -0,0 +1,152 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+#include <math.h>
+
+#define ABS fabsf
+
+static FLOAT samax_kernel_64(BLASLONG n, FLOAT *x) {
+  FLOAT amax;
+
+  __asm__("vl     %%v0,0(%[x])\n\t"
+    "srlg   %[n],%[n],6\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vl  %%v24,128(%%r1,%[x])\n\t"
+    "vl  %%v25,144(%%r1,%[x])\n\t"
+    "vl  %%v26,160(%%r1,%[x])\n\t"
+    "vl  %%v27,176(%%r1,%[x])\n\t"
+    "vl  %%v28,192(%%r1,%[x])\n\t"
+    "vl  %%v29,208(%%r1,%[x])\n\t"
+    "vl  %%v30,224(%%r1,%[x])\n\t"
+    "vl  %%v31,240(%%r1,%[x])\n\t"
+    "vfmaxsb  %%v16,%%v16,%%v24,8\n\t"
+    "vfmaxsb  %%v17,%%v17,%%v25,8\n\t"
+    "vfmaxsb  %%v18,%%v18,%%v26,8\n\t"
+    "vfmaxsb  %%v19,%%v19,%%v27,8\n\t"
+    "vfmaxsb  %%v20,%%v20,%%v28,8\n\t"
+    "vfmaxsb  %%v21,%%v21,%%v29,8\n\t"
+    "vfmaxsb  %%v22,%%v22,%%v30,8\n\t"
+    "vfmaxsb  %%v23,%%v23,%%v31,8\n\t"
+    "vfmaxsb  %%v16,%%v16,%%v20,8\n\t"
+    "vfmaxsb  %%v17,%%v17,%%v21,8\n\t"
+    "vfmaxsb  %%v18,%%v18,%%v22,8\n\t"
+    "vfmaxsb  %%v19,%%v19,%%v23,8\n\t"
+    "vfmaxsb  %%v16,%%v16,%%v18,8\n\t"
+    "vfmaxsb  %%v17,%%v17,%%v19,8\n\t"
+    "vfmaxsb  %%v16,%%v16,%%v17,8\n\t"
+    "vfmaxsb  %%v0,%%v0,%%v16,8\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "veslg   %%v16,%%v0,32\n\t"
+    "vfmaxsb %%v0,%%v0,%%v16,8\n\t"
+    "vrepf   %%v16,%%v0,2\n\t"
+    "wfmaxsb %%v0,%%v0,%%v16,8\n\t"
+    "lper    %[amax],%%f0"
+    : [amax] "=f"(amax),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return amax;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT maxf = 0.0;
+
+  if (n <= 0 || inc_x <= 0)
+    return (maxf);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -64;
+    if (n1 > 0) {
+
+      maxf = samax_kernel_64(n1, x);
+
+      i = n1;
+    } else {
+      maxf = ABS(x[0]);
+      i++;
+    }
+
+    while (i < n) {
+      if (ABS(x[i]) > maxf) {
+        maxf = ABS(x[i]);
+      }
+      i++;
+    }
+    return (maxf);
+
+  } else {
+
+    maxf = ABS(x[0]);
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (ABS(x[i]) > maxf) {
+        maxf = ABS(x[i]);
+      }
+      if (ABS(x[i + inc_x]) > maxf) {
+        maxf = ABS(x[i + inc_x]);
+      }
+      if (ABS(x[i + 2 * inc_x]) > maxf) {
+        maxf = ABS(x[i + 2 * inc_x]);
+      }
+      if (ABS(x[i + 3 * inc_x]) > maxf) {
+        maxf = ABS(x[i + 3 * inc_x]);
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
+
+    while (j < n) {
+      if (ABS(x[i]) > maxf) {
+        maxf = ABS(x[i]);
+      }
+      i += inc_x;
+      j++;
+    }
+    return (maxf);
+  }
+}
diff --git a/kernel/zarch/samin.c b/kernel/zarch/samin.c
new file mode 100644
index 0000000000..f05e851f96
--- /dev/null
+++ b/kernel/zarch/samin.c
@@ -0,0 +1,152 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+#include <math.h>
+
+#define ABS fabsf
+
+static FLOAT samin_kernel_64(BLASLONG n, FLOAT *x) {
+  FLOAT amin;
+
+  __asm__("vl     %%v0,0(%[x])\n\t"
+    "srlg   %[n],%[n],6\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vl  %%v24,128(%%r1,%[x])\n\t"
+    "vl  %%v25,144(%%r1,%[x])\n\t"
+    "vl  %%v26,160(%%r1,%[x])\n\t"
+    "vl  %%v27,176(%%r1,%[x])\n\t"
+    "vl  %%v28,192(%%r1,%[x])\n\t"
+    "vl  %%v29,208(%%r1,%[x])\n\t"
+    "vl  %%v30,224(%%r1,%[x])\n\t"
+    "vl  %%v31,240(%%r1,%[x])\n\t"
+    "vfminsb  %%v16,%%v16,%%v24,8\n\t"
+    "vfminsb  %%v17,%%v17,%%v25,8\n\t"
+    "vfminsb  %%v18,%%v18,%%v26,8\n\t"
+    "vfminsb  %%v19,%%v19,%%v27,8\n\t"
+    "vfminsb  %%v20,%%v20,%%v28,8\n\t"
+    "vfminsb  %%v21,%%v21,%%v29,8\n\t"
+    "vfminsb  %%v22,%%v22,%%v30,8\n\t"
+    "vfminsb  %%v23,%%v23,%%v31,8\n\t"
+    "vfminsb  %%v16,%%v16,%%v20,8\n\t"
+    "vfminsb  %%v17,%%v17,%%v21,8\n\t"
+    "vfminsb  %%v18,%%v18,%%v22,8\n\t"
+    "vfminsb  %%v19,%%v19,%%v23,8\n\t"
+    "vfminsb  %%v16,%%v16,%%v18,8\n\t"
+    "vfminsb  %%v17,%%v17,%%v19,8\n\t"
+    "vfminsb  %%v16,%%v16,%%v17,8\n\t"
+    "vfminsb  %%v0,%%v0,%%v16,8\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "veslg   %%v16,%%v0,32\n\t"
+    "vfminsb %%v0,%%v0,%%v16,8\n\t"
+    "vrepf   %%v16,%%v0,2\n\t"
+    "wfminsb %%v0,%%v0,%%v16,8\n\t"
+    "lper    %[amin],%%f0"
+    : [amin] "=f"(amin),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return amin;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT minf = 0.0;
+
+  if (n <= 0 || inc_x <= 0)
+    return (minf);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -64;
+    if (n1 > 0) {
+
+      minf = samin_kernel_64(n1, x);
+
+      i = n1;
+    } else {
+      minf = ABS(x[0]);
+      i++;
+    }
+
+    while (i < n) {
+      if (ABS(x[i]) < minf) {
+        minf = ABS(x[i]);
+      }
+      i++;
+    }
+    return (minf);
+
+  } else {
+
+    minf = ABS(x[0]);
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (ABS(x[i]) < minf) {
+        minf = ABS(x[i]);
+      }
+      if (ABS(x[i + inc_x]) < minf) {
+        minf = ABS(x[i + inc_x]);
+      }
+      if (ABS(x[i + 2 * inc_x]) < minf) {
+        minf = ABS(x[i + 2 * inc_x]);
+      }
+      if (ABS(x[i + 3 * inc_x]) < minf) {
+        minf = ABS(x[i + 3 * inc_x]);
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
+
+    while (j < n) {
+      if (ABS(x[i]) < minf) {
+        minf = ABS(x[i]);
+      }
+      i += inc_x;
+      j++;
+    }
+    return (minf);
+  }
+}
diff --git a/kernel/zarch/sasum.c b/kernel/zarch/sasum.c
new file mode 100644
index 0000000000..d56f2697b1
--- /dev/null
+++ b/kernel/zarch/sasum.c
@@ -0,0 +1,168 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+#include <math.h>
+
+#define ABS fabsf
+
+static FLOAT sasum_kernel_64(BLASLONG n, FLOAT *x) {
+  FLOAT asum;
+
+  __asm__("vzero   %%v24\n\t"
+    "vzero   %%v25\n\t"
+    "vzero   %%v26\n\t"
+    "vzero   %%v27\n\t"
+    "vzero   %%v28\n\t"
+    "vzero   %%v29\n\t"
+    "vzero   %%v30\n\t"
+    "vzero   %%v31\n\t"
+    "srlg  %[n],%[n],6\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd  1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16, 0(%%r1,%[x])\n\t"
+    "vl  %%v17, 16(%%r1,%[x])\n\t"
+    "vl  %%v18, 32(%%r1,%[x])\n\t"
+    "vl  %%v19, 48(%%r1,%[x])\n\t"
+    "vl  %%v20, 64(%%r1,%[x])\n\t"
+    "vl  %%v21, 80(%%r1,%[x])\n\t"
+    "vl  %%v22, 96(%%r1,%[x])\n\t"
+    "vl  %%v23, 112(%%r1,%[x])\n\t"
+    "vflpsb  %%v16, %%v16\n\t"
+    "vflpsb  %%v17, %%v17\n\t"
+    "vflpsb  %%v18, %%v18\n\t"
+    "vflpsb  %%v19, %%v19\n\t"
+    "vflpsb  %%v20, %%v20\n\t"
+    "vflpsb  %%v21, %%v21\n\t"
+    "vflpsb  %%v22, %%v22\n\t"
+    "vflpsb  %%v23, %%v23\n\t"
+    "vfasb   %%v24,%%v24,%%v16\n\t"
+    "vfasb   %%v25,%%v25,%%v17\n\t"
+    "vfasb   %%v26,%%v26,%%v18\n\t"
+    "vfasb   %%v27,%%v27,%%v19\n\t"
+    "vfasb   %%v28,%%v28,%%v20\n\t"
+    "vfasb   %%v29,%%v29,%%v21\n\t"
+    "vfasb   %%v30,%%v30,%%v22\n\t"
+    "vfasb   %%v31,%%v31,%%v23\n\t"
+    "vl  %%v16, 128(%%r1,%[x])\n\t"
+    "vl  %%v17, 144(%%r1,%[x])\n\t"
+    "vl  %%v18, 160(%%r1,%[x])\n\t"
+    "vl  %%v19, 176(%%r1,%[x])\n\t"
+    "vl  %%v20, 192(%%r1,%[x])\n\t"
+    "vl  %%v21, 208(%%r1,%[x])\n\t"
+    "vl  %%v22, 224(%%r1,%[x])\n\t"
+    "vl  %%v23, 240(%%r1,%[x])\n\t"
+    "vflpsb  %%v16, %%v16\n\t"
+    "vflpsb  %%v17, %%v17\n\t"
+    "vflpsb  %%v18, %%v18\n\t"
+    "vflpsb  %%v19, %%v19\n\t"
+    "vflpsb  %%v20, %%v20\n\t"
+    "vflpsb  %%v21, %%v21\n\t"
+    "vflpsb  %%v22, %%v22\n\t"
+    "vflpsb  %%v23, %%v23\n\t"
+    "vfasb   %%v24,%%v24,%%v16\n\t"
+    "vfasb   %%v25,%%v25,%%v17\n\t"
+    "vfasb   %%v26,%%v26,%%v18\n\t"
+    "vfasb   %%v27,%%v27,%%v19\n\t"
+    "vfasb   %%v28,%%v28,%%v20\n\t"
+    "vfasb   %%v29,%%v29,%%v21\n\t"
+    "vfasb   %%v30,%%v30,%%v22\n\t"
+    "vfasb   %%v31,%%v31,%%v23\n\t"
+    "agfi  %%r1,256\n\t"
+    "brctg %[n],0b\n\t"
+    "vfasb   %%v24,%%v24,%%v25\n\t"
+    "vfasb   %%v24,%%v24,%%v26\n\t"
+    "vfasb   %%v24,%%v24,%%v27\n\t"
+    "vfasb   %%v24,%%v24,%%v28\n\t"
+    "vfasb   %%v24,%%v24,%%v29\n\t"
+    "vfasb   %%v24,%%v24,%%v30\n\t"
+    "vfasb   %%v24,%%v24,%%v31\n\t"
+    "veslg   %%v25,%%v24,32\n\t"
+    "vfasb   %%v24,%%v24,%%v25\n\t"
+    "vrepf   %%v25,%%v24,2\n\t"
+    "vfasb   %%v24,%%v24,%%v25\n\t"
+    "vstef   %%v24,%[asum],0"
+    : [asum] "=Q"(asum),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23",
+       "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return asum;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT sumf = 0.0;
+  BLASLONG n1;
+
+  if (n <= 0 || inc_x <= 0)
+    return sumf;
+
+  if (inc_x == 1) {
+
+    n1 = n & -64;
+
+    if (n1 > 0) {
+
+      sumf = sasum_kernel_64(n1, x);
+      i = n1;
+    }
+
+    while (i < n) {
+      sumf += ABS(x[i]);
+      i++;
+    }
+
+  } else {
+    BLASLONG n1 = n & -4;
+    register FLOAT sum1, sum2;
+    sum1 = 0.0;
+    sum2 = 0.0;
+    while (j < n1) {
+
+      sum1 += ABS(x[i]);
+      sum2 += ABS(x[i + inc_x]);
+      sum1 += ABS(x[i + 2 * inc_x]);
+      sum2 += ABS(x[i + 3 * inc_x]);
+
+      i += inc_x * 4;
+      j += 4;
+
+    }
+    sumf = sum1 + sum2;
+    while (j < n) {
+
+      sumf += ABS(x[i]);
+      i += inc_x;
+      j++;
+    }
+
+  }
+  return sumf;
+}
diff --git a/kernel/zarch/saxpy.c b/kernel/zarch/saxpy.c
new file mode 100644
index 0000000000..ca34a47ff3
--- /dev/null
+++ b/kernel/zarch/saxpy.c
@@ -0,0 +1,167 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static void saxpy_kernel_64(BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha) {
+  __asm__("vlrepf %%v0,%[alpha]\n\t"
+    "srlg  %[n],%[n],6\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "pfd 2, 1024(%%r1,%[y])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,0(%%r1,%[y])\n\t"
+    "vl  %%v21,16(%%r1,%[y])\n\t"
+    "vl  %%v22,32(%%r1,%[y])\n\t"
+    "vl  %%v23,48(%%r1,%[y])\n\t"
+    "vl  %%v24,64(%%r1,%[x])\n\t"
+    "vl  %%v25,80(%%r1,%[x])\n\t"
+    "vl  %%v26,96(%%r1,%[x])\n\t"
+    "vl  %%v27,112(%%r1,%[x])\n\t"
+    "vl  %%v28,64(%%r1,%[y])\n\t"
+    "vl  %%v29,80(%%r1,%[y])\n\t"
+    "vl  %%v30,96(%%r1,%[y])\n\t"
+    "vl  %%v31,112(%%r1,%[y])\n\t"
+    "vfmasb   %%v16,%%v0,%%v16,%%v20\n\t"
+    "vfmasb   %%v17,%%v0,%%v17,%%v21\n\t"
+    "vfmasb   %%v18,%%v0,%%v18,%%v22\n\t"
+    "vfmasb   %%v19,%%v0,%%v19,%%v23\n\t"
+    "vfmasb   %%v24,%%v0,%%v24,%%v28\n\t"
+    "vfmasb   %%v25,%%v0,%%v25,%%v29\n\t"
+    "vfmasb   %%v26,%%v0,%%v26,%%v30\n\t"
+    "vfmasb   %%v27,%%v0,%%v27,%%v31\n\t"
+    "vst  %%v16,0(%%r1,%[y])\n\t"
+    "vst  %%v17,16(%%r1,%[y])\n\t"
+    "vst  %%v18,32(%%r1,%[y])\n\t"
+    "vst  %%v19,48(%%r1,%[y])\n\t"
+    "vst  %%v24,64(%%r1,%[y])\n\t"
+    "vst  %%v25,80(%%r1,%[y])\n\t"
+    "vst  %%v26,96(%%r1,%[y])\n\t"
+    "vst  %%v27,112(%%r1,%[y])\n\t"
+    "vl  %%v16,128(%%r1,%[x])\n\t"
+    "vl  %%v17,144(%%r1,%[x])\n\t"
+    "vl  %%v18,160(%%r1,%[x])\n\t"
+    "vl  %%v19,176(%%r1,%[x])\n\t"
+    "vl  %%v20,128(%%r1,%[y])\n\t"
+    "vl  %%v21,144(%%r1,%[y])\n\t"
+    "vl  %%v22,160(%%r1,%[y])\n\t"
+    "vl  %%v23,176(%%r1,%[y])\n\t"
+    "vl  %%v24,192(%%r1,%[x])\n\t"
+    "vl  %%v25,208(%%r1,%[x])\n\t"
+    "vl  %%v26,224(%%r1,%[x])\n\t"
+    "vl  %%v27,240(%%r1,%[x])\n\t"
+    "vl  %%v28,192(%%r1,%[y])\n\t"
+    "vl  %%v29,208(%%r1,%[y])\n\t"
+    "vl  %%v30,224(%%r1,%[y])\n\t"
+    "vl  %%v31,240(%%r1,%[y])\n\t"
+    "vfmasb   %%v16,%%v0,%%v16,%%v20\n\t"
+    "vfmasb   %%v17,%%v0,%%v17,%%v21\n\t"
+    "vfmasb   %%v18,%%v0,%%v18,%%v22\n\t"
+    "vfmasb   %%v19,%%v0,%%v19,%%v23\n\t"
+    "vfmasb   %%v24,%%v0,%%v24,%%v28\n\t"
+    "vfmasb   %%v25,%%v0,%%v25,%%v29\n\t"
+    "vfmasb   %%v26,%%v0,%%v26,%%v30\n\t"
+    "vfmasb   %%v27,%%v0,%%v27,%%v31\n\t"
+    "vst  %%v16,128(%%r1,%[y])\n\t"
+    "vst  %%v17,144(%%r1,%[y])\n\t"
+    "vst  %%v18,160(%%r1,%[y])\n\t"
+    "vst  %%v19,176(%%r1,%[y])\n\t"
+    "vst  %%v24,192(%%r1,%[y])\n\t"
+    "vst  %%v25,208(%%r1,%[y])\n\t"
+    "vst  %%v26,224(%%r1,%[y])\n\t"
+    "vst  %%v27,240(%%r1,%[y])\n\t"
+    "agfi  %%r1,256\n\t"
+    "brctg %[n],0b"
+    : "+m"(*(struct { FLOAT x[n]; } *) y),[n] "+&r"(n)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x),
+       [alpha] "Q"(*alpha)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+}
+
+int CNAME(BLASLONG n, BLASLONG dummy0, BLASLONG dummy1, FLOAT da, FLOAT *x,
+          BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *dummy,
+          BLASLONG dummy2) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
+
+  if (n <= 0)
+    return 0;
+
+  if ((inc_x == 1) && (inc_y == 1)) {
+
+    BLASLONG n1 = n & -64;
+
+    if (n1)
+      saxpy_kernel_64(n1, x, y, &da);
+
+    i = n1;
+    while (i < n) {
+
+      y[i] += da * x[i];
+      i++;
+
+    }
+    return 0;
+
+  }
+
+  BLASLONG n1 = n & -4;
+
+  while (i < n1) {
+
+    FLOAT m1 = da * x[ix];
+    FLOAT m2 = da * x[ix + inc_x];
+    FLOAT m3 = da * x[ix + 2 * inc_x];
+    FLOAT m4 = da * x[ix + 3 * inc_x];
+
+    y[iy] += m1;
+    y[iy + inc_y] += m2;
+    y[iy + 2 * inc_y] += m3;
+    y[iy + 3 * inc_y] += m4;
+
+    ix += inc_x * 4;
+    iy += inc_y * 4;
+    i += 4;
+
+  }
+
+  while (i < n) {
+
+    y[iy] += da * x[ix];
+    ix += inc_x;
+    iy += inc_y;
+    i++;
+
+  }
+  return 0;
+
+}
diff --git a/kernel/zarch/scopy.c b/kernel/zarch/scopy.c
new file mode 100644
index 0000000000..5c453cfbb9
--- /dev/null
+++ b/kernel/zarch/scopy.c
@@ -0,0 +1,79 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static void scopy_kernel_64(BLASLONG n, FLOAT *x, FLOAT *y) {
+  __asm__("srlg %[n],%[n],6\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%[x])\n\t"
+    "pfd 2, 1024(%[y])\n\t"
+    "mvc 0(256,%[y]),0(%[x])\n\t"
+    "la  %[x],256(%[x])\n\t"
+    "la  %[y],256(%[y])\n\t"
+    "brctg %[n],0b"
+    : "=m"(*(struct { FLOAT x[n]; } *) y),[x] "+&a"(x),[y] "+&a"(y),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x)
+    : "cc");
+}
+
+int CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
+
+  if (n <= 0)
+    return 0;
+
+  if ((inc_x == 1) && (inc_y == 1)) {
+
+    BLASLONG n1 = n & -64;
+    if (n1 > 0) {
+      scopy_kernel_64(n1, x, y);
+      i = n1;
+    }
+
+    while (i < n) {
+      y[i] = x[i];
+      i++;
+
+    }
+
+  } else {
+
+    while (i < n) {
+
+      y[iy] = x[ix];
+      ix += inc_x;
+      iy += inc_y;
+      i++;
+
+    }
+
+  }
+  return 0;
+
+}
diff --git a/kernel/zarch/sdot.c b/kernel/zarch/sdot.c
new file mode 100644
index 0000000000..d870b30f07
--- /dev/null
+++ b/kernel/zarch/sdot.c
@@ -0,0 +1,144 @@
+/***************************************************************************
+Copyright (c) 2013-2019,The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms,with or without
+modification,are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice,this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice,this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES,INCLUDING,BUT NOT LIMITED TO,THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT,INDIRECT,INCIDENTAL,SPECIAL,EXEMPLARY,OR CONSEQUENTIAL
+DAMAGES (INCLUDING,BUT NOT LIMITED TO,PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE,DATA,OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY,WHETHER IN CONTRACT,STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE,EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static FLOAT sdot_kernel_32(BLASLONG n, FLOAT *x, FLOAT *y) {
+  FLOAT dot;
+
+  __asm__("vzero %%v0\n\t"
+    "vzero %%v1\n\t"
+    "vzero %%v2\n\t"
+    "vzero %%v3\n\t"
+    "vzero %%v4\n\t"
+    "vzero %%v5\n\t"
+    "vzero %%v6\n\t"
+    "vzero %%v7\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[x])\n\t"
+    "pfd 1,1024(%%r1,%[y])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vl  %%v24,0(%%r1,%[y])\n\t"
+    "vl  %%v25,16(%%r1,%[y])\n\t"
+    "vl  %%v26,32(%%r1,%[y])\n\t"
+    "vl  %%v27,48(%%r1,%[y])\n\t"
+    "vl  %%v28,64(%%r1,%[y])\n\t"
+    "vl  %%v29,80(%%r1,%[y])\n\t"
+    "vl  %%v30,96(%%r1,%[y])\n\t"
+    "vl  %%v31,112(%%r1,%[y])\n\t"
+    "vfmasb   %%v0,%%v16,%%v24,%%v0\n\t"
+    "vfmasb   %%v1,%%v17,%%v25,%%v1\n\t"
+    "vfmasb   %%v2,%%v18,%%v26,%%v2\n\t"
+    "vfmasb   %%v3,%%v19,%%v27,%%v3\n\t"
+    "vfmasb   %%v4,%%v20,%%v28,%%v4\n\t"
+    "vfmasb   %%v5,%%v21,%%v29,%%v5\n\t"
+    "vfmasb   %%v6,%%v22,%%v30,%%v6\n\t"
+    "vfmasb   %%v7,%%v23,%%v31,%%v7\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %[n],0b\n\t"
+    "vfasb   %%v0,%%v0,%%v1\n\t"
+    "vfasb   %%v0,%%v0,%%v2\n\t"
+    "vfasb   %%v0,%%v0,%%v3\n\t"
+    "vfasb   %%v0,%%v0,%%v4\n\t"
+    "vfasb   %%v0,%%v0,%%v5\n\t"
+    "vfasb   %%v0,%%v0,%%v6\n\t"
+    "vfasb   %%v0,%%v0,%%v7\n\t"
+    "vrepf  %%v1,%%v0,1\n\t"
+    "vrepf  %%v2,%%v0,2\n\t"
+    "vrepf  %%v3,%%v0,3\n\t"
+    "aebr   %%f0,%%f1\n\t"
+    "aebr   %%f0,%%f2\n\t"
+    "aebr   %%f0,%%f3\n\t"
+    "ler    %[dot],%%f0"
+    : [dot] "=f"(dot),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x), 
+       "m"(*(const struct { FLOAT x[n]; } *) y),[y] "a"(y)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7", "v16",
+       "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
+       "v27", "v28", "v29", "v30", "v31");
+
+  return dot;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
+
+  FLOAT dot = 0.0;
+
+  if (n <= 0)
+    return (dot);
+
+  if ((inc_x == 1) && (inc_y == 1)) {
+
+    BLASLONG n1 = n & -32;
+
+    if (n1)
+      dot = sdot_kernel_32(n1, x, y);
+
+    i = n1;
+    while (i < n) {
+
+      dot += y[i] * x[i];
+      i++;
+
+    }
+    return (dot);
+
+  }
+
+  BLASLONG n1 = n & -2;
+
+  while (i < n1) {
+
+    dot += y[iy] * x[ix] + y[iy + inc_y] * x[ix + inc_x];
+    ix += inc_x * 2;
+    iy += inc_y * 2;
+    i += 2;
+
+  }
+
+  while (i < n) {
+
+    dot += y[iy] * x[ix];
+    ix += inc_x;
+    iy += inc_y;
+    i++;
+
+  }
+  return (dot);
+
+}
diff --git a/kernel/zarch/sgemv_n_4.c b/kernel/zarch/sgemv_n_4.c
new file mode 100644
index 0000000000..a1efef373f
--- /dev/null
+++ b/kernel/zarch/sgemv_n_4.c
@@ -0,0 +1,597 @@
+/***************************************************************************
+Copyright (c) 2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+#define NBMAX 2048
+
+static void sgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y,
+                             FLOAT *alpha) {
+  register FLOAT *ap0 = ap[0];
+  register FLOAT *ap1 = ap[1];
+  register FLOAT *ap2 = ap[2];
+  register FLOAT *ap3 = ap[3];
+
+  __asm__("vlrepf %%v0,0(%[x])\n\t"
+    "vlrepf %%v1,4(%[x])\n\t"
+    "vlrepf %%v2,8(%[x])\n\t"
+    "vlrepf %%v3,12(%[x])\n\t"
+    "vlrepf %%v4,%[alpha]\n\t"
+    "vfmsb  %%v0,%%v0,%%v4\n\t"
+    "vfmsb  %%v1,%%v1,%%v4\n\t"
+    "vfmsb  %%v2,%%v2,%%v4\n\t"
+    "vfmsb  %%v3,%%v3,%%v4\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "lghi    %%r0,-32\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      1f\n\t"
+    "srlg  %%r0,%%r0,5\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[ap0])\n\t"
+    "pfd 1,1024(%%r1,%[ap1])\n\t"
+    "pfd 1,1024(%%r1,%[ap2])\n\t"
+    "pfd 1,1024(%%r1,%[ap3])\n\t"
+    "pfd 2,1024(%%r1,%[y])\n\t"
+    "vl  %%v16,0(%%r1,%[ap0])\n\t"
+    "vl  %%v17,0(%%r1,%[ap1])\n\t"
+    "vl  %%v18,0(%%r1,%[ap2])\n\t"
+    "vl  %%v19,0(%%r1,%[ap3])\n\t"
+    "vl  %%v20,16(%%r1,%[ap0])\n\t"
+    "vl  %%v21,16(%%r1,%[ap1])\n\t"
+    "vl  %%v22,16(%%r1,%[ap2])\n\t"
+    "vl  %%v23,16(%%r1,%[ap3])\n\t"
+    "vl  %%v24,32(%%r1,%[ap0])\n\t"
+    "vl  %%v25,32(%%r1,%[ap1])\n\t"
+    "vl  %%v26,32(%%r1,%[ap2])\n\t"
+    "vl  %%v27,32(%%r1,%[ap3])\n\t"
+    "vl  %%v28,48(%%r1,%[ap0])\n\t"
+    "vl  %%v29,48(%%r1,%[ap1])\n\t"
+    "vl  %%v30,48(%%r1,%[ap2])\n\t"
+    "vl  %%v31,48(%%r1,%[ap3])\n\t"
+    "vl  %%v4,0(%%r1,%[y])\n\t"
+    "vl  %%v5,16(%%r1,%[y])\n\t"
+    "vl  %%v6,32(%%r1,%[y])\n\t"
+    "vl  %%v7,48(%%r1,%[y])\n\t"
+    "vfmasb   %%v4,%%v16,%%v0,%%v4\n\t"
+    "vfmasb   %%v5,%%v20,%%v0,%%v5\n\t"
+    "vfmasb   %%v6,%%v24,%%v0,%%v6\n\t"
+    "vfmasb   %%v7,%%v28,%%v0,%%v7\n\t"
+    "vfmasb   %%v4,%%v17,%%v1,%%v4\n\t"
+    "vfmasb   %%v5,%%v21,%%v1,%%v5\n\t"
+    "vfmasb   %%v6,%%v25,%%v1,%%v6\n\t"
+    "vfmasb   %%v7,%%v29,%%v1,%%v7\n\t"
+    "vfmasb   %%v4,%%v18,%%v2,%%v4\n\t"
+    "vfmasb   %%v5,%%v22,%%v2,%%v5\n\t"
+    "vfmasb   %%v6,%%v26,%%v2,%%v6\n\t"
+    "vfmasb   %%v7,%%v30,%%v2,%%v7\n\t"
+    "vfmasb   %%v4,%%v19,%%v3,%%v4\n\t"
+    "vfmasb   %%v5,%%v23,%%v3,%%v5\n\t"
+    "vfmasb   %%v6,%%v27,%%v3,%%v6\n\t"
+    "vfmasb   %%v7,%%v31,%%v3,%%v7\n\t"
+    "vst %%v4,0(%%r1,%[y])\n\t"
+    "vst %%v5,16(%%r1,%[y])\n\t"
+    "vst %%v6,32(%%r1,%[y])\n\t"
+    "vst %%v7,48(%%r1,%[y])\n\t"
+    "vl  %%v16,64(%%r1,%[ap0])\n\t"
+    "vl  %%v17,64(%%r1,%[ap1])\n\t"
+    "vl  %%v18,64(%%r1,%[ap2])\n\t"
+    "vl  %%v19,64(%%r1,%[ap3])\n\t"
+    "vl  %%v20,80(%%r1,%[ap0])\n\t"
+    "vl  %%v21,80(%%r1,%[ap1])\n\t"
+    "vl  %%v22,80(%%r1,%[ap2])\n\t"
+    "vl  %%v23,80(%%r1,%[ap3])\n\t"
+    "vl  %%v24,96(%%r1,%[ap0])\n\t"
+    "vl  %%v25,96(%%r1,%[ap1])\n\t"
+    "vl  %%v26,96(%%r1,%[ap2])\n\t"
+    "vl  %%v27,96(%%r1,%[ap3])\n\t"
+    "vl  %%v28,112(%%r1,%[ap0])\n\t"
+    "vl  %%v29,112(%%r1,%[ap1])\n\t"
+    "vl  %%v30,112(%%r1,%[ap2])\n\t"
+    "vl  %%v31,112(%%r1,%[ap3])\n\t"
+    "vl  %%v4,64(%%r1,%[y])\n\t"
+    "vl  %%v5,80(%%r1,%[y])\n\t"
+    "vl  %%v6,96(%%r1,%[y])\n\t"
+    "vl  %%v7,112(%%r1,%[y])\n\t"
+    "vfmasb   %%v4,%%v16,%%v0,%%v4\n\t"
+    "vfmasb   %%v5,%%v20,%%v0,%%v5\n\t"
+    "vfmasb   %%v6,%%v24,%%v0,%%v6\n\t"
+    "vfmasb   %%v7,%%v28,%%v0,%%v7\n\t"
+    "vfmasb   %%v4,%%v17,%%v1,%%v4\n\t"
+    "vfmasb   %%v5,%%v21,%%v1,%%v5\n\t"
+    "vfmasb   %%v6,%%v25,%%v1,%%v6\n\t"
+    "vfmasb   %%v7,%%v29,%%v1,%%v7\n\t"
+    "vfmasb   %%v4,%%v18,%%v2,%%v4\n\t"
+    "vfmasb   %%v5,%%v22,%%v2,%%v5\n\t"
+    "vfmasb   %%v6,%%v26,%%v2,%%v6\n\t"
+    "vfmasb   %%v7,%%v30,%%v2,%%v7\n\t"
+    "vfmasb   %%v4,%%v19,%%v3,%%v4\n\t"
+    "vfmasb   %%v5,%%v23,%%v3,%%v5\n\t"
+    "vfmasb   %%v6,%%v27,%%v3,%%v6\n\t"
+    "vfmasb   %%v7,%%v31,%%v3,%%v7\n\t"
+    "vst %%v4,64(%%r1,%[y])\n\t"
+    "vst %%v5,80(%%r1,%[y])\n\t"
+    "vst %%v6,96(%%r1,%[y])\n\t"
+    "vst %%v7,112(%%r1,%[y])\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %%r0,0b\n\t"
+    "1:\n\t"
+    "lghi    %%r0,28\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      3f\n\t"
+    "srlg  %%r0,%%r0,2\n\t"
+    "2:\n\t"
+    "vl  %%v16,0(%%r1,%[ap0])\n\t"
+    "vl  %%v17,0(%%r1,%[ap1])\n\t"
+    "vl  %%v18,0(%%r1,%[ap2])\n\t"
+    "vl  %%v19,0(%%r1,%[ap3])\n\t"
+    "vl  %%v4,0(%%r1,%[y])\n\t"
+    "vfmasb   %%v4,%%v16,%%v0,%%v4\n\t"
+    "vfmasb   %%v4,%%v17,%%v1,%%v4\n\t"
+    "vfmasb   %%v4,%%v18,%%v2,%%v4\n\t"
+    "vfmasb   %%v4,%%v19,%%v3,%%v4\n\t"
+    "vst %%v4,0(%%r1,%[y])\n\t"
+    "agfi   %%r1,16\n\t"
+    "brctg  %%r0,2b\n\t"
+    "3:\n\t"
+    "nop"
+    : "+m"(*(struct { FLOAT x[n]; } *) y)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n]; } *) ap0),[ap0] "a"(ap0),
+       "m"(*(const struct { FLOAT x[n]; } *) ap1),[ap1] "a"(ap1),
+       "m"(*(const struct { FLOAT x[n]; } *) ap2),[ap2] "a"(ap2),
+       "m"(*(const struct { FLOAT x[n]; } *) ap3),[ap3] "a"(ap3),
+       "m"(*(const struct { FLOAT x[4]; } *) x),[x] "a"(x),[alpha] "Q"(*alpha),
+       [n] "r"(n)
+    : "cc", "r0", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
+       "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25",
+       "v26", "v27", "v28", "v29", "v30", "v31");
+}
+
+static void sgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y,
+                             FLOAT *alpha) {
+  register FLOAT *ap0 = ap[0];
+  register FLOAT *ap1 = ap[1];
+
+  __asm__("vlrepf %%v0,0(%[x])\n\t"
+    "vlrepf %%v1,4(%[x])\n\t"
+    "vlrepf %%v2,%[alpha]\n\t"
+    "vfmsb  %%v0,%%v0,%%v2\n\t"
+    "vfmsb  %%v1,%%v1,%%v2\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "lghi    %%r0,-32\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      1f\n\t"
+    "srlg  %%r0,%%r0,5\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[ap0])\n\t"
+    "pfd 1,1024(%%r1,%[ap1])\n\t"
+    "pfd 2,1024(%%r1,%[y])\n\t"
+    "vl  %%v16,0(%%r1,%[ap0])\n\t"
+    "vl  %%v17,0(%%r1,%[ap1])\n\t"
+    "vl  %%v18,16(%%r1,%[ap0])\n\t"
+    "vl  %%v19,16(%%r1,%[ap1])\n\t"
+    "vl  %%v20,32(%%r1,%[ap0])\n\t"
+    "vl  %%v21,32(%%r1,%[ap1])\n\t"
+    "vl  %%v22,48(%%r1,%[ap0])\n\t"
+    "vl  %%v23,48(%%r1,%[ap1])\n\t"
+    "vl  %%v24,64(%%r1,%[ap0])\n\t"
+    "vl  %%v25,64(%%r1,%[ap1])\n\t"
+    "vl  %%v26,80(%%r1,%[ap0])\n\t"
+    "vl  %%v27,80(%%r1,%[ap1])\n\t"
+    "vl  %%v28,96(%%r1,%[ap0])\n\t"
+    "vl  %%v29,96(%%r1,%[ap1])\n\t"
+    "vl  %%v30,112(%%r1,%[ap0])\n\t"
+    "vl  %%v31,112(%%r1,%[ap1])\n\t"
+    "vl  %%v2,0(%%r1,%[y])\n\t"
+    "vl  %%v3,16(%%r1,%[y])\n\t"
+    "vl  %%v4,32(%%r1,%[y])\n\t"
+    "vl  %%v5,48(%%r1,%[y])\n\t"
+    "vl  %%v6,64(%%r1,%[y])\n\t"
+    "vl  %%v7,80(%%r1,%[y])\n\t"
+    "vl  %%v8,96(%%r1,%[y])\n\t"
+    "vl  %%v9,112(%%r1,%[y])\n\t"
+    "vfmasb   %%v2,%%v16,%%v0,%%v2\n\t"
+    "vfmasb   %%v3,%%v18,%%v0,%%v3\n\t"
+    "vfmasb   %%v4,%%v20,%%v0,%%v4\n\t"
+    "vfmasb   %%v5,%%v22,%%v0,%%v5\n\t"
+    "vfmasb   %%v6,%%v24,%%v0,%%v6\n\t"
+    "vfmasb   %%v7,%%v26,%%v0,%%v7\n\t"
+    "vfmasb   %%v8,%%v28,%%v0,%%v8\n\t"
+    "vfmasb   %%v9,%%v30,%%v0,%%v9\n\t"
+    "vfmasb   %%v2,%%v17,%%v1,%%v2\n\t"
+    "vfmasb   %%v3,%%v19,%%v1,%%v3\n\t"
+    "vfmasb   %%v4,%%v21,%%v1,%%v4\n\t"
+    "vfmasb   %%v5,%%v23,%%v1,%%v5\n\t"
+    "vfmasb   %%v6,%%v25,%%v1,%%v6\n\t"
+    "vfmasb   %%v7,%%v27,%%v1,%%v7\n\t"
+    "vfmasb   %%v8,%%v29,%%v1,%%v8\n\t"
+    "vfmasb   %%v9,%%v31,%%v1,%%v9\n\t"
+    "vst %%v2,0(%%r1,%[y])\n\t"
+    "vst %%v3,16(%%r1,%[y])\n\t"
+    "vst %%v4,32(%%r1,%[y])\n\t"
+    "vst %%v5,48(%%r1,%[y])\n\t"
+    "vst %%v6,64(%%r1,%[y])\n\t"
+    "vst %%v7,80(%%r1,%[y])\n\t"
+    "vst %%v8,96(%%r1,%[y])\n\t"
+    "vst %%v9,112(%%r1,%[y])\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %%r0,0b\n\t"
+    "1:\n\t"
+    "lghi    %%r0,28\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      3f\n\t"
+    "srlg  %%r0,%%r0,2\n\t"
+    "2:\n\t"
+    "vl  %%v16,0(%%r1,%[ap0])\n\t"
+    "vl  %%v17,0(%%r1,%[ap1])\n\t"
+    "vl  %%v2,0(%%r1,%[y])\n\t"
+    "vfmasb   %%v2,%%v16,%%v0,%%v2\n\t"
+    "vfmasb   %%v2,%%v17,%%v1,%%v2\n\t"
+    "vst %%v2,0(%%r1,%[y])\n\t"
+    "agfi   %%r1,16\n\t"
+    "brctg  %%r0,2b\n\t"
+    "3:\n\t"
+    "nop"
+    : "+m"(*(struct { FLOAT x[n]; } *) y)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n]; } *) ap0),[ap0] "a"(ap0),
+       "m"(*(const struct { FLOAT x[n]; } *) ap1),[ap1] "a"(ap1),
+       "m"(*(const struct { FLOAT x[2]; } *) x),[x] "a"(x),[alpha] "Q"(*alpha),
+       [n] "r"(n)
+    : "cc", "r0", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
+       "v8", "v9", "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23",
+       "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+}
+
+static void sgemv_kernel_4x1(BLASLONG n, FLOAT *a0, FLOAT *x, FLOAT *y,
+                             FLOAT *alpha) {
+  __asm__("vlrepf %%v0,0(%[x])\n\t"
+    "vlrepf %%v16,%[alpha]\n\t"
+    "vfmsb  %%v0,%%v0,%%v16\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "lghi    %%r0,-32\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      1f\n\t"
+    "srlg  %%r0,%%r0,5\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[a0])\n\t"
+    "pfd 2,1024(%%r1,%[y])\n\t"
+    "vl  %%v16,0(%%r1,%[a0])\n\t"
+    "vl  %%v17,16(%%r1,%[a0])\n\t"
+    "vl  %%v18,32(%%r1,%[a0])\n\t"
+    "vl  %%v19,48(%%r1,%[a0])\n\t"
+    "vl  %%v20,64(%%r1,%[a0])\n\t"
+    "vl  %%v21,80(%%r1,%[a0])\n\t"
+    "vl  %%v22,96(%%r1,%[a0])\n\t"
+    "vl  %%v23,112(%%r1,%[a0])\n\t"
+    "vl  %%v24,0(%%r1,%[y])\n\t"
+    "vl  %%v25,16(%%r1,%[y])\n\t"
+    "vl  %%v26,32(%%r1,%[y])\n\t"
+    "vl  %%v27,48(%%r1,%[y])\n\t"
+    "vl  %%v28,64(%%r1,%[y])\n\t"
+    "vl  %%v29,80(%%r1,%[y])\n\t"
+    "vl  %%v30,96(%%r1,%[y])\n\t"
+    "vl  %%v31,112(%%r1,%[y])\n\t"
+    "vfmasb   %%v24,%%v16,%%v0,%%v24\n\t"
+    "vfmasb   %%v25,%%v17,%%v0,%%v25\n\t"
+    "vfmasb   %%v26,%%v18,%%v0,%%v26\n\t"
+    "vfmasb   %%v27,%%v19,%%v0,%%v27\n\t"
+    "vfmasb   %%v28,%%v20,%%v0,%%v28\n\t"
+    "vfmasb   %%v29,%%v21,%%v0,%%v29\n\t"
+    "vfmasb   %%v30,%%v22,%%v0,%%v30\n\t"
+    "vfmasb   %%v31,%%v23,%%v0,%%v31\n\t"
+    "vst %%v24,0(%%r1,%[y])\n\t"
+    "vst %%v25,16(%%r1,%[y])\n\t"
+    "vst %%v26,32(%%r1,%[y])\n\t"
+    "vst %%v27,48(%%r1,%[y])\n\t"
+    "vst %%v28,64(%%r1,%[y])\n\t"
+    "vst %%v29,80(%%r1,%[y])\n\t"
+    "vst %%v30,96(%%r1,%[y])\n\t"
+    "vst %%v31,112(%%r1,%[y])\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %%r0,0b\n\t"
+    "1:\n\t"
+    "lghi    %%r0,28\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      3f\n\t"
+    "srlg  %%r0,%%r0,2\n\t"
+    "2:\n\t"
+    "vl  %%v16,0(%%r1,%[a0])\n\t"
+    "vl  %%v17,0(%%r1,%[y])\n\t"
+    "vfmasb   %%v17,%%v16,%%v0,%%v17\n\t"
+    "vst %%v17,0(%%r1,%[y])\n\t"
+    "agfi   %%r1,16\n\t"
+    "brctg  %%r0,2b\n\t"
+    "3:\n\t"
+    "nop"
+    : "+m"(*(struct { FLOAT x[n]; } *) y)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n]; } *) a0),[a0] "a"(a0),
+       "m"(*(const FLOAT (*)[1]) x),[x] "a"(x),[alpha] "Q"(*alpha),
+       [n] "r"(n)
+    : "cc", "r0", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21",
+       "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
+}
+
+static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest) {
+  BLASLONG i;
+  for (i = 0; i < n; i++) {
+    *dest += src[i];
+    dest += inc_dest;
+  }
+}
+
+int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha, FLOAT *a,
+          BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y,
+          FLOAT *buffer) {
+  BLASLONG i;
+  FLOAT *a_ptr;
+  FLOAT *x_ptr;
+  FLOAT *y_ptr;
+  FLOAT *ap[4];
+  BLASLONG n1;
+  BLASLONG m1;
+  BLASLONG m2;
+  BLASLONG m3;
+  BLASLONG n2;
+  BLASLONG lda4 = lda << 2;
+  FLOAT xbuffer[8], *ybuffer;
+
+  if (m < 1)
+    return (0);
+  if (n < 1)
+    return (0);
+
+  ybuffer = buffer;
+
+  n1 = n >> 2;
+  n2 = n & 3;
+
+  m3 = m & 3;
+  m1 = m & -4;
+  m2 = (m & (NBMAX - 1)) - m3;
+
+  y_ptr = y;
+
+  BLASLONG NB = NBMAX;
+
+  while (NB == NBMAX) {
+
+    m1 -= NB;
+    if (m1 < 0) {
+      if (m2 == 0)
+        break;
+      NB = m2;
+    }
+
+    a_ptr = a;
+    x_ptr = x;
+
+    ap[0] = a_ptr;
+    ap[1] = a_ptr + lda;
+    ap[2] = ap[1] + lda;
+    ap[3] = ap[2] + lda;
+
+    if (inc_y != 1)
+      memset(ybuffer, 0, NB * 4);
+    else
+      ybuffer = y_ptr;
+
+    if (inc_x == 1) {
+
+      for (i = 0; i < n1; i++) {
+        sgemv_kernel_4x4(NB, ap, x_ptr, ybuffer, &alpha);
+        ap[0] += lda4;
+        ap[1] += lda4;
+        ap[2] += lda4;
+        ap[3] += lda4;
+        a_ptr += lda4;
+        x_ptr += 4;
+      }
+
+      if (n2 & 2) {
+        sgemv_kernel_4x2(NB, ap, x_ptr, ybuffer, &alpha);
+        a_ptr += lda * 2;
+        x_ptr += 2;
+      }
+
+      if (n2 & 1) {
+        sgemv_kernel_4x1(NB, a_ptr, x_ptr, ybuffer, &alpha);
+        /* a_ptr += lda;
+           x_ptr += 1; */
+
+      }
+
+    } else {
+
+      for (i = 0; i < n1; i++) {
+        xbuffer[0] = x_ptr[0];
+        x_ptr += inc_x;
+        xbuffer[1] = x_ptr[0];
+        x_ptr += inc_x;
+        xbuffer[2] = x_ptr[0];
+        x_ptr += inc_x;
+        xbuffer[3] = x_ptr[0];
+        x_ptr += inc_x;
+        sgemv_kernel_4x4(NB, ap, xbuffer, ybuffer, &alpha);
+        ap[0] += lda4;
+        ap[1] += lda4;
+        ap[2] += lda4;
+        ap[3] += lda4;
+        a_ptr += lda4;
+      }
+
+      for (i = 0; i < n2; i++) {
+        xbuffer[0] = x_ptr[0];
+        x_ptr += inc_x;
+        sgemv_kernel_4x1(NB, a_ptr, xbuffer, ybuffer, &alpha);
+        a_ptr += lda;
+
+      }
+
+    }
+
+    a += NB;
+    if (inc_y != 1) {
+      add_y(NB, ybuffer, y_ptr, inc_y);
+      y_ptr += NB * inc_y;
+    } else
+      y_ptr += NB;
+
+  }
+
+  if (m3 == 0)
+    return (0);
+
+  if (m3 == 3) {
+    a_ptr = a;
+    x_ptr = x;
+    FLOAT temp0 = 0.0;
+    FLOAT temp1 = 0.0;
+    FLOAT temp2 = 0.0;
+    if (lda == 3 && inc_x == 1) {
+
+      for (i = 0; i < (n & -4); i += 4) {
+
+        temp0 += a_ptr[0] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+        temp1 += a_ptr[1] * x_ptr[0] + a_ptr[4] * x_ptr[1];
+        temp2 += a_ptr[2] * x_ptr[0] + a_ptr[5] * x_ptr[1];
+
+        temp0 += a_ptr[6] * x_ptr[2] + a_ptr[9] * x_ptr[3];
+        temp1 += a_ptr[7] * x_ptr[2] + a_ptr[10] * x_ptr[3];
+        temp2 += a_ptr[8] * x_ptr[2] + a_ptr[11] * x_ptr[3];
+
+        a_ptr += 12;
+        x_ptr += 4;
+      }
+
+      for (; i < n; i++) {
+        temp0 += a_ptr[0] * x_ptr[0];
+        temp1 += a_ptr[1] * x_ptr[0];
+        temp2 += a_ptr[2] * x_ptr[0];
+        a_ptr += 3;
+        x_ptr++;
+      }
+
+    } else {
+
+      for (i = 0; i < n; i++) {
+        temp0 += a_ptr[0] * x_ptr[0];
+        temp1 += a_ptr[1] * x_ptr[0];
+        temp2 += a_ptr[2] * x_ptr[0];
+        a_ptr += lda;
+        x_ptr += inc_x;
+
+      }
+
+    }
+    y_ptr[0] += alpha * temp0;
+    y_ptr += inc_y;
+    y_ptr[0] += alpha * temp1;
+    y_ptr += inc_y;
+    y_ptr[0] += alpha * temp2;
+    return (0);
+  }
+
+  if (m3 == 2) {
+    a_ptr = a;
+    x_ptr = x;
+    FLOAT temp0 = 0.0;
+    FLOAT temp1 = 0.0;
+    if (lda == 2 && inc_x == 1) {
+
+      for (i = 0; i < (n & -4); i += 4) {
+        temp0 += a_ptr[0] * x_ptr[0] + a_ptr[2] * x_ptr[1];
+        temp1 += a_ptr[1] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+        temp0 += a_ptr[4] * x_ptr[2] + a_ptr[6] * x_ptr[3];
+        temp1 += a_ptr[5] * x_ptr[2] + a_ptr[7] * x_ptr[3];
+        a_ptr += 8;
+        x_ptr += 4;
+
+      }
+
+      for (; i < n; i++) {
+        temp0 += a_ptr[0] * x_ptr[0];
+        temp1 += a_ptr[1] * x_ptr[0];
+        a_ptr += 2;
+        x_ptr++;
+      }
+
+    } else {
+
+      for (i = 0; i < n; i++) {
+        temp0 += a_ptr[0] * x_ptr[0];
+        temp1 += a_ptr[1] * x_ptr[0];
+        a_ptr += lda;
+        x_ptr += inc_x;
+
+      }
+
+    }
+    y_ptr[0] += alpha * temp0;
+    y_ptr += inc_y;
+    y_ptr[0] += alpha * temp1;
+    return (0);
+  }
+
+  if (m3 == 1) {
+    a_ptr = a;
+    x_ptr = x;
+    FLOAT temp = 0.0;
+    if (lda == 1 && inc_x == 1) {
+
+      for (i = 0; i < (n & -4); i += 4) {
+        temp +=
+          a_ptr[i] * x_ptr[i] + a_ptr[i + 1] * x_ptr[i + 1] + a_ptr[i +
+                                                                    2] *
+          x_ptr[i + 2] + a_ptr[i + 3] * x_ptr[i + 3];
+
+      }
+
+      for (; i < n; i++) {
+        temp += a_ptr[i] * x_ptr[i];
+      }
+
+    } else {
+
+      for (i = 0; i < n; i++) {
+        temp += a_ptr[0] * x_ptr[0];
+        a_ptr += lda;
+        x_ptr += inc_x;
+      }
+
+    }
+    y_ptr[0] += alpha * temp;
+    return (0);
+  }
+
+  return (0);
+}
diff --git a/kernel/zarch/sgemv_t_4.c b/kernel/zarch/sgemv_t_4.c
new file mode 100644
index 0000000000..81d7c9fe74
--- /dev/null
+++ b/kernel/zarch/sgemv_t_4.c
@@ -0,0 +1,753 @@
+/***************************************************************************
+Copyright (c) 2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+#define NBMAX 2048
+
+static void sgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) {
+  register FLOAT *ap0 = ap[0];
+  register FLOAT *ap1 = ap[1];
+  register FLOAT *ap2 = ap[2];
+  register FLOAT *ap3 = ap[3];
+
+  __asm__("vzero %%v0\n\t"
+    "vzero %%v1\n\t"
+    "vzero %%v2\n\t"
+    "vzero %%v3\n\t"
+    "vzero %%v4\n\t"
+    "vzero %%v5\n\t"
+    "vzero %%v6\n\t"
+    "vzero %%v7\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "lghi    %%r0,-32\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      1f\n\t"
+    "srlg  %%r0,%%r0,5\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[ap0])\n\t"
+    "pfd 1,1024(%%r1,%[ap1])\n\t"
+    "pfd 1,1024(%%r1,%[ap2])\n\t"
+    "pfd 1,1024(%%r1,%[ap3])\n\t"
+    "pfd 1,1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vl  %%v24,0(%%r1,%[ap0])\n\t"
+    "vfmasb   %%v0,%%v16,%%v24,%%v0\n\t"
+    "vl  %%v25,0(%%r1,%[ap1])\n\t"
+    "vfmasb   %%v1,%%v16,%%v25,%%v1\n\t"
+    "vl  %%v26,0(%%r1,%[ap2])\n\t"
+    "vfmasb   %%v2,%%v16,%%v26,%%v2\n\t"
+    "vl  %%v27,0(%%r1,%[ap3])\n\t"
+    "vfmasb   %%v3,%%v16,%%v27,%%v3\n\t"
+    "vl  %%v28,16(%%r1,%[ap0])\n\t"
+    "vfmasb   %%v4,%%v17,%%v28,%%v4\n\t"
+    "vl  %%v29,16(%%r1,%[ap1])\n\t"
+    "vfmasb   %%v5,%%v17,%%v29,%%v5\n\t"
+    "vl  %%v30,16(%%r1,%[ap2])\n\t"
+    "vfmasb   %%v6,%%v17,%%v30,%%v6\n\t"
+    "vl  %%v31,16(%%r1,%[ap3])\n\t"
+    "vfmasb   %%v7,%%v17,%%v31,%%v7\n\t"
+    "vl  %%v24,32(%%r1,%[ap0])\n\t"
+    "vfmasb   %%v0,%%v18,%%v24,%%v0\n\t"
+    "vl  %%v25,32(%%r1,%[ap1])\n\t"
+    "vfmasb   %%v1,%%v18,%%v25,%%v1\n\t"
+    "vl  %%v26,32(%%r1,%[ap2])\n\t"
+    "vfmasb   %%v2,%%v18,%%v26,%%v2\n\t"
+    "vl  %%v27,32(%%r1,%[ap3])\n\t"
+    "vfmasb   %%v3,%%v18,%%v27,%%v3\n\t"
+    "vl  %%v28,48(%%r1,%[ap0])\n\t"
+    "vfmasb   %%v4,%%v19,%%v28,%%v4\n\t"
+    "vl  %%v29,48(%%r1,%[ap1])\n\t"
+    "vfmasb   %%v5,%%v19,%%v29,%%v5\n\t"
+    "vl  %%v30,48(%%r1,%[ap2])\n\t"
+    "vfmasb   %%v6,%%v19,%%v30,%%v6\n\t"
+    "vl  %%v31,48(%%r1,%[ap3])\n\t"
+    "vfmasb   %%v7,%%v19,%%v31,%%v7\n\t"
+    "vl  %%v24,64(%%r1,%[ap0])\n\t"
+    "vfmasb   %%v0,%%v20,%%v24,%%v0\n\t"
+    "vl  %%v25,64(%%r1,%[ap1])\n\t"
+    "vfmasb   %%v1,%%v20,%%v25,%%v1\n\t"
+    "vl  %%v26,64(%%r1,%[ap2])\n\t"
+    "vfmasb   %%v2,%%v20,%%v26,%%v2\n\t"
+    "vl  %%v27,64(%%r1,%[ap3])\n\t"
+    "vfmasb   %%v3,%%v20,%%v27,%%v3\n\t"
+    "vl  %%v28,80(%%r1,%[ap0])\n\t"
+    "vfmasb   %%v4,%%v21,%%v28,%%v4\n\t"
+    "vl  %%v29,80(%%r1,%[ap1])\n\t"
+    "vfmasb   %%v5,%%v21,%%v29,%%v5\n\t"
+    "vl  %%v30,80(%%r1,%[ap2])\n\t"
+    "vfmasb   %%v6,%%v21,%%v30,%%v6\n\t"
+    "vl  %%v31,80(%%r1,%[ap3])\n\t"
+    "vfmasb   %%v7,%%v21,%%v31,%%v7\n\t"
+    "vl  %%v24,96(%%r1,%[ap0])\n\t"
+    "vfmasb   %%v0,%%v22,%%v24,%%v0\n\t"
+    "vl  %%v25,96(%%r1,%[ap1])\n\t"
+    "vfmasb   %%v1,%%v22,%%v25,%%v1\n\t"
+    "vl  %%v26,96(%%r1,%[ap2])\n\t"
+    "vfmasb   %%v2,%%v22,%%v26,%%v2\n\t"
+    "vl  %%v27,96(%%r1,%[ap3])\n\t"
+    "vfmasb   %%v3,%%v22,%%v27,%%v3\n\t"
+    "vl  %%v28,112(%%r1,%[ap0])\n\t"
+    "vfmasb   %%v4,%%v23,%%v28,%%v4\n\t"
+    "vl  %%v29,112(%%r1,%[ap1])\n\t"
+    "vfmasb   %%v5,%%v23,%%v29,%%v5\n\t"
+    "vl  %%v30,112(%%r1,%[ap2])\n\t"
+    "vfmasb   %%v6,%%v23,%%v30,%%v6\n\t"
+    "vl  %%v31,112(%%r1,%[ap3])\n\t"
+    "vfmasb   %%v7,%%v23,%%v31,%%v7\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %%r0,0b\n\t"
+    "1:\n\t"
+    "lghi    %%r0,28\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      3f\n\t"
+    "srlg  %%r0,%%r0,2\n\t"
+    "2:\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v24,0(%%r1,%[ap0])\n\t"
+    "vfmasb   %%v0,%%v16,%%v24,%%v0\n\t"
+    "vl  %%v25,0(%%r1,%[ap1])\n\t"
+    "vfmasb   %%v1,%%v16,%%v25,%%v1\n\t"
+    "vl  %%v26,0(%%r1,%[ap2])\n\t"
+    "vfmasb   %%v2,%%v16,%%v26,%%v2\n\t"
+    "vl  %%v27,0(%%r1,%[ap3])\n\t"
+    "vfmasb   %%v3,%%v16,%%v27,%%v3\n\t"
+    "agfi   %%r1,16\n\t"
+    "brctg  %%r0,2b\n\t"
+    "3:\n\t"
+    "vfasb  %%v0,%%v0,%%v4\n\t"
+    "vfasb  %%v1,%%v1,%%v5\n\t"
+    "vfasb  %%v2,%%v2,%%v6\n\t"
+    "vfasb  %%v3,%%v3,%%v7\n\t"
+    "veslg  %%v4,%%v0,32\n\t"
+    "vfasb  %%v0,%%v0,%%v4\n\t"
+    "vrepg  %%v4,%%v0,1\n\t"
+    "aebr   %%f0,%%f4\n\t"
+    "ste    %%f0,0(%[y])\n\t"
+    "veslg  %%v4,%%v1,32\n\t"
+    "vfasb  %%v1,%%v1,%%v4\n\t"
+    "vrepg  %%v4,%%v1,1\n\t"
+    "aebr   %%f1,%%f4\n\t"
+    "ste    %%f1,4(%[y])\n\t"
+    "veslg  %%v4,%%v2,32\n\t"
+    "vfasb  %%v2,%%v2,%%v4\n\t"
+    "vrepg  %%v4,%%v2,1\n\t"
+    "aebr   %%f2,%%f4\n\t"
+    "ste    %%f2,8(%[y])\n\t"
+    "veslg  %%v4,%%v3,32\n\t"
+    "vfasb  %%v3,%%v3,%%v4\n\t"
+    "vrepg  %%v4,%%v3,1\n\t"
+    "aebr   %%f3,%%f4\n\t"
+    "ste    %%f3,12(%[y])"
+    : "=m"(*(struct { FLOAT x[4]; } *) y)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n]; } *) ap0),[ap0] "a"(ap0),
+       "m"(*(const struct { FLOAT x[n]; } *) ap1),[ap1] "a"(ap1),
+       "m"(*(const struct { FLOAT x[n]; } *) ap2),[ap2] "a"(ap2),
+       "m"(*(const struct { FLOAT x[n]; } *) ap3),[ap3] "a"(ap3),
+       "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x),[n] "r"(n)
+    : "cc", "r0", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
+       "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25",
+       "v26", "v27", "v28", "v29", "v30", "v31");
+}
+
+static void sgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) {
+  register FLOAT *ap0 = ap[0];
+  register FLOAT *ap1 = ap[1];
+
+  __asm__("vzero %%v0\n\t"
+    "vzero %%v1\n\t"
+    "vzero %%v2\n\t"
+    "vzero %%v3\n\t"
+    "vzero %%v4\n\t"
+    "vzero %%v5\n\t"
+    "vzero %%v6\n\t"
+    "vzero %%v7\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "lghi    %%r0,-32\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      1f\n\t"
+    "srlg  %%r0,%%r0,5\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[ap0])\n\t"
+    "pfd 1,1024(%%r1,%[ap1])\n\t"
+    "pfd 1,1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vl  %%v24,0(%%r1,%[ap0])\n\t"
+    "vfmasb   %%v0,%%v16,%%v24,%%v0\n\t"
+    "vl  %%v25,0(%%r1,%[ap1])\n\t"
+    "vfmasb   %%v1,%%v16,%%v25,%%v1\n\t"
+    "vl  %%v26,16(%%r1,%[ap0])\n\t"
+    "vfmasb   %%v2,%%v17,%%v26,%%v2\n\t"
+    "vl  %%v27,16(%%r1,%[ap1])\n\t"
+    "vfmasb   %%v3,%%v17,%%v27,%%v3\n\t"
+    "vl  %%v28,32(%%r1,%[ap0])\n\t"
+    "vfmasb   %%v4,%%v18,%%v28,%%v4\n\t"
+    "vl  %%v29,32(%%r1,%[ap1])\n\t"
+    "vfmasb   %%v5,%%v18,%%v29,%%v5\n\t"
+    "vl  %%v30,48(%%r1,%[ap0])\n\t"
+    "vfmasb   %%v6,%%v19,%%v30,%%v6\n\t"
+    "vl  %%v31,48(%%r1,%[ap1])\n\t"
+    "vfmasb   %%v7,%%v19,%%v31,%%v7\n\t"
+    "vl  %%v24,64(%%r1,%[ap0])\n\t"
+    "vfmasb   %%v0,%%v20,%%v24,%%v0\n\t"
+    "vl  %%v25,64(%%r1,%[ap1])\n\t"
+    "vfmasb   %%v1,%%v20,%%v25,%%v1\n\t"
+    "vl  %%v26,80(%%r1,%[ap0])\n\t"
+    "vfmasb   %%v2,%%v21,%%v26,%%v2\n\t"
+    "vl  %%v27,80(%%r1,%[ap1])\n\t"
+    "vfmasb   %%v3,%%v21,%%v27,%%v3\n\t"
+    "vl  %%v28,96(%%r1,%[ap0])\n\t"
+    "vfmasb   %%v4,%%v22,%%v28,%%v4\n\t"
+    "vl  %%v29,96(%%r1,%[ap1])\n\t"
+    "vfmasb   %%v5,%%v22,%%v29,%%v5\n\t"
+    "vl  %%v30,112(%%r1,%[ap0])\n\t"
+    "vfmasb   %%v6,%%v23,%%v30,%%v6\n\t"
+    "vl  %%v31,112(%%r1,%[ap1])\n\t"
+    "vfmasb   %%v7,%%v23,%%v31,%%v7\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %%r0,0b\n\t"
+    "1:\n\t"
+    "lghi    %%r0,28\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      3f\n\t"
+    "srlg  %%r0,%%r0,2\n\t"
+    "2:\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v24,0(%%r1,%[ap0])\n\t"
+    "vfmasb   %%v0,%%v16,%%v24,%%v0\n\t"
+    "vl  %%v25,0(%%r1,%[ap1])\n\t"
+    "vfmasb   %%v1,%%v16,%%v25,%%v1\n\t"
+    "agfi   %%r1,16\n\t"
+    "brctg  %%r0,2b\n\t"
+    "3:\n\t"
+    "vfasb  %%v0,%%v0,%%v2\n\t"
+    "vfasb  %%v0,%%v0,%%v4\n\t"
+    "vfasb  %%v0,%%v0,%%v6\n\t"
+    "vfasb  %%v1,%%v1,%%v3\n\t"
+    "vfasb  %%v1,%%v1,%%v5\n\t"
+    "vfasb  %%v1,%%v1,%%v7\n\t"
+    "veslg  %%v2,%%v0,32\n\t"
+    "vfasb  %%v0,%%v0,%%v2\n\t"
+    "vrepg  %%v2,%%v0,1\n\t"
+    "aebr   %%f0,%%f2\n\t"
+    "ste    %%f0,0(%[y])\n\t"
+    "veslg  %%v2,%%v1,32\n\t"
+    "vfasb  %%v1,%%v1,%%v2\n\t"
+    "vrepg  %%v2,%%v1,1\n\t"
+    "aebr   %%f1,%%f2\n\t"
+    "ste    %%f1,4(%[y])"
+    : "=m"(*(struct { FLOAT x[2]; } *) y)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n]; } *) ap0),[ap0] "a"(ap0),
+       "m"(*(const struct { FLOAT x[n]; } *) ap1),[ap1] "a"(ap1),
+       "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x),[n] "r"(n)
+    : "cc", "r0", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
+       "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25",
+       "v26", "v27", "v28", "v29", "v30", "v31");
+}
+
+static void sgemv_kernel_4x1(BLASLONG n, FLOAT *a0, FLOAT *x, FLOAT *y) {
+  __asm__("vzero %%v0\n\t"
+    "vzero %%v1\n\t"
+    "vzero %%v2\n\t"
+    "vzero %%v3\n\t"
+    "vzero %%v4\n\t"
+    "vzero %%v5\n\t"
+    "vzero %%v6\n\t"
+    "vzero %%v7\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "lghi    %%r0,-32\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      1f\n\t"
+    "srlg  %%r0,%%r0,5\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[a0])\n\t"
+    "pfd 1,1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vl  %%v24,0(%%r1,%[a0])\n\t"
+    "vfmasb   %%v0,%%v16,%%v24,%%v0\n\t"
+    "vl  %%v25,16(%%r1,%[a0])\n\t"
+    "vfmasb   %%v1,%%v17,%%v25,%%v1\n\t"
+    "vl  %%v26,32(%%r1,%[a0])\n\t"
+    "vfmasb   %%v2,%%v18,%%v26,%%v2\n\t"
+    "vl  %%v27,48(%%r1,%[a0])\n\t"
+    "vfmasb   %%v3,%%v19,%%v27,%%v3\n\t"
+    "vl  %%v28,64(%%r1,%[a0])\n\t"
+    "vfmasb   %%v4,%%v20,%%v28,%%v4\n\t"
+    "vl  %%v29,80(%%r1,%[a0])\n\t"
+    "vfmasb   %%v5,%%v21,%%v29,%%v5\n\t"
+    "vl  %%v30,96(%%r1,%[a0])\n\t"
+    "vfmasb   %%v6,%%v22,%%v30,%%v6\n\t"
+    "vl  %%v31,112(%%r1,%[a0])\n\t"
+    "vfmasb   %%v7,%%v23,%%v31,%%v7\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %%r0,0b\n\t"
+    "1:\n\t"
+    "lghi    %%r0,28\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      3f\n\t"
+    "srlg  %%r0,%%r0,2\n\t"
+    "2:\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v24,0(%%r1,%[a0])\n\t"
+    "vfmasb   %%v0,%%v16,%%v24,%%v0\n\t"
+    "agfi   %%r1,16\n\t"
+    "brctg  %%r0,2b\n\t"
+    "3:\n\t"
+    "vfasb  %%v0,%%v0,%%v1\n\t"
+    "vfasb  %%v0,%%v0,%%v2\n\t"
+    "vfasb  %%v0,%%v0,%%v3\n\t"
+    "vfasb  %%v0,%%v0,%%v4\n\t"
+    "vfasb  %%v0,%%v0,%%v5\n\t"
+    "vfasb  %%v0,%%v0,%%v6\n\t"
+    "vfasb  %%v0,%%v0,%%v7\n\t"
+    "veslg  %%v1,%%v0,32\n\t"
+    "vfasb  %%v0,%%v0,%%v1\n\t"
+    "vrepg  %%v1,%%v0,1\n\t"
+    "aebr   %%f0,%%f1\n\t"
+    "ste    %%f0,0(%[y])"
+    : "=m"(*(FLOAT (*)[1]) y)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n]; } *) a0),[a0] "a"(a0),
+       "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x),[n] "r"(n)
+    : "cc", "r0", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
+       "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25",
+       "v26", "v27", "v28", "v29", "v30", "v31");
+}
+
+static void copy_x(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_src) {
+  BLASLONG i;
+  for (i = 0; i < n; i++) {
+    dest[i] = *src;
+    src += inc_src;
+  }
+}
+
+static void add_y_kernel_4(BLASLONG n, FLOAT da, FLOAT *src, FLOAT *dest) {
+  __asm__("vlrepf %%v0,%[da]\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "lghi    %%r0,-32\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      1f\n\t"
+    "srlg  %%r0,%%r0,5\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[src])\n\t"
+    "pfd 2,1024(%%r1,%[dest])\n\t"
+    "vl  %%v16,0(%%r1,%[src])\n\t"
+    "vl  %%v17,16(%%r1,%[src])\n\t"
+    "vl  %%v18,32(%%r1,%[src])\n\t"
+    "vl  %%v19,48(%%r1,%[src])\n\t"
+    "vl  %%v20,64(%%r1,%[src])\n\t"
+    "vl  %%v21,80(%%r1,%[src])\n\t"
+    "vl  %%v22,96(%%r1,%[src])\n\t"
+    "vl  %%v23,112(%%r1,%[src])\n\t"
+    "vl  %%v24, 0(%%r1,%[dest])\n\t"
+    "vfmasb   %%v24,%%v16,%%v0,%%v24\n\t"
+    "vst  %%v24, 0(%%r1,%[dest])\n\t"
+    "vl  %%v25, 16(%%r1,%[dest])\n\t"
+    "vfmasb   %%v25,%%v17,%%v0,%%v25\n\t"
+    "vst  %%v25, 16(%%r1,%[dest])\n\t"
+    "vl  %%v26, 32(%%r1,%[dest])\n\t"
+    "vfmasb   %%v26,%%v18,%%v0,%%v26\n\t"
+    "vst  %%v26, 32(%%r1,%[dest])\n\t"
+    "vl  %%v27, 48(%%r1,%[dest])\n\t"
+    "vfmasb   %%v27,%%v19,%%v0,%%v27\n\t"
+    "vst  %%v27, 48(%%r1,%[dest])\n\t"
+    "vl  %%v28, 64(%%r1,%[dest])\n\t"
+    "vfmasb   %%v28,%%v20,%%v0,%%v28\n\t"
+    "vst  %%v28, 64(%%r1,%[dest])\n\t"
+    "vl  %%v29, 80(%%r1,%[dest])\n\t"
+    "vfmasb   %%v29,%%v21,%%v0,%%v29\n\t"
+    "vst  %%v29, 80(%%r1,%[dest])\n\t"
+    "vl  %%v30, 96(%%r1,%[dest])\n\t"
+    "vfmasb   %%v30,%%v22,%%v0,%%v30\n\t"
+    "vst  %%v30, 96(%%r1,%[dest])\n\t"
+    "vl  %%v31, 112(%%r1,%[dest])\n\t"
+    "vfmasb   %%v31,%%v23,%%v0,%%v31\n\t"
+    "vst  %%v31, 112(%%r1,%[dest])\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %%r0,0b\n\t"
+    "1:\n\t"
+    "lghi    %%r0,28\n\t"
+    "ngr     %%r0,%[n]\n\t"
+    "ltgr    %%r0,%%r0\n\t"
+    "jz      3f\n\t"
+    "srlg  %%r0,%%r0,2\n\t"
+    "2:\n\t"
+    "vl  %%v16,0(%%r1,%[src])\n\t"
+    "vl  %%v24, 0(%%r1,%[dest])\n\t"
+    "vfmasb   %%v24,%%v16,%%v0,%%v24\n\t"
+    "vst  %%v24, 0(%%r1,%[dest])\n\t"
+    "agfi   %%r1,16\n\t"
+    "brctg  %%r0,2b\n\t"
+    "3:\n\t"
+    "nop"
+    : "+m"(*(struct { FLOAT x[n]; } *) dest)
+    : [dest] "a"(dest),[da] "Q"(da), "m"(*(const struct { FLOAT x[n]; } *) src),
+       [src] "a"(src),[n] "r"(n)
+    : "cc", "r0", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21",
+       "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
+}
+static void add_y(BLASLONG n, FLOAT da, FLOAT *src, FLOAT *dest,
+                  BLASLONG inc_dest) {
+  if (inc_dest == 1)
+    add_y_kernel_4(n, da, src, dest);
+  else {
+    BLASLONG i;
+    for (i = 0; i < n; i++) {
+      *dest += src[i] * da;
+      dest += inc_dest;
+    }
+  }
+}
+
+int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha, FLOAT *a,
+          BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y,
+          FLOAT *buffer) {
+  BLASLONG register i;
+  BLASLONG register j;
+  FLOAT *a_ptr;
+  FLOAT *x_ptr;
+  FLOAT *y_ptr;
+  BLASLONG n0;
+  BLASLONG n1;
+  BLASLONG m1;
+  BLASLONG m2;
+  BLASLONG m3;
+  BLASLONG n2;
+  FLOAT ybuffer[2] __attribute__ ((aligned(16)));
+  FLOAT *xbuffer;
+  FLOAT *ytemp;
+
+  if (m < 1)
+    return (0);
+  if (n < 1)
+    return (0);
+
+  xbuffer = buffer;
+  ytemp = buffer + (m < NBMAX ? m : NBMAX);
+
+  n0 = n / NBMAX;
+  n1 = (n % NBMAX) >> 2;
+  n2 = n & 3;
+
+  m3 = m & 3;
+  m1 = m & -4;
+  m2 = (m & (NBMAX - 1)) - m3;
+
+  BLASLONG NB = NBMAX;
+
+  while (NB == NBMAX) {
+    m1 -= NB;
+    if (m1 < 0) {
+      if (m2 == 0)
+        break;
+      NB = m2;
+    }
+
+    y_ptr = y;
+    a_ptr = a;
+    x_ptr = x;
+
+    if (inc_x == 1)
+      xbuffer = x_ptr;
+    else
+      copy_x(NB, x_ptr, xbuffer, inc_x);
+
+    FLOAT *ap[4];
+    FLOAT *yp;
+    BLASLONG register lda4 = 4 * lda;
+    ap[0] = a_ptr;
+    ap[1] = a_ptr + lda;
+    ap[2] = ap[1] + lda;
+    ap[3] = ap[2] + lda;
+
+    if (n0 > 0) {
+      BLASLONG nb1 = NBMAX / 4;
+      for (j = 0; j < n0; j++) {
+
+        yp = ytemp;
+        for (i = 0; i < nb1; i++) {
+          sgemv_kernel_4x4(NB, ap, xbuffer, yp);
+          ap[0] += lda4;
+          ap[1] += lda4;
+          ap[2] += lda4;
+          ap[3] += lda4;
+          yp += 4;
+        }
+        add_y(nb1 * 4, alpha, ytemp, y_ptr, inc_y);
+        y_ptr += nb1 * inc_y * 4;
+        a_ptr += nb1 * lda4;
+
+      }
+
+    }
+
+    yp = ytemp;
+
+    for (i = 0; i < n1; i++) {
+      sgemv_kernel_4x4(NB, ap, xbuffer, yp);
+      ap[0] += lda4;
+      ap[1] += lda4;
+      ap[2] += lda4;
+      ap[3] += lda4;
+      yp += 4;
+    }
+    if (n1 > 0) {
+      add_y(n1 * 4, alpha, ytemp, y_ptr, inc_y);
+      y_ptr += n1 * inc_y * 4;
+      a_ptr += n1 * lda4;
+    }
+
+    if (n2 & 2) {
+
+      sgemv_kernel_4x2(NB, ap, xbuffer, ybuffer);
+      a_ptr += lda * 2;
+      *y_ptr += ybuffer[0] * alpha;
+      y_ptr += inc_y;
+      *y_ptr += ybuffer[1] * alpha;
+      y_ptr += inc_y;
+
+    }
+
+    if (n2 & 1) {
+
+      sgemv_kernel_4x1(NB, a_ptr, xbuffer, ybuffer);
+      // a_ptr  += lda;
+      *y_ptr += ybuffer[0] * alpha;
+      // y_ptr  += inc_y;
+
+    }
+    a += NB;
+    x += NB * inc_x;
+  }
+
+  if (m3 == 0)
+    return (0);
+
+  x_ptr = x;
+  a_ptr = a;
+  if (m3 == 3) {
+    FLOAT xtemp0 = *x_ptr * alpha;
+    x_ptr += inc_x;
+    FLOAT xtemp1 = *x_ptr * alpha;
+    x_ptr += inc_x;
+    FLOAT xtemp2 = *x_ptr * alpha;
+
+    FLOAT *aj = a_ptr;
+    y_ptr = y;
+
+    if (lda == 3 && inc_y == 1) {
+
+      for (j = 0; j < (n & -4); j += 4) {
+
+        y_ptr[j] += aj[0] * xtemp0 + aj[1] * xtemp1 + aj[2] * xtemp2;
+        y_ptr[j + 1] += aj[3] * xtemp0 + aj[4] * xtemp1 + aj[5] * xtemp2;
+        y_ptr[j + 2] += aj[6] * xtemp0 + aj[7] * xtemp1 + aj[8] * xtemp2;
+        y_ptr[j + 3] += aj[9] * xtemp0 + aj[10] * xtemp1 + aj[11] * xtemp2;
+        aj += 12;
+      }
+
+      for (; j < n; j++) {
+        y_ptr[j] += aj[0] * xtemp0 + aj[1] * xtemp1 + aj[2] * xtemp2;
+        aj += 3;
+      }
+
+    } else {
+
+      if (inc_y == 1) {
+
+        BLASLONG register lda2 = lda << 1;
+        BLASLONG register lda4 = lda << 2;
+        BLASLONG register lda3 = lda2 + lda;
+
+        for (j = 0; j < (n & -4); j += 4) {
+
+          y_ptr[j] += *aj * xtemp0 + *(aj + 1) * xtemp1 + *(aj + 2) * xtemp2;
+          y_ptr[j + 1] +=
+            *(aj + lda) * xtemp0 + *(aj + lda + 1) * xtemp1 + *(aj + lda +
+                                                                2) * xtemp2;
+          y_ptr[j + 2] +=
+            *(aj + lda2) * xtemp0 + *(aj + lda2 + 1) * xtemp1 + *(aj + lda2 +
+                                                                  2) * xtemp2;
+          y_ptr[j + 3] +=
+            *(aj + lda3) * xtemp0 + *(aj + lda3 + 1) * xtemp1 + *(aj + lda3 +
+                                                                  2) * xtemp2;
+          aj += lda4;
+        }
+
+        for (; j < n; j++) {
+
+          y_ptr[j] += *aj * xtemp0 + *(aj + 1) * xtemp1 + *(aj + 2) * xtemp2;
+          aj += lda;
+        }
+
+      } else {
+
+        for (j = 0; j < n; j++) {
+          *y_ptr += *aj * xtemp0 + *(aj + 1) * xtemp1 + *(aj + 2) * xtemp2;
+          y_ptr += inc_y;
+          aj += lda;
+        }
+
+      }
+
+    }
+    return (0);
+  }
+
+  if (m3 == 2) {
+    FLOAT xtemp0 = *x_ptr * alpha;
+    x_ptr += inc_x;
+    FLOAT xtemp1 = *x_ptr * alpha;
+
+    FLOAT *aj = a_ptr;
+    y_ptr = y;
+
+    if (lda == 2 && inc_y == 1) {
+
+      for (j = 0; j < (n & -4); j += 4) {
+        y_ptr[j] += aj[0] * xtemp0 + aj[1] * xtemp1;
+        y_ptr[j + 1] += aj[2] * xtemp0 + aj[3] * xtemp1;
+        y_ptr[j + 2] += aj[4] * xtemp0 + aj[5] * xtemp1;
+        y_ptr[j + 3] += aj[6] * xtemp0 + aj[7] * xtemp1;
+        aj += 8;
+
+      }
+
+      for (; j < n; j++) {
+        y_ptr[j] += aj[0] * xtemp0 + aj[1] * xtemp1;
+        aj += 2;
+      }
+
+    } else {
+      if (inc_y == 1) {
+
+        BLASLONG register lda2 = lda << 1;
+        BLASLONG register lda4 = lda << 2;
+        BLASLONG register lda3 = lda2 + lda;
+
+        for (j = 0; j < (n & -4); j += 4) {
+
+          y_ptr[j] += *aj * xtemp0 + *(aj + 1) * xtemp1;
+          y_ptr[j + 1] += *(aj + lda) * xtemp0 + *(aj + lda + 1) * xtemp1;
+          y_ptr[j + 2] += *(aj + lda2) * xtemp0 + *(aj + lda2 + 1) * xtemp1;
+          y_ptr[j + 3] += *(aj + lda3) * xtemp0 + *(aj + lda3 + 1) * xtemp1;
+          aj += lda4;
+        }
+
+        for (; j < n; j++) {
+
+          y_ptr[j] += *aj * xtemp0 + *(aj + 1) * xtemp1;
+          aj += lda;
+        }
+
+      } else {
+        for (j = 0; j < n; j++) {
+          *y_ptr += *aj * xtemp0 + *(aj + 1) * xtemp1;
+          y_ptr += inc_y;
+          aj += lda;
+        }
+      }
+
+    }
+    return (0);
+
+  }
+
+  FLOAT xtemp = *x_ptr * alpha;
+  FLOAT *aj = a_ptr;
+  y_ptr = y;
+  if (lda == 1 && inc_y == 1) {
+    for (j = 0; j < (n & -4); j += 4) {
+      y_ptr[j] += aj[j] * xtemp;
+      y_ptr[j + 1] += aj[j + 1] * xtemp;
+      y_ptr[j + 2] += aj[j + 2] * xtemp;
+      y_ptr[j + 3] += aj[j + 3] * xtemp;
+    }
+    for (; j < n; j++) {
+      y_ptr[j] += aj[j] * xtemp;
+    }
+
+  } else {
+    if (inc_y == 1) {
+
+      BLASLONG register lda2 = lda << 1;
+      BLASLONG register lda4 = lda << 2;
+      BLASLONG register lda3 = lda2 + lda;
+      for (j = 0; j < (n & -4); j += 4) {
+        y_ptr[j] += *aj * xtemp;
+        y_ptr[j + 1] += *(aj + lda) * xtemp;
+        y_ptr[j + 2] += *(aj + lda2) * xtemp;
+        y_ptr[j + 3] += *(aj + lda3) * xtemp;
+        aj += lda4;
+      }
+
+      for (; j < n; j++) {
+        y_ptr[j] += *aj * xtemp;
+        aj += lda;
+      }
+
+    } else {
+      for (j = 0; j < n; j++) {
+        *y_ptr += *aj * xtemp;
+        y_ptr += inc_y;
+        aj += lda;
+      }
+
+    }
+  }
+
+  return (0);
+}
diff --git a/kernel/zarch/smax.c b/kernel/zarch/smax.c
new file mode 100644
index 0000000000..7015aaa1da
--- /dev/null
+++ b/kernel/zarch/smax.c
@@ -0,0 +1,149 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static FLOAT smax_kernel_64(BLASLONG n, FLOAT *x) {
+  FLOAT max;
+
+  __asm__("vl     %%v0,0(%[x])\n\t"
+    "srlg   %[n],%[n],6\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vl  %%v24,128(%%r1,%[x])\n\t"
+    "vl  %%v25,144(%%r1,%[x])\n\t"
+    "vl  %%v26,160(%%r1,%[x])\n\t"
+    "vl  %%v27,176(%%r1,%[x])\n\t"
+    "vl  %%v28,192(%%r1,%[x])\n\t"
+    "vl  %%v29,208(%%r1,%[x])\n\t"
+    "vl  %%v30,224(%%r1,%[x])\n\t"
+    "vl  %%v31,240(%%r1,%[x])\n\t"
+    "vfmaxsb  %%v16,%%v16,%%v24,0\n\t"
+    "vfmaxsb  %%v17,%%v17,%%v25,0\n\t"
+    "vfmaxsb  %%v18,%%v18,%%v26,0\n\t"
+    "vfmaxsb  %%v19,%%v19,%%v27,0\n\t"
+    "vfmaxsb  %%v20,%%v20,%%v28,0\n\t"
+    "vfmaxsb  %%v21,%%v21,%%v29,0\n\t"
+    "vfmaxsb  %%v22,%%v22,%%v30,0\n\t"
+    "vfmaxsb  %%v23,%%v23,%%v31,0\n\t"
+    "vfmaxsb  %%v16,%%v16,%%v20,0\n\t"
+    "vfmaxsb  %%v17,%%v17,%%v21,0\n\t"
+    "vfmaxsb  %%v18,%%v18,%%v22,0\n\t"
+    "vfmaxsb  %%v19,%%v19,%%v23,0\n\t"
+    "vfmaxsb  %%v16,%%v16,%%v18,0\n\t"
+    "vfmaxsb  %%v17,%%v17,%%v19,0\n\t"
+    "vfmaxsb  %%v16,%%v16,%%v17,0\n\t"
+    "vfmaxsb  %%v0,%%v0,%%v16,0\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "veslg   %%v16,%%v0,32\n\t"
+    "vfmaxsb %%v0,%%v0,%%v16,0\n\t"
+    "vrepf   %%v16,%%v0,2\n\t"
+    "wfmaxsb %%v0,%%v0,%%v16,0\n\t"
+    "ler    %[max],%%f0"
+    : [max] "=f"(max),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return max;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT maxf = 0.0;
+
+  if (n <= 0 || inc_x <= 0)
+    return (maxf);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -64;
+    if (n1 > 0) {
+
+      maxf = smax_kernel_64(n1, x);
+
+      i = n1;
+    } else {
+      maxf = x[0];
+      i++;
+    }
+
+    while (i < n) {
+      if (x[i] > maxf) {
+        maxf = x[i];
+      }
+      i++;
+    }
+    return (maxf);
+
+  } else {
+
+    maxf = x[0];
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (x[i] > maxf) {
+        maxf = x[i];
+      }
+      if (x[i + inc_x] > maxf) {
+        maxf = x[i + inc_x];
+      }
+      if (x[i + 2 * inc_x] > maxf) {
+        maxf = x[i + 2 * inc_x];
+      }
+      if (x[i + 3 * inc_x] > maxf) {
+        maxf = x[i + 3 * inc_x];
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
+
+    while (j < n) {
+      if (x[i] > maxf) {
+        maxf = x[i];
+      }
+      i += inc_x;
+      j++;
+    }
+    return (maxf);
+  }
+}
diff --git a/kernel/zarch/smin.c b/kernel/zarch/smin.c
new file mode 100644
index 0000000000..b6875c5c69
--- /dev/null
+++ b/kernel/zarch/smin.c
@@ -0,0 +1,149 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static FLOAT smin_kernel_64(BLASLONG n, FLOAT *x) {
+  FLOAT min;
+
+  __asm__("vl     %%v0,0(%[x])\n\t"
+    "srlg   %[n],%[n],6\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16,0(%%r1,%[x])\n\t"
+    "vl  %%v17,16(%%r1,%[x])\n\t"
+    "vl  %%v18,32(%%r1,%[x])\n\t"
+    "vl  %%v19,48(%%r1,%[x])\n\t"
+    "vl  %%v20,64(%%r1,%[x])\n\t"
+    "vl  %%v21,80(%%r1,%[x])\n\t"
+    "vl  %%v22,96(%%r1,%[x])\n\t"
+    "vl  %%v23,112(%%r1,%[x])\n\t"
+    "vl  %%v24,128(%%r1,%[x])\n\t"
+    "vl  %%v25,144(%%r1,%[x])\n\t"
+    "vl  %%v26,160(%%r1,%[x])\n\t"
+    "vl  %%v27,176(%%r1,%[x])\n\t"
+    "vl  %%v28,192(%%r1,%[x])\n\t"
+    "vl  %%v29,208(%%r1,%[x])\n\t"
+    "vl  %%v30,224(%%r1,%[x])\n\t"
+    "vl  %%v31,240(%%r1,%[x])\n\t"
+    "vfminsb  %%v16,%%v16,%%v24,0\n\t"
+    "vfminsb  %%v17,%%v17,%%v25,0\n\t"
+    "vfminsb  %%v18,%%v18,%%v26,0\n\t"
+    "vfminsb  %%v19,%%v19,%%v27,0\n\t"
+    "vfminsb  %%v20,%%v20,%%v28,0\n\t"
+    "vfminsb  %%v21,%%v21,%%v29,0\n\t"
+    "vfminsb  %%v22,%%v22,%%v30,0\n\t"
+    "vfminsb  %%v23,%%v23,%%v31,0\n\t"
+    "vfminsb  %%v16,%%v16,%%v20,0\n\t"
+    "vfminsb  %%v17,%%v17,%%v21,0\n\t"
+    "vfminsb  %%v18,%%v18,%%v22,0\n\t"
+    "vfminsb  %%v19,%%v19,%%v23,0\n\t"
+    "vfminsb  %%v16,%%v16,%%v18,0\n\t"
+    "vfminsb  %%v17,%%v17,%%v19,0\n\t"
+    "vfminsb  %%v16,%%v16,%%v17,0\n\t"
+    "vfminsb  %%v0,%%v0,%%v16,0\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "veslg   %%v16,%%v0,32\n\t"
+    "vfminsb %%v0,%%v0,%%v16,0\n\t"
+    "vrepf   %%v16,%%v0,2\n\t"
+    "wfminsb %%v0,%%v0,%%v16,0\n\t"
+    "ler    %[min],%%f0"
+    : [min] "=f"(min),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return min;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG j = 0;
+  FLOAT minf = 0.0;
+
+  if (n <= 0 || inc_x <= 0)
+    return (minf);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -64;
+    if (n1 > 0) {
+
+      minf = smin_kernel_64(n1, x);
+
+      i = n1;
+    } else {
+      minf = x[0];
+      i++;
+    }
+
+    while (i < n) {
+      if (x[i] < minf) {
+        minf = x[i];
+      }
+      i++;
+    }
+    return (minf);
+
+  } else {
+
+    minf = x[0];
+
+    BLASLONG n1 = n & -4;
+    while (j < n1) {
+
+      if (x[i] < minf) {
+        minf = x[i];
+      }
+      if (x[i + inc_x] < minf) {
+        minf = x[i + inc_x];
+      }
+      if (x[i + 2 * inc_x] < minf) {
+        minf = x[i + 2 * inc_x];
+      }
+      if (x[i + 3 * inc_x] < minf) {
+        minf = x[i + 3 * inc_x];
+      }
+
+      i += inc_x * 4;
+
+      j += 4;
+
+    }
+
+    while (j < n) {
+      if (x[i] < minf) {
+        minf = x[i];
+      }
+      i += inc_x;
+      j++;
+    }
+    return (minf);
+  }
+}
diff --git a/kernel/zarch/srot.c b/kernel/zarch/srot.c
new file mode 100644
index 0000000000..4f471d8668
--- /dev/null
+++ b/kernel/zarch/srot.c
@@ -0,0 +1,226 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static void srot_kernel_64(BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *c, FLOAT *s) {
+  __asm__("vlrepf %%v0,%[c]\n\t"
+    "vlrepf %%v1,%[s]\n\t"
+    "srlg   %[n],%[n],6\n\t"
+    "xgr    %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "pfd 2, 1024(%%r1,%[y])\n\t"
+    "vl  %%v24, 0(%%r1,%[x])\n\t"
+    "vl  %%v25, 16(%%r1,%[x])\n\t"
+    "vl  %%v26, 32(%%r1,%[x])\n\t"
+    "vl  %%v27, 48(%%r1,%[x])\n\t"
+    "vl  %%v16, 0(%%r1,%[y])\n\t"
+    "vl  %%v17, 16(%%r1,%[y])\n\t"
+    "vl  %%v18, 32(%%r1,%[y])\n\t"
+    "vl  %%v19, 48(%%r1,%[y])\n\t"
+    "vfmsb %%v28,%%v24,%%v0\n\t"
+    "vfmsb %%v29,%%v25,%%v0\n\t"
+    "vfmsb %%v20,%%v24,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v21,%%v25,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v30,%%v26,%%v0\n\t"
+    "vfmsb %%v22,%%v26,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v31,%%v27,%%v0\n\t"
+    "vfmsb %%v23,%%v27,%%v1\n\t" /* yn=x*s */
+    /* 2nd parts */
+    "vfmasb %%v28,%%v16,%%v1,%%v28\n\t"
+    "vfmssb %%v20,%%v16,%%v0,%%v20\n\t" /* yn=y*c-yn */
+    "vfmasb %%v29,%%v17,%%v1,%%v29\n\t"
+    "vfmssb %%v21,%%v17,%%v0,%%v21\n\t" /* yn=y*c-yn */
+    "vfmasb %%v30,%%v18,%%v1,%%v30\n\t"
+    "vfmssb %%v22,%%v18,%%v0,%%v22\n\t" /* yn=y*c-yn */
+    "vfmasb %%v31,%%v19,%%v1,%%v31\n\t"
+    "vfmssb %%v23,%%v19,%%v0,%%v23\n\t" /* yn=y*c-yn */
+    "vst  %%v28, 0(%%r1,%[x])\n\t"
+    "vst  %%v29, 16(%%r1,%[x])\n\t"
+    "vst  %%v30, 32(%%r1,%[x])\n\t"
+    "vst  %%v31, 48(%%r1,%[x])\n\t"
+    "vst  %%v20, 0(%%r1,%[y])\n\t"
+    "vst  %%v21, 16(%%r1,%[y])\n\t"
+    "vst  %%v22, 32(%%r1,%[y])\n\t"
+    "vst  %%v23, 48(%%r1,%[y])\n\t"
+    "vl  %%v24, 64(%%r1,%[x])\n\t"
+    "vl  %%v25, 80(%%r1,%[x])\n\t"
+    "vl  %%v26, 96(%%r1,%[x])\n\t"
+    "vl  %%v27, 112(%%r1,%[x])\n\t"
+    "vl  %%v16, 64(%%r1,%[y])\n\t"
+    "vl  %%v17, 80(%%r1,%[y])\n\t"
+    "vl  %%v18, 96(%%r1,%[y])\n\t"
+    "vl  %%v19, 112(%%r1,%[y])\n\t"
+    "vfmsb %%v28,%%v24,%%v0\n\t"
+    "vfmsb %%v29,%%v25,%%v0\n\t"
+    "vfmsb %%v20,%%v24,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v21,%%v25,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v30,%%v26,%%v0\n\t"
+    "vfmsb %%v22,%%v26,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v31,%%v27,%%v0\n\t"
+    "vfmsb %%v23,%%v27,%%v1\n\t" /* yn=x*s */
+    /* 2nd parts */
+    "vfmasb %%v28,%%v16,%%v1,%%v28\n\t"
+    "vfmssb %%v20,%%v16,%%v0,%%v20\n\t" /* yn=y*c-yn */
+    "vfmasb %%v29,%%v17,%%v1,%%v29\n\t"
+    "vfmssb %%v21,%%v17,%%v0,%%v21\n\t" /* yn=y*c-yn */
+    "vfmasb %%v30,%%v18,%%v1,%%v30\n\t"
+    "vfmssb %%v22,%%v18,%%v0,%%v22\n\t" /* yn=y*c-yn */
+    "vfmasb %%v31,%%v19,%%v1,%%v31\n\t"
+    "vfmssb %%v23,%%v19,%%v0,%%v23\n\t" /* yn=y*c-yn */
+    "vst  %%v28, 64(%%r1,%[x])\n\t"
+    "vst  %%v29, 80(%%r1,%[x])\n\t"
+    "vst  %%v30, 96(%%r1,%[x])\n\t"
+    "vst  %%v31, 112(%%r1,%[x])\n\t"
+    "vst  %%v20, 64(%%r1,%[y])\n\t"
+    "vst  %%v21, 80(%%r1,%[y])\n\t"
+    "vst  %%v22, 96(%%r1,%[y])\n\t"
+    "vst  %%v23, 112(%%r1,%[y])\n\t"
+    "vl  %%v24, 128(%%r1,%[x])\n\t"
+    "vl  %%v25, 144(%%r1,%[x])\n\t"
+    "vl  %%v26, 160(%%r1,%[x])\n\t"
+    "vl  %%v27, 176(%%r1,%[x])\n\t"
+    "vl  %%v16, 128(%%r1,%[y])\n\t"
+    "vl  %%v17, 144(%%r1,%[y])\n\t"
+    "vl  %%v18, 160(%%r1,%[y])\n\t"
+    "vl  %%v19, 176(%%r1,%[y])\n\t"
+    "vfmsb %%v28,%%v24,%%v0\n\t"
+    "vfmsb %%v29,%%v25,%%v0\n\t"
+    "vfmsb %%v20,%%v24,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v21,%%v25,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v30,%%v26,%%v0\n\t"
+    "vfmsb %%v22,%%v26,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v31,%%v27,%%v0\n\t"
+    "vfmsb %%v23,%%v27,%%v1\n\t" /* yn=x*s */
+    /* 2nd parts */
+    "vfmasb %%v28,%%v16,%%v1,%%v28\n\t"
+    "vfmssb %%v20,%%v16,%%v0,%%v20\n\t" /* yn=y*c-yn */
+    "vfmasb %%v29,%%v17,%%v1,%%v29\n\t"
+    "vfmssb %%v21,%%v17,%%v0,%%v21\n\t" /* yn=y*c-yn */
+    "vfmasb %%v30,%%v18,%%v1,%%v30\n\t"
+    "vfmssb %%v22,%%v18,%%v0,%%v22\n\t" /* yn=y*c-yn */
+    "vfmasb %%v31,%%v19,%%v1,%%v31\n\t"
+    "vfmssb %%v23,%%v19,%%v0,%%v23\n\t" /* yn=y*c-yn */
+    "vst  %%v28, 128(%%r1,%[x])\n\t"
+    "vst  %%v29, 144(%%r1,%[x])\n\t"
+    "vst  %%v30, 160(%%r1,%[x])\n\t"
+    "vst  %%v31, 176(%%r1,%[x])\n\t"
+    "vst  %%v20, 128(%%r1,%[y])\n\t"
+    "vst  %%v21, 144(%%r1,%[y])\n\t"
+    "vst  %%v22, 160(%%r1,%[y])\n\t"
+    "vst  %%v23, 176(%%r1,%[y])\n\t"
+    "vl  %%v24, 192(%%r1,%[x])\n\t"
+    "vl  %%v25, 208(%%r1,%[x])\n\t"
+    "vl  %%v26, 224(%%r1,%[x])\n\t"
+    "vl  %%v27, 240(%%r1,%[x])\n\t"
+    "vl  %%v16, 192(%%r1,%[y])\n\t"
+    "vl  %%v17, 208(%%r1,%[y])\n\t"
+    "vl  %%v18, 224(%%r1,%[y])\n\t"
+    "vl  %%v19, 240(%%r1,%[y])\n\t"
+    "vfmsb %%v28,%%v24,%%v0\n\t"
+    "vfmsb %%v29,%%v25,%%v0\n\t"
+    "vfmsb %%v20,%%v24,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v21,%%v25,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v30,%%v26,%%v0\n\t"
+    "vfmsb %%v22,%%v26,%%v1\n\t" /* yn=x*s */
+    "vfmsb %%v31,%%v27,%%v0\n\t"
+    "vfmsb %%v23,%%v27,%%v1\n\t" /* yn=x*s */
+    /* 2nd parts */
+    "vfmasb %%v28,%%v16,%%v1,%%v28\n\t"
+    "vfmssb %%v20,%%v16,%%v0,%%v20\n\t" /* yn=y*c-yn */
+    "vfmasb %%v29,%%v17,%%v1,%%v29\n\t"
+    "vfmssb %%v21,%%v17,%%v0,%%v21\n\t" /* yn=y*c-yn */
+    "vfmasb %%v30,%%v18,%%v1,%%v30\n\t"
+    "vfmssb %%v22,%%v18,%%v0,%%v22\n\t" /* yn=y*c-yn */
+    "vfmasb %%v31,%%v19,%%v1,%%v31\n\t"
+    "vfmssb %%v23,%%v19,%%v0,%%v23\n\t" /* yn=y*c-yn */
+    "vst  %%v28, 192(%%r1,%[x])\n\t"
+    "vst  %%v29, 208(%%r1,%[x])\n\t"
+    "vst  %%v30, 224(%%r1,%[x])\n\t"
+    "vst  %%v31, 240(%%r1,%[x])\n\t"
+    "vst  %%v20, 192(%%r1,%[y])\n\t"
+    "vst  %%v21, 208(%%r1,%[y])\n\t"
+    "vst  %%v22, 224(%%r1,%[y])\n\t"
+    "vst  %%v23, 240(%%r1,%[y])\n\t"
+    "agfi  %%r1,256\n\t"
+    "brctg %[n],0b"
+    : "+m"(*(struct { FLOAT x[n]; } *) x), "+m"(*(struct { FLOAT x[n]; } *) y),
+       [n] "+&r"(n)
+    : [x] "a"(x),[y] "a"(y),[c] "Q"(*c),[s] "Q"(*s)
+    : "cc", "r1", "v0", "v1", "v16", "v17", "v18", "v19", "v20", "v21",
+       "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
+}
+
+int CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y,
+          FLOAT c, FLOAT s) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
+
+  FLOAT temp;
+
+  if (n <= 0)
+    return (0);
+
+  if ((inc_x == 1) && (inc_y == 1)) {
+
+    BLASLONG n1 = n & -64;
+    if (n1 > 0) {
+      FLOAT cosa, sina;
+      cosa = c;
+      sina = s;
+      srot_kernel_64(n1, x, y, &cosa, &sina);
+      i = n1;
+    }
+
+    while (i < n) {
+      temp = c * x[i] + s * y[i];
+      y[i] = c * y[i] - s * x[i];
+      x[i] = temp;
+
+      i++;
+
+    }
+
+  } else {
+
+    while (i < n) {
+      temp = c * x[ix] + s * y[iy];
+      y[iy] = c * y[iy] - s * x[ix];
+      x[ix] = temp;
+
+      ix += inc_x;
+      iy += inc_y;
+      i++;
+
+    }
+
+  }
+  return (0);
+
+}
diff --git a/kernel/zarch/sscal.c b/kernel/zarch/sscal.c
new file mode 100644
index 0000000000..9b9930dc87
--- /dev/null
+++ b/kernel/zarch/sscal.c
@@ -0,0 +1,173 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static void sscal_kernel_32(BLASLONG n, FLOAT da, FLOAT *x) {
+  __asm__("vlrepf %%v0,%[da]\n\t"
+    "srlg  %[n],%[n],5\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "vl    %%v24,0(%%r1,%[x])\n\t"
+    "vfmsb %%v24,%%v24,%%v0\n\t"
+    "vst   %%v24,0(%%r1,%[x])\n\t"
+    "vl    %%v25,16(%%r1,%[x])\n\t"
+    "vfmsb %%v25,%%v25,%%v0\n\t"
+    "vst   %%v25,16(%%r1,%[x])\n\t"
+    "vl    %%v26,32(%%r1,%[x])\n\t"
+    "vfmsb %%v26,%%v26,%%v0\n\t"
+    "vst   %%v26,32(%%r1,%[x])\n\t"
+    "vl    %%v27,48(%%r1,%[x])\n\t"
+    "vfmsb %%v27,%%v27,%%v0\n\t"
+    "vst   %%v27,48(%%r1,%[x])\n\t"
+    "vl    %%v28,64(%%r1,%[x])\n\t"
+    "vfmsb %%v28,%%v28,%%v0\n\t"
+    "vst   %%v28,64(%%r1,%[x])\n\t"
+    "vl    %%v29,80(%%r1,%[x])\n\t"
+    "vfmsb %%v29,%%v29,%%v0\n\t"
+    "vst   %%v29,80(%%r1,%[x])\n\t"
+    "vl    %%v30,96(%%r1,%[x])\n\t"
+    "vfmsb %%v30,%%v30,%%v0\n\t"
+    "vst   %%v30,96(%%r1,%[x])\n\t"
+    "vl    %%v31,112(%%r1,%[x])\n\t"
+    "vfmsb %%v31,%%v31,%%v0\n\t"
+    "vst   %%v31,112(%%r1,%[x])\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %[n],0b"
+    : "+m"(*(struct { FLOAT x[n]; } *) x),[n] "+&r"(n)
+    : [x] "a"(x),[da] "Q"(da)
+    : "cc", "r1", "v0", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
+}
+
+static void sscal_kernel_32_zero(BLASLONG n, FLOAT *x) {
+  __asm__("vzero %%v0\n\t"
+    "srlg %[n],%[n],5\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "vst  %%v0,0(%%r1,%[x])\n\t"
+    "vst  %%v0,16(%%r1,%[x])\n\t"
+    "vst  %%v0,32(%%r1,%[x])\n\t"
+    "vst  %%v0,48(%%r1,%[x])\n\t"
+    "vst  %%v0,64(%%r1,%[x])\n\t"
+    "vst  %%v0,80(%%r1,%[x])\n\t"
+    "vst  %%v0,96(%%r1,%[x])\n\t"
+    "vst  %%v0,112(%%r1,%[x])\n\t"
+    "agfi  %%r1,128\n\t"
+    "brctg %[n],0b"
+    : "=m"(*(struct { FLOAT x[n]; } *) x),[n] "+&r"(n)
+    : [x] "a"(x)
+    : "cc", "r1", "v0");
+}
+
+int CNAME(BLASLONG n, BLASLONG dummy0, BLASLONG dummy1, FLOAT da, FLOAT *x,
+          BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *dummy,
+          BLASLONG dummy2) {
+  BLASLONG i = 0, j = 0;
+  if (n <= 0 || inc_x <= 0)
+    return (0);
+
+  if (inc_x == 1) {
+
+    if (da == 0.0) {
+
+      BLASLONG n1 = n & -32;
+      if (n1 > 0) {
+
+        sscal_kernel_32_zero(n1, x);
+        j = n1;
+      }
+
+      while (j < n) {
+
+        x[j] = 0.0;
+        j++;
+      }
+
+    } else {
+
+      BLASLONG n1 = n & -32;
+      if (n1 > 0) {
+        sscal_kernel_32(n1, da, x);
+        j = n1;
+      }
+      while (j < n) {
+
+        x[j] = da * x[j];
+        j++;
+      }
+    }
+
+  } else {
+
+    if (da == 0.0) {
+
+      BLASLONG n1 = n & -2;
+
+      while (j < n1) {
+
+        x[i] = 0.0;
+        x[i + inc_x] = 0.0;
+
+        i += inc_x * 2;
+        j += 2;
+
+      }
+      while (j < n) {
+
+        x[i] = 0.0;
+        i += inc_x;
+        j++;
+      }
+
+    } else {
+      BLASLONG n1 = n & -2;
+
+      while (j < n1) {
+
+        x[i] = da * x[i];
+        x[i + inc_x] = da * x[i + inc_x];
+
+        i += inc_x * 2;
+        j += 2;
+
+      }
+
+      while (j < n) {
+
+        x[i] = da * x[i];
+        i += inc_x;
+        j++;
+      }
+    }
+
+  }
+  return 0;
+
+}
diff --git a/kernel/zarch/sswap.c b/kernel/zarch/sswap.c
new file mode 100644
index 0000000000..0c62f189d7
--- /dev/null
+++ b/kernel/zarch/sswap.c
@@ -0,0 +1,151 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+
+static void sswap_kernel_64(BLASLONG n, FLOAT *x, FLOAT *y) {
+  __asm__("srlg %[n],%[n],6\n\t"
+    "xgr  %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "pfd 2, 1024(%%r1,%[y])\n\t"
+    "vl  %%v16, 0(%%r1,%[x])\n\t"
+    "vl  %%v17, 16(%%r1,%[x])\n\t"
+    "vl  %%v18, 32(%%r1,%[x])\n\t"
+    "vl  %%v19, 48(%%r1,%[x])\n\t"
+    "vl  %%v20, 64(%%r1,%[x])\n\t"
+    "vl  %%v21, 80(%%r1,%[x])\n\t"
+    "vl  %%v22, 96(%%r1,%[x])\n\t"
+    "vl  %%v23, 112(%%r1,%[x])\n\t"
+    "vl  %%v24, 128(%%r1,%[x])\n\t"
+    "vl  %%v25, 144(%%r1,%[x])\n\t"
+    "vl  %%v26, 160(%%r1,%[x])\n\t"
+    "vl  %%v27, 176(%%r1,%[x])\n\t"
+    "vl  %%v28, 192(%%r1,%[x])\n\t"
+    "vl  %%v29, 208(%%r1,%[x])\n\t"
+    "vl  %%v30, 224(%%r1,%[x])\n\t"
+    "vl  %%v31, 240(%%r1,%[x])\n\t"
+    "vl  %%v0, 0(%%r1,%[y])\n\t"
+    "vl  %%v1, 16(%%r1,%[y])\n\t"
+    "vl  %%v2, 32(%%r1,%[y])\n\t"
+    "vl  %%v3, 48(%%r1,%[y])\n\t"
+    "vl  %%v4, 64(%%r1,%[y])\n\t"
+    "vl  %%v5, 80(%%r1,%[y])\n\t"
+    "vl  %%v6, 96(%%r1,%[y])\n\t"
+    "vl  %%v7, 112(%%r1,%[y])\n\t"
+    "vst  %%v0, 0(%%r1,%[x])\n\t"
+    "vst  %%v1, 16(%%r1,%[x])\n\t"
+    "vst  %%v2, 32(%%r1,%[x])\n\t"
+    "vst  %%v3, 48(%%r1,%[x])\n\t"
+    "vst  %%v4, 64(%%r1,%[x])\n\t"
+    "vst  %%v5, 80(%%r1,%[x])\n\t"
+    "vst  %%v6, 96(%%r1,%[x])\n\t"
+    "vst  %%v7, 112(%%r1,%[x])\n\t"
+    "vl  %%v0, 128(%%r1,%[y])\n\t"
+    "vl  %%v1, 144(%%r1,%[y])\n\t"
+    "vl  %%v2, 160(%%r1,%[y])\n\t"
+    "vl  %%v3, 176(%%r1,%[y])\n\t"
+    "vl  %%v4, 192(%%r1,%[y])\n\t"
+    "vl  %%v5, 208(%%r1,%[y])\n\t"
+    "vl  %%v6, 224(%%r1,%[y])\n\t"
+    "vl  %%v7, 240(%%r1,%[y])\n\t"
+    "vst  %%v0, 128(%%r1,%[x])\n\t"
+    "vst  %%v1, 144(%%r1,%[x])\n\t"
+    "vst  %%v2, 160(%%r1,%[x])\n\t"
+    "vst  %%v3, 176(%%r1,%[x])\n\t"
+    "vst  %%v4, 192(%%r1,%[x])\n\t"
+    "vst  %%v5, 208(%%r1,%[x])\n\t"
+    "vst  %%v6, 224(%%r1,%[x])\n\t"
+    "vst  %%v7, 240(%%r1,%[x])\n\t"
+    "vst  %%v16, 0(%%r1,%[y])\n\t"
+    "vst  %%v17, 16(%%r1,%[y])\n\t"
+    "vst  %%v18, 32(%%r1,%[y])\n\t"
+    "vst  %%v19, 48(%%r1,%[y])\n\t"
+    "vst  %%v20, 64(%%r1,%[y])\n\t"
+    "vst  %%v21, 80(%%r1,%[y])\n\t"
+    "vst  %%v22, 96(%%r1,%[y])\n\t"
+    "vst  %%v23, 112(%%r1,%[y])\n\t"
+    "vst  %%v24, 128(%%r1,%[y])\n\t"
+    "vst  %%v25, 144(%%r1,%[y])\n\t"
+    "vst  %%v26, 160(%%r1,%[y])\n\t"
+    "vst  %%v27, 176(%%r1,%[y])\n\t"
+    "vst  %%v28, 192(%%r1,%[y])\n\t"
+    "vst  %%v29, 208(%%r1,%[y])\n\t"
+    "vst  %%v30, 224(%%r1,%[y])\n\t"
+    "vst  %%v31, 240(%%r1,%[y])\n\t"
+    "agfi   %%r1,256\n\t"
+    "brctg  %[n],0b"
+    : "+m"(*(struct { FLOAT x[n]; } *) x), "+m"(*(struct { FLOAT x[n]; } *) y),
+       [n] "+&r"(n)
+    : [x] "a"(x),[y] "a"(y)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7", "v16",
+       "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
+       "v27", "v28", "v29", "v30", "v31");
+}
+
+int CNAME(BLASLONG n, BLASLONG dummy0, BLASLONG dummy1, FLOAT dummy3, FLOAT *x,
+          BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *dummy,
+          BLASLONG dummy2) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
+  FLOAT temp;
+
+  if (n <= 0)
+    return (0);
+
+  if ((inc_x == 1) && (inc_y == 1)) {
+
+    BLASLONG n1 = n & -64;
+    if (n1 > 0) {
+      sswap_kernel_64(n1, x, y);
+      i = n1;
+    }
+
+    while (i < n) {
+      temp = y[i];
+      y[i] = x[i];
+      x[i] = temp;
+      i++;
+
+    }
+
+  } else {
+
+    while (i < n) {
+      temp = y[iy];
+      y[iy] = x[ix];
+      x[ix] = temp;
+      ix += inc_x;
+      iy += inc_y;
+      i++;
+
+    }
+
+  }
+  return (0);
+
+}
diff --git a/kernel/zarch/zamax.c b/kernel/zarch/zamax.c
new file mode 100644
index 0000000000..aa04ab91fe
--- /dev/null
+++ b/kernel/zarch/zamax.c
@@ -0,0 +1,192 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+#include <math.h>
+
+#define CABS1(x,i) (fabs(x[i]) + fabs(x[i + 1]))
+
+static FLOAT zamax_kernel_16(BLASLONG n, FLOAT *x) {
+  FLOAT amax;
+
+  __asm__("vleg   %%v0,0(%[x]),0\n\t"
+    "vleg   %%v16,8(%[x]),0\n\t"
+    "vleg   %%v0,16(%[x]),1\n\t"
+    "vleg   %%v16,24(%[x]),1\n\t"
+    "vflpdb %%v0,%%v0\n\t"
+    "vflpdb %%v16,%%v16\n\t"
+    "vfadb  %%v0,%%v0,%%v16\n\t"
+    "srlg  %[n],%[n],4\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vleg  %%v16,0(%%r1,%[x]),0\n\t"
+    "vleg  %%v17,8(%%r1,%[x]),0\n\t"
+    "vleg  %%v16,16(%%r1,%[x]),1\n\t"
+    "vleg  %%v17,24(%%r1,%[x]),1\n\t"
+    "vleg  %%v18,32(%%r1,%[x]),0\n\t"
+    "vleg  %%v19,40(%%r1,%[x]),0\n\t"
+    "vleg  %%v18,48(%%r1,%[x]),1\n\t"
+    "vleg  %%v19,56(%%r1,%[x]),1\n\t"
+    "vleg  %%v20,64(%%r1,%[x]),0\n\t"
+    "vleg  %%v21,72(%%r1,%[x]),0\n\t"
+    "vleg  %%v20,80(%%r1,%[x]),1\n\t"
+    "vleg  %%v21,88(%%r1,%[x]),1\n\t"
+    "vleg  %%v22,96(%%r1,%[x]),0\n\t"
+    "vleg  %%v23,104(%%r1,%[x]),0\n\t"
+    "vleg  %%v22,112(%%r1,%[x]),1\n\t"
+    "vleg  %%v23,120(%%r1,%[x]),1\n\t"
+    "vleg  %%v24,128(%%r1,%[x]),0\n\t"
+    "vleg  %%v25,136(%%r1,%[x]),0\n\t"
+    "vleg  %%v24,144(%%r1,%[x]),1\n\t"
+    "vleg  %%v25,152(%%r1,%[x]),1\n\t"
+    "vleg  %%v26,160(%%r1,%[x]),0\n\t"
+    "vleg  %%v27,168(%%r1,%[x]),0\n\t"
+    "vleg  %%v26,176(%%r1,%[x]),1\n\t"
+    "vleg  %%v27,184(%%r1,%[x]),1\n\t"
+    "vleg  %%v28,192(%%r1,%[x]),0\n\t"
+    "vleg  %%v29,200(%%r1,%[x]),0\n\t"
+    "vleg  %%v28,208(%%r1,%[x]),1\n\t"
+    "vleg  %%v29,216(%%r1,%[x]),1\n\t"
+    "vleg  %%v30,224(%%r1,%[x]),0\n\t"
+    "vleg  %%v31,232(%%r1,%[x]),0\n\t"
+    "vleg  %%v30,240(%%r1,%[x]),1\n\t"
+    "vleg  %%v31,248(%%r1,%[x]),1\n\t"
+    "vflpdb  %%v16,%%v16\n\t"
+    "vflpdb  %%v17,%%v17\n\t"
+    "vflpdb  %%v18,%%v18\n\t"
+    "vflpdb  %%v19,%%v19\n\t"
+    "vflpdb  %%v20,%%v20\n\t"
+    "vflpdb  %%v21,%%v21\n\t"
+    "vflpdb  %%v22,%%v22\n\t"
+    "vflpdb  %%v23,%%v23\n\t"
+    "vflpdb  %%v24,%%v24\n\t"
+    "vflpdb  %%v25,%%v25\n\t"
+    "vflpdb  %%v26,%%v26\n\t"
+    "vflpdb  %%v27,%%v27\n\t"
+    "vflpdb  %%v28,%%v28\n\t"
+    "vflpdb  %%v29,%%v29\n\t"
+    "vflpdb  %%v30,%%v30\n\t"
+    "vflpdb  %%v31,%%v31\n\t"
+    "vfadb %%v16,%%v16,%%v17\n\t"
+    "vfadb %%v18,%%v18,%%v19\n\t"
+    "vfadb %%v20,%%v20,%%v21\n\t"
+    "vfadb %%v22,%%v22,%%v23\n\t"
+    "vfadb %%v24,%%v24,%%v25\n\t"
+    "vfadb %%v26,%%v26,%%v27\n\t"
+    "vfadb %%v28,%%v28,%%v29\n\t"
+    "vfadb %%v30,%%v30,%%v31\n\t"
+    "vfmaxdb  %%v16,%%v16,%%v24,0\n\t"
+    "vfmaxdb  %%v18,%%v18,%%v26,0\n\t"
+    "vfmaxdb  %%v20,%%v20,%%v28,0\n\t"
+    "vfmaxdb  %%v22,%%v22,%%v30,0\n\t"
+    "vfmaxdb  %%v16,%%v16,%%v20,0\n\t"
+    "vfmaxdb  %%v18,%%v18,%%v22,0\n\t"
+    "vfmaxdb  %%v16,%%v16,%%v18,0\n\t"
+    "vfmaxdb  %%v0,%%v0,%%v16,0\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "vrepg  %%v16,%%v0,1\n\t"
+    "wfmaxdb %%v0,%%v0,%%v16,0\n\t"
+    "ldr    %[amax],%%f0"
+    : [amax] "=f"(amax),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return amax;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0;
+  FLOAT maxf = 0.0;
+  BLASLONG inc_x2;
+
+  if (n <= 0 || inc_x <= 0)
+    return (maxf);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -16;
+    if (n1 > 0) {
+
+      maxf = zamax_kernel_16(n1, x);
+      ix = n1 * 2;
+      i = n1;
+    } else {
+      maxf = CABS1(x, 0);
+      ix += 2;
+      i++;
+    }
+
+    while (i < n) {
+      if (CABS1(x, ix) > maxf) {
+        maxf = CABS1(x, ix);
+      }
+      ix += 2;
+      i++;
+    }
+    return (maxf);
+
+  } else {
+
+    maxf = CABS1(x, 0);
+    inc_x2 = 2 * inc_x;
+
+    BLASLONG n1 = n & -4;
+    while (i < n1) {
+
+      if (CABS1(x, ix) > maxf) {
+        maxf = CABS1(x, ix);
+      }
+      if (CABS1(x, ix + inc_x2) > maxf) {
+        maxf = CABS1(x, ix + inc_x2);
+      }
+      if (CABS1(x, ix + inc_x2 * 2) > maxf) {
+        maxf = CABS1(x, ix + inc_x2 * 2);
+      }
+      if (CABS1(x, ix + inc_x2 * 3) > maxf) {
+        maxf = CABS1(x, ix + inc_x2 * 3);
+      }
+
+      ix += inc_x2 * 4;
+
+      i += 4;
+
+    }
+
+    while (i < n) {
+      if (CABS1(x, ix) > maxf) {
+        maxf = CABS1(x, ix);
+      }
+      ix += inc_x2;
+      i++;
+    }
+    return (maxf);
+  }
+}
diff --git a/kernel/zarch/zamax_z13.c b/kernel/zarch/zamax_z13.c
new file mode 100644
index 0000000000..37278d6dbb
--- /dev/null
+++ b/kernel/zarch/zamax_z13.c
@@ -0,0 +1,201 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+#include <math.h>
+
+#define CABS1(x,i) (fabs(x[i]) + fabs(x[i + 1]))
+
+static FLOAT zamax_kernel_16(BLASLONG n, FLOAT *x) {
+  FLOAT amax;
+
+  __asm__("vleg   %%v0,0(%[x]),0\n\t"
+    "vleg   %%v16,8(%[x]),0\n\t"
+    "vleg   %%v0,16(%[x]),1\n\t"
+    "vleg   %%v16,24(%[x]),1\n\t"
+    "vflpdb %%v0,%%v0\n\t"
+    "vflpdb %%v16,%%v16\n\t"
+    "vfadb  %%v0,%%v0,%%v16\n\t"
+    "srlg  %[n],%[n],4\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vleg  %%v16,0(%%r1,%[x]),0\n\t"
+    "vleg  %%v17,8(%%r1,%[x]),0\n\t"
+    "vleg  %%v16,16(%%r1,%[x]),1\n\t"
+    "vleg  %%v17,24(%%r1,%[x]),1\n\t"
+    "vleg  %%v18,32(%%r1,%[x]),0\n\t"
+    "vleg  %%v19,40(%%r1,%[x]),0\n\t"
+    "vleg  %%v18,48(%%r1,%[x]),1\n\t"
+    "vleg  %%v19,56(%%r1,%[x]),1\n\t"
+    "vleg  %%v20,64(%%r1,%[x]),0\n\t"
+    "vleg  %%v21,72(%%r1,%[x]),0\n\t"
+    "vleg  %%v20,80(%%r1,%[x]),1\n\t"
+    "vleg  %%v21,88(%%r1,%[x]),1\n\t"
+    "vleg  %%v22,96(%%r1,%[x]),0\n\t"
+    "vleg  %%v23,104(%%r1,%[x]),0\n\t"
+    "vleg  %%v22,112(%%r1,%[x]),1\n\t"
+    "vleg  %%v23,120(%%r1,%[x]),1\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfadb %%v16,%%v16,%%v17\n\t"
+    "vfadb %%v17,%%v18,%%v19\n\t"
+    "vfadb %%v18,%%v20,%%v21\n\t"
+    "vfadb %%v19,%%v22,%%v23\n\t"
+    "vfchdb  %%v24,%%v16,%%v17\n\t"
+    "vfchdb  %%v25,%%v18,%%v19\n\t"
+    "vsel    %%v24,%%v16,%%v17,%%v24\n\t"
+    "vsel    %%v25,%%v18,%%v19,%%v25\n\t"
+    "vfchdb  %%v26,%%v24,%%v25\n\t"
+    "vsel    %%v26,%%v24,%%v25,%%v26\n\t"
+    "vfchdb  %%v27,%%v26,%%v0\n\t"
+    "vsel    %%v0,%%v26,%%v0,%%v27\n\t"
+    "vleg  %%v16,128(%%r1,%[x]),0\n\t"
+    "vleg  %%v17,136(%%r1,%[x]),0\n\t"
+    "vleg  %%v16,144(%%r1,%[x]),1\n\t"
+    "vleg  %%v17,152(%%r1,%[x]),1\n\t"
+    "vleg  %%v18,160(%%r1,%[x]),0\n\t"
+    "vleg  %%v19,168(%%r1,%[x]),0\n\t"
+    "vleg  %%v18,176(%%r1,%[x]),1\n\t"
+    "vleg  %%v19,184(%%r1,%[x]),1\n\t"
+    "vleg  %%v20,192(%%r1,%[x]),0\n\t"
+    "vleg  %%v21,200(%%r1,%[x]),0\n\t"
+    "vleg  %%v20,208(%%r1,%[x]),1\n\t"
+    "vleg  %%v21,216(%%r1,%[x]),1\n\t"
+    "vleg  %%v22,224(%%r1,%[x]),0\n\t"
+    "vleg  %%v23,232(%%r1,%[x]),0\n\t"
+    "vleg  %%v22,240(%%r1,%[x]),1\n\t"
+    "vleg  %%v23,248(%%r1,%[x]),1\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfadb %%v16,%%v16,%%v17\n\t"
+    "vfadb %%v17,%%v18,%%v19\n\t"
+    "vfadb %%v18,%%v20,%%v21\n\t"
+    "vfadb %%v19,%%v22,%%v23\n\t"
+    "vfchdb  %%v24,%%v16,%%v17\n\t"
+    "vfchdb  %%v25,%%v18,%%v19\n\t"
+    "vsel    %%v24,%%v16,%%v17,%%v24\n\t"
+    "vsel    %%v25,%%v18,%%v19,%%v25\n\t"
+    "vfchdb  %%v26,%%v24,%%v25\n\t"
+    "vsel    %%v26,%%v24,%%v25,%%v26\n\t"
+    "vfchdb  %%v27,%%v26,%%v0\n\t"
+    "vsel    %%v0,%%v26,%%v0,%%v27\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "vrepg  %%v16,%%v0,1\n\t"
+    "wfchdb %%v17,%%v0,%%v16\n\t"
+    "vsel   %%v0,%%v0,%%v16,%%v17\n\t"
+    "ldr    %[amax],%%f0"
+    : [amax] "=f"(amax),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23", "v24", "v25", "v26", "v27");
+
+  return amax;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0;
+  FLOAT maxf = 0.0;
+  BLASLONG inc_x2;
+
+  if (n <= 0 || inc_x <= 0)
+    return (maxf);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -16;
+    if (n1 > 0) {
+
+      maxf = zamax_kernel_16(n1, x);
+      ix = n1 * 2;
+      i = n1;
+    } else {
+      maxf = CABS1(x, 0);
+      ix += 2;
+      i++;
+    }
+
+    while (i < n) {
+      if (CABS1(x, ix) > maxf) {
+        maxf = CABS1(x, ix);
+      }
+      ix += 2;
+      i++;
+    }
+    return (maxf);
+
+  } else {
+
+    maxf = CABS1(x, 0);
+    inc_x2 = 2 * inc_x;
+
+    BLASLONG n1 = n & -4;
+    while (i < n1) {
+
+      if (CABS1(x, ix) > maxf) {
+        maxf = CABS1(x, ix);
+      }
+      if (CABS1(x, ix + inc_x2) > maxf) {
+        maxf = CABS1(x, ix + inc_x2);
+      }
+      if (CABS1(x, ix + inc_x2 * 2) > maxf) {
+        maxf = CABS1(x, ix + inc_x2 * 2);
+      }
+      if (CABS1(x, ix + inc_x2 * 3) > maxf) {
+        maxf = CABS1(x, ix + inc_x2 * 3);
+      }
+
+      ix += inc_x2 * 4;
+
+      i += 4;
+
+    }
+
+    while (i < n) {
+      if (CABS1(x, ix) > maxf) {
+        maxf = CABS1(x, ix);
+      }
+      ix += inc_x2;
+      i++;
+    }
+    return (maxf);
+  }
+}
diff --git a/kernel/zarch/zamin.c b/kernel/zarch/zamin.c
new file mode 100644
index 0000000000..0b54028532
--- /dev/null
+++ b/kernel/zarch/zamin.c
@@ -0,0 +1,192 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+#include <math.h>
+
+#define CABS1(x,i) (fabs(x[i]) + fabs(x[i + 1]))
+
+static FLOAT zamin_kernel_16(BLASLONG n, FLOAT *x) {
+  FLOAT amin;
+
+  __asm__("vleg   %%v0,0(%[x]),0\n\t"
+    "vleg   %%v16,8(%[x]),0\n\t"
+    "vleg   %%v0,16(%[x]),1\n\t"
+    "vleg   %%v16,24(%[x]),1\n\t"
+    "vflpdb %%v0,%%v0\n\t"
+    "vflpdb %%v16,%%v16\n\t"
+    "vfadb  %%v0,%%v0,%%v16\n\t"
+    "srlg  %[n],%[n],4\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vleg  %%v16,0(%%r1,%[x]),0\n\t"
+    "vleg  %%v17,8(%%r1,%[x]),0\n\t"
+    "vleg  %%v16,16(%%r1,%[x]),1\n\t"
+    "vleg  %%v17,24(%%r1,%[x]),1\n\t"
+    "vleg  %%v18,32(%%r1,%[x]),0\n\t"
+    "vleg  %%v19,40(%%r1,%[x]),0\n\t"
+    "vleg  %%v18,48(%%r1,%[x]),1\n\t"
+    "vleg  %%v19,56(%%r1,%[x]),1\n\t"
+    "vleg  %%v20,64(%%r1,%[x]),0\n\t"
+    "vleg  %%v21,72(%%r1,%[x]),0\n\t"
+    "vleg  %%v20,80(%%r1,%[x]),1\n\t"
+    "vleg  %%v21,88(%%r1,%[x]),1\n\t"
+    "vleg  %%v22,96(%%r1,%[x]),0\n\t"
+    "vleg  %%v23,104(%%r1,%[x]),0\n\t"
+    "vleg  %%v22,112(%%r1,%[x]),1\n\t"
+    "vleg  %%v23,120(%%r1,%[x]),1\n\t"
+    "vleg  %%v24,128(%%r1,%[x]),0\n\t"
+    "vleg  %%v25,136(%%r1,%[x]),0\n\t"
+    "vleg  %%v24,144(%%r1,%[x]),1\n\t"
+    "vleg  %%v25,152(%%r1,%[x]),1\n\t"
+    "vleg  %%v26,160(%%r1,%[x]),0\n\t"
+    "vleg  %%v27,168(%%r1,%[x]),0\n\t"
+    "vleg  %%v26,176(%%r1,%[x]),1\n\t"
+    "vleg  %%v27,184(%%r1,%[x]),1\n\t"
+    "vleg  %%v28,192(%%r1,%[x]),0\n\t"
+    "vleg  %%v29,200(%%r1,%[x]),0\n\t"
+    "vleg  %%v28,208(%%r1,%[x]),1\n\t"
+    "vleg  %%v29,216(%%r1,%[x]),1\n\t"
+    "vleg  %%v30,224(%%r1,%[x]),0\n\t"
+    "vleg  %%v31,232(%%r1,%[x]),0\n\t"
+    "vleg  %%v30,240(%%r1,%[x]),1\n\t"
+    "vleg  %%v31,248(%%r1,%[x]),1\n\t"
+    "vflpdb  %%v16,%%v16\n\t"
+    "vflpdb  %%v17,%%v17\n\t"
+    "vflpdb  %%v18,%%v18\n\t"
+    "vflpdb  %%v19,%%v19\n\t"
+    "vflpdb  %%v20,%%v20\n\t"
+    "vflpdb  %%v21,%%v21\n\t"
+    "vflpdb  %%v22,%%v22\n\t"
+    "vflpdb  %%v23,%%v23\n\t"
+    "vflpdb  %%v24,%%v24\n\t"
+    "vflpdb  %%v25,%%v25\n\t"
+    "vflpdb  %%v26,%%v26\n\t"
+    "vflpdb  %%v27,%%v27\n\t"
+    "vflpdb  %%v28,%%v28\n\t"
+    "vflpdb  %%v29,%%v29\n\t"
+    "vflpdb  %%v30,%%v30\n\t"
+    "vflpdb  %%v31,%%v31\n\t"
+    "vfadb %%v16,%%v16,%%v17\n\t"
+    "vfadb %%v18,%%v18,%%v19\n\t"
+    "vfadb %%v20,%%v20,%%v21\n\t"
+    "vfadb %%v22,%%v22,%%v23\n\t"
+    "vfadb %%v24,%%v24,%%v25\n\t"
+    "vfadb %%v26,%%v26,%%v27\n\t"
+    "vfadb %%v28,%%v28,%%v29\n\t"
+    "vfadb %%v30,%%v30,%%v31\n\t"
+    "vfmindb  %%v16,%%v16,%%v24,0\n\t"
+    "vfmindb  %%v18,%%v18,%%v26,0\n\t"
+    "vfmindb  %%v20,%%v20,%%v28,0\n\t"
+    "vfmindb  %%v22,%%v22,%%v30,0\n\t"
+    "vfmindb  %%v16,%%v16,%%v20,0\n\t"
+    "vfmindb  %%v18,%%v18,%%v22,0\n\t"
+    "vfmindb  %%v16,%%v16,%%v18,0\n\t"
+    "vfmindb  %%v0,%%v0,%%v16,0\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "vrepg  %%v16,%%v0,1\n\t"
+    "wfmindb %%v0,%%v0,%%v16,0\n\t"
+    "ldr    %[amin],%%f0"
+    : [amin] "=f"(amin),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return amin;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0;
+  FLOAT minf = 0.0;
+  BLASLONG inc_x2;
+
+  if (n <= 0 || inc_x <= 0)
+    return (minf);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -16;
+    if (n1 > 0) {
+
+      minf = zamin_kernel_16(n1, x);
+      ix = n1 * 2;
+      i = n1;
+    } else {
+      minf = CABS1(x, 0);
+      ix += 2;
+      i++;
+    }
+
+    while (i < n) {
+      if (CABS1(x, ix) < minf) {
+        minf = CABS1(x, ix);
+      }
+      ix += 2;
+      i++;
+    }
+    return (minf);
+
+  } else {
+
+    minf = CABS1(x, 0);
+    inc_x2 = 2 * inc_x;
+
+    BLASLONG n1 = n & -4;
+    while (i < n1) {
+
+      if (CABS1(x, ix) < minf) {
+        minf = CABS1(x, ix);
+      }
+      if (CABS1(x, ix + inc_x2) < minf) {
+        minf = CABS1(x, ix + inc_x2);
+      }
+      if (CABS1(x, ix + inc_x2 * 2) < minf) {
+        minf = CABS1(x, ix + inc_x2 * 2);
+      }
+      if (CABS1(x, ix + inc_x2 * 3) < minf) {
+        minf = CABS1(x, ix + inc_x2 * 3);
+      }
+
+      ix += inc_x2 * 4;
+
+      i += 4;
+
+    }
+
+    while (i < n) {
+      if (CABS1(x, ix) < minf) {
+        minf = CABS1(x, ix);
+      }
+      ix += inc_x2;
+      i++;
+    }
+    return (minf);
+  }
+}
diff --git a/kernel/zarch/zamin_z13.c b/kernel/zarch/zamin_z13.c
new file mode 100644
index 0000000000..e37bb2236f
--- /dev/null
+++ b/kernel/zarch/zamin_z13.c
@@ -0,0 +1,201 @@
+/***************************************************************************
+Copyright (c) 2013-2019, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include "common.h"
+#include <math.h>
+
+#define CABS1(x,i) (fabs(x[i]) + fabs(x[i + 1]))
+
+static FLOAT zamin_kernel_16(BLASLONG n, FLOAT *x) {
+  FLOAT amin;
+
+  __asm__("vleg   %%v0,0(%[x]),0\n\t"
+    "vleg   %%v16,8(%[x]),0\n\t"
+    "vleg   %%v0,16(%[x]),1\n\t"
+    "vleg   %%v16,24(%[x]),1\n\t"
+    "vflpdb %%v0,%%v0\n\t"
+    "vflpdb %%v16,%%v16\n\t"
+    "vfadb  %%v0,%%v0,%%v16\n\t"
+    "srlg  %[n],%[n],4\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "vleg  %%v16,0(%%r1,%[x]),0\n\t"
+    "vleg  %%v17,8(%%r1,%[x]),0\n\t"
+    "vleg  %%v16,16(%%r1,%[x]),1\n\t"
+    "vleg  %%v17,24(%%r1,%[x]),1\n\t"
+    "vleg  %%v18,32(%%r1,%[x]),0\n\t"
+    "vleg  %%v19,40(%%r1,%[x]),0\n\t"
+    "vleg  %%v18,48(%%r1,%[x]),1\n\t"
+    "vleg  %%v19,56(%%r1,%[x]),1\n\t"
+    "vleg  %%v20,64(%%r1,%[x]),0\n\t"
+    "vleg  %%v21,72(%%r1,%[x]),0\n\t"
+    "vleg  %%v20,80(%%r1,%[x]),1\n\t"
+    "vleg  %%v21,88(%%r1,%[x]),1\n\t"
+    "vleg  %%v22,96(%%r1,%[x]),0\n\t"
+    "vleg  %%v23,104(%%r1,%[x]),0\n\t"
+    "vleg  %%v22,112(%%r1,%[x]),1\n\t"
+    "vleg  %%v23,120(%%r1,%[x]),1\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfadb %%v16,%%v16,%%v17\n\t"
+    "vfadb %%v17,%%v18,%%v19\n\t"
+    "vfadb %%v18,%%v20,%%v21\n\t"
+    "vfadb %%v19,%%v22,%%v23\n\t"
+    "vfchdb  %%v24,%%v17,%%v16\n\t"
+    "vfchdb  %%v25,%%v19,%%v18\n\t"
+    "vsel    %%v24,%%v16,%%v17,%%v24\n\t"
+    "vsel    %%v25,%%v18,%%v19,%%v25\n\t"
+    "vfchdb  %%v26,%%v25,%%v24\n\t"
+    "vsel    %%v26,%%v24,%%v25,%%v26\n\t"
+    "vfchdb  %%v27,%%v0,%%v26\n\t"
+    "vsel    %%v0,%%v26,%%v0,%%v27\n\t"
+    "vleg  %%v16,128(%%r1,%[x]),0\n\t"
+    "vleg  %%v17,136(%%r1,%[x]),0\n\t"
+    "vleg  %%v16,144(%%r1,%[x]),1\n\t"
+    "vleg  %%v17,152(%%r1,%[x]),1\n\t"
+    "vleg  %%v18,160(%%r1,%[x]),0\n\t"
+    "vleg  %%v19,168(%%r1,%[x]),0\n\t"
+    "vleg  %%v18,176(%%r1,%[x]),1\n\t"
+    "vleg  %%v19,184(%%r1,%[x]),1\n\t"
+    "vleg  %%v20,192(%%r1,%[x]),0\n\t"
+    "vleg  %%v21,200(%%r1,%[x]),0\n\t"
+    "vleg  %%v20,208(%%r1,%[x]),1\n\t"
+    "vleg  %%v21,216(%%r1,%[x]),1\n\t"
+    "vleg  %%v22,224(%%r1,%[x]),0\n\t"
+    "vleg  %%v23,232(%%r1,%[x]),0\n\t"
+    "vleg  %%v22,240(%%r1,%[x]),1\n\t"
+    "vleg  %%v23,248(%%r1,%[x]),1\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfadb %%v16,%%v16,%%v17\n\t"
+    "vfadb %%v17,%%v18,%%v19\n\t"
+    "vfadb %%v18,%%v20,%%v21\n\t"
+    "vfadb %%v19,%%v22,%%v23\n\t"
+    "vfchdb  %%v24,%%v17,%%v16\n\t"
+    "vfchdb  %%v25,%%v19,%%v18\n\t"
+    "vsel    %%v24,%%v16,%%v17,%%v24\n\t"
+    "vsel    %%v25,%%v18,%%v19,%%v25\n\t"
+    "vfchdb  %%v26,%%v25,%%v24\n\t"
+    "vsel    %%v26,%%v24,%%v25,%%v26\n\t"
+    "vfchdb  %%v27,%%v0,%%v26\n\t"
+    "vsel    %%v0,%%v26,%%v0,%%v27\n\t"
+    "agfi    %%r1, 256\n\t"
+    "brctg   %[n], 0b\n\t"
+    "vrepg  %%v16,%%v0,1\n\t"
+    "wfchdb %%v17,%%v16,%%v0\n\t"
+    "vsel   %%v0,%%v0,%%v16,%%v17\n\t"
+    "ldr    %[amin],%%f0"
+    : [amin] "=f"(amin),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23", "v24", "v25", "v26", "v27");
+
+  return amin;
+}
+
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0;
+  FLOAT minf = 0.0;
+  BLASLONG inc_x2;
+
+  if (n <= 0 || inc_x <= 0)
+    return (minf);
+
+  if (inc_x == 1) {
+
+    BLASLONG n1 = n & -16;
+    if (n1 > 0) {
+
+      minf = zamin_kernel_16(n1, x);
+      ix = n1 * 2;
+      i = n1;
+    } else {
+      minf = CABS1(x, 0);
+      ix += 2;
+      i++;
+    }
+
+    while (i < n) {
+      if (CABS1(x, ix) < minf) {
+        minf = CABS1(x, ix);
+      }
+      ix += 2;
+      i++;
+    }
+    return (minf);
+
+  } else {
+
+    minf = CABS1(x, 0);
+    inc_x2 = 2 * inc_x;
+
+    BLASLONG n1 = n & -4;
+    while (i < n1) {
+
+      if (CABS1(x, ix) < minf) {
+        minf = CABS1(x, ix);
+      }
+      if (CABS1(x, ix + inc_x2) < minf) {
+        minf = CABS1(x, ix + inc_x2);
+      }
+      if (CABS1(x, ix + inc_x2 * 2) < minf) {
+        minf = CABS1(x, ix + inc_x2 * 2);
+      }
+      if (CABS1(x, ix + inc_x2 * 3) < minf) {
+        minf = CABS1(x, ix + inc_x2 * 3);
+      }
+
+      ix += inc_x2 * 4;
+
+      i += 4;
+
+    }
+
+    while (i < n) {
+      if (CABS1(x, ix) < minf) {
+        minf = CABS1(x, ix);
+      }
+      ix += inc_x2;
+      i++;
+    }
+    return (minf);
+  }
+}
diff --git a/kernel/zarch/zasum.c b/kernel/zarch/zasum.c
index 0fc5c9ecbe..aeef8d77e6 100644
--- a/kernel/zarch/zasum.c
+++ b/kernel/zarch/zasum.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2013-2017, The OpenBLAS Project
+Copyright (c) 2013-2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -25,135 +25,129 @@ OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 *****************************************************************************/
 
-
 #include "common.h"
 #include <math.h>
 
-#if defined(DOUBLE)
-
 #define ABS fabs
 
-#else
-
-#define ABS fabsf
-
-#endif
-
-
 static FLOAT zasum_kernel_16(BLASLONG n, FLOAT *x) {
-    
-    FLOAT asum;
-    __asm__ (
-            "pfd    1, 0(%[ptr_x]) \n\t"
-            "sllg   %%r0,%[n],4    \n\t"
-            "agr    %%r0,%[ptr_x]  \n\t"   
-            "vzero  %%v0      \n\t"
-            "vzero  %%v1      \n\t"
-            "vzero  %%v22     \n\t"
-            "vzero  %%v23     \n\t"   
-            ".align 16 \n\t"
-            "1:     \n\t"
-            "pfd    1, 256(%[ptr_tmp] ) \n\t"
-            "vlm    %%v24,%%v31,0(%[ptr_tmp]) \n\t"  
-    
-            "vflpdb %%v24, %%v24 \n\t"
-            "vflpdb %%v25, %%v25 \n\t"
-            "vflpdb %%v26, %%v26 \n\t"
-            "vflpdb %%v27, %%v27 \n\t"
-            "vflpdb %%v28, %%v28 \n\t"
-            "vflpdb %%v29, %%v29 \n\t"
-            "vflpdb %%v30, %%v30 \n\t"
-            "vflpdb %%v31, %%v31 \n\t"
-    
-            "vfadb  %%v0,%%v0,%%v24    \n\t"
-            "vfadb  %%v1,%%v1,%%v25    \n\t"
-            "vfadb  %%v23,%%v23,%%v26  \n\t"
-            "vfadb  %%v22,%%v22,%%v27  \n\t" 
-            "vfadb  %%v0,%%v0,%%v28    \n\t"
-            "vfadb  %%v1,%%v1,%%v29    \n\t"
-            "vfadb  %%v23,%%v23,%%v30  \n\t"
-            "vfadb  %%v22,%%v22,%%v31  \n\t" 
-    
-            "vlm    %%v24,%%v31, 128(%[ptr_tmp]) \n\t"  
-    
-            "vflpdb %%v24, %%v24 \n\t"
-            "vflpdb %%v25, %%v25 \n\t"
-            "vflpdb %%v26, %%v26 \n\t"
-            "vflpdb %%v27, %%v27 \n\t"
-            "vflpdb %%v28, %%v28 \n\t"
-            "vflpdb %%v29, %%v29 \n\t"
-            "vflpdb %%v30, %%v30 \n\t"
-            "vflpdb %%v31, %%v31 \n\t"
-            "la     %[ptr_tmp],256(%[ptr_tmp]) \n\t"  
-            "vfadb  %%v0,%%v0,%%v24   \n\t"
-            "vfadb  %%v1,%%v1,%%v25   \n\t"
-            "vfadb  %%v23,%%v23,%%v26 \n\t"
-            "vfadb  %%v22,%%v22,%%v27 \n\t" 
-            "vfadb  %%v0,%%v0,%%v28   \n\t"
-            "vfadb  %%v1,%%v1,%%v29   \n\t"
-            "vfadb  %%v23,%%v23,%%v30 \n\t"
-            "vfadb  %%v22,%%v22,%%v31 \n\t"  
-            
-            "clgrjl %[ptr_tmp],%%r0,1b \n\t"
-            "vfadb  %%v24,%%v0,%%v1    \n\t"
-            "vfadb  %%v25,%%v23,%%v22  \n\t"
-            "vfadb  %%v0,%%v25,%%v24   \n\t"
-            "vrepg  %%v1,%%v0,1        \n\t"
-            "adbr   %%f0,%%f1          \n\t"
-            "ldr    %[asum] ,%%f0"
-            : [asum] "=f"(asum),[ptr_tmp] "+&a"(x)
-            : [mem] "m"( *(const double (*)[2*n])x ), [n] "r"(n), [ptr_x] "a"(x) 
-            : "cc",  "r0","f0","f1","v0","v1","v22","v23","v24","v25","v26","v27","v28","v29","v30","v31"
-            );
-    return asum;
-
+  FLOAT asum;
+
+  __asm__("vzero   %%v24\n\t"
+    "vzero   %%v25\n\t"
+    "vzero   %%v26\n\t"
+    "vzero   %%v27\n\t"
+    "vzero   %%v28\n\t"
+    "vzero   %%v29\n\t"
+    "vzero   %%v30\n\t"
+    "vzero   %%v31\n\t"
+    "srlg  %[n],%[n],4\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd  1, 1024(%%r1,%[x])\n\t"
+    "vl  %%v16, 0(%%r1,%[x])\n\t"
+    "vl  %%v17, 16(%%r1,%[x])\n\t"
+    "vl  %%v18, 32(%%r1,%[x])\n\t"
+    "vl  %%v19, 48(%%r1,%[x])\n\t"
+    "vl  %%v20, 64(%%r1,%[x])\n\t"
+    "vl  %%v21, 80(%%r1,%[x])\n\t"
+    "vl  %%v22, 96(%%r1,%[x])\n\t"
+    "vl  %%v23, 112(%%r1,%[x])\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfadb   %%v24,%%v24,%%v16\n\t"
+    "vfadb   %%v25,%%v25,%%v17\n\t"
+    "vfadb   %%v26,%%v26,%%v18\n\t"
+    "vfadb   %%v27,%%v27,%%v19\n\t"
+    "vfadb   %%v28,%%v28,%%v20\n\t"
+    "vfadb   %%v29,%%v29,%%v21\n\t"
+    "vfadb   %%v30,%%v30,%%v22\n\t"
+    "vfadb   %%v31,%%v31,%%v23\n\t"
+    "vl  %%v16, 128(%%r1,%[x])\n\t"
+    "vl  %%v17, 144(%%r1,%[x])\n\t"
+    "vl  %%v18, 160(%%r1,%[x])\n\t"
+    "vl  %%v19, 176(%%r1,%[x])\n\t"
+    "vl  %%v20, 192(%%r1,%[x])\n\t"
+    "vl  %%v21, 208(%%r1,%[x])\n\t"
+    "vl  %%v22, 224(%%r1,%[x])\n\t"
+    "vl  %%v23, 240(%%r1,%[x])\n\t"
+    "vflpdb  %%v16, %%v16\n\t"
+    "vflpdb  %%v17, %%v17\n\t"
+    "vflpdb  %%v18, %%v18\n\t"
+    "vflpdb  %%v19, %%v19\n\t"
+    "vflpdb  %%v20, %%v20\n\t"
+    "vflpdb  %%v21, %%v21\n\t"
+    "vflpdb  %%v22, %%v22\n\t"
+    "vflpdb  %%v23, %%v23\n\t"
+    "vfadb   %%v24,%%v24,%%v16\n\t"
+    "vfadb   %%v25,%%v25,%%v17\n\t"
+    "vfadb   %%v26,%%v26,%%v18\n\t"
+    "vfadb   %%v27,%%v27,%%v19\n\t"
+    "vfadb   %%v28,%%v28,%%v20\n\t"
+    "vfadb   %%v29,%%v29,%%v21\n\t"
+    "vfadb   %%v30,%%v30,%%v22\n\t"
+    "vfadb   %%v31,%%v31,%%v23\n\t"
+    "agfi  %%r1,256\n\t"
+    "brctg %[n],0b\n\t"
+    "vfadb   %%v24,%%v24,%%v25\n\t"
+    "vfadb   %%v24,%%v24,%%v26\n\t"
+    "vfadb   %%v24,%%v24,%%v27\n\t"
+    "vfadb   %%v24,%%v24,%%v28\n\t"
+    "vfadb   %%v24,%%v24,%%v29\n\t"
+    "vfadb   %%v24,%%v24,%%v30\n\t"
+    "vfadb   %%v24,%%v24,%%v31\n\t"
+    "vrepg   %%v25,%%v24,1\n\t"
+    "vfadb   %%v24,%%v24,%%v25\n\t"
+    "vsteg   %%v24,%[asum],0"
+    : [asum] "=Q"(asum),[n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23",
+       "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
+
+  return asum;
 }
 
- 
+FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x) {
+  BLASLONG i = 0;
+  BLASLONG ip = 0;
+  FLOAT sumf = 0.0;
+  BLASLONG n1;
+  BLASLONG inc_x2;
 
-FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x)
-{
-    BLASLONG i=0;
-    BLASLONG ip=0;
-    FLOAT sumf = 0.0; 
-    BLASLONG n1;
-    BLASLONG inc_x2;
+  if (n <= 0 || inc_x <= 0)
+    return (sumf);
 
-    if (n <= 0 || inc_x <= 0) return(sumf);
+  if (inc_x == 1) {
 
-    if ( inc_x == 1 )
-    {
+    n1 = n & -16;
+    if (n1 > 0) {
 
-        n1 = n & -16;
-        if ( n1 > 0 )
-        {
-
-            sumf=zasum_kernel_16(n1, x ); 
-            i=n1;
-            ip=2*n1;
-        }
-
-        while(i < n)
-        {
-            sumf += ABS(x[ip]) + ABS(x[ip+1]);
-            i++;
-            ip+=2;
-        }
+      sumf = zasum_kernel_16(n1, x);
+      i = n1;
+      ip = 2 * n1;
+    }
 
+    while (i < n) {
+      sumf += ABS(x[ip]) + ABS(x[ip + 1]);
+      i++;
+      ip += 2;
     }
-    else
-    {
-        inc_x2 = 2* inc_x;
 
-        while(i < n)
-        {
-            sumf += ABS(x[ip]) + ABS(x[ip+1]);
-            ip+=inc_x2;
-            i++;
-        }
+  } else {
+    inc_x2 = 2 * inc_x;
 
+    while (i < n) {
+      sumf += ABS(x[ip]) + ABS(x[ip + 1]);
+      ip += inc_x2;
+      i++;
     }
-    return(sumf);
-}
-
 
+  }
+  return (sumf);
+}
diff --git a/kernel/zarch/zaxpy.c b/kernel/zarch/zaxpy.c
index 212de25c81..9363ec32df 100644
--- a/kernel/zarch/zaxpy.c
+++ b/kernel/zarch/zaxpy.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2017, The OpenBLAS Project
+Copyright (c) 2013-2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -23,190 +23,140 @@ SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
 CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
 OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
- *****************************************************************************/
-
+*****************************************************************************/
 
 #include "common.h"
 
- 
-static void  zaxpy_kernel_8(BLASLONG n, FLOAT *x, FLOAT *y, FLOAT da_r,FLOAT da_i) {
-
-    BLASLONG tempR1 ;
-    __asm__ ("pfd   1, 0(%[x_tmp]) \n\t"
-             "pfd    2, 0(%[y_tmp]) \n\t" 
+static void zaxpy_kernel_8(BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha) {
+  __asm__(
 #if !defined(CONJ)
-            "lgdr   %[t1],%[alpha_r]    \n\t" 
-            "vlvgp  %%v28,%[t1],%[t1]   \n\t" //load both from disjoint          
-            "lgdr   %[t1],%[alpha_i]    \n\t"  
-            "vlvgp  %%v29,%[t1],%[t1]   \n\t" //load both from disjoint   
-            "vflcdb %%v29,%%v29       \n\t" //complement both
-            "vlvgg  %%v29,%[t1],1     \n\t" //restore 2nd  so that  {-alpha_i, alpha_i}   
-
+    "vlrepg %%v0,0(%[alpha])\n\t"
+    "vleg   %%v1,8(%[alpha]),0\n\t"
+    "wflcdb %%v1,%%v1\n\t"
+    "vleg   %%v1,8(%[alpha]),1\n\t"
 #else
-            "lgdr   %[t1],%[alpha_i]    \n\t"  
-            "vlvgp  %%v29,%[t1],%[t1]   \n\t" //load both from disjoint        
-            "lgdr   %[t1],%[alpha_r]    \n\t" 
-            "vlvgp  %%v28,%[t1],%[t1]   \n\t" //load both from disjoint    
-            "vflcdb %%v28,%%v28       \n\t" //complement both
-            "vlvgg  %%v28,%[t1],0     \n\t" //restore 1st  so that  {alpha_r,-alpha_r}   
-#endif           
-                               
-            "xgr     %[t1],%[t1]  \n\t" 
-            "sllg   %[tmp],%[tmp],4    \n\t" 
-            "vl   %%v30 ,  0(%[t1],%[y_tmp]) \n\t" 
-            "vl   %%v31 , 16(%[t1],%[y_tmp]) \n\t" 
-            "vl   %%v6 , 32(%[t1],%[y_tmp]) \n\t" 
-            "vl   %%v7 , 48(%[t1],%[y_tmp]) \n\t" 
-            "vl   %%v20 ,  0(%[t1],%[x_tmp]) \n\t" 
-            "vl   %%v21 , 16(%[t1],%[x_tmp]) \n\t" 
-            "vl   %%v22 , 32(%[t1],%[x_tmp]) \n\t" 
-            "vl   %%v23 , 48(%[t1],%[x_tmp]) \n\t"                         
-            "lay  %[tmp],-64 (%[tmp]) \n\t" //tmp-=64 so that t1+64 can break tmp condition
-            "j 2f \n\t"
-            ".align 16 \n\t"
-            "1:     \n\t"
-  
-            "vpdi   %%v24 , %%v20, %%v20, 4     \n\t"
-            "vpdi   %%v25 , %%v21, %%v21, 4     \n\t"
-            "vpdi   %%v26 , %%v22, %%v22, 4     \n\t"
-            "vpdi   %%v27 , %%v23, %%v23, 4     \n\t" 
-            "vfmadb %%v16,  %%v20, %%v28, %%v16 \n\t"
-            "vfmadb %%v17,  %%v21, %%v28, %%v17 \n\t"
-            "vfmadb %%v18,  %%v22, %%v28, %%v18 \n\t"
-            "vfmadb %%v19,  %%v23, %%v28, %%v19 \n\t"
-            "vl     %%v30,  64(%[t1],%[y_tmp])  \n\t" 
-            "vl     %%v31,  80(%[t1],%[y_tmp])  \n\t" 
-            "vl     %%v6 ,  96(%[t1],%[y_tmp])  \n\t" 
-            "vl     %%v7 , 112(%[t1],%[y_tmp])  \n\t" 
-            "vfmadb %%v16,  %%v24, %%v29, %%v16 \n\t"
-            "vfmadb %%v17,  %%v25, %%v29, %%v17 \n\t" 
-            "vfmadb %%v18,  %%v26, %%v29, %%v18 \n\t"
-            "vfmadb %%v19,  %%v27, %%v29, %%v19 \n\t"
-            "vl     %%v20 , 64(%[t1],%[x_tmp])  \n\t" 
-            "vl     %%v21 , 80(%[t1],%[x_tmp])  \n\t"      
-            "vl     %%v22 , 96(%[t1],%[x_tmp])  \n\t" 
-            "vl     %%v23 ,112(%[t1],%[x_tmp])  \n\t" 
-
-            "vst    %%v16 ,  0(%[t1],%[y_tmp])  \n\t" 
-            "vst    %%v17 , 16(%[t1],%[y_tmp])  \n\t" 
-            "vst    %%v18 , 32(%[t1],%[y_tmp])  \n\t" 
-            "vst    %%v19 , 48(%[t1],%[y_tmp])  \n\t"   
-    
-            "la     %[t1],64(%[t1] ) \n\t" 
-            "2:  \n\t"
-            "pfd    1, 256(%[t1],%[x_tmp])  \n\t"
-            "pfd    2, 256(%[t1],%[y_tmp])  \n\t"  
-            "vpdi   %%v24 , %%v20, %%v20, 4     \n\t"
-            "vpdi   %%v25 , %%v21, %%v21, 4     \n\t"
-            "vpdi   %%v26 , %%v22, %%v22, 4     \n\t"
-            "vpdi   %%v27 , %%v23, %%v23, 4     \n\t" 
-
-            "vfmadb %%v30,  %%v20, %%v28, %%v30 \n\t"
-            "vfmadb %%v31,  %%v21, %%v28, %%v31 \n\t"
-            "vfmadb %%v6,  %%v22, %%v28, %%v6   \n\t"
-            "vfmadb %%v7,  %%v23, %%v28, %%v7   \n\t"
-            "vl     %%v16,  64(%[t1],%[y_tmp])  \n\t" 
-            "vl     %%v17,  80(%[t1],%[y_tmp])  \n\t" 
-            "vl     %%v18,  96(%[t1],%[y_tmp])  \n\t" 
-            "vl     %%v19, 112(%[t1],%[y_tmp])  \n\t" 
-            "vfmadb %%v30,  %%v24, %%v29, %%v30 \n\t"
-            "vfmadb %%v31,  %%v25, %%v29, %%v31 \n\t"
-            "vfmadb %%v6,  %%v26, %%v29, %%v6   \n\t"
-            "vfmadb %%v7,  %%v27, %%v29, %%v7   \n\t"
-
-            "vl     %%v20 , 64(%[t1],%[x_tmp])  \n\t" 
-            "vl     %%v21 , 80(%[t1],%[x_tmp])  \n\t"  
-            "vl     %%v22 , 96(%[t1],%[x_tmp])  \n\t" 
-            "vl     %%v23 ,112(%[t1],%[x_tmp])  \n\t" 
-
-            "vst    %%v30 ,  0(%[t1],%[y_tmp])  \n\t" 
-            "vst    %%v31 , 16(%[t1],%[y_tmp])  \n\t" 
-            "vst    %%v6 ,  32(%[t1],%[y_tmp])  \n\t" 
-            "vst    %%v7 ,  48(%[t1],%[y_tmp])  \n\t"  
- 
-            "la     %[t1],64(%[t1] ) \n\t"
-          
-
-             "clgrjl %[t1],%[tmp],1b         \n\t"   
-//----------------------------------------------------------------------
-            "vfmadb %%v16,  %%v20, %%v28, %%v16 \n\t"
-            "vfmadb %%v17,  %%v21, %%v28, %%v17 \n\t"
-            "vfmadb %%v18,  %%v22, %%v28, %%v18 \n\t"
-            "vfmadb %%v19,  %%v23, %%v28, %%v19 \n\t" 
-            "vpdi   %%v24 , %%v20, %%v20, 4     \n\t"
-            "vpdi   %%v25 , %%v21, %%v21, 4     \n\t" 
-            "vpdi   %%v26 , %%v22, %%v22, 4     \n\t"
-            "vpdi   %%v27 , %%v23, %%v23, 4     \n\t"             
-            "vfmadb %%v16,  %%v24, %%v29, %%v16 \n\t"
-            "vfmadb %%v17,  %%v25, %%v29, %%v17 \n\t"
-            "vfmadb %%v18,  %%v26, %%v29, %%v18 \n\t"
-            "vfmadb %%v19,  %%v27, %%v29, %%v19 \n\t"
-
-            "vst   %%v16 ,  0(%[t1],%[y_tmp])   \n\t" 
-            "vst   %%v17 , 16(%[t1],%[y_tmp])   \n\t" 
-            "vst   %%v18 , 32(%[t1],%[y_tmp])   \n\t" 
-            "vst   %%v19 , 48(%[t1],%[y_tmp])   \n\t"   
-
-            : [mem_y] "+m" (*(double (*)[2*n])y),[tmp]"+&r"(n) ,  [t1] "=&a" (tempR1) 
-            : [mem_x] "m" (*(const double (*)[2*n])x), [x_tmp] "a"(x), [y_tmp] "a"(y), [alpha_r] "f"(da_r),[alpha_i] "f"(da_i)
-            : "cc",  "v6","v7", "v16",
-            "v17","v18","v19","v20","v21","v22","v23","v24","v25","v26","v27","v28","v29","v30","v31"
-            );
-
+    "vleg   %%v0,0(%[alpha]),1\n\t"
+    "vflcdb %%v0,%%v0\n\t"
+    "vleg   %%v0,0(%[alpha]),0\n\t"
+    "vlrepg %%v1,8(%[alpha])\n\t"
+#endif
+    "srlg %[n],%[n],3\n\t"
+    "xgr  %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "pfd 2, 1024(%%r1,%[y])\n\t"
+    "vl   %%v8,0(%%r1,%[x])\n\t"
+    "vl   %%v9,16(%%r1,%[x])\n\t"
+    "vl   %%v10,32(%%r1,%[x])\n\t"
+    "vl   %%v11,48(%%r1,%[x])\n\t"
+    "vl   %%v12,0(%%r1,%[y])\n\t"
+    "vl   %%v13,16(%%r1,%[y])\n\t"
+    "vl   %%v14,32(%%r1,%[y])\n\t"
+    "vl   %%v15,48(%%r1,%[y])\n\t"
+    "vl   %%v16,64(%%r1,%[x])\n\t"
+    "vl   %%v17,80(%%r1,%[x])\n\t"
+    "vl   %%v18,96(%%r1,%[x])\n\t"
+    "vl   %%v19,112(%%r1,%[x])\n\t"
+    "vl   %%v20,64(%%r1,%[y])\n\t"
+    "vl   %%v21,80(%%r1,%[y])\n\t"
+    "vl   %%v22,96(%%r1,%[y])\n\t"
+    "vl   %%v23,112(%%r1,%[y])\n\t"
+    "vpdi %%v24,%%v8,%%v8,4\n\t"
+    "vpdi %%v25,%%v9,%%v9,4\n\t"
+    "vpdi %%v26,%%v10,%%v10,4\n\t"
+    "vpdi %%v27,%%v11,%%v11,4\n\t"
+    "vpdi %%v28,%%v16,%%v16,4\n\t"
+    "vpdi %%v29,%%v17,%%v17,4\n\t"
+    "vpdi %%v30,%%v18,%%v18,4\n\t"
+    "vpdi %%v31,%%v19,%%v19,4\n\t"
+    "vfmadb %%v8,%%v8,%%v0,%%v12\n\t"
+    "vfmadb %%v9,%%v9,%%v0,%%v13\n\t"
+    "vfmadb %%v10,%%v10,%%v0,%%v14\n\t"
+    "vfmadb %%v11,%%v11,%%v0,%%v15\n\t"
+    "vfmadb %%v16,%%v16,%%v0,%%v20\n\t"
+    "vfmadb %%v17,%%v17,%%v0,%%v21\n\t"
+    "vfmadb %%v18,%%v18,%%v0,%%v22\n\t"
+    "vfmadb %%v19,%%v19,%%v0,%%v23\n\t"
+    "vfmadb %%v8,%%v24,%%v1,%%v8\n\t"
+    "vfmadb %%v9,%%v25,%%v1,%%v9\n\t"
+    "vfmadb %%v10,%%v26,%%v1,%%v10\n\t"
+    "vfmadb %%v11,%%v27,%%v1,%%v11\n\t"
+    "vfmadb %%v16,%%v28,%%v1,%%v16\n\t"
+    "vfmadb %%v17,%%v29,%%v1,%%v17\n\t"
+    "vfmadb %%v18,%%v30,%%v1,%%v18\n\t"
+    "vfmadb %%v19,%%v31,%%v1,%%v19\n\t"
+    "vst %%v8,0(%%r1,%[y])\n\t"
+    "vst %%v9,16(%%r1,%[y])\n\t"
+    "vst %%v10,32(%%r1,%[y])\n\t"
+    "vst %%v11,48(%%r1,%[y])\n\t"
+    "vst %%v16,64(%%r1,%[y])\n\t"
+    "vst %%v17,80(%%r1,%[y])\n\t"
+    "vst %%v18,96(%%r1,%[y])\n\t"
+    "vst %%v19,112(%%r1,%[y])\n\t"
+    "agfi  %%r1,128\n\t"
+    "brctg %[n],0b"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) y),[n] "+&r"(n)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x),
+       "m"(*(const struct { FLOAT x[2]; } *) alpha),[alpha] "a"(alpha)
+    : "cc", "r1", "v0", "v1", "v8", "v9", "v10", "v11", "v12", "v13",
+       "v14", "v15", "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23",
+       "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
 }
 
+int CNAME(BLASLONG n, BLASLONG dummy0, BLASLONG dummy1, FLOAT da_r, FLOAT da_i,
+          FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *dummy,
+          BLASLONG dummy2) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
+  FLOAT da[2] __attribute__ ((aligned(16)));
 
-int CNAME(BLASLONG n, BLASLONG dummy0, BLASLONG dummy1, FLOAT da_r, FLOAT da_i, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *dummy, BLASLONG dummy2) {
-    BLASLONG i = 0;
-    BLASLONG ix = 0, iy = 0;
-
-    if (n <= 0) return (0);
+  if (n <= 0)
+    return (0);
 
-    if ((inc_x == 1) && (inc_y == 1)) {
+  if ((inc_x == 1) && (inc_y == 1)) {
 
-        BLASLONG n1 = n & -8;
+    BLASLONG n1 = n & -8;
 
-        if (n1) { 
-            zaxpy_kernel_8(n1, x, y, da_r,da_i);
-            ix = 2 * n1;
-        }
-        i = n1;
-        while (i < n) {
+    if (n1) {
+      da[0] = da_r;
+      da[1] = da_i;
+      zaxpy_kernel_8(n1, x, y, da);
+      ix = 2 * n1;
+    }
+    i = n1;
+    while (i < n) {
 #if !defined(CONJ)
-            y[ix] += (da_r * x[ix] - da_i * x[ix + 1]);
-            y[ix + 1] += (da_r * x[ix + 1] + da_i * x[ix]);
+      y[ix] += (da_r * x[ix] - da_i * x[ix + 1]);
+      y[ix + 1] += (da_r * x[ix + 1] + da_i * x[ix]);
 #else
-            y[ix] += (da_r * x[ix] + da_i * x[ix + 1]);
-            y[ix + 1] -= (da_r * x[ix + 1] - da_i * x[ix]);
+      y[ix] += (da_r * x[ix] + da_i * x[ix + 1]);
+      y[ix + 1] -= (da_r * x[ix + 1] - da_i * x[ix]);
 #endif
-            i++;
-            ix += 2;
-
-        }
-        return (0);
-
+      i++;
+      ix += 2;
 
     }
+    return (0);
 
-    inc_x *= 2;
-    inc_y *= 2;
+  }
 
-    while (i < n) {
+  inc_x *= 2;
+  inc_y *= 2;
+
+  while (i < n) {
 
 #if !defined(CONJ)
-        y[iy] += (da_r * x[ix] - da_i * x[ix + 1]);
-        y[iy + 1] += (da_r * x[ix + 1] + da_i * x[ix]);
+    y[iy] += (da_r * x[ix] - da_i * x[ix + 1]);
+    y[iy + 1] += (da_r * x[ix + 1] + da_i * x[ix]);
 #else
-        y[iy] += (da_r * x[ix] + da_i * x[ix + 1]);
-        y[iy + 1] -= (da_r * x[ix + 1] - da_i * x[ix]);
+    y[iy] += (da_r * x[ix] + da_i * x[ix + 1]);
+    y[iy + 1] -= (da_r * x[ix + 1] - da_i * x[ix]);
 #endif
-        ix += inc_x;
-        iy += inc_y;
-        i++;
+    ix += inc_x;
+    iy += inc_y;
+    i++;
 
-    }
-    return (0);
+  }
+  return (0);
 
 }
-
-
diff --git a/kernel/zarch/zcopy.c b/kernel/zarch/zcopy.c
index b5bf383f70..5a46aec1c9 100644
--- a/kernel/zarch/zcopy.c
+++ b/kernel/zarch/zcopy.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2013-2017, The OpenBLAS Project
+Copyright (c) 2013-2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -24,122 +24,65 @@ CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
 OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 *****************************************************************************/
- 
-#include "common.h"
- 
-static void  zcopy_kernel_16(BLASLONG n, FLOAT *x, FLOAT *y) {
-
-    __asm__ volatile(
-            "pfd   1, 0(%[ptr_x]) \n\t"
-            "pfd   2, 0(%[ptr_y]) \n\t"
-            "srlg  %[n_tmp],%[n_tmp],4      \n\t"
-            "xgr   %%r1,%%r1       \n\t"
-            ".align 16 \n\t"
-            "1:    \n\t"
-            "pfd   1, 256(%%r1,%[ptr_x]) \n\t"
-            "pfd   2, 256(%%r1,%[ptr_y]) \n\t"
-
-            "vl    %%v24, 0(%%r1,%[ptr_x])   \n\t"
-            "vst   %%v24, 0(%%r1,%[ptr_y])   \n\t"
-            "vl    %%v25, 16(%%r1,%[ptr_x])  \n\t"
-            "vst   %%v25, 16(%%r1,%[ptr_y])  \n\t"
-            "vl    %%v26, 32(%%r1,%[ptr_x])  \n\t"
-            "vst   %%v26, 32(%%r1,%[ptr_y])  \n\t"
-            "vl    %%v27, 48(%%r1,%[ptr_x])  \n\t"
-            "vst   %%v27, 48(%%r1,%[ptr_y])  \n\t"
-
-            "vl    %%v28, 64(%%r1,%[ptr_x])  \n\t"
-            "vst   %%v28, 64(%%r1,%[ptr_y])  \n\t"
-            "vl    %%v29, 80(%%r1,%[ptr_x])  \n\t"
-            "vst   %%v29, 80(%%r1,%[ptr_y])  \n\t"
-            "vl    %%v30, 96(%%r1,%[ptr_x])  \n\t"
-            "vst   %%v30, 96(%%r1,%[ptr_y])  \n\t"
-            "vl    %%v31, 112(%%r1,%[ptr_x]) \n\t"
-            "vst   %%v31, 112(%%r1,%[ptr_y]) \n\t"
-
-
-            "vl    %%v24, 128(%%r1,%[ptr_x]) \n\t"
-            "vst   %%v24, 128(%%r1,%[ptr_y]) \n\t"
-
-            "vl    %%v25, 144(%%r1,%[ptr_x]) \n\t"
-            "vst   %%v25, 144(%%r1,%[ptr_y]) \n\t"
-
-            "vl    %%v26, 160(%%r1,%[ptr_x]) \n\t"
-            "vst   %%v26, 160(%%r1,%[ptr_y]) \n\t"
-
-            "vl    %%v27, 176(%%r1,%[ptr_x]) \n\t"
-            "vst   %%v27, 176(%%r1,%[ptr_y]) \n\t"
 
-            "vl    %%v28, 192(%%r1,%[ptr_x]) \n\t"
-            "vst   %%v28, 192(%%r1,%[ptr_y]) \n\t"
-            "vl    %%v29, 208(%%r1,%[ptr_x]) \n\t"
-            "vst   %%v29, 208(%%r1,%[ptr_y]) \n\t"
-            "vl    %%v30, 224(%%r1,%[ptr_x]) \n\t"
-            "vst   %%v30, 224(%%r1,%[ptr_y]) \n\t"
-            "vl    %%v31, 240(%%r1,%[ptr_x]) \n\t"
-            "vst   %%v31, 240(%%r1,%[ptr_y]) \n\t"
-            "la    %%r1,256(%%r1)      \n\t"
-            "brctg %[n_tmp],1b"
-            : [mem_y] "=m" (*(double (*)[2*n])y), [n_tmp] "+&r"(n)
-            : [mem_x] "m" (*(const double (*)[2*n])x), [ptr_x] "a"(x), [ptr_y] "a"(y)
-            : "cc",  "r1", "v24","v25","v26","v27","v28","v29","v30","v31" 
-            );
-    return; 
+#include "common.h"
 
+static void zcopy_kernel_16(BLASLONG n, FLOAT *x, FLOAT *y) {
+  __asm__("srlg %[n],%[n],4\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%[x])\n\t"
+    "pfd 2, 1024(%[y])\n\t"
+    "mvc 0(256,%[y]),0(%[x])\n\t"
+    "la  %[x],256(%[x])\n\t"
+    "la  %[y],256(%[y])\n\t"
+    "brctg %[n],0b"
+    : "=m"(*(struct { FLOAT x[n * 2]; } *) y),[x] "+&a"(x),[y] "+&a"(y),
+       [n] "+&r"(n)
+    : "m"(*(const struct { FLOAT x[n * 2]; } *) x)
+    : "cc");
 }
 
+int CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
 
-int CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y)
-{
-    BLASLONG i=0;
-    BLASLONG ix=0,iy=0;
-
-    if ( n <= 0     )  return(0);
-
-    if ( (inc_x == 1) && (inc_y == 1 ))
-    {
-
-        BLASLONG n1 = n & -16;
-        if ( n1 > 0 )
-        {
-            zcopy_kernel_16(n1, x, y);
-            i=n1;
-            ix=n1*2;
-            iy=n1*2;
-        }
+  if (n <= 0)
+    return (0);
 
-        while(i < n)
-        {
-            y[iy] = x[iy] ;
-            y[iy+1] = x[ix+1] ;
-            ix+=2;
-            iy+=2;
-            i++ ;
+  if ((inc_x == 1) && (inc_y == 1)) {
 
-        }
+    BLASLONG n1 = n & -16;
+    if (n1 > 0) {
+      zcopy_kernel_16(n1, x, y);
+      i = n1;
+      ix = n1 * 2;
+      iy = n1 * 2;
+    }
 
+    while (i < n) {
+      y[iy] = x[iy];
+      y[iy + 1] = x[ix + 1];
+      ix += 2;
+      iy += 2;
+      i++;
 
     }
-    else
-    {
 
-        BLASLONG inc_x2 = 2 * inc_x;
-        BLASLONG inc_y2 = 2 * inc_y;
+  } else {
 
-        while(i < n)
-        {
-            y[iy] = x[ix] ;
-            y[iy+1] = x[ix+1] ;
-            ix += inc_x2 ;
-            iy += inc_y2 ;
-            i++ ;
+    BLASLONG inc_x2 = 2 * inc_x;
+    BLASLONG inc_y2 = 2 * inc_y;
 
-        }
+    while (i < n) {
+      y[iy] = x[ix];
+      y[iy + 1] = x[ix + 1];
+      ix += inc_x2;
+      iy += inc_y2;
+      i++;
 
     }
-    return(0);
-    
-
-}
 
+  }
 
+  return (0);
+}
diff --git a/kernel/zarch/zdot.c b/kernel/zarch/zdot.c
index 61c5d6b98a..ac6e69c23f 100644
--- a/kernel/zarch/zdot.c
+++ b/kernel/zarch/zdot.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2013-2017, The OpenBLAS Project
+Copyright (c) 2013-2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -23,203 +23,150 @@ SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
 CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
 OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
- *****************************************************************************/
-
+*****************************************************************************/
 
 #include "common.h"
-#if defined(Z13)
 
 static void zdot_kernel_8(BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *d) {
-
-    __asm__ volatile(
-            "pfd   1, 0(%[ptr_x_tmp]) \n\t"
-            "pfd   1, 0(%[ptr_y_tmp]) \n\t"
-            "vzero %%v24  \n\t"
-            "vzero %%v25  \n\t"
-            "vzero %%v26  \n\t"
-            "vzero %%v27  \n\t"
-            "srlg  %[n_tmp],%[n_tmp],3      \n\t"
-            "xgr   %%r1,%%r1       \n\t"
-            ".align 16 \n\t"
-            "1:     \n\t"
-            "pfd    1,    256(%%r1,%[ptr_x_tmp])  \n\t"
-            "pfd    1,    256(%%r1,%[ptr_y_tmp])  \n\t"
-            "vl     %%v16,  0(%%r1,%[ptr_x_tmp])  \n\t"
-            "vl     %%v17, 16(%%r1,%[ptr_x_tmp])  \n\t"
-            "vl     %%v18, 32(%%r1,%[ptr_x_tmp])  \n\t"
-            "vl     %%v19, 48(%%r1,%[ptr_x_tmp])  \n\t"
-            "vl     %%v28,  0(%%r1,%[ptr_y_tmp])  \n\t"
-            "vl     %%v29, 16(%%r1,%[ptr_y_tmp])  \n\t"
-            "vl     %%v30, 32(%%r1,%[ptr_y_tmp])  \n\t"
-            "vl     %%v31, 48(%%r1,%[ptr_y_tmp])  \n\t"
-            "vpdi   %%v20,%%v16,%%v16,4 \n\t"
-            "vpdi   %%v21,%%v17,%%v17,4 \n\t"
-            "vpdi   %%v22,%%v18,%%v18,4 \n\t"
-            "vpdi   %%v23,%%v19,%%v19,4 \n\t"
-
-
-            "vfmadb %%v24,%%v16,%%v28,%%v24  \n\t"
-            "vfmadb %%v25,%%v20,%%v28,%%v25  \n\t"
-            "vfmadb %%v26,%%v17,%%v29,%%v26  \n\t"
-            "vfmadb %%v27,%%v21,%%v29,%%v27  \n\t"
-            "vfmadb %%v24,%%v18,%%v30,%%v24  \n\t"
-            "vfmadb %%v25,%%v22,%%v30,%%v25  \n\t"
-            "vfmadb %%v26,%%v19,%%v31,%%v26  \n\t"
-            "vfmadb %%v27,%%v23,%%v31,%%v27  \n\t"
-
-
-
-            "vl     %%v16, 64(%%r1,%[ptr_x_tmp]) \n\t"
-            "vl     %%v17, 80(%%r1,%[ptr_x_tmp]) \n\t"
-            "vl     %%v18, 96(%%r1,%[ptr_x_tmp]) \n\t"
-            "vl     %%v19,112(%%r1,%[ptr_x_tmp]) \n\t"
-            "vl     %%v28, 64(%%r1,%[ptr_y_tmp]) \n\t"
-            "vl     %%v29, 80(%%r1,%[ptr_y_tmp]) \n\t"
-            "vl     %%v30, 96(%%r1,%[ptr_y_tmp]) \n\t"
-            "vl     %%v31,112(%%r1,%[ptr_y_tmp]) \n\t"
-            "vpdi   %%v20,%%v16,%%v16,4 \n\t"
-            "vpdi   %%v21,%%v17,%%v17,4 \n\t"
-            "vpdi   %%v22,%%v18,%%v18,4 \n\t"
-            "vpdi   %%v23,%%v19,%%v19,4 \n\t"
-            "vfmadb %%v24,%%v16,%%v28,%%v24  \n\t"
-            "vfmadb %%v25,%%v20,%%v28,%%v25  \n\t"
-            "vfmadb %%v26,%%v17,%%v29,%%v26  \n\t"
-            "vfmadb %%v27,%%v21,%%v29,%%v27  \n\t"
-            "vfmadb %%v24,%%v18,%%v30,%%v24  \n\t"
-            "vfmadb %%v25,%%v22,%%v30,%%v25  \n\t"
-            "vfmadb %%v26,%%v19,%%v31,%%v26  \n\t"
-            "vfmadb %%v27,%%v23,%%v31,%%v27  \n\t"
-
-
-            "la     %%r1,128(%%r1)       \n\t"
-            "brctg  %[n_tmp],1b          \n\t"
-            "vfadb  %%v24,%%v26,%%v24    \n\t"
-            "vfadb  %%v25,%%v25,%%v27    \n\t"
-            "vsteg  %%v24, 0(%[ptr_d]),0    \n\t"
-            "vsteg  %%v24, 8(%[ptr_d]),1    \n\t"
-            "vsteg  %%v25,16(%[ptr_d]),1    \n\t"
-            "vsteg  %%v25,24(%[ptr_d]),0    \n\t"
-            : [mem_out] "=m"(*(double (*)[4])d ) ,[n_tmp] "+&r"(n) 
-            : [mem_x] "m"( *(const double (*)[2*n])x),
-              [mem_y] "m"( *(const double (*)[2*n])y),
-              [ptr_x_tmp] "a"(x), [ptr_y_tmp] "a"(y), [ptr_d] "a"(d)
-            : "cc", "r1","v16",
-            "v17","v18","v19","v20","v21","v22","v23","v24","v25","v26","v27","v28","v29","v30","v31" 
-            );
-
+  __asm__("vzero %%v24\n\t"
+    "vzero %%v25\n\t"
+    "vzero %%v26\n\t"
+    "vzero %%v27\n\t"
+    "vzero %%v28\n\t"
+    "vzero %%v29\n\t"
+    "vzero %%v30\n\t"
+    "vzero %%v31\n\t"
+    "srlg %[n],%[n],3\n\t"
+    "xgr %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 1, 1024(%%r1,%[x])\n\t"
+    "pfd 1, 1024(%%r1,%[y])\n\t"
+    "vl  %%v16,  0(%%r1,%[x])\n\t"
+    "vl  %%v17, 16(%%r1,%[x])\n\t"
+    "vl  %%v18, 32(%%r1,%[x])\n\t"
+    "vl  %%v19, 48(%%r1,%[x])\n\t"
+    "vl  %%v0,  0(%%r1,%[y])\n\t"
+    "vl  %%v1, 16(%%r1,%[y])\n\t"
+    "vl  %%v2, 32(%%r1,%[y])\n\t"
+    "vl  %%v3, 48(%%r1,%[y])\n\t"
+    "vpdi %%v20,%%v16,%%v16,4\n\t"
+    "vpdi %%v21,%%v17,%%v17,4\n\t"
+    "vpdi %%v22,%%v18,%%v18,4\n\t"
+    "vpdi %%v23,%%v19,%%v19,4\n\t"
+    "vfmadb    %%v24,%%v16,%%v0,%%v24\n\t"
+    "vfmadb    %%v25,%%v20,%%v0,%%v25\n\t"
+    "vfmadb    %%v26,%%v17,%%v1,%%v26\n\t"
+    "vfmadb    %%v27,%%v21,%%v1,%%v27\n\t"
+    "vfmadb    %%v28,%%v18,%%v2,%%v28\n\t"
+    "vfmadb    %%v29,%%v22,%%v2,%%v29\n\t"
+    "vfmadb    %%v30,%%v19,%%v3,%%v30\n\t"
+    "vfmadb    %%v31,%%v23,%%v3,%%v31\n\t"
+    "vl  %%v16, 64(%%r1,%[x])\n\t"
+    "vl  %%v17, 80(%%r1,%[x])\n\t"
+    "vl  %%v18, 96(%%r1,%[x])\n\t"
+    "vl  %%v19, 112(%%r1,%[x])\n\t"
+    "vl  %%v0, 64(%%r1,%[y])\n\t"
+    "vl  %%v1, 80(%%r1,%[y])\n\t"
+    "vl  %%v2, 96(%%r1,%[y])\n\t"
+    "vl  %%v3, 112(%%r1,%[y])\n\t"
+    "vpdi %%v20,%%v16,%%v16,4\n\t"
+    "vpdi %%v21,%%v17,%%v17,4\n\t"
+    "vpdi %%v22,%%v18,%%v18,4\n\t"
+    "vpdi %%v23,%%v19,%%v19,4\n\t"
+    "vfmadb    %%v24,%%v16,%%v0,%%v24\n\t"
+    "vfmadb    %%v25,%%v20,%%v0,%%v25\n\t"
+    "vfmadb    %%v26,%%v17,%%v1,%%v26\n\t"
+    "vfmadb    %%v27,%%v21,%%v1,%%v27\n\t"
+    "vfmadb    %%v28,%%v18,%%v2,%%v28\n\t"
+    "vfmadb    %%v29,%%v22,%%v2,%%v29\n\t"
+    "vfmadb    %%v30,%%v19,%%v3,%%v30\n\t"
+    "vfmadb    %%v31,%%v23,%%v3,%%v31\n\t"
+    "agfi   %%r1,128\n\t"
+    "brctg  %[n],0b\n\t"
+    "vfadb  %%v24,%%v24,%%v26\n\t"
+    "vfadb  %%v24,%%v24,%%v28\n\t"
+    "vfadb  %%v24,%%v24,%%v30\n\t"
+    "vfadb  %%v25,%%v25,%%v27\n\t"
+    "vfadb  %%v25,%%v25,%%v29\n\t"
+    "vfadb  %%v25,%%v25,%%v31\n\t"
+    "vsteg  %%v24,0(%[d]),0\n\t"
+    "vsteg  %%v24,8(%[d]),1\n\t"
+    "vsteg  %%v25,16(%[d]),1\n\t"
+    "vsteg  %%v25,24(%[d]),0"
+    : "=m"(*(struct { FLOAT x[4]; } *) d),[n] "+&r"(n)
+    : [d] "a"(d), "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) y),[y] "a"(y)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v16", "v17", "v18", "v19", "v20",
+       "v21", "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
 }
 
-#else
-
-static  void zdot_kernel_8(BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *d) {
-    BLASLONG register i = 0;
-    FLOAT dot[4] = {0.0, 0.0, 0.0, 0.0};
-    BLASLONG j = 0;
-
-    while (i < n) {
-
-        dot[0] += x[j] * y[j];
-        dot[1] += x[j + 1] * y[j + 1];
-        dot[2] += x[j] * y[j + 1];
-        dot[3] += x[j + 1] * y[j];
-
-        dot[0] += x[j + 2] * y[j + 2];
-        dot[1] += x[j + 3] * y[j + 3];
-        dot[2] += x[j + 2] * y[j + 3];
-        dot[3] += x[j + 3] * y[j + 2];
+OPENBLAS_COMPLEX_FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y,
+                             BLASLONG inc_y) {
+  BLASLONG i;
+  BLASLONG ix, iy;
+  OPENBLAS_COMPLEX_FLOAT result;
+  FLOAT dot[4] __attribute__ ((aligned(16))) = {
+  0.0, 0.0, 0.0, 0.0};
+
+  if (n <= 0) {
+    CREAL(result) = 0.0;
+    CIMAG(result) = 0.0;
+    return (result);
 
-        dot[0] += x[j + 4] * y[j + 4];
-        dot[1] += x[j + 5] * y[j + 5];
-        dot[2] += x[j + 4] * y[j + 5];
-        dot[3] += x[j + 5] * y[j + 4];
+  }
 
-        dot[0] += x[j + 6] * y[j + 6];
-        dot[1] += x[j + 7] * y[j + 7];
-        dot[2] += x[j + 6] * y[j + 7];
-        dot[3] += x[j + 7] * y[j + 6];
+  if ((inc_x == 1) && (inc_y == 1)) {
 
-        j += 8;
-        i += 4;
+    BLASLONG n1 = n & -8;
 
-    }
-    d[0] = dot[0];
-    d[1] = dot[1];
-    d[2] = dot[2];
-    d[3] = dot[3];
+    if (n1)
+      zdot_kernel_8(n1, x, y, dot);
 
-}
+    i = n1;
+    BLASLONG j = i * 2;
 
-#endif
+    while (i < n) {
 
-OPENBLAS_COMPLEX_FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y) {
-    BLASLONG i = 0;
-    BLASLONG ix=0, iy=0;
-    OPENBLAS_COMPLEX_FLOAT result;
-    FLOAT dot[4] __attribute__ ((aligned(16))) = {0.0, 0.0, 0.0, 0.0};
+      dot[0] += x[j] * y[j];
+      dot[1] += x[j + 1] * y[j + 1];
+      dot[2] += x[j] * y[j + 1];
+      dot[3] += x[j + 1] * y[j];
 
-    if (n <= 0) {
-        CREAL(result) = 0.0;
-        CIMAG(result) = 0.0;
-        return (result);
+      j += 2;
+      i++;
 
     }
 
-    if ((inc_x == 1) && (inc_y == 1)) {
-
-        BLASLONG n1 = n & -8;
-        BLASLONG j=0; 
-
-        if (n1){
-            zdot_kernel_8(n1, x, y, dot);
-            i = n1;
-            j = n1 <<1;
-        }
- 
-
-        while (i < n) {
-
-            dot[0] += x[j] * y[j];
-            dot[1] += x[j + 1] * y[j + 1];
-            dot[2] += x[j] * y[j + 1];
-            dot[3] += x[j + 1] * y[j];
-
-            j += 2;
-            i++;
-
-        }
-
-
-    } else {
-        i = 0;
-        ix = 0;
-        iy = 0;
-        inc_x <<= 1;
-        inc_y <<= 1;
-        while (i < n) {
+  } else {
+    i = 0;
+    ix = 0;
+    iy = 0;
+    inc_x <<= 1;
+    inc_y <<= 1;
+    while (i < n) {
 
-            dot[0] += x[ix] * y[iy];
-            dot[1] += x[ix + 1] * y[iy + 1];
-            dot[2] += x[ix] * y[iy + 1];
-            dot[3] += x[ix + 1] * y[iy];
+      dot[0] += x[ix] * y[iy];
+      dot[1] += x[ix + 1] * y[iy + 1];
+      dot[2] += x[ix] * y[iy + 1];
+      dot[3] += x[ix + 1] * y[iy];
 
-            ix += inc_x;
-            iy += inc_y;
-            i++;
+      ix += inc_x;
+      iy += inc_y;
+      i++;
 
-        }
     }
+  }
 
 #if !defined(CONJ)
-    CREAL(result) = dot[0] - dot[1];
-    CIMAG(result) = dot[2] + dot[3];
+  CREAL(result) = dot[0] - dot[1];
+  CIMAG(result) = dot[2] + dot[3];
 #else
-    CREAL(result) = dot[0] + dot[1];
-    CIMAG(result) = dot[2] - dot[3];
+  CREAL(result) = dot[0] + dot[1];
+  CIMAG(result) = dot[2] - dot[3];
 
 #endif
 
-    return (result);
+  return (result);
 
 }
-
-
diff --git a/kernel/zarch/zgemv_n_4.c b/kernel/zarch/zgemv_n_4.c
index 484db30734..13045a3591 100644
--- a/kernel/zarch/zgemv_n_4.c
+++ b/kernel/zarch/zgemv_n_4.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2018, The OpenBLAS Project
+Copyright (c) 2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -23,898 +23,642 @@ SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
 CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
 OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
- *****************************************************************************/
+*****************************************************************************/
 
-#include <stdlib.h>
-#include <stdio.h>
 #include "common.h"
 
-#define HAVE_KERNEL_4x4_VEC 1
-#define HAVE_KERNEL_4x2_VEC 1
-#define HAVE_KERNEL_4x1_VEC 1
-#define HAVE_KERNEL_ADDY 1
-
-#if defined(HAVE_KERNEL_4x4_VEC) || defined(HAVE_KERNEL_4x2_VEC) || defined(HAVE_KERNEL_4x1_VEC)
-#include <vecintrin.h> 
-#endif
-
-// 
 #define NBMAX 1024
 
-#ifdef HAVE_KERNEL_4x4_VEC_ASM
-
-#elif HAVE_KERNEL_4x4_VEC
-
-static void zgemv_kernel_4x4(BLASLONG n, BLASLONG lda, FLOAT *ap, FLOAT *x, FLOAT *y) {
-    BLASLONG i;
-    FLOAT *a0, *a1, *a2, *a3;
-    a0 = ap;
-    a1 = ap + lda;
-    a2 = a1 + lda;
-    a3 = a2 + lda;
+static void zgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) {
+  register FLOAT *ap0 = ap[0];
+  register FLOAT *ap1 = ap[1];
+  register FLOAT *ap2 = ap[2];
+  register FLOAT *ap3 = ap[3];
 
+  __asm__("vl     %%v16,0(%[x])\n\t"
+    "vl     %%v17,16(%[x])\n\t"
+    "vl     %%v18,32(%[x])\n\t"
+    "vl     %%v19,48(%[x])\n\t"
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-
-    register __vector double vx0_r = {x[0], x[0]};
-    register __vector double vx0_i = {-x[1], x[1]};
-    register __vector double vx1_r = {x[2], x[2]};
-    register __vector double vx1_i = {-x[3], x[3]};
-    register __vector double vx2_r = {x[4], x[4]};
-    register __vector double vx2_i = {-x[5], x[5]};
-    register __vector double vx3_r = {x[6], x[6]};
-    register __vector double vx3_i = {-x[7], x[7]};
-
+    "vleg   %%v20,8(%[x]),0\n\t"
+    "wflcdb %%v20,%%v20\n\t"
+    "vleg   %%v20,0(%[x]),1\n\t"
+    "vleg   %%v21,24(%[x]),0\n\t"
+    "wflcdb %%v21,%%v21\n\t"
+    "vleg   %%v21,16(%[x]),1\n\t"
+    "vleg   %%v22,40(%[x]),0\n\t"
+    "wflcdb %%v22,%%v22\n\t"
+    "vleg   %%v22,32(%[x]),1\n\t"
+    "vleg   %%v23,56(%[x]),0\n\t"
+    "wflcdb %%v23,%%v23\n\t"
+    "vleg   %%v23,48(%[x]),1\n\t"
 #else
-    register __vector double vx0_r = {x[0], -x[0]};
-    register __vector double vx0_i = {x[1], x[1]};
-    register __vector double vx1_r = {x[2], -x[2]};
-    register __vector double vx1_i = {x[3], x[3]};
-    register __vector double vx2_r = {x[4], -x[4]};
-    register __vector double vx2_i = {x[5], x[5]};
-    register __vector double vx3_r = {x[6], -x[6]};
-    register __vector double vx3_i = {x[7], x[7]};
+    "vleg   %%v20,0(%[x]),1\n\t"
+    "vflcdb %%v20,%%v20\n\t"
+    "vleg   %%v20,8(%[x]),0\n\t"
+    "vleg   %%v21,16(%[x]),1\n\t"
+    "vflcdb %%v21,%%v21\n\t"
+    "vleg   %%v21,24(%[x]),0\n\t"
+    "vleg   %%v22,32(%[x]),1\n\t"
+    "vflcdb %%v22,%%v22\n\t"
+    "vleg   %%v22,40(%[x]),0\n\t"
+    "vleg   %%v23,48(%[x]),1\n\t"
+    "vflcdb %%v23,%%v23\n\t"
+    "vleg   %%v23,56(%[x]),0\n\t"
 #endif
-
-    register __vector double *vy = (__vector double *) y;
-    register __vector double *vptr_a0 = (__vector double *) a0;
-    register __vector double *vptr_a1 = (__vector double *) a1;
-    register __vector double *vptr_a2 = (__vector double *) a2;
-    register __vector double *vptr_a3 = (__vector double *) a3;
-
-    for (i = 0; i < n; i += 4) {
-
-        register __vector double vy_0 = vy[i];
-        register __vector double vy_1 = vy[i + 1];
-        register __vector double vy_2 = vy[i + 2];
-        register __vector double vy_3 = vy[i + 3];
-
-        register __vector double va0 = vptr_a0[i];
-        register __vector double va0_1 = vptr_a0[i + 1];
-        register __vector double va0_2 = vptr_a0[i + 2];
-        register __vector double va0_3 = vptr_a0[i + 3];
-
-        register __vector double va1 = vptr_a1[i];
-        register __vector double va1_1 = vptr_a1[i + 1];
-        register __vector double va1_2 = vptr_a1[i + 2];
-        register __vector double va1_3 = vptr_a1[i + 3];
-
-        register __vector double va2 = vptr_a2[i];
-        register __vector double va2_1 = vptr_a2[i + 1];
-        register __vector double va2_2 = vptr_a2[i + 2];
-        register __vector double va2_3 = vptr_a2[i + 3];
-
-        register __vector double va3 = vptr_a3[i];
-        register __vector double va3_1 = vptr_a3[i + 1];
-        register __vector double va3_2 = vptr_a3[i + 2];
-        register __vector double va3_3 = vptr_a3[i + 3];
-
-        vy_0 += va0*vx0_r;
-        vy_1 += va0_1*vx0_r;
-        vy_2 += va0_2*vx0_r;
-        vy_3 += va0_3*vx0_r;
-
-        vy_0 += va1*vx1_r;
-        vy_1 += va1_1*vx1_r;
-        vy_2 += va1_2*vx1_r;
-        vy_3 += va1_3*vx1_r;
-
-        va0 = vec_permi(va0, va0, 2);
-        va0_1 = vec_permi(va0_1, va0_1, 2);
-        va0_2 = vec_permi(va0_2, va0_2, 2);
-        va0_3 = vec_permi(va0_3, va0_3, 2);
-
-        vy_0 += va2*vx2_r;
-        vy_1 += va2_1*vx2_r;
-        vy_2 += va2_2*vx2_r;
-        vy_3 += va2_3*vx2_r;
-
-        va1 = vec_permi(va1, va1, 2);
-        va1_1 = vec_permi(va1_1, va1_1, 2);
-        va1_2 = vec_permi(va1_2, va1_2, 2);
-        va1_3 = vec_permi(va1_3, va1_3, 2);
-
-        vy_0 += va3*vx3_r;
-        vy_1 += va3_1*vx3_r;
-        vy_2 += va3_2*vx3_r;
-        vy_3 += va3_3*vx3_r;
-
-        va2 = vec_permi(va2, va2, 2);
-        va2_1 = vec_permi(va2_1, va2_1, 2);
-        va2_2 = vec_permi(va2_2, va2_2, 2);
-        va2_3 = vec_permi(va2_3, va2_3, 2);
-
-        vy_0 += va0*vx0_i;
-        vy_1 += va0_1*vx0_i;
-        vy_2 += va0_2*vx0_i;
-        vy_3 += va0_3*vx0_i;
-
-        va3 = vec_permi(va3, va3, 2);
-        va3_1 = vec_permi(va3_1, va3_1, 2);
-        va3_2 = vec_permi(va3_2, va3_2, 2);
-        va3_3 = vec_permi(va3_3, va3_3, 2);
-
-        vy_0 += va1*vx1_i;
-        vy_1 += va1_1*vx1_i;
-        vy_2 += va1_2*vx1_i;
-        vy_3 += va1_3*vx1_i;
-
-        vy_0 += va2*vx2_i;
-        vy_1 += va2_1*vx2_i;
-        vy_2 += va2_2*vx2_i;
-        vy_3 += va2_3*vx2_i;
-
-        vy_0 += va3*vx3_i;
-        vy_1 += va3_1*vx3_i;
-        vy_2 += va3_2*vx3_i;
-        vy_3 += va3_3*vx3_i;
-
-        vy[i] = vy_0;
-        vy[i + 1] = vy_1;
-        vy[i + 2] = vy_2;
-        vy[i + 3] = vy_3;
-
-    }
-}
-#else
-
-static void zgemv_kernel_4x4(BLASLONG n, BLASLONG lda, FLOAT *ap, FLOAT *x, FLOAT *y) {
-    BLASLONG i;
-    FLOAT *a0, *a1, *a2, *a3;
-    a0 = ap;
-    a1 = ap + lda;
-    a2 = a1 + lda;
-    a3 = a2 + lda;
-
-    for (i = 0; i < 2 * n; i += 2) {
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-        y[i] += a0[i] * x[0] - a0[i + 1] * x[1];
-        y[i + 1] += a0[i] * x[1] + a0[i + 1] * x[0];
-        y[i] += a1[i] * x[2] - a1[i + 1] * x[3];
-        y[i + 1] += a1[i] * x[3] + a1[i + 1] * x[2];
-        y[i] += a2[i] * x[4] - a2[i + 1] * x[5];
-        y[i + 1] += a2[i] * x[5] + a2[i + 1] * x[4];
-        y[i] += a3[i] * x[6] - a3[i + 1] * x[7];
-        y[i + 1] += a3[i] * x[7] + a3[i + 1] * x[6];
-#else 
-        y[i] += a0[i] * x[0] + a0[i + 1] * x[1];
-        y[i + 1] += a0[i] * x[1] - a0[i + 1] * x[0];
-        y[i] += a1[i] * x[2] + a1[i + 1] * x[3];
-        y[i + 1] += a1[i] * x[3] - a1[i + 1] * x[2];
-        y[i] += a2[i] * x[4] + a2[i + 1] * x[5];
-        y[i + 1] += a2[i] * x[5] - a2[i + 1] * x[4];
-        y[i] += a3[i] * x[6] + a3[i + 1] * x[7];
-        y[i + 1] += a3[i] * x[7] - a3[i + 1] * x[6];
-#endif
-    }
+    "xgr   %%r1,%%r1\n\t"
+    "srlg  %[n],%[n],1\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[ap0])\n\t"
+    "pfd 1,1024(%%r1,%[ap1])\n\t"
+    "pfd 1,1024(%%r1,%[ap2])\n\t"
+    "pfd 1,1024(%%r1,%[ap3])\n\t"
+    "pfd 2,1024(%%r1,%[y])\n\t"
+    "vl  %%v0,0(%%r1,%[y])\n\t"
+    "vl  %%v1,16(%%r1,%[y])\n\t"
+    "vlrepg %%v24,0(%%r1,%[ap0])\n\t"
+    "vlrepg %%v25,8(%%r1,%[ap0])\n\t"
+    "vlrepg %%v26,0(%%r1,%[ap1])\n\t"
+    "vlrepg %%v27,8(%%r1,%[ap1])\n\t"
+    "vlrepg %%v28,16(%%r1,%[ap0])\n\t"
+    "vlrepg %%v29,24(%%r1,%[ap0])\n\t"
+    "vlrepg %%v30,16(%%r1,%[ap1])\n\t"
+    "vlrepg %%v31,24(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v0,%%v24,%%v16,%%v0\n\t"
+    "vfmadb   %%v1,%%v28,%%v16,%%v1\n\t"
+    "vfmadb   %%v0,%%v25,%%v20,%%v0\n\t"
+    "vfmadb   %%v1,%%v29,%%v20,%%v1\n\t"
+    "vfmadb   %%v0,%%v26,%%v17,%%v0\n\t"
+    "vfmadb   %%v1,%%v30,%%v17,%%v1\n\t"
+    "vfmadb   %%v0,%%v27,%%v21,%%v0\n\t"
+    "vfmadb   %%v1,%%v31,%%v21,%%v1\n\t"
+    "vlrepg %%v24,0(%%r1,%[ap2])\n\t"
+    "vlrepg %%v25,8(%%r1,%[ap2])\n\t"
+    "vlrepg %%v26,0(%%r1,%[ap3])\n\t"
+    "vlrepg %%v27,8(%%r1,%[ap3])\n\t"
+    "vlrepg %%v28,16(%%r1,%[ap2])\n\t"
+    "vlrepg %%v29,24(%%r1,%[ap2])\n\t"
+    "vlrepg %%v30,16(%%r1,%[ap3])\n\t"
+    "vlrepg %%v31,24(%%r1,%[ap3])\n\t"
+    "vfmadb   %%v0,%%v24,%%v18,%%v0\n\t"
+    "vfmadb   %%v1,%%v28,%%v18,%%v1\n\t"
+    "vfmadb   %%v0,%%v25,%%v22,%%v0\n\t"
+    "vfmadb   %%v1,%%v29,%%v22,%%v1\n\t"
+    "vfmadb   %%v0,%%v26,%%v19,%%v0\n\t"
+    "vfmadb   %%v1,%%v30,%%v19,%%v1\n\t"
+    "vfmadb   %%v0,%%v27,%%v23,%%v0\n\t"
+    "vfmadb   %%v1,%%v31,%%v23,%%v1\n\t"
+    "vst %%v0,0(%%r1,%[y])\n\t"
+    "vst %%v1,16(%%r1,%[y])\n\t"
+    "agfi   %%r1,32\n\t"
+    "brctg  %[n],0b"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) y),[n] "+&r"(n)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n * 2]; } *) ap0),[ap0] "a"(ap0),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) ap1),[ap1] "a"(ap1),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) ap2),[ap2] "a"(ap2),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) ap3),[ap3] "a"(ap3),
+       "m"(*(const struct { FLOAT x[8]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v16", "v17", "v18", "v19", "v20", "v21",
+       "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
 }
 
-#endif
-
-#ifdef  HAVE_KERNEL_4x2_VEC
-
-static void zgemv_kernel_4x2(BLASLONG n, BLASLONG lda, FLOAT *ap, FLOAT *x, FLOAT *y) {
-    BLASLONG i;
-    FLOAT *a0, *a1;
-    a0 = ap;
-    a1 = ap + lda;
-
+static void zgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) {
+  register FLOAT *ap0 = ap[0];
+  register FLOAT *ap1 = ap[1];
 
+  __asm__("vl     %%v16,0(%[x])\n\t"
+    "vl     %%v17,16(%[x])\n\t"
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-
-    register __vector double vx0_r = {x[0], x[0]};
-    register __vector double vx0_i = {-x[1], x[1]};
-    register __vector double vx1_r = {x[2], x[2]};
-    register __vector double vx1_i = {-x[3], x[3]};
-
+    "vleg   %%v18,8(%[x]),0\n\t"
+    "wflcdb %%v18,%%v18\n\t"
+    "vleg   %%v18,0(%[x]),1\n\t"
+    "vleg   %%v19,24(%[x]),0\n\t"
+    "wflcdb %%v19,%%v19\n\t"
+    "vleg   %%v19,16(%[x]),1\n\t"
 #else
-    register __vector double vx0_r = {x[0], -x[0]};
-    register __vector double vx0_i = {x[1], x[1]};
-    register __vector double vx1_r = {x[2], -x[2]};
-    register __vector double vx1_i = {x[3], x[3]};
+    "vleg   %%v18,0(%[x]),1\n\t"
+    "vflcdb %%v18,%%v18\n\t"
+    "vleg   %%v18,8(%[x]),0\n\t"
+    "vleg   %%v19,16(%[x]),1\n\t"
+    "vflcdb %%v19,%%v19\n\t"
+    "vleg   %%v19,24(%[x]),0\n\t"
 #endif
-
-
-    register __vector double *vy = (__vector double *) y;
-    register __vector double *vptr_a0 = (__vector double *) a0;
-    register __vector double *vptr_a1 = (__vector double *) a1;
-
-    for (i = 0; i < n; i += 4) {
-
-        register __vector double vy_0 = vy[i];
-        register __vector double vy_1 = vy[i + 1];
-        register __vector double vy_2 = vy[i + 2];
-        register __vector double vy_3 = vy[i + 3];
-
-        register __vector double va0 = vptr_a0[i];
-        register __vector double va0_1 = vptr_a0[i + 1];
-        register __vector double va0_2 = vptr_a0[i + 2];
-        register __vector double va0_3 = vptr_a0[i + 3];
-
-        register __vector double va1 = vptr_a1[i];
-        register __vector double va1_1 = vptr_a1[i + 1];
-        register __vector double va1_2 = vptr_a1[i + 2];
-        register __vector double va1_3 = vptr_a1[i + 3];
-
-        vy_0 += va0*vx0_r;
-        vy_1 += va0_1*vx0_r;
-        vy_2 += va0_2*vx0_r;
-        vy_3 += va0_3*vx0_r;
-
-        va0 = vec_permi(va0, va0, 2);
-        va0_1 = vec_permi(va0_1, va0_1, 2);
-        va0_2 = vec_permi(va0_2, va0_2, 2);
-        va0_3 = vec_permi(va0_3, va0_3, 2);
-
-        vy_0 += va1*vx1_r;
-        vy_1 += va1_1*vx1_r;
-        vy_2 += va1_2*vx1_r;
-        vy_3 += va1_3*vx1_r;
-
-        va1 = vec_permi(va1, va1, 2);
-        va1_1 = vec_permi(va1_1, va1_1, 2);
-        va1_2 = vec_permi(va1_2, va1_2, 2);
-        va1_3 = vec_permi(va1_3, va1_3, 2);
-
-        vy_0 += va0*vx0_i;
-        vy_1 += va0_1*vx0_i;
-        vy_2 += va0_2*vx0_i;
-        vy_3 += va0_3*vx0_i;
-
-        vy_0 += va1*vx1_i;
-        vy_1 += va1_1*vx1_i;
-        vy_2 += va1_2*vx1_i;
-        vy_3 += va1_3*vx1_i;
-
-        vy[i] = vy_0;
-        vy[i + 1] = vy_1;
-        vy[i + 2] = vy_2;
-        vy[i + 3] = vy_3;
-
-    }
+    "xgr   %%r1,%%r1\n\t"
+    "srlg  %[n],%[n],1\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[ap0])\n\t"
+    "pfd 1,1024(%%r1,%[ap1])\n\t"
+    "pfd 2,1024(%%r1,%[y])\n\t"
+    "vl  %%v0,0(%%r1,%[y])\n\t"
+    "vl  %%v1,16(%%r1,%[y])\n\t"
+    "vlrepg %%v20,0(%%r1,%[ap0])\n\t"
+    "vlrepg %%v21,8(%%r1,%[ap0])\n\t"
+    "vlrepg %%v22,0(%%r1,%[ap1])\n\t"
+    "vlrepg %%v23,8(%%r1,%[ap1])\n\t"
+    "vlrepg %%v24,16(%%r1,%[ap0])\n\t"
+    "vlrepg %%v25,24(%%r1,%[ap0])\n\t"
+    "vlrepg %%v26,16(%%r1,%[ap1])\n\t"
+    "vlrepg %%v27,24(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v0,%%v20,%%v16,%%v0\n\t"
+    "vfmadb   %%v1,%%v24,%%v16,%%v1\n\t"
+    "vfmadb   %%v0,%%v21,%%v18,%%v0\n\t"
+    "vfmadb   %%v1,%%v25,%%v18,%%v1\n\t"
+    "vfmadb   %%v0,%%v22,%%v17,%%v0\n\t"
+    "vfmadb   %%v1,%%v26,%%v17,%%v1\n\t"
+    "vfmadb   %%v0,%%v23,%%v19,%%v0\n\t"
+    "vfmadb   %%v1,%%v27,%%v19,%%v1\n\t"
+    "vst %%v0,0(%%r1,%[y])\n\t"
+    "vst %%v1,16(%%r1,%[y])\n\t"
+    "agfi   %%r1,32\n\t"
+    "brctg  %[n],0b"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) y),[n] "+&r"(n)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n * 2]; } *) ap0),[ap0] "a"(ap0),
+         "m"(*(const struct { FLOAT x[n * 2]; } *) ap1),[ap1] "a"(ap1),
+         "m"(*(const struct { FLOAT x[4]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v16", "v17", "v18", "v19", "v20", "v21",
+       "v22", "v23", "v24", "v25", "v26", "v27");
 }
-#else
-
-static void zgemv_kernel_4x2(BLASLONG n, BLASLONG lda, FLOAT *ap, FLOAT *x, FLOAT *y) {
-    BLASLONG i;
-    FLOAT *a0, *a1;
-    a0 = ap;
-    a1 = ap + lda;
-
-    for (i = 0; i < 2 * n; i += 2) {
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-        y[i] += a0[i] * x[0] - a0[i + 1] * x[1];
-        y[i + 1] += a0[i] * x[1] + a0[i + 1] * x[0];
-        y[i] += a1[i] * x[2] - a1[i + 1] * x[3];
-        y[i + 1] += a1[i] * x[3] + a1[i + 1] * x[2];
-#else 
-        y[i] += a0[i] * x[0] + a0[i + 1] * x[1];
-        y[i + 1] += a0[i] * x[1] - a0[i + 1] * x[0];
-        y[i] += a1[i] * x[2] + a1[i + 1] * x[3];
-        y[i + 1] += a1[i] * x[3] - a1[i + 1] * x[2];
-#endif
-    }
-}
-
-#endif
-
-#ifdef  HAVE_KERNEL_4x1_VEC
 
 static void zgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y) {
-    BLASLONG i;
-    FLOAT *a0;
-    a0 = ap;
-
-
+  __asm__("vl     %%v16,0(%[x])\n\t"
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-
-    register __vector double vx0_r = {x[0], x[0]};
-    register __vector double vx0_i = {-x[1], x[1]};
-
-#else
-    register __vector double vx0_r = {x[0], -x[0]};
-    register __vector double vx0_i = {x[1], x[1]};
-#endif
-
-
-    register __vector double *vy = (__vector double *) y;
-    register __vector double *vptr_a0 = (__vector double *) a0;
-
-    for (i = 0; i < n; i += 4) {
-
-        register __vector double vy_0 = vy[i];
-        register __vector double vy_1 = vy[i + 1];
-        register __vector double vy_2 = vy[i + 2];
-        register __vector double vy_3 = vy[i + 3];
-
-        register __vector double va0 = vptr_a0[i];
-        register __vector double va0_1 = vptr_a0[i + 1];
-        register __vector double va0_2 = vptr_a0[i + 2];
-        register __vector double va0_3 = vptr_a0[i + 3];
-
-        vy_0 += va0*vx0_r;
-        vy_1 += va0_1*vx0_r;
-        vy_2 += va0_2*vx0_r;
-        vy_3 += va0_3*vx0_r;
-
-        va0 = vec_permi(va0, va0, 2);
-        va0_1 = vec_permi(va0_1, va0_1, 2);
-        va0_2 = vec_permi(va0_2, va0_2, 2);
-        va0_3 = vec_permi(va0_3, va0_3, 2);
-
-        vy_0 += va0*vx0_i;
-        vy_1 += va0_1*vx0_i;
-        vy_2 += va0_2*vx0_i;
-        vy_3 += va0_3*vx0_i;
-
-        vy[i] = vy_0;
-        vy[i + 1] = vy_1;
-        vy[i + 2] = vy_2;
-        vy[i + 3] = vy_3;
-
-    }
-}
-
+    "vleg   %%v17,8(%[x]),0\n\t"
+    "wflcdb %%v17,%%v17\n\t"
+    "vleg   %%v17,0(%[x]),1\n\t"
 #else
-
-static void zgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y) {
-    BLASLONG i;
-    FLOAT *a0;
-    a0 = ap;
-
-    for (i = 0; i < 2 * n; i += 2) {
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-        y[i] += a0[i] * x[0] - a0[i + 1] * x[1];
-        y[i + 1] += a0[i] * x[1] + a0[i + 1] * x[0];
-#else 
-        y[i] += a0[i] * x[0] + a0[i + 1] * x[1];
-        y[i + 1] += a0[i] * x[1] - a0[i + 1] * x[0];
+    "vleg   %%v17,0(%[x]),1\n\t"
+    "vflcdb %%v17,%%v17\n\t"
+    "vleg   %%v17,8(%[x]),0\n\t"
 #endif
-
-    }
+    "xgr   %%r1,%%r1\n\t"
+    "srlg  %[n],%[n],1\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[ap])\n\t"
+    "pfd 2,1024(%%r1,%[y])\n\t"
+    "vl  %%v0,0(%%r1,%[y])\n\t"
+    "vl  %%v1,16(%%r1,%[y])\n\t"
+    "vlrepg %%v18,0(%%r1,%[ap])\n\t"
+    "vlrepg %%v19,8(%%r1,%[ap])\n\t"
+    "vlrepg %%v20,16(%%r1,%[ap])\n\t"
+    "vlrepg %%v21,24(%%r1,%[ap])\n\t"
+    "vfmadb   %%v0,%%v18,%%v16,%%v0\n\t"
+    "vfmadb   %%v1,%%v20,%%v16,%%v1\n\t"
+    "vfmadb   %%v0,%%v19,%%v17,%%v0\n\t"
+    "vfmadb   %%v1,%%v21,%%v17,%%v1\n\t"
+    "vst %%v0,0(%%r1,%[y])\n\t"
+    "vst %%v1,16(%%r1,%[y])\n\t"
+    "agfi   %%r1,32\n\t"
+    "brctg  %[n],0b"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) y),[n] "+&r"(n)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n * 2]; } *) ap),[ap] "a"(ap),
+       "m"(*(const struct { FLOAT x[2]; } *) x),[x] "a"(x)
+    : "cc", "r1", "v0", "v1", "v16", "v17", "v18", "v19", "v20", "v21");
 }
 
-#endif
-
-#ifdef HAVE_KERNEL_ADDY
-
-static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest, FLOAT alpha_r, FLOAT alpha_i) {
-    BLASLONG i;
-
-
-#if   !defined(XCONJ) 
-
-    register __vector double valpha_r = {alpha_r, alpha_r};
-    register __vector double valpha_i = {-alpha_i, alpha_i};
-
+static void add_y_4(BLASLONG n, FLOAT *src, FLOAT *dest, FLOAT alpha_r,
+                    FLOAT alpha_i) {
+  __asm__(
+#if !defined(XCONJ)
+    "vlrepg %%v0,%[alpha_r]\n\t"
+    "vleg   %%v1,%[alpha_i],0\n\t"
+    "wflcdb %%v1,%%v1\n\t"
+    "vleg   %%v1,%[alpha_i],1\n\t"
 #else
-    register __vector double valpha_r = {alpha_r, -alpha_r};
-    register __vector double valpha_i = {alpha_i, alpha_i};
+    "vleg   %%v0,%[alpha_r],1\n\t"
+    "vflcdb %%v0,%%v0\n\t"
+    "vleg   %%v0,%[alpha_r],0\n\t"
+    "vlrepg %%v1,%[alpha_i]\n\t"
 #endif
-
-    register __vector double *vptr_src = (__vector double *) src;
-    if (inc_dest != 2) {
-        register __vector double *vptr_y = (__vector double *) dest;
-        //note that inc_dest is already 2x. so we should add it to double*
-        register __vector double *vptr_y1 = (__vector double *) (dest + inc_dest);
-        register __vector double *vptr_y2 = (__vector double *) (dest + 2 * inc_dest);
-        register __vector double *vptr_y3 = (__vector double *) (dest + 3 * inc_dest);
-        BLASLONG dest_t=0;
-        BLASLONG add_dest=inc_dest<<1; //inc_dest is already multiplied by 2, so for vector 4  we just multiply 2 times
-        for (i = 0; i < n; i += 4) {
-
-            register __vector double vy_0=vptr_y[dest_t];
-            register __vector double vy_1=vptr_y1[dest_t];
-            register __vector double vy_2=vptr_y2[dest_t];
-            register __vector double vy_3=vptr_y3[dest_t];
-
-            register __vector double vsrc = vptr_src[i];
-            register __vector double vsrc_1 = vptr_src[i + 1];
-            register __vector double vsrc_2 = vptr_src[i + 2];
-            register __vector double vsrc_3 = vptr_src[i + 3];
-
-            vy_0 += vsrc*valpha_r;
-            vy_1 += vsrc_1*valpha_r;
-            vy_2 += vsrc_2*valpha_r;
-            vy_3 += vsrc_3*valpha_r;
-
-            vsrc = vec_permi(vsrc, vsrc, 2);
-            vsrc_1 = vec_permi(vsrc_1, vsrc_1, 2);
-            vsrc_2 = vec_permi(vsrc_2, vsrc_2, 2);
-            vsrc_3 = vec_permi(vsrc_3, vsrc_3, 2);
-
-            vy_0 += vsrc*valpha_i;
-            vy_1 += vsrc_1*valpha_i;
-            vy_2 += vsrc_2*valpha_i;
-            vy_3 += vsrc_3*valpha_i;
-
-            vptr_y[dest_t] = vy_0;
-            vptr_y1[dest_t ] = vy_1;
-            vptr_y2[dest_t] = vy_2;
-            vptr_y3[dest_t] = vy_3;
-            
-            dest_t+=add_dest;
-
-        }
-
-        return;
-    } else {
-        register __vector double *vptr_y = (__vector double *) dest;
-        for (i = 0; i < n; i += 4) {
-
-            register __vector double vy_0=vptr_y[i];
-            register __vector double vy_1=vptr_y[i+1];
-            register __vector double vy_2=vptr_y[i+2];
-            register __vector double vy_3=vptr_y[i+3];
-
-            register __vector double vsrc = vptr_src[i];
-            register __vector double vsrc_1 = vptr_src[i + 1];
-            register __vector double vsrc_2 = vptr_src[i + 2];
-            register __vector double vsrc_3 = vptr_src[i + 3];
-
-            vy_0 += vsrc*valpha_r;
-            vy_1 += vsrc_1*valpha_r;
-            vy_2 += vsrc_2*valpha_r;
-            vy_3 += vsrc_3*valpha_r;
-
-            vsrc = vec_permi(vsrc, vsrc, 2);
-            vsrc_1 = vec_permi(vsrc_1, vsrc_1, 2);
-            vsrc_2 = vec_permi(vsrc_2, vsrc_2, 2);
-            vsrc_3 = vec_permi(vsrc_3, vsrc_3, 2);
-
-            vy_0 += vsrc*valpha_i;
-            vy_1 += vsrc_1*valpha_i;
-            vy_2 += vsrc_2*valpha_i;
-            vy_3 += vsrc_3*valpha_i;
-
-            vptr_y[i] = vy_0;
-            vptr_y[i + 1 ] = vy_1;
-            vptr_y[i + 2] = vy_2;
-            vptr_y[i + 3] = vy_3;
-
-        }
-
-        return;
-    }
-    return;
+    "xgr   %%r1,%%r1\n\t"
+    "srlg  %[n],%[n],2\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[src])\n\t"
+    "pfd 2,1024(%%r1,%[dest])\n\t"
+    "vl   %%v16,0(%%r1,%[src])\n\t"
+    "vl   %%v17,16(%%r1,%[src])\n\t"
+    "vl   %%v18,32(%%r1,%[src])\n\t"
+    "vl   %%v19,48(%%r1,%[src])\n\t"
+    "vl   %%v20,0(%%r1,%[dest])\n\t"
+    "vl   %%v21,16(%%r1,%[dest])\n\t"
+    "vl   %%v22,32(%%r1,%[dest])\n\t"
+    "vl   %%v23,48(%%r1,%[dest])\n\t"
+    "vpdi %%v24,%%v16,%%v16,4\n\t"
+    "vpdi %%v25,%%v17,%%v17,4\n\t"
+    "vpdi %%v26,%%v18,%%v18,4\n\t"
+    "vpdi %%v27,%%v19,%%v19,4\n\t"
+    "vfmadb %%v28,%%v16,%%v0,%%v20\n\t"
+    "vfmadb %%v29,%%v17,%%v0,%%v21\n\t"
+    "vfmadb %%v30,%%v18,%%v0,%%v22\n\t"
+    "vfmadb %%v31,%%v19,%%v0,%%v23\n\t"
+    "vfmadb %%v28,%%v24,%%v1,%%v28\n\t"
+    "vfmadb %%v29,%%v25,%%v1,%%v29\n\t"
+    "vfmadb %%v30,%%v26,%%v1,%%v30\n\t"
+    "vfmadb %%v31,%%v27,%%v1,%%v31\n\t"
+    "vst %%v28,0(%%r1,%[dest])\n\t"
+    "vst %%v29,16(%%r1,%[dest])\n\t"
+    "vst %%v30,32(%%r1,%[dest])\n\t"
+    "vst %%v31,48(%%r1,%[dest])\n\t"
+    "agfi   %%r1,64\n\t"
+    "brctg  %[n],0b"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) dest),[n] "+&r"(n)
+    : [dest] "a"(dest), "m"(*(const struct { FLOAT x[n * 2]; } *) src),
+       [src] "a"(src),[alpha_r] "Q"(alpha_r),[alpha_i] "Q"(alpha_i)
+    : "cc", "r1", "v0", "v1", "v16", "v17", "v18", "v19", "v20", "v21",
+       "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
 }
 
-#else
-
-static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest, FLOAT alpha_r, FLOAT alpha_i) {
-    BLASLONG i;
+static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,
+                  FLOAT alpha_r, FLOAT alpha_i) {
+  BLASLONG i;
 
-    if (inc_dest != 2) {
+  if (inc_dest != 2) {
 
-        FLOAT temp_r;
-        FLOAT temp_i;
-        for (i = 0; i < n; i++) {
-#if !defined(XCONJ) 
-            temp_r = alpha_r * src[0] - alpha_i * src[1];
-            temp_i = alpha_r * src[1] + alpha_i * src[0];
+    FLOAT temp_r;
+    FLOAT temp_i;
+    for (i = 0; i < n; i++) {
+#if !defined(XCONJ)
+      temp_r = alpha_r * src[0] - alpha_i * src[1];
+      temp_i = alpha_r * src[1] + alpha_i * src[0];
 #else
-            temp_r = alpha_r * src[0] + alpha_i * src[1];
-            temp_i = -alpha_r * src[1] + alpha_i * src[0];
+      temp_r = alpha_r * src[0] + alpha_i * src[1];
+      temp_i = -alpha_r * src[1] + alpha_i * src[0];
 #endif
 
-            *dest += temp_r;
-            *(dest + 1) += temp_i;
+      *dest += temp_r;
+      *(dest + 1) += temp_i;
 
-            src += 2;
-            dest += inc_dest;
-        }
-        return;
-    }
-
-    FLOAT temp_r0;
-    FLOAT temp_i0;
-    FLOAT temp_r1;
-    FLOAT temp_i1;
-    FLOAT temp_r2;
-    FLOAT temp_i2;
-    FLOAT temp_r3;
-    FLOAT temp_i3;
-    for (i = 0; i < n; i += 4) {
-#if !defined(XCONJ) 
-        temp_r0 = alpha_r * src[0] - alpha_i * src[1];
-        temp_i0 = alpha_r * src[1] + alpha_i * src[0];
-        temp_r1 = alpha_r * src[2] - alpha_i * src[3];
-        temp_i1 = alpha_r * src[3] + alpha_i * src[2];
-        temp_r2 = alpha_r * src[4] - alpha_i * src[5];
-        temp_i2 = alpha_r * src[5] + alpha_i * src[4];
-        temp_r3 = alpha_r * src[6] - alpha_i * src[7];
-        temp_i3 = alpha_r * src[7] + alpha_i * src[6];
-#else
-        temp_r0 = alpha_r * src[0] + alpha_i * src[1];
-        temp_i0 = -alpha_r * src[1] + alpha_i * src[0];
-        temp_r1 = alpha_r * src[2] + alpha_i * src[3];
-        temp_i1 = -alpha_r * src[3] + alpha_i * src[2];
-        temp_r2 = alpha_r * src[4] + alpha_i * src[5];
-        temp_i2 = -alpha_r * src[5] + alpha_i * src[4];
-        temp_r3 = alpha_r * src[6] + alpha_i * src[7];
-        temp_i3 = -alpha_r * src[7] + alpha_i * src[6];
-#endif
-
-        dest[0] += temp_r0;
-        dest[1] += temp_i0;
-        dest[2] += temp_r1;
-        dest[3] += temp_i1;
-        dest[4] += temp_r2;
-        dest[5] += temp_i2;
-        dest[6] += temp_r3;
-        dest[7] += temp_i3;
-
-        src += 8;
-        dest += 8;
+      src += 2;
+      dest += inc_dest;
     }
     return;
-}
-#endif
-
-    int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i, FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT * buffer) {
-        BLASLONG i;
-        BLASLONG j;
-        FLOAT *a_ptr;
-        FLOAT *x_ptr;
-        FLOAT *y_ptr;
-
-        BLASLONG n1;
-        BLASLONG m1;
-        BLASLONG m2;
-        BLASLONG m3;
-        BLASLONG n2;
-
-        FLOAT xbuffer[8], *ybuffer;
-
-        if (m < 1) return (0);
-        if (n < 1) return (0);
-
-        ybuffer = buffer;
-
-        inc_x *= 2;
-        inc_y *= 2;
-        lda *= 2;
-
-        n1 = n / 4;
-        n2 = n % 4;
-
-        m3 = m % 4;
-        m1 = m - (m % 4);
-        m2 = (m % NBMAX) - (m % 4);
+  }
 
-        y_ptr = y;
-
-        BLASLONG NB = NBMAX;
-
-        while (NB == NBMAX) {
-
-            m1 -= NB;
-            if (m1 < 0) {
-                if (m2 == 0) break;
-                NB = m2;
-            }
-
-            a_ptr = a;
-
-            x_ptr = x;
-            //zero_y(NB,ybuffer);
-            memset(ybuffer, 0, NB * 16);
-
-            if (inc_x == 2) {
-
-                for (i = 0; i < n1; i++) {
-                    zgemv_kernel_4x4(NB, lda, a_ptr, x_ptr, ybuffer);
-
-                    a_ptr += lda << 2;
-                    x_ptr += 8;
-                }
-
-                if (n2 & 2) {
-                    zgemv_kernel_4x2(NB, lda, a_ptr, x_ptr, ybuffer);
-                    x_ptr += 4;
-                    a_ptr += 2 * lda;
-
-                }
-
-                if (n2 & 1) {
-                    zgemv_kernel_4x1(NB, a_ptr, x_ptr, ybuffer);
-                    x_ptr += 2;
-                    a_ptr += lda;
-
-                }
-            } else {
-
-                for (i = 0; i < n1; i++) {
-
-                    xbuffer[0] = x_ptr[0];
-                    xbuffer[1] = x_ptr[1];
-                    x_ptr += inc_x;
-                    xbuffer[2] = x_ptr[0];
-                    xbuffer[3] = x_ptr[1];
-                    x_ptr += inc_x;
-                    xbuffer[4] = x_ptr[0];
-                    xbuffer[5] = x_ptr[1];
-                    x_ptr += inc_x;
-                    xbuffer[6] = x_ptr[0];
-                    xbuffer[7] = x_ptr[1];
-                    x_ptr += inc_x;
-
-                    zgemv_kernel_4x4(NB, lda, a_ptr, xbuffer, ybuffer);
+  add_y_4(n, src, dest, alpha_r, alpha_i);
+}
 
-                    a_ptr += lda << 2;
-                }
+int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i,
+          FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y,
+          BLASLONG inc_y, FLOAT *buffer) {
+  BLASLONG i;
+  FLOAT *a_ptr;
+  FLOAT *x_ptr;
+  FLOAT *y_ptr;
+  FLOAT *ap[4];
+  BLASLONG n1;
+  BLASLONG m1;
+  BLASLONG m2;
+  BLASLONG m3;
+  BLASLONG n2;
+  BLASLONG lda4;
+  FLOAT xbuffer[8], *ybuffer;
+
+  if (m < 1)
+    return (0);
+  if (n < 1)
+    return (0);
+
+  ybuffer = buffer;
+
+  inc_x *= 2;
+  inc_y *= 2;
+  lda *= 2;
+  lda4 = 4 * lda;
+
+  n1 = n / 4;
+  n2 = n % 4;
+
+  m3 = m % 4;
+  m1 = m - (m % 4);
+  m2 = (m % NBMAX) - (m % 4);
+
+  y_ptr = y;
+
+  BLASLONG NB = NBMAX;
+
+  while (NB == NBMAX) {
+
+    m1 -= NB;
+    if (m1 < 0) {
+      if (m2 == 0)
+        break;
+      NB = m2;
+    }
 
-                for (i = 0; i < n2; i++) {
-                    xbuffer[0] = x_ptr[0];
-                    xbuffer[1] = x_ptr[1];
-                    x_ptr += inc_x;
-                    zgemv_kernel_4x1(NB, a_ptr, xbuffer, ybuffer);
-                    a_ptr += lda;
+    a_ptr = a;
+    ap[0] = a_ptr;
+    ap[1] = a_ptr + lda;
+    ap[2] = ap[1] + lda;
+    ap[3] = ap[2] + lda;
+    x_ptr = x;
+    //zero_y(NB,ybuffer);
+    memset(ybuffer, 0, NB * 16);
+
+    if (inc_x == 2) {
+
+      for (i = 0; i < n1; i++) {
+        zgemv_kernel_4x4(NB, ap, x_ptr, ybuffer);
+        ap[0] += lda4;
+        ap[1] += lda4;
+        ap[2] += lda4;
+        ap[3] += lda4;
+        a_ptr += lda4;
+        x_ptr += 8;
+      }
+
+      if (n2 & 2) {
+        zgemv_kernel_4x2(NB, ap, x_ptr, ybuffer);
+        x_ptr += 4;
+        a_ptr += 2 * lda;
+
+      }
+
+      if (n2 & 1) {
+        zgemv_kernel_4x1(NB, a_ptr, x_ptr, ybuffer);
+        /* x_ptr += 2;  
+           a_ptr += lda; */
+
+      }
+    } else {
 
-                }
+      for (i = 0; i < n1; i++) {
+
+        xbuffer[0] = x_ptr[0];
+        xbuffer[1] = x_ptr[1];
+        x_ptr += inc_x;
+        xbuffer[2] = x_ptr[0];
+        xbuffer[3] = x_ptr[1];
+        x_ptr += inc_x;
+        xbuffer[4] = x_ptr[0];
+        xbuffer[5] = x_ptr[1];
+        x_ptr += inc_x;
+        xbuffer[6] = x_ptr[0];
+        xbuffer[7] = x_ptr[1];
+        x_ptr += inc_x;
+
+        zgemv_kernel_4x4(NB, ap, xbuffer, ybuffer);
+        ap[0] += lda4;
+        ap[1] += lda4;
+        ap[2] += lda4;
+        ap[3] += lda4;
+        a_ptr += lda4;
+      }
+
+      for (i = 0; i < n2; i++) {
+        xbuffer[0] = x_ptr[0];
+        xbuffer[1] = x_ptr[1];
+        x_ptr += inc_x;
+        zgemv_kernel_4x1(NB, a_ptr, xbuffer, ybuffer);
+        a_ptr += 1 * lda;
+
+      }
 
-            }
+    }
 
-            add_y(NB, ybuffer, y_ptr, inc_y, alpha_r, alpha_i);
-            a += 2 * NB;
-            y_ptr += NB * inc_y;
-        }
+    add_y(NB, ybuffer, y_ptr, inc_y, alpha_r, alpha_i);
+    a += 2 * NB;
+    y_ptr += NB * inc_y;
+  }
 
-        if (m3 == 0) return (0);
+  if (m3 == 0)
+    return (0);
 
-        if (m3 == 1) {
-            a_ptr = a;
-            x_ptr = x;
-            FLOAT temp_r = 0.0;
-            FLOAT temp_i = 0.0;
+  if (m3 == 1) {
+    a_ptr = a;
+    x_ptr = x;
+    FLOAT temp_r = 0.0;
+    FLOAT temp_i = 0.0;
 
-            if (lda == 2 && inc_x == 2) {
+    if (lda == 2 && inc_x == 2) {
 
-                for (i = 0; i < (n & -2); i += 2) {
+      for (i = 0; i < (n & -2); i += 2) {
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-                    temp_r += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
-                    temp_i += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
-                    temp_r += a_ptr[2] * x_ptr[2] - a_ptr[3] * x_ptr[3];
-                    temp_i += a_ptr[2] * x_ptr[3] + a_ptr[3] * x_ptr[2];
+        temp_r += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+        temp_i += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+        temp_r += a_ptr[2] * x_ptr[2] - a_ptr[3] * x_ptr[3];
+        temp_i += a_ptr[2] * x_ptr[3] + a_ptr[3] * x_ptr[2];
 #else
-                    temp_r += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
-                    temp_i += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
-                    temp_r += a_ptr[2] * x_ptr[2] + a_ptr[3] * x_ptr[3];
-                    temp_i += a_ptr[2] * x_ptr[3] - a_ptr[3] * x_ptr[2];
+        temp_r += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+        temp_i += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+        temp_r += a_ptr[2] * x_ptr[2] + a_ptr[3] * x_ptr[3];
+        temp_i += a_ptr[2] * x_ptr[3] - a_ptr[3] * x_ptr[2];
 #endif
 
-                    a_ptr += 4;
-                    x_ptr += 4;
-                }
+        a_ptr += 4;
+        x_ptr += 4;
+      }
 
-                for (; i < n; i++) {
+      for (; i < n; i++) {
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-                    temp_r += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
-                    temp_i += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+        temp_r += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+        temp_i += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
 #else
-                    temp_r += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
-                    temp_i += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+        temp_r += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+        temp_i += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
 #endif
 
-                    a_ptr += 2;
-                    x_ptr += 2;
-                }
+        a_ptr += 2;
+        x_ptr += 2;
+      }
 
-            } else {
+    } else {
 
-                for (i = 0; i < n; i++) {
+      for (i = 0; i < n; i++) {
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-                    temp_r += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
-                    temp_i += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+        temp_r += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+        temp_i += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
 #else
-                    temp_r += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
-                    temp_i += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+        temp_r += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+        temp_i += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
 #endif
 
-                    a_ptr += lda;
-                    x_ptr += inc_x;
-                }
+        a_ptr += lda;
+        x_ptr += inc_x;
+      }
 
-            }
-#if !defined(XCONJ) 
-            y_ptr[0] += alpha_r * temp_r - alpha_i * temp_i;
-            y_ptr[1] += alpha_r * temp_i + alpha_i * temp_r;
+    }
+#if !defined(XCONJ)
+    y_ptr[0] += alpha_r * temp_r - alpha_i * temp_i;
+    y_ptr[1] += alpha_r * temp_i + alpha_i * temp_r;
 #else
-            y_ptr[0] += alpha_r * temp_r + alpha_i * temp_i;
-            y_ptr[1] -= alpha_r * temp_i - alpha_i * temp_r;
+    y_ptr[0] += alpha_r * temp_r + alpha_i * temp_i;
+    y_ptr[1] -= alpha_r * temp_i - alpha_i * temp_r;
 #endif
-            return (0);
-        }
+    return (0);
+  }
 
-        if (m3 == 2) {
-            a_ptr = a;
-            x_ptr = x;
-            FLOAT temp_r0 = 0.0;
-            FLOAT temp_i0 = 0.0;
-            FLOAT temp_r1 = 0.0;
-            FLOAT temp_i1 = 0.0;
+  if (m3 == 2) {
+    a_ptr = a;
+    x_ptr = x;
+    FLOAT temp_r0 = 0.0;
+    FLOAT temp_i0 = 0.0;
+    FLOAT temp_r1 = 0.0;
+    FLOAT temp_i1 = 0.0;
 
-            if (lda == 4 && inc_x == 2) {
+    if (lda == 4 && inc_x == 2) {
 
-                for (i = 0; i < (n & -2); i += 2) {
+      for (i = 0; i < (n & -2); i += 2) {
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
 
-                    temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
-                    temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
-                    temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
-                    temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+        temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+
+        temp_r0 += a_ptr[4] * x_ptr[2] - a_ptr[5] * x_ptr[3];
+        temp_i0 += a_ptr[4] * x_ptr[3] + a_ptr[5] * x_ptr[2];
+        temp_r1 += a_ptr[6] * x_ptr[2] - a_ptr[7] * x_ptr[3];
+        temp_i1 += a_ptr[6] * x_ptr[3] + a_ptr[7] * x_ptr[2];
 
-                    temp_r0 += a_ptr[4] * x_ptr[2] - a_ptr[5] * x_ptr[3];
-                    temp_i0 += a_ptr[4] * x_ptr[3] + a_ptr[5] * x_ptr[2];
-                    temp_r1 += a_ptr[6] * x_ptr[2] - a_ptr[7] * x_ptr[3];
-                    temp_i1 += a_ptr[6] * x_ptr[3] + a_ptr[7] * x_ptr[2];
 #else
-                    temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
-                    temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
-                    temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
-                    temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
-
-                    temp_r0 += a_ptr[4] * x_ptr[2] + a_ptr[5] * x_ptr[3];
-                    temp_i0 += a_ptr[4] * x_ptr[3] - a_ptr[5] * x_ptr[2];
-                    temp_r1 += a_ptr[6] * x_ptr[2] + a_ptr[7] * x_ptr[3];
-                    temp_i1 += a_ptr[6] * x_ptr[3] - a_ptr[7] * x_ptr[2];
+        temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+
+        temp_r0 += a_ptr[4] * x_ptr[2] + a_ptr[5] * x_ptr[3];
+        temp_i0 += a_ptr[4] * x_ptr[3] - a_ptr[5] * x_ptr[2];
+        temp_r1 += a_ptr[6] * x_ptr[2] + a_ptr[7] * x_ptr[3];
+        temp_i1 += a_ptr[6] * x_ptr[3] - a_ptr[7] * x_ptr[2];
+
 #endif
 
-                    a_ptr += 8;
-                    x_ptr += 4;
-                }
+        a_ptr += 8;
+        x_ptr += 4;
+      }
 
-                for (; i < n; i++) {
+      for (; i < n; i++) {
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-                    temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
-                    temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
-                    temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
-                    temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+        temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
 #else
-                    temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
-                    temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
-                    temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
-                    temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+        temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
 #endif
 
-                    a_ptr += 4;
-                    x_ptr += 2;
-                }
+        a_ptr += 4;
+        x_ptr += 2;
+      }
 
-            } else {
+    } else {
 
-                for (i = 0; i < n; i++) {
+      for (i = 0; i < n; i++) {
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-                    temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
-                    temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
-                    temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
-                    temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+        temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
 #else
-                    temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
-                    temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
-                    temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
-                    temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+        temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
 #endif
 
-                    a_ptr += lda;
-                    x_ptr += inc_x;
-                }
-
-            }
-#if !defined(XCONJ) 
-            y_ptr[0] += alpha_r * temp_r0 - alpha_i * temp_i0;
-            y_ptr[1] += alpha_r * temp_i0 + alpha_i * temp_r0;
-            y_ptr += inc_y;
-            y_ptr[0] += alpha_r * temp_r1 - alpha_i * temp_i1;
-            y_ptr[1] += alpha_r * temp_i1 + alpha_i * temp_r1;
+        a_ptr += lda;
+        x_ptr += inc_x;
+      }
+
+    }
+#if !defined(XCONJ)
+    y_ptr[0] += alpha_r * temp_r0 - alpha_i * temp_i0;
+    y_ptr[1] += alpha_r * temp_i0 + alpha_i * temp_r0;
+    y_ptr += inc_y;
+    y_ptr[0] += alpha_r * temp_r1 - alpha_i * temp_i1;
+    y_ptr[1] += alpha_r * temp_i1 + alpha_i * temp_r1;
 #else
-            y_ptr[0] += alpha_r * temp_r0 + alpha_i * temp_i0;
-            y_ptr[1] -= alpha_r * temp_i0 - alpha_i * temp_r0;
-            y_ptr += inc_y;
-            y_ptr[0] += alpha_r * temp_r1 + alpha_i * temp_i1;
-            y_ptr[1] -= alpha_r * temp_i1 - alpha_i * temp_r1;
+    y_ptr[0] += alpha_r * temp_r0 + alpha_i * temp_i0;
+    y_ptr[1] -= alpha_r * temp_i0 - alpha_i * temp_r0;
+    y_ptr += inc_y;
+    y_ptr[0] += alpha_r * temp_r1 + alpha_i * temp_i1;
+    y_ptr[1] -= alpha_r * temp_i1 - alpha_i * temp_r1;
 #endif
-            return (0);
-        }
-
-        if (m3 == 3) {
-            a_ptr = a;
-            x_ptr = x;
-            FLOAT temp_r0 = 0.0;
-            FLOAT temp_i0 = 0.0;
-            FLOAT temp_r1 = 0.0;
-            FLOAT temp_i1 = 0.0;
-            FLOAT temp_r2 = 0.0;
-            FLOAT temp_i2 = 0.0;
-
-            if (lda == 6 && inc_x == 2) {
-
-                for (i = 0; i < n; i++) {
+    return (0);
+  }
+
+  if (m3 == 3) {
+    a_ptr = a;
+    x_ptr = x;
+    FLOAT temp_r0 = 0.0;
+    FLOAT temp_i0 = 0.0;
+    FLOAT temp_r1 = 0.0;
+    FLOAT temp_i1 = 0.0;
+    FLOAT temp_r2 = 0.0;
+    FLOAT temp_i2 = 0.0;
+
+    if (lda == 6 && inc_x == 2) {
+
+      for (i = 0; i < n; i++) {
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-                    temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
-                    temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
-                    temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
-                    temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
-                    temp_r2 += a_ptr[4] * x_ptr[0] - a_ptr[5] * x_ptr[1];
-                    temp_i2 += a_ptr[4] * x_ptr[1] + a_ptr[5] * x_ptr[0];
+        temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+        temp_r2 += a_ptr[4] * x_ptr[0] - a_ptr[5] * x_ptr[1];
+        temp_i2 += a_ptr[4] * x_ptr[1] + a_ptr[5] * x_ptr[0];
 #else
-                    temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
-                    temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
-                    temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
-                    temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
-                    temp_r2 += a_ptr[4] * x_ptr[0] + a_ptr[5] * x_ptr[1];
-                    temp_i2 += a_ptr[4] * x_ptr[1] - a_ptr[5] * x_ptr[0];
+        temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+        temp_r2 += a_ptr[4] * x_ptr[0] + a_ptr[5] * x_ptr[1];
+        temp_i2 += a_ptr[4] * x_ptr[1] - a_ptr[5] * x_ptr[0];
 #endif
 
-                    a_ptr += 6;
-                    x_ptr += 2;
-                }
+        a_ptr += 6;
+        x_ptr += 2;
+      }
 
-            } else {
+    } else {
 
-                for (i = 0; i < n; i++) {
+      for (i = 0; i < n; i++) {
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-                    temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
-                    temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
-                    temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
-                    temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
-                    temp_r2 += a_ptr[4] * x_ptr[0] - a_ptr[5] * x_ptr[1];
-                    temp_i2 += a_ptr[4] * x_ptr[1] + a_ptr[5] * x_ptr[0];
+        temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+        temp_r2 += a_ptr[4] * x_ptr[0] - a_ptr[5] * x_ptr[1];
+        temp_i2 += a_ptr[4] * x_ptr[1] + a_ptr[5] * x_ptr[0];
 #else
-                    temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
-                    temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
-                    temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
-                    temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
-                    temp_r2 += a_ptr[4] * x_ptr[0] + a_ptr[5] * x_ptr[1];
-                    temp_i2 += a_ptr[4] * x_ptr[1] - a_ptr[5] * x_ptr[0];
+        temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+        temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+        temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+        temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+        temp_r2 += a_ptr[4] * x_ptr[0] + a_ptr[5] * x_ptr[1];
+        temp_i2 += a_ptr[4] * x_ptr[1] - a_ptr[5] * x_ptr[0];
 #endif
 
-                    a_ptr += lda;
-                    x_ptr += inc_x;
-                }
-
-            }
-#if !defined(XCONJ) 
-            y_ptr[0] += alpha_r * temp_r0 - alpha_i * temp_i0;
-            y_ptr[1] += alpha_r * temp_i0 + alpha_i * temp_r0;
-            y_ptr += inc_y;
-            y_ptr[0] += alpha_r * temp_r1 - alpha_i * temp_i1;
-            y_ptr[1] += alpha_r * temp_i1 + alpha_i * temp_r1;
-            y_ptr += inc_y;
-            y_ptr[0] += alpha_r * temp_r2 - alpha_i * temp_i2;
-            y_ptr[1] += alpha_r * temp_i2 + alpha_i * temp_r2;
-#else
-            y_ptr[0] += alpha_r * temp_r0 + alpha_i * temp_i0;
-            y_ptr[1] -= alpha_r * temp_i0 - alpha_i * temp_r0;
-            y_ptr += inc_y;
-            y_ptr[0] += alpha_r * temp_r1 + alpha_i * temp_i1;
-            y_ptr[1] -= alpha_r * temp_i1 - alpha_i * temp_r1;
-            y_ptr += inc_y;
-            y_ptr[0] += alpha_r * temp_r2 + alpha_i * temp_i2;
-            y_ptr[1] -= alpha_r * temp_i2 - alpha_i * temp_r2;
-#endif
-            return (0);
-        }
+        a_ptr += lda;
+        x_ptr += inc_x;
+      }
 
-        return (0);
     }
+#if !defined(XCONJ)
+    y_ptr[0] += alpha_r * temp_r0 - alpha_i * temp_i0;
+    y_ptr[1] += alpha_r * temp_i0 + alpha_i * temp_r0;
+    y_ptr += inc_y;
+    y_ptr[0] += alpha_r * temp_r1 - alpha_i * temp_i1;
+    y_ptr[1] += alpha_r * temp_i1 + alpha_i * temp_r1;
+    y_ptr += inc_y;
+    y_ptr[0] += alpha_r * temp_r2 - alpha_i * temp_i2;
+    y_ptr[1] += alpha_r * temp_i2 + alpha_i * temp_r2;
+#else
+    y_ptr[0] += alpha_r * temp_r0 + alpha_i * temp_i0;
+    y_ptr[1] -= alpha_r * temp_i0 - alpha_i * temp_r0;
+    y_ptr += inc_y;
+    y_ptr[0] += alpha_r * temp_r1 + alpha_i * temp_i1;
+    y_ptr[1] -= alpha_r * temp_i1 - alpha_i * temp_r1;
+    y_ptr += inc_y;
+    y_ptr[0] += alpha_r * temp_r2 + alpha_i * temp_i2;
+    y_ptr[1] -= alpha_r * temp_i2 - alpha_i * temp_r2;
+#endif
+    return (0);
+  }
 
+  return (0);
+}
diff --git a/kernel/zarch/zgemv_t_4.c b/kernel/zarch/zgemv_t_4.c
index 8b2be83947..031c31e29b 100644
--- a/kernel/zarch/zgemv_t_4.c
+++ b/kernel/zarch/zgemv_t_4.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2018, The OpenBLAS Project
+Copyright (c) 2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -23,825 +23,635 @@ SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
 CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
 OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
- *****************************************************************************/
+*****************************************************************************/
 
 #include "common.h"
 
 #define NBMAX 1024
-#define HAVE_KERNEL_4x4_VEC 1
-#define HAVE_KERNEL_4x2_VEC 1
-#define HAVE_KERNEL_4x1_VEC 1
-
-#if defined(HAVE_KERNEL_4x4_VEC) || defined(HAVE_KERNEL_4x2_VEC) || defined(HAVE_KERNEL_4x1_VEC)
-#include <vecintrin.h> 
-#endif
-
-#ifdef HAVE_KERNEL_4x4_VEC_ASM
-
-#elif HAVE_KERNEL_4x4_VEC
-
-static void zgemv_kernel_4x4(BLASLONG n, BLASLONG lda, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT alpha_r, FLOAT alpha_i) {
-    BLASLONG i;
-    FLOAT *a0, *a1, *a2, *a3;
-    a0 = ap;
-    a1 = ap + lda;
-    a2 = a1 + lda;
-    a3 = a2 + lda;
-    //p for positive(real*real,image*image) r for image (real*image,image*real)
-    register __vector double vtemp0_p = {0.0, 0.0};
-    register __vector double vtemp0_r = {0.0, 0.0};
-    register __vector double vtemp1_p = {0.0, 0.0};
-    register __vector double vtemp1_r = {0.0, 0.0};
-    register __vector double vtemp2_p = {0.0, 0.0};
-    register __vector double vtemp2_r = {0.0, 0.0};
-    register __vector double vtemp3_p = {0.0, 0.0};
-    register __vector double vtemp3_r = {0.0, 0.0};
-    i = 0;
-    n = n << 1;
-    while (i < n) {
-//        __builtin_prefetch(&x[i]);
-//        __builtin_prefetch(&a0[i]);   
-//        __builtin_prefetch(&a1[i]);
-//        __builtin_prefetch(&a2[i]);
-//        __builtin_prefetch(&a3[i]);
-        register __vector double vx_0 = *(__vector double*) (&x[i]);
-        register __vector double vx_1 = *(__vector double*) (&x[i + 2]);
-        register __vector double vx_2 = *(__vector double*) (&x[i + 4]);
-        register __vector double vx_3 = *(__vector double*) (&x[i + 6]);
-
-        register __vector double va0 = *(__vector double*) (&a0[i]);
-        register __vector double va0_1 = *(__vector double*) (&a0[i + 2]);
-        register __vector double va0_2 = *(__vector double*) (&a0[i + 4]);
-        register __vector double va0_3 = *(__vector double*) (&a0[i + 6]);
-
-        register __vector double va1 = *(__vector double*) (&a1[i]);
-        register __vector double va1_1 = *(__vector double*) (&a1[i + 2]);
-        register __vector double va1_2 = *(__vector double*) (&a1[i + 4]);
-        register __vector double va1_3 = *(__vector double*) (&a1[i + 6]);
-
-        register __vector double va2 = *(__vector double*) (&a2[i]);
-        register __vector double va2_1 = *(__vector double*) (&a2[i + 2]);
-        register __vector double va2_2 = *(__vector double*) (&a2[i + 4]);
-        register __vector double va2_3 = *(__vector double*) (&a2[i + 6]);
-
-        register __vector double va3 = *(__vector double*) (&a3[i]);
-        register __vector double va3_1 = *(__vector double*) (&a3[i + 2]);
-        register __vector double va3_2 = *(__vector double*) (&a3[i + 4]);
-        register __vector double va3_3 = *(__vector double*) (&a3[i + 6]);
-
-        register __vector double vxr_0 = vec_permi(vx_0, vx_0, 2);
-        register __vector double vxr_1 = vec_permi(vx_1, vx_1, 2);
-
-        i += 8;
-
-        vtemp0_p += vx_0*va0;
-        vtemp0_r += vxr_0*va0;
-
-        vtemp1_p += vx_0*va1;
-        vtemp1_r += vxr_0*va1;
-
-        vtemp2_p += vx_0*va2;
-        vtemp2_r += vxr_0*va2;
-
-        vtemp3_p += vx_0*va3;
-        vtemp3_r += vxr_0*va3;
-
-        vtemp0_p += vx_1*va0_1;
-        vtemp0_r += vxr_1*va0_1;
-
-        vtemp1_p += vx_1*va1_1;
-        vtemp1_r += vxr_1*va1_1;
-        vxr_0 = vec_permi(vx_2, vx_2, 2);
-        vtemp2_p += vx_1*va2_1;
-        vtemp2_r += vxr_1*va2_1;
-
-        vtemp3_p += vx_1*va3_1;
-        vtemp3_r += vxr_1*va3_1;
-
-        vtemp0_p += vx_2*va0_2;
-        vtemp0_r += vxr_0*va0_2;
-        vxr_1 = vec_permi(vx_3, vx_3, 2);
-
-        vtemp1_p += vx_2*va1_2;
-        vtemp1_r += vxr_0*va1_2;
-
-        vtemp2_p += vx_2*va2_2;
-        vtemp2_r += vxr_0*va2_2;
-
-        vtemp3_p += vx_2*va3_2;
-        vtemp3_r += vxr_0*va3_2;
-
-        vtemp0_p += vx_3*va0_3;
-        vtemp0_r += vxr_1*va0_3;
-
-        vtemp1_p += vx_3*va1_3;
-        vtemp1_r += vxr_1*va1_3;
-
-        vtemp2_p += vx_3*va2_3;
-        vtemp2_r += vxr_1*va2_3;
-
-        vtemp3_p += vx_3*va3_3;
-        vtemp3_r += vxr_1*va3_3;
-
-    }
 
+static void zgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y,
+                             FLOAT *alpha) {
+  register FLOAT *ap0 = ap[0];
+  register FLOAT *ap1 = ap[1];
+  register FLOAT *ap2 = ap[2];
+  register FLOAT *ap3 = ap[3];
+
+  __asm__("vzero  %%v16\n\t"
+    "vzero  %%v17\n\t"
+    "vzero  %%v18\n\t"
+    "vzero  %%v19\n\t"
+    "vzero  %%v20\n\t"
+    "vzero  %%v21\n\t"
+    "vzero  %%v22\n\t"
+    "vzero  %%v23\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "srlg  %[n],%[n],1\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[ap0])\n\t"
+    "pfd 1,1024(%%r1,%[ap1])\n\t"
+    "pfd 1,1024(%%r1,%[ap2])\n\t"
+    "pfd 1,1024(%%r1,%[ap3])\n\t"
+    "pfd 1,1024(%%r1,%[x])\n\t"
+    "vl     %%v0,0(%%r1,%[x])\n\t"
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-
-    register FLOAT temp_r0 = vtemp0_p[0] - vtemp0_p[1];
-    register FLOAT temp_i0 = vtemp0_r[0] + vtemp0_r[1];
-
-    register FLOAT temp_r1 = vtemp1_p[0] - vtemp1_p[1];
-    register FLOAT temp_i1 = vtemp1_r[0] + vtemp1_r[1];
-
-    register FLOAT temp_r2 = vtemp2_p[0] - vtemp2_p[1];
-    register FLOAT temp_i2 = vtemp2_r[0] + vtemp2_r[1];
-
-    register FLOAT temp_r3 = vtemp3_p[0] - vtemp3_p[1];
-    register FLOAT temp_i3 = vtemp3_r[0] + vtemp3_r[1];
-
-#else
-    register FLOAT temp_r0 = vtemp0_p[0] + vtemp0_p[1];
-    register FLOAT temp_i0 = vtemp0_r[0] - vtemp0_r[1];
-
-    register FLOAT temp_r1 = vtemp1_p[0] + vtemp1_p[1];
-    register FLOAT temp_i1 = vtemp1_r[0] - vtemp1_r[1];
-
-    register FLOAT temp_r2 = vtemp2_p[0] + vtemp2_p[1];
-    register FLOAT temp_i2 = vtemp2_r[0] - vtemp2_r[1];
-
-    register FLOAT temp_r3 = vtemp3_p[0] + vtemp3_p[1];
-    register FLOAT temp_i3 = vtemp3_r[0] - vtemp3_r[1];
-
-#endif    
-
-#if !defined(XCONJ)
-
-    y[0] += alpha_r * temp_r0 - alpha_i * temp_i0;
-    y[1] += alpha_r * temp_i0 + alpha_i * temp_r0;
-    y[2] += alpha_r * temp_r1 - alpha_i * temp_i1;
-    y[3] += alpha_r * temp_i1 + alpha_i * temp_r1;
-    y[4] += alpha_r * temp_r2 - alpha_i * temp_i2;
-    y[5] += alpha_r * temp_i2 + alpha_i * temp_r2;
-    y[6] += alpha_r * temp_r3 - alpha_i * temp_i3;
-    y[7] += alpha_r * temp_i3 + alpha_i * temp_r3;
-
+    "vleg   %%v1,8(%%r1,%[x]),0\n\t"
+    "wflcdb %%v1,%%v1\n\t"
+    "vleg   %%v1,0(%%r1,%[x]),1\n\t"
 #else
-
-    y[0] += alpha_r * temp_r0 + alpha_i * temp_i0;
-    y[1] -= alpha_r * temp_i0 - alpha_i * temp_r0;
-    y[2] += alpha_r * temp_r1 + alpha_i * temp_i1;
-    y[3] -= alpha_r * temp_i1 - alpha_i * temp_r1;
-    y[4] += alpha_r * temp_r2 + alpha_i * temp_i2;
-    y[5] -= alpha_r * temp_i2 - alpha_i * temp_r2;
-    y[6] += alpha_r * temp_r3 + alpha_i * temp_i3;
-    y[7] -= alpha_r * temp_i3 - alpha_i * temp_r3;
-
+    "vleg   %%v1,0(%%r1,%[x]),1\n\t"
+    "vflcdb %%v1,%%v1\n\t"
+    "vleg   %%v1,8(%%r1,%[x]),0\n\t"
 #endif
-}
-
-#else
-
-static void zgemv_kernel_4x4(BLASLONG n, BLASLONG lda, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT alpha_r, FLOAT alpha_i) {
-    BLASLONG i;
-    FLOAT *a0, *a1, *a2, *a3;
-    a0 = ap;
-    a1 = ap + lda;
-    a2 = a1 + lda;
-    a3 = a2 + lda;
-
-    FLOAT temp_r0 = 0.0;
-    FLOAT temp_r1 = 0.0;
-    FLOAT temp_r2 = 0.0;
-    FLOAT temp_r3 = 0.0;
-    FLOAT temp_i0 = 0.0;
-    FLOAT temp_i1 = 0.0;
-    FLOAT temp_i2 = 0.0;
-    FLOAT temp_i3 = 0.0;
-
-    for (i = 0; i < 2 * n; i += 2) {
+    "vlrepg %%v24,0(%%r1,%[ap0])\n\t"
+    "vlrepg %%v25,8(%%r1,%[ap0])\n\t"
+    "vlrepg %%v26,0(%%r1,%[ap1])\n\t"
+    "vlrepg %%v27,8(%%r1,%[ap1])\n\t"
+    "vlrepg %%v28,0(%%r1,%[ap2])\n\t"
+    "vlrepg %%v29,8(%%r1,%[ap2])\n\t"
+    "vlrepg %%v30,0(%%r1,%[ap3])\n\t"
+    "vlrepg %%v31,8(%%r1,%[ap3])\n\t"
+    "vfmadb   %%v16,%%v24,%%v0,%%v16\n\t"
+    "vfmadb   %%v20,%%v25,%%v1,%%v20\n\t"
+    "vfmadb   %%v17,%%v26,%%v0,%%v17\n\t"
+    "vfmadb   %%v21,%%v27,%%v1,%%v21\n\t"
+    "vfmadb   %%v18,%%v28,%%v0,%%v18\n\t"
+    "vfmadb   %%v22,%%v29,%%v1,%%v22\n\t"
+    "vfmadb   %%v19,%%v30,%%v0,%%v19\n\t"
+    "vfmadb   %%v23,%%v31,%%v1,%%v23\n\t"
+    "vl     %%v0,16(%%r1,%[x])\n\t"
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-        temp_r0 += a0[i] * x[i] - a0[i + 1] * x[i + 1];
-        temp_i0 += a0[i] * x[i + 1] + a0[i + 1] * x[i];
-        temp_r1 += a1[i] * x[i] - a1[i + 1] * x[i + 1];
-        temp_i1 += a1[i] * x[i + 1] + a1[i + 1] * x[i];
-        temp_r2 += a2[i] * x[i] - a2[i + 1] * x[i + 1];
-        temp_i2 += a2[i] * x[i + 1] + a2[i + 1] * x[i];
-        temp_r3 += a3[i] * x[i] - a3[i + 1] * x[i + 1];
-        temp_i3 += a3[i] * x[i + 1] + a3[i + 1] * x[i];
+    "vleg   %%v1,24(%%r1,%[x]),0\n\t"
+    "wflcdb %%v1,%%v1\n\t"
+    "vleg   %%v1,16(%%r1,%[x]),1\n\t"
 #else
-        temp_r0 += a0[i] * x[i] + a0[i + 1] * x[i + 1];
-        temp_i0 += a0[i] * x[i + 1] - a0[i + 1] * x[i];
-        temp_r1 += a1[i] * x[i] + a1[i + 1] * x[i + 1];
-        temp_i1 += a1[i] * x[i + 1] - a1[i + 1] * x[i];
-        temp_r2 += a2[i] * x[i] + a2[i + 1] * x[i + 1];
-        temp_i2 += a2[i] * x[i + 1] - a2[i + 1] * x[i];
-        temp_r3 += a3[i] * x[i] + a3[i + 1] * x[i + 1];
-        temp_i3 += a3[i] * x[i + 1] - a3[i + 1] * x[i];
+    "vleg   %%v1,16(%%r1,%[x]),1\n\t"
+    "vflcdb %%v1,%%v1\n\t"
+    "vleg   %%v1,24(%%r1,%[x]),0\n\t"
 #endif
-    }
-
+    "vlrepg %%v24,16(%%r1,%[ap0])\n\t"
+    "vlrepg %%v25,24(%%r1,%[ap0])\n\t"
+    "vlrepg %%v26,16(%%r1,%[ap1])\n\t"
+    "vlrepg %%v27,24(%%r1,%[ap1])\n\t"
+    "vlrepg %%v28,16(%%r1,%[ap2])\n\t"
+    "vlrepg %%v29,24(%%r1,%[ap2])\n\t"
+    "vlrepg %%v30,16(%%r1,%[ap3])\n\t"
+    "vlrepg %%v31,24(%%r1,%[ap3])\n\t"
+    "vfmadb   %%v16,%%v24,%%v0,%%v16\n\t"
+    "vfmadb   %%v20,%%v25,%%v1,%%v20\n\t"
+    "vfmadb   %%v17,%%v26,%%v0,%%v17\n\t"
+    "vfmadb   %%v21,%%v27,%%v1,%%v21\n\t"
+    "vfmadb   %%v18,%%v28,%%v0,%%v18\n\t"
+    "vfmadb   %%v22,%%v29,%%v1,%%v22\n\t"
+    "vfmadb   %%v19,%%v30,%%v0,%%v19\n\t"
+    "vfmadb   %%v23,%%v31,%%v1,%%v23\n\t"
+    "agfi   %%r1,32\n\t"
+    "brctg  %[n],0b\n\t"
+    "vfadb  %%v16,%%v16,%%v20\n\t"
+    "vfadb  %%v17,%%v17,%%v21\n\t"
+    "vfadb  %%v18,%%v18,%%v22\n\t"
+    "vfadb  %%v19,%%v19,%%v23\n\t"
+    "vpdi %%v20,%%v16,%%v16,4\n\t"
+    "vpdi %%v21,%%v17,%%v17,4\n\t"
+    "vpdi %%v22,%%v18,%%v18,4\n\t"
+    "vpdi %%v23,%%v19,%%v19,4\n\t"
 #if !defined(XCONJ)
-
-    y[0] += alpha_r * temp_r0 - alpha_i * temp_i0;
-    y[1] += alpha_r * temp_i0 + alpha_i * temp_r0;
-    y[2] += alpha_r * temp_r1 - alpha_i * temp_i1;
-    y[3] += alpha_r * temp_i1 + alpha_i * temp_r1;
-    y[4] += alpha_r * temp_r2 - alpha_i * temp_i2;
-    y[5] += alpha_r * temp_i2 + alpha_i * temp_r2;
-    y[6] += alpha_r * temp_r3 - alpha_i * temp_i3;
-    y[7] += alpha_r * temp_i3 + alpha_i * temp_r3;
-
+    "vlrepg %%v24,0(%[alpha])\n\t"
+    "vleg   %%v25,8(%[alpha]),0\n\t"
+    "wflcdb %%v25,%%v25\n\t"
+    "vleg   %%v25,8(%[alpha]),1\n\t"
 #else
-
-    y[0] += alpha_r * temp_r0 + alpha_i * temp_i0;
-    y[1] -= alpha_r * temp_i0 - alpha_i * temp_r0;
-    y[2] += alpha_r * temp_r1 + alpha_i * temp_i1;
-    y[3] -= alpha_r * temp_i1 - alpha_i * temp_r1;
-    y[4] += alpha_r * temp_r2 + alpha_i * temp_i2;
-    y[5] -= alpha_r * temp_i2 - alpha_i * temp_r2;
-    y[6] += alpha_r * temp_r3 + alpha_i * temp_i3;
-    y[7] -= alpha_r * temp_i3 - alpha_i * temp_r3;
-
+    "vleg   %%v24,0(%[alpha]),1\n\t"
+    "vflcdb %%v24,%%v24\n\t"
+    "vleg   %%v24,0(%[alpha]),0\n\t"
+    "vlrepg %%v25,8(%[alpha])\n\t"
 #endif
+    "vl  %%v26,0(%[y])\n\t"
+    "vl  %%v27,16(%[y])\n\t"
+    "vl  %%v28,32(%[y])\n\t"
+    "vl  %%v29,48(%[y])\n\t"
+    "vfmadb   %%v26,%%v16,%%v24,%%v26\n\t"
+    "vfmadb   %%v26,%%v20,%%v25,%%v26\n\t"
+    "vfmadb   %%v27,%%v17,%%v24,%%v27\n\t"
+    "vfmadb   %%v27,%%v21,%%v25,%%v27\n\t"
+    "vfmadb   %%v28,%%v18,%%v24,%%v28\n\t"
+    "vfmadb   %%v28,%%v22,%%v25,%%v28\n\t"
+    "vfmadb   %%v29,%%v19,%%v24,%%v29\n\t"
+    "vfmadb   %%v29,%%v23,%%v25,%%v29\n\t"
+    "vst  %%v26,0(%[y])\n\t"
+    "vst  %%v27,16(%[y])\n\t"
+    "vst  %%v28,32(%[y])\n\t"
+    "vst  %%v29,48(%[y])"
+    : "+m"(*(struct { FLOAT x[8]; } *) y),[n] "+&r"(n)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n * 2]; } *) ap0),[ap0] "a"(ap0),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) ap1),[ap1] "a"(ap1),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) ap2),[ap2] "a"(ap2),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) ap3),[ap3] "a"(ap3),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x),
+       "m"(*(const struct { FLOAT x[2]; } *) alpha),[alpha] "a"(alpha)
+    : "cc", "r1", "v0", "v1", "v16", "v17", "v18", "v19", "v20", "v21",
+       "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
 }
 
-#endif
-
-#ifdef HAVE_KERNEL_4x2_VEC
-
-static void zgemv_kernel_4x2(BLASLONG n, BLASLONG lda, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT alpha_r, FLOAT alpha_i) {
-    BLASLONG i;
-    FLOAT *a0, *a1;
-    a0 = ap;
-    a1 = ap + lda; 
-    //p for positive(real*real,image*image) r for image (real*image,image*real)
-    register __vector double vtemp0_p = {0.0, 0.0};
-    register __vector double vtemp0_r = {0.0, 0.0};
-    register __vector double vtemp1_p = {0.0, 0.0};
-    register __vector double vtemp1_r = {0.0, 0.0}; 
-    i = 0;
-    n = n << 1;
-    while (i < n) {
-
-        register __vector double vx_0 = *(__vector double*) (&x[i]);
-        register __vector double vx_1 = *(__vector double*) (&x[i + 2]);
-        register __vector double vx_2 = *(__vector double*) (&x[i + 4]);
-        register __vector double vx_3 = *(__vector double*) (&x[i + 6]);
-
-        register __vector double va0 = *(__vector double*) (&a0[i]);
-        register __vector double va0_1 = *(__vector double*) (&a0[i + 2]);
-        register __vector double va0_2 = *(__vector double*) (&a0[i + 4]);
-        register __vector double va0_3 = *(__vector double*) (&a0[i + 6]);
-
-        register __vector double va1 = *(__vector double*) (&a1[i]);
-        register __vector double va1_1 = *(__vector double*) (&a1[i + 2]);
-        register __vector double va1_2 = *(__vector double*) (&a1[i + 4]);
-        register __vector double va1_3 = *(__vector double*) (&a1[i + 6]);
-
-        register __vector double vxr_0 = vec_permi(vx_0, vx_0, 2);
-        register __vector double vxr_1 = vec_permi(vx_1, vx_1, 2);
-
-        i += 8;
-
-        vtemp0_p += vx_0*va0;
-        vtemp0_r += vxr_0*va0;
-
-        vtemp1_p += vx_0*va1;
-        vtemp1_r += vxr_0*va1;
-
-        vxr_0 = vec_permi(vx_2, vx_2, 2);  
-        vtemp0_p += vx_1*va0_1;
-        vtemp0_r += vxr_1*va0_1;
-
-        vtemp1_p += vx_1*va1_1;
-        vtemp1_r += vxr_1*va1_1;
-        vxr_1 = vec_permi(vx_3, vx_3, 2);
-
-        vtemp0_p += vx_2*va0_2;
-        vtemp0_r += vxr_0*va0_2;
-
-        vtemp1_p += vx_2*va1_2;
-        vtemp1_r += vxr_0*va1_2;
-
-        vtemp0_p += vx_3*va0_3;
-        vtemp0_r += vxr_1*va0_3;
-
-        vtemp1_p += vx_3*va1_3;
-        vtemp1_r += vxr_1*va1_3;
- 
-    }
-
+static void zgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y,
+                             FLOAT *alpha) {
+  register FLOAT *ap0 = ap[0];
+  register FLOAT *ap1 = ap[1];
+
+  __asm__("vzero  %%v16\n\t"
+    "vzero  %%v17\n\t"
+    "vzero  %%v18\n\t"
+    "vzero  %%v19\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "srlg  %[n],%[n],1\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[ap0])\n\t"
+    "pfd 1,1024(%%r1,%[ap1])\n\t"
+    "pfd 1,1024(%%r1,%[x])\n\t"
+    "vl     %%v0,0(%%r1,%[x])\n\t"
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-    register FLOAT temp_r0 = vtemp0_p[0] - vtemp0_p[1];
-    register FLOAT temp_i0 = vtemp0_r[0] + vtemp0_r[1];
-
-    register FLOAT temp_r1 = vtemp1_p[0] - vtemp1_p[1];
-    register FLOAT temp_i1 = vtemp1_r[0] + vtemp1_r[1]; 
-
-#else
-    register FLOAT temp_r0 = vtemp0_p[0] + vtemp0_p[1];
-    register FLOAT temp_i0 = vtemp0_r[0] - vtemp0_r[1];
-
-    register FLOAT temp_r1 = vtemp1_p[0] + vtemp1_p[1];
-    register FLOAT temp_i1 = vtemp1_r[0] - vtemp1_r[1];
-
-#endif    
-
-#if !defined(XCONJ)
-
-    y[0] += alpha_r * temp_r0 - alpha_i * temp_i0;
-    y[1] += alpha_r * temp_i0 + alpha_i * temp_r0;
-    y[2] += alpha_r * temp_r1 - alpha_i * temp_i1;
-    y[3] += alpha_r * temp_i1 + alpha_i * temp_r1;
-
+    "vleg   %%v1,8(%%r1,%[x]),0\n\t"
+    "wflcdb %%v1,%%v1\n\t"
+    "vleg   %%v1,0(%%r1,%[x]),1\n\t"
 #else
-
-    y[0] += alpha_r * temp_r0 + alpha_i * temp_i0;
-    y[1] -= alpha_r * temp_i0 - alpha_i * temp_r0;
-    y[2] += alpha_r * temp_r1 + alpha_i * temp_i1;
-    y[3] -= alpha_r * temp_i1 - alpha_i * temp_r1;
-
+    "vleg   %%v1,0(%%r1,%[x]),1\n\t"
+    "vflcdb %%v1,%%v1\n\t"
+    "vleg   %%v1,8(%%r1,%[x]),0\n\t"
 #endif
-}
-
-#else
-
-static void zgemv_kernel_4x2(BLASLONG n, BLASLONG lda, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT alpha_r, FLOAT alpha_i) {
-    BLASLONG i;
-    FLOAT *a0, *a1;
-    a0 = ap;
-    a1 = ap + lda;
-
-    FLOAT temp_r0 = 0.0;
-    FLOAT temp_r1 = 0.0;
-    FLOAT temp_i0 = 0.0;
-    FLOAT temp_i1 = 0.0;
-
-    for (i = 0; i < 2 * n; i += 2) {
+    "vlrepg %%v20,0(%%r1,%[ap0])\n\t"
+    "vlrepg %%v21,8(%%r1,%[ap0])\n\t"
+    "vlrepg %%v22,0(%%r1,%[ap1])\n\t"
+    "vlrepg %%v23,8(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v16,%%v20,%%v0,%%v16\n\t"
+    "vfmadb   %%v18,%%v21,%%v1,%%v18\n\t"
+    "vfmadb   %%v17,%%v22,%%v0,%%v17\n\t"
+    "vfmadb   %%v19,%%v23,%%v1,%%v19\n\t"
+    "vl     %%v0,16(%%r1,%[x])\n\t"
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-        temp_r0 += a0[i] * x[i] - a0[i + 1] * x[i + 1];
-        temp_i0 += a0[i] * x[i + 1] + a0[i + 1] * x[i];
-        temp_r1 += a1[i] * x[i] - a1[i + 1] * x[i + 1];
-        temp_i1 += a1[i] * x[i + 1] + a1[i + 1] * x[i];
+    "vleg   %%v1,24(%%r1,%[x]),0\n\t"
+    "wflcdb %%v1,%%v1\n\t"
+    "vleg   %%v1,16(%%r1,%[x]),1\n\t"
 #else
-        temp_r0 += a0[i] * x[i] + a0[i + 1] * x[i + 1];
-        temp_i0 += a0[i] * x[i + 1] - a0[i + 1] * x[i];
-        temp_r1 += a1[i] * x[i] + a1[i + 1] * x[i + 1];
-        temp_i1 += a1[i] * x[i + 1] - a1[i + 1] * x[i];
+    "vleg   %%v1,16(%%r1,%[x]),1\n\t"
+    "vflcdb %%v1,%%v1\n\t"
+    "vleg   %%v1,24(%%r1,%[x]),0\n\t"
 #endif
-    }
-
+    "vlrepg %%v20,16(%%r1,%[ap0])\n\t"
+    "vlrepg %%v21,24(%%r1,%[ap0])\n\t"
+    "vlrepg %%v22,16(%%r1,%[ap1])\n\t"
+    "vlrepg %%v23,24(%%r1,%[ap1])\n\t"
+    "vfmadb   %%v16,%%v20,%%v0,%%v16\n\t"
+    "vfmadb   %%v18,%%v21,%%v1,%%v18\n\t"
+    "vfmadb   %%v17,%%v22,%%v0,%%v17\n\t"
+    "vfmadb   %%v19,%%v23,%%v1,%%v19\n\t"
+    "agfi   %%r1,32\n\t"
+    "brctg  %[n],0b\n\t"
+    "vfadb  %%v16,%%v16,%%v18\n\t"
+    "vfadb  %%v17,%%v17,%%v19\n\t"
+    "vpdi %%v18,%%v16,%%v16,4\n\t"
+    "vpdi %%v19,%%v17,%%v17,4\n\t"
 #if !defined(XCONJ)
-
-    y[0] += alpha_r * temp_r0 - alpha_i * temp_i0;
-    y[1] += alpha_r * temp_i0 + alpha_i * temp_r0;
-    y[2] += alpha_r * temp_r1 - alpha_i * temp_i1;
-    y[3] += alpha_r * temp_i1 + alpha_i * temp_r1;
-
+    "vlrepg %%v20,0(%[alpha])\n\t"
+    "vleg   %%v21,8(%[alpha]),0\n\t"
+    "wflcdb %%v21,%%v21\n\t"
+    "vleg   %%v21,8(%[alpha]),1\n\t"
 #else
-
-    y[0] += alpha_r * temp_r0 + alpha_i * temp_i0;
-    y[1] -= alpha_r * temp_i0 - alpha_i * temp_r0;
-    y[2] += alpha_r * temp_r1 + alpha_i * temp_i1;
-    y[3] -= alpha_r * temp_i1 - alpha_i * temp_r1;
-
+    "vleg   %%v20,0(%[alpha]),1\n\t"
+    "vflcdb %%v20,%%v20\n\t"
+    "vleg   %%v20,0(%[alpha]),0\n\t"
+    "vlrepg %%v21,8(%[alpha])\n\t"
 #endif
+    "vl  %%v22,0(%[y])\n\t"
+    "vl  %%v23,16(%[y])\n\t"
+    "vfmadb   %%v22,%%v16,%%v20,%%v22\n\t"
+    "vfmadb   %%v22,%%v18,%%v21,%%v22\n\t"
+    "vfmadb   %%v23,%%v17,%%v20,%%v23\n\t"
+    "vfmadb   %%v23,%%v19,%%v21,%%v23\n\t"
+    "vst  %%v22,0(%[y])\n\t"
+    "vst  %%v23,16(%[y])\n\t"
+    : "+m"(*(struct { FLOAT x[4]; } *) y),[n] "+&r"(n)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n * 2]; } *) ap0),[ap0] "a"(ap0),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) ap1),[ap1] "a"(ap1),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x),
+       "m"(*(const struct { FLOAT x[2]; } *) alpha),[alpha] "a"(alpha)
+    : "cc", "r1", "v0", "v1", "v16", "v17", "v18", "v19", "v20", "v21",
+       "v22", "v23");
 }
 
-#endif
-
-#ifdef HAVE_KERNEL_4x1_VEC
-
-static void zgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT alpha_r, FLOAT alpha_i) {
-    BLASLONG i;
-    FLOAT *a0 ;
-    a0 = ap;  
-    //p for positive(real*real,image*image) r for image (real*image,image*real)
-    register __vector double vtemp0_p = {0.0, 0.0};
-    register __vector double vtemp0_r = {0.0, 0.0};
-    i = 0;
-    n = n << 1;
-    while (i < n) {
-
-        register __vector double vx_0 = *(__vector double*) (&x[i]);
-        register __vector double vx_1 = *(__vector double*) (&x[i + 2]);
-        register __vector double vx_2 = *(__vector double*) (&x[i + 4]);
-        register __vector double vx_3 = *(__vector double*) (&x[i + 6]);
-
-        register __vector double va0 = *(__vector double*) (&a0[i]);
-        register __vector double va0_1 = *(__vector double*) (&a0[i + 2]);
-        register __vector double va0_2 = *(__vector double*) (&a0[i + 4]);
-        register __vector double va0_3 = *(__vector double*) (&a0[i + 6]);
-       
-        register __vector double vxr_0 = vec_permi(vx_0, vx_0, 2);
-        register __vector double vxr_1 = vec_permi(vx_1, vx_1, 2);
-
-        i += 8;
-
-        vtemp0_p += vx_0*va0;
-        vtemp0_r += vxr_0*va0;
- 
-        vxr_0 = vec_permi(vx_2, vx_2, 2);  
-        vtemp0_p += vx_1*va0_1;
-        vtemp0_r += vxr_1*va0_1;
- 
-        vxr_1 = vec_permi(vx_3, vx_3, 2);
-
-        vtemp0_p += vx_2*va0_2;
-        vtemp0_r += vxr_0*va0_2;
- 
-        vtemp0_p += vx_3*va0_3;
-        vtemp0_r += vxr_1*va0_3;
- 
-    }
-
+static void zgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y,
+                             FLOAT *alpha) {
+  __asm__("vzero  %%v16\n\t"
+    "vzero  %%v17\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "srlg  %[n],%[n],1\n\t"
+    "0:\n\t"
+    "pfd 1,1024(%%r1,%[ap])\n\t"
+    "pfd 1,1024(%%r1,%[x])\n\t"
+    "vl     %%v0,0(%%r1,%[x])\n\t"
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-    register FLOAT temp_r0 = vtemp0_p[0] - vtemp0_p[1];
-    register FLOAT temp_i0 = vtemp0_r[0] + vtemp0_r[1];
-
-#else
-    register FLOAT temp_r0 = vtemp0_p[0] + vtemp0_p[1];
-    register FLOAT temp_i0 = vtemp0_r[0] - vtemp0_r[1]; 
-
-#endif    
-
-#if !defined(XCONJ)
-
-    y[0] += alpha_r * temp_r0 - alpha_i * temp_i0;
-    y[1] += alpha_r * temp_i0 + alpha_i * temp_r0; 
-
+    "vleg   %%v1,8(%%r1,%[x]),0\n\t"
+    "wflcdb %%v1,%%v1\n\t"
+    "vleg   %%v1,0(%%r1,%[x]),1\n\t"
 #else
-
-    y[0] += alpha_r * temp_r0 + alpha_i * temp_i0;
-    y[1] -= alpha_r * temp_i0 - alpha_i * temp_r0; 
+    "vleg   %%v1,0(%%r1,%[x]),1\n\t"
+    "vflcdb %%v1,%%v1\n\t"
+    "vleg   %%v1,8(%%r1,%[x]),0\n\t"
 #endif
-
-}
-
-#else
-
-static void zgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT alpha_r, FLOAT alpha_i) {
-    BLASLONG i;
-    FLOAT *a0;
-    a0 = ap;
-
-    FLOAT temp_r0 = 0.0;
-    FLOAT temp_i0 = 0.0;
-
-    for (i = 0; i < 2 * n; i += 2) {
+    "vlrepg %%v18,0(%%r1,%[ap])\n\t"
+    "vlrepg %%v19,8(%%r1,%[ap])\n\t"
+    "vfmadb   %%v16,%%v18,%%v0,%%v16\n\t"
+    "vfmadb   %%v17,%%v19,%%v1,%%v17\n\t"
+    "vl     %%v0,16(%%r1,%[x])\n\t"
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-        temp_r0 += a0[i] * x[i] - a0[i + 1] * x[i + 1];
-        temp_i0 += a0[i] * x[i + 1] + a0[i + 1] * x[i];
+    "vleg   %%v1,24(%%r1,%[x]),0\n\t"
+    "wflcdb %%v1,%%v1\n\t"
+    "vleg   %%v1,16(%%r1,%[x]),1\n\t"
 #else
-        temp_r0 += a0[i] * x[i] + a0[i + 1] * x[i + 1];
-        temp_i0 += a0[i] * x[i + 1] - a0[i + 1] * x[i];
+    "vleg   %%v1,16(%%r1,%[x]),1\n\t"
+    "vflcdb %%v1,%%v1\n\t"
+    "vleg   %%v1,24(%%r1,%[x]),0\n\t"
 #endif
-    }
-
+    "vlrepg %%v18,16(%%r1,%[ap])\n\t"
+    "vlrepg %%v19,24(%%r1,%[ap])\n\t"
+    "vfmadb   %%v16,%%v18,%%v0,%%v16\n\t"
+    "vfmadb   %%v17,%%v19,%%v1,%%v17\n\t"
+    "agfi   %%r1,32\n\t"
+    "brctg  %[n],0b\n\t"
+    "vfadb  %%v16,%%v16,%%v17\n\t"
+    "vpdi %%v17,%%v16,%%v16,4\n\t"
 #if !defined(XCONJ)
-
-    y[0] += alpha_r * temp_r0 - alpha_i * temp_i0;
-    y[1] += alpha_r * temp_i0 + alpha_i * temp_r0;
-
+    "vlrepg %%v18,0(%[alpha])\n\t"
+    "vleg   %%v19,8(%[alpha]),0\n\t"
+    "wflcdb %%v19,%%v19\n\t"
+    "vleg   %%v19,8(%[alpha]),1\n\t"
 #else
-
-    y[0] += alpha_r * temp_r0 + alpha_i * temp_i0;
-    y[1] -= alpha_r * temp_i0 - alpha_i * temp_r0;
-
+    "vleg   %%v18,0(%[alpha]),1\n\t"
+    "vflcdb %%v18,%%v18\n\t"
+    "vleg   %%v18,0(%[alpha]),0\n\t"
+    "vlrepg %%v19,8(%[alpha])\n\t"
 #endif
-
+    "vl  %%v0,0(%[y])\n\t"
+    "vfmadb   %%v0,%%v16,%%v18,%%v0\n\t"
+    "vfmadb   %%v0,%%v17,%%v19,%%v0\n\t"
+    "vst  %%v0,0(%[y])\n\t"
+    : "+m"(*(struct { FLOAT x[2]; } *) y),[n] "+&r"(n)
+    : [y] "a"(y), "m"(*(const struct { FLOAT x[n * 2]; } *) ap),[ap] "a"(ap),
+       "m"(*(const struct { FLOAT x[n * 2]; } *) x),[x] "a"(x),
+       "m"(*(const struct { FLOAT x[2]; } *) alpha),[alpha] "a"(alpha)
+    : "cc", "r1", "v0", "v1", "v16", "v17", "v18", "v19");
 }
 
-#endif
-
-static __attribute__((always_inline)) void copy_x(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_src) {
-    BLASLONG i;
-    for (i = 0; i < n; i++) {
-        *dest = *src;
-        *(dest + 1) = *(src + 1);
-        dest += 2;
-        src += inc_src;
-    }
+static void copy_x(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_src) {
+  BLASLONG i;
+  for (i = 0; i < n; i++) {
+    *dest = *src;
+    *(dest + 1) = *(src + 1);
+    dest += 2;
+    src += inc_src;
+  }
 }
 
-int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i, FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *buffer) {
-    BLASLONG i;
-    BLASLONG j;
-    FLOAT *a_ptr;
-    FLOAT *x_ptr;
-    FLOAT *y_ptr;
-
-    BLASLONG n1;
-    BLASLONG m1;
-    BLASLONG m2;
-    BLASLONG m3;
-    BLASLONG n2;
-
-    FLOAT ybuffer[8], *xbuffer;
-
-    if (m < 1) return (0);
-    if (n < 1) return (0);
-
-    inc_x <<= 1;
-    inc_y <<= 1;
-    lda <<= 1;
-
-    xbuffer = buffer;
-
-    n1 = n >> 2;
-    n2 = n & 3;
-
-    m3 = m & 3;
-    m1 = m - m3;
-    m2 = (m & (NBMAX - 1)) - m3;
-
-    BLASLONG NB = NBMAX;
-
-    while (NB == NBMAX) {
-
-        m1 -= NB;
-        if (m1 < 0) {
-            if (m2 == 0) break;
-            NB = m2;
-        }
-
-        y_ptr = y;
-        a_ptr = a;
-        x_ptr = x;
-
-        if (inc_x != 2)
-            copy_x(NB, x_ptr, xbuffer, inc_x);
-        else
-            xbuffer = x_ptr;
-
-        if (inc_y == 2) {
-
-            for (i = 0; i < n1; i++) {
-                zgemv_kernel_4x4(NB, lda, a_ptr, xbuffer, y_ptr, alpha_r, alpha_i);
-                a_ptr += lda << 2;
-                y_ptr += 8;
-
-            }
-
-            if (n2 & 2) {
-                zgemv_kernel_4x2(NB, lda, a_ptr, xbuffer, y_ptr, alpha_r, alpha_i);
-                a_ptr += lda << 1;
-                y_ptr += 4;
-
-            }
+int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i,
+          FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y,
+          BLASLONG inc_y, FLOAT *buffer) {
+  BLASLONG i;
+  BLASLONG j;
+  FLOAT *a_ptr;
+  FLOAT *x_ptr;
+  FLOAT *y_ptr;
+  FLOAT *ap[8];
+  BLASLONG n1;
+  BLASLONG m1;
+  BLASLONG m2;
+  BLASLONG m3;
+  BLASLONG n2;
+  BLASLONG lda4;
+  FLOAT ybuffer[8], *xbuffer;
+  FLOAT alpha[2];
+
+  if (m < 1)
+    return (0);
+  if (n < 1)
+    return (0);
 
-            if (n2 & 1) {
-                zgemv_kernel_4x1(NB, a_ptr, xbuffer, y_ptr, alpha_r, alpha_i);
-                a_ptr += lda;
-                y_ptr += 2;
+  inc_x <<= 1;
+  inc_y <<= 1;
+  lda <<= 1;
+  lda4 = lda << 2;
 
-            }
+  xbuffer = buffer;
 
-        } else {
+  n1 = n >> 2;
+  n2 = n & 3;
 
-            for (i = 0; i < n1; i++) {
-                memset(ybuffer, 0, sizeof (ybuffer));
-                zgemv_kernel_4x4(NB, lda, a_ptr, xbuffer, ybuffer, alpha_r, alpha_i);
+  m3 = m & 3;
+  m1 = m - m3;
+  m2 = (m & (NBMAX - 1)) - m3;
 
-                a_ptr += lda << 2;
+  alpha[0] = alpha_r;
+  alpha[1] = alpha_i;
 
-                y_ptr[0] += ybuffer[0];
-                y_ptr[1] += ybuffer[1];
-                y_ptr += inc_y;
-                y_ptr[0] += ybuffer[2];
-                y_ptr[1] += ybuffer[3];
-                y_ptr += inc_y;
-                y_ptr[0] += ybuffer[4];
-                y_ptr[1] += ybuffer[5];
-                y_ptr += inc_y;
-                y_ptr[0] += ybuffer[6];
-                y_ptr[1] += ybuffer[7];
-                y_ptr += inc_y;
+  BLASLONG NB = NBMAX;
 
-            }
+  while (NB == NBMAX) {
 
-            for (i = 0; i < n2; i++) {
-                memset(ybuffer, 0, sizeof (ybuffer));
-                zgemv_kernel_4x1(NB, a_ptr, xbuffer, ybuffer, alpha_r, alpha_i);
-                a_ptr += lda;
-                y_ptr[0] += ybuffer[0];
-                y_ptr[1] += ybuffer[1];
-                y_ptr += inc_y;
+    m1 -= NB;
+    if (m1 < 0) {
+      if (m2 == 0)
+        break;
+      NB = m2;
+    }
 
-            }
+    y_ptr = y;
+    a_ptr = a;
+    x_ptr = x;
+    ap[0] = a_ptr;
+    ap[1] = a_ptr + lda;
+    ap[2] = ap[1] + lda;
+    ap[3] = ap[2] + lda;
+    if (inc_x != 2)
+      copy_x(NB, x_ptr, xbuffer, inc_x);
+    else
+      xbuffer = x_ptr;
+
+    if (inc_y == 2) {
+
+      for (i = 0; i < n1; i++) {
+        zgemv_kernel_4x4(NB, ap, xbuffer, y_ptr, alpha);
+        ap[0] += lda4;
+        ap[1] += lda4;
+        ap[2] += lda4;
+        ap[3] += lda4;
+        a_ptr += lda4;
+        y_ptr += 8;
+
+      }
+
+      if (n2 & 2) {
+        zgemv_kernel_4x2(NB, ap, xbuffer, y_ptr, alpha);
+        a_ptr += lda * 2;
+        y_ptr += 4;
+
+      }
+
+      if (n2 & 1) {
+        zgemv_kernel_4x1(NB, a_ptr, xbuffer, y_ptr, alpha);
+        /* a_ptr += lda;
+           y_ptr += 2; */
+
+      }
+
+    } else {
+
+      for (i = 0; i < n1; i++) {
+        memset(ybuffer, 0, sizeof(ybuffer));
+        zgemv_kernel_4x4(NB, ap, xbuffer, ybuffer, alpha);
+        ap[0] += lda4;
+        ap[1] += lda4;
+        ap[2] += lda4;
+        ap[3] += lda4;
+        a_ptr += lda4;
+
+        y_ptr[0] += ybuffer[0];
+        y_ptr[1] += ybuffer[1];
+        y_ptr += inc_y;
+        y_ptr[0] += ybuffer[2];
+        y_ptr[1] += ybuffer[3];
+        y_ptr += inc_y;
+        y_ptr[0] += ybuffer[4];
+        y_ptr[1] += ybuffer[5];
+        y_ptr += inc_y;
+        y_ptr[0] += ybuffer[6];
+        y_ptr[1] += ybuffer[7];
+        y_ptr += inc_y;
+
+      }
+
+      for (i = 0; i < n2; i++) {
+        memset(ybuffer, 0, sizeof(ybuffer));
+        zgemv_kernel_4x1(NB, a_ptr, xbuffer, ybuffer, alpha);
+        a_ptr += lda;
+        y_ptr[0] += ybuffer[0];
+        y_ptr[1] += ybuffer[1];
+        y_ptr += inc_y;
+
+      }
 
-        }
-        a += 2 * NB;
-        x += NB * inc_x;
     }
+    a += 2 * NB;
+    x += NB * inc_x;
+  }
 
-    if (m3 == 0) return (0);
-
-    x_ptr = x;
-    j = 0;
-    a_ptr = a;
-    y_ptr = y;
+  if (m3 == 0)
+    return (0);
 
-    if (m3 == 3) {
-
-        FLOAT temp_r;
-        FLOAT temp_i;
-        FLOAT x0 = x_ptr[0];
-        FLOAT x1 = x_ptr[1];
-        x_ptr += inc_x;
-        FLOAT x2 = x_ptr[0];
-        FLOAT x3 = x_ptr[1];
-        x_ptr += inc_x;
-        FLOAT x4 = x_ptr[0];
-        FLOAT x5 = x_ptr[1];
-        while (j < n) {
+  x_ptr = x;
+  j = 0;
+  a_ptr = a;
+  y_ptr = y;
+
+  if (m3 == 3) {
+
+    FLOAT temp_r;
+    FLOAT temp_i;
+    FLOAT x0 = x_ptr[0];
+    FLOAT x1 = x_ptr[1];
+    x_ptr += inc_x;
+    FLOAT x2 = x_ptr[0];
+    FLOAT x3 = x_ptr[1];
+    x_ptr += inc_x;
+    FLOAT x4 = x_ptr[0];
+    FLOAT x5 = x_ptr[1];
+    while (j < n) {
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-            temp_r = a_ptr[0] * x0 - a_ptr[1] * x1;
-            temp_i = a_ptr[0] * x1 + a_ptr[1] * x0;
-            temp_r += a_ptr[2] * x2 - a_ptr[3] * x3;
-            temp_i += a_ptr[2] * x3 + a_ptr[3] * x2;
-            temp_r += a_ptr[4] * x4 - a_ptr[5] * x5;
-            temp_i += a_ptr[4] * x5 + a_ptr[5] * x4;
+      temp_r = a_ptr[0] * x0 - a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 + a_ptr[1] * x0;
+      temp_r += a_ptr[2] * x2 - a_ptr[3] * x3;
+      temp_i += a_ptr[2] * x3 + a_ptr[3] * x2;
+      temp_r += a_ptr[4] * x4 - a_ptr[5] * x5;
+      temp_i += a_ptr[4] * x5 + a_ptr[5] * x4;
 #else
 
-            temp_r = a_ptr[0] * x0 + a_ptr[1] * x1;
-            temp_i = a_ptr[0] * x1 - a_ptr[1] * x0;
-            temp_r += a_ptr[2] * x2 + a_ptr[3] * x3;
-            temp_i += a_ptr[2] * x3 - a_ptr[3] * x2;
-            temp_r += a_ptr[4] * x4 + a_ptr[5] * x5;
-            temp_i += a_ptr[4] * x5 - a_ptr[5] * x4;
+      temp_r = a_ptr[0] * x0 + a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 - a_ptr[1] * x0;
+      temp_r += a_ptr[2] * x2 + a_ptr[3] * x3;
+      temp_i += a_ptr[2] * x3 - a_ptr[3] * x2;
+      temp_r += a_ptr[4] * x4 + a_ptr[5] * x5;
+      temp_i += a_ptr[4] * x5 - a_ptr[5] * x4;
 #endif
 
-#if !defined(XCONJ) 
-            y_ptr[0] += alpha_r * temp_r - alpha_i * temp_i;
-            y_ptr[1] += alpha_r * temp_i + alpha_i * temp_r;
+#if !defined(XCONJ)
+      y_ptr[0] += alpha_r * temp_r - alpha_i * temp_i;
+      y_ptr[1] += alpha_r * temp_i + alpha_i * temp_r;
 #else
-            y_ptr[0] += alpha_r * temp_r + alpha_i * temp_i;
-            y_ptr[1] -= alpha_r * temp_i - alpha_i * temp_r;
+      y_ptr[0] += alpha_r * temp_r + alpha_i * temp_i;
+      y_ptr[1] -= alpha_r * temp_i - alpha_i * temp_r;
 #endif
 
-            a_ptr += lda;
-            y_ptr += inc_y;
-            j++;
-        }
-        return (0);
+      a_ptr += lda;
+      y_ptr += inc_y;
+      j++;
     }
-
-    if (m3 == 2) {
-
-        FLOAT temp_r;
-        FLOAT temp_i;
-        FLOAT temp_r1;
-        FLOAT temp_i1;
-        FLOAT x0 = x_ptr[0];
-        FLOAT x1 = x_ptr[1];
-        x_ptr += inc_x;
-        FLOAT x2 = x_ptr[0];
-        FLOAT x3 = x_ptr[1];
-
-        while (j < (n & -2)) {
+    return (0);
+  }
+
+  if (m3 == 2) {
+
+    FLOAT temp_r;
+    FLOAT temp_i;
+    FLOAT temp_r1;
+    FLOAT temp_i1;
+    FLOAT x0 = x_ptr[0];
+    FLOAT x1 = x_ptr[1];
+    x_ptr += inc_x;
+    FLOAT x2 = x_ptr[0];
+    FLOAT x3 = x_ptr[1];
+    FLOAT ar = alpha[0];
+    FLOAT ai = alpha[1];
+
+    while (j < (n & -2)) {
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-            temp_r = a_ptr[0] * x0 - a_ptr[1] * x1;
-            temp_i = a_ptr[0] * x1 + a_ptr[1] * x0;
-            temp_r += a_ptr[2] * x2 - a_ptr[3] * x3;
-            temp_i += a_ptr[2] * x3 + a_ptr[3] * x2;
-            a_ptr += lda;
-            temp_r1 = a_ptr[0] * x0 - a_ptr[1] * x1;
-            temp_i1 = a_ptr[0] * x1 + a_ptr[1] * x0;
-            temp_r1 += a_ptr[2] * x2 - a_ptr[3] * x3;
-            temp_i1 += a_ptr[2] * x3 + a_ptr[3] * x2;
+      temp_r = a_ptr[0] * x0 - a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 + a_ptr[1] * x0;
+      temp_r += a_ptr[2] * x2 - a_ptr[3] * x3;
+      temp_i += a_ptr[2] * x3 + a_ptr[3] * x2;
+      a_ptr += lda;
+      temp_r1 = a_ptr[0] * x0 - a_ptr[1] * x1;
+      temp_i1 = a_ptr[0] * x1 + a_ptr[1] * x0;
+      temp_r1 += a_ptr[2] * x2 - a_ptr[3] * x3;
+      temp_i1 += a_ptr[2] * x3 + a_ptr[3] * x2;
 #else
 
-            temp_r = a_ptr[0] * x0 + a_ptr[1] * x1;
-            temp_i = a_ptr[0] * x1 - a_ptr[1] * x0;
-            temp_r += a_ptr[2] * x2 + a_ptr[3] * x3;
-            temp_i += a_ptr[2] * x3 - a_ptr[3] * x2;
-            a_ptr += lda;
-            temp_r1 = a_ptr[0] * x0 + a_ptr[1] * x1;
-            temp_i1 = a_ptr[0] * x1 - a_ptr[1] * x0;
-            temp_r1 += a_ptr[2] * x2 + a_ptr[3] * x3;
-            temp_i1 += a_ptr[2] * x3 - a_ptr[3] * x2;
+      temp_r = a_ptr[0] * x0 + a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 - a_ptr[1] * x0;
+      temp_r += a_ptr[2] * x2 + a_ptr[3] * x3;
+      temp_i += a_ptr[2] * x3 - a_ptr[3] * x2;
+      a_ptr += lda;
+      temp_r1 = a_ptr[0] * x0 + a_ptr[1] * x1;
+      temp_i1 = a_ptr[0] * x1 - a_ptr[1] * x0;
+      temp_r1 += a_ptr[2] * x2 + a_ptr[3] * x3;
+      temp_i1 += a_ptr[2] * x3 - a_ptr[3] * x2;
 #endif
 
-#if !defined(XCONJ) 
-            y_ptr[0] += alpha_r * temp_r - alpha_i * temp_i;
-            y_ptr[1] += alpha_r * temp_i + alpha_i * temp_r;
-            y_ptr += inc_y;
-            y_ptr[0] += alpha_r * temp_r1 - alpha_i * temp_i1;
-            y_ptr[1] += alpha_r * temp_i1 + alpha_i * temp_r1;
+#if !defined(XCONJ)
+      y_ptr[0] += ar * temp_r - ai * temp_i;
+      y_ptr[1] += ar * temp_i + ai * temp_r;
+      y_ptr += inc_y;
+      y_ptr[0] += ar * temp_r1 - ai * temp_i1;
+      y_ptr[1] += ar * temp_i1 + ai * temp_r1;
 #else
-            y_ptr[0] += alpha_r * temp_r + alpha_i * temp_i;
-            y_ptr[1] -= alpha_r * temp_i - alpha_i * temp_r;
-            y_ptr += inc_y;
-            y_ptr[0] += alpha_r * temp_r1 + alpha_i * temp_i1;
-            y_ptr[1] -= alpha_r * temp_i1 - alpha_i * temp_r1;
+      y_ptr[0] += ar * temp_r + ai * temp_i;
+      y_ptr[1] -= ar * temp_i - ai * temp_r;
+      y_ptr += inc_y;
+      y_ptr[0] += ar * temp_r1 + ai * temp_i1;
+      y_ptr[1] -= ar * temp_i1 - ai * temp_r1;
 #endif
 
-            a_ptr += lda;
-            y_ptr += inc_y;
-            j += 2;
-        }
+      a_ptr += lda;
+      y_ptr += inc_y;
+      j += 2;
+    }
 
-        while (j < n) {
+    while (j < n) {
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-            temp_r = a_ptr[0] * x0 - a_ptr[1] * x1;
-            temp_i = a_ptr[0] * x1 + a_ptr[1] * x0;
-            temp_r += a_ptr[2] * x2 - a_ptr[3] * x3;
-            temp_i += a_ptr[2] * x3 + a_ptr[3] * x2;
+      temp_r = a_ptr[0] * x0 - a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 + a_ptr[1] * x0;
+      temp_r += a_ptr[2] * x2 - a_ptr[3] * x3;
+      temp_i += a_ptr[2] * x3 + a_ptr[3] * x2;
 #else
 
-            temp_r = a_ptr[0] * x0 + a_ptr[1] * x1;
-            temp_i = a_ptr[0] * x1 - a_ptr[1] * x0;
-            temp_r += a_ptr[2] * x2 + a_ptr[3] * x3;
-            temp_i += a_ptr[2] * x3 - a_ptr[3] * x2;
+      temp_r = a_ptr[0] * x0 + a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 - a_ptr[1] * x0;
+      temp_r += a_ptr[2] * x2 + a_ptr[3] * x3;
+      temp_i += a_ptr[2] * x3 - a_ptr[3] * x2;
 #endif
 
-#if !defined(XCONJ) 
-            y_ptr[0] += alpha_r * temp_r - alpha_i * temp_i;
-            y_ptr[1] += alpha_r * temp_i + alpha_i * temp_r;
+#if !defined(XCONJ)
+      y_ptr[0] += ar * temp_r - ai * temp_i;
+      y_ptr[1] += ar * temp_i + ai * temp_r;
 #else
-            y_ptr[0] += alpha_r * temp_r + alpha_i * temp_i;
-            y_ptr[1] -= alpha_r * temp_i - alpha_i * temp_r;
+      y_ptr[0] += ar * temp_r + ai * temp_i;
+      y_ptr[1] -= ar * temp_i - ai * temp_r;
 #endif
 
-            a_ptr += lda;
-            y_ptr += inc_y;
-            j++;
-        }
-
-        return (0);
+      a_ptr += lda;
+      y_ptr += inc_y;
+      j++;
     }
 
-    if (m3 == 1) {
+    return (0);
+  }
 
-        FLOAT temp_r;
-        FLOAT temp_i;
-        FLOAT temp_r1;
-        FLOAT temp_i1;
-        FLOAT x0 = x_ptr[0];
-        FLOAT x1 = x_ptr[1];
+  if (m3 == 1) {
 
-        while (j < (n & -2)) {
+    FLOAT temp_r;
+    FLOAT temp_i;
+    FLOAT temp_r1;
+    FLOAT temp_i1;
+    FLOAT x0 = x_ptr[0];
+    FLOAT x1 = x_ptr[1];
+    FLOAT ar = alpha[0];
+    FLOAT ai = alpha[1];
+
+    while (j < (n & -2)) {
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-            temp_r = a_ptr[0] * x0 - a_ptr[1] * x1;
-            temp_i = a_ptr[0] * x1 + a_ptr[1] * x0;
-            a_ptr += lda;
-            temp_r1 = a_ptr[0] * x0 - a_ptr[1] * x1;
-            temp_i1 = a_ptr[0] * x1 + a_ptr[1] * x0;
+      temp_r = a_ptr[0] * x0 - a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 + a_ptr[1] * x0;
+      a_ptr += lda;
+      temp_r1 = a_ptr[0] * x0 - a_ptr[1] * x1;
+      temp_i1 = a_ptr[0] * x1 + a_ptr[1] * x0;
 #else
 
-            temp_r = a_ptr[0] * x0 + a_ptr[1] * x1;
-            temp_i = a_ptr[0] * x1 - a_ptr[1] * x0;
-            a_ptr += lda;
-            temp_r1 = a_ptr[0] * x0 + a_ptr[1] * x1;
-            temp_i1 = a_ptr[0] * x1 - a_ptr[1] * x0;
+      temp_r = a_ptr[0] * x0 + a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 - a_ptr[1] * x0;
+      a_ptr += lda;
+      temp_r1 = a_ptr[0] * x0 + a_ptr[1] * x1;
+      temp_i1 = a_ptr[0] * x1 - a_ptr[1] * x0;
 #endif
 
-#if !defined(XCONJ) 
-            y_ptr[0] += alpha_r * temp_r - alpha_i * temp_i;
-            y_ptr[1] += alpha_r * temp_i + alpha_i * temp_r;
-            y_ptr += inc_y;
-            y_ptr[0] += alpha_r * temp_r1 - alpha_i * temp_i1;
-            y_ptr[1] += alpha_r * temp_i1 + alpha_i * temp_r1;
+#if !defined(XCONJ)
+      y_ptr[0] += ar * temp_r - ai * temp_i;
+      y_ptr[1] += ar * temp_i + ai * temp_r;
+      y_ptr += inc_y;
+      y_ptr[0] += ar * temp_r1 - ai * temp_i1;
+      y_ptr[1] += ar * temp_i1 + ai * temp_r1;
 #else
-            y_ptr[0] += alpha_r * temp_r + alpha_i * temp_i;
-            y_ptr[1] -= alpha_r * temp_i - alpha_i * temp_r;
-            y_ptr += inc_y;
-            y_ptr[0] += alpha_r * temp_r1 + alpha_i * temp_i1;
-            y_ptr[1] -= alpha_r * temp_i1 - alpha_i * temp_r1;
+      y_ptr[0] += ar * temp_r + ai * temp_i;
+      y_ptr[1] -= ar * temp_i - ai * temp_r;
+      y_ptr += inc_y;
+      y_ptr[0] += ar * temp_r1 + ai * temp_i1;
+      y_ptr[1] -= ar * temp_i1 - ai * temp_r1;
 #endif
 
-            a_ptr += lda;
-            y_ptr += inc_y;
-            j += 2;
-        }
+      a_ptr += lda;
+      y_ptr += inc_y;
+      j += 2;
+    }
 
-        while (j < n) {
+    while (j < n) {
 #if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-            temp_r = a_ptr[0] * x0 - a_ptr[1] * x1;
-            temp_i = a_ptr[0] * x1 + a_ptr[1] * x0;
+      temp_r = a_ptr[0] * x0 - a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 + a_ptr[1] * x0;
 #else
 
-            temp_r = a_ptr[0] * x0 + a_ptr[1] * x1;
-            temp_i = a_ptr[0] * x1 - a_ptr[1] * x0;
+      temp_r = a_ptr[0] * x0 + a_ptr[1] * x1;
+      temp_i = a_ptr[0] * x1 - a_ptr[1] * x0;
 #endif
 
-#if !defined(XCONJ) 
-            y_ptr[0] += alpha_r * temp_r - alpha_i * temp_i;
-            y_ptr[1] += alpha_r * temp_i + alpha_i * temp_r;
+#if !defined(XCONJ)
+      y_ptr[0] += ar * temp_r - ai * temp_i;
+      y_ptr[1] += ar * temp_i + ai * temp_r;
 #else
-            y_ptr[0] += alpha_r * temp_r + alpha_i * temp_i;
-            y_ptr[1] -= alpha_r * temp_i - alpha_i * temp_r;
+      y_ptr[0] += ar * temp_r + ai * temp_i;
+      y_ptr[1] -= ar * temp_i - ai * temp_r;
 #endif
 
-            a_ptr += lda;
-            y_ptr += inc_y;
-            j++;
-        }
-        return (0);
+      a_ptr += lda;
+      y_ptr += inc_y;
+      j++;
     }
-
     return (0);
+  }
 
+  return (0);
 }
-
diff --git a/kernel/zarch/zrot.c b/kernel/zarch/zrot.c
index 380f0140e8..6284d5a474 100644
--- a/kernel/zarch/zrot.c
+++ b/kernel/zarch/zrot.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2017, The OpenBLAS Project
+Copyright (c) 2013-2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -27,235 +27,210 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 
 #include "common.h"
 
-static void   zrot_kernel_16(BLASLONG n, FLOAT *x, FLOAT *y, FLOAT cosA, FLOAT sinA)
-{
-          __asm__  (
-            "pfd    2, 0(%[ptr_x]) \n\t"
-            "pfd    2, 0(%[ptr_y]) \n\t"
-            "lgdr   %%r1,%[cos]    \n\t"
-            "vlvgp  %%v0,%%r1,%%r1 \n\t"
-            "lgdr   %%r1,%[sin]    \n\t"
-            "vlvgp  %%v1,%%r1,%%r1 \n\t"
-            "sllg   %[tmp],%[tmp],4    \n\t"
-            "xgr    %%r1,%%r1     \n\t"
-            ".align 16 \n\t"
-            "1:     \n\t"
-            "pfd    2, 256(%%r1,%[ptr_x]) \n\t"
-            "pfd    2, 256(%%r1,%[ptr_y]) \n\t"
-            "vl     %%v24,  0(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v25, 16(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v26, 32(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v27, 48(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v16,  0(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v17, 16(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v18, 32(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v19, 48(%%r1,%[ptr_y]) \n\t"  
-           
-            "vfmdb  %%v28,%%v24,%%v0 \n\t"
-            "vfmdb  %%v29,%%v25,%%v0 \n\t"
-            "vfmdb  %%v20,%%v24,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v21,%%v25,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v30,%%v26,%%v0 \n\t"
-            "vfmdb  %%v22,%%v26,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v31,%%v27,%%v0 \n\t"
-            "vfmdb  %%v23,%%v27,%%v1 \n\t" /* yn=x*s  */
-            /* 2nd parts*/
-            "vfmadb %%v28,%%v16,%%v1,%%v28 \n\t"  
-            "vfmsdb %%v20,%%v16,%%v0,%%v20 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v29,%%v17,%%v1,%%v29 \n\t"  
-            "vfmsdb %%v21,%%v17,%%v0,%%v21 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v30,%%v18,%%v1,%%v30 \n\t" 
-            "vfmsdb %%v22,%%v18,%%v0,%%v22 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v31,%%v19,%%v1,%%v31 \n\t" 
-            "vfmsdb %%v23,%%v19,%%v0,%%v23 \n\t"  /* yn=y*c-yn */
-
-            "vst    %%v28, 0(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v29, 16(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v30, 32(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v31, 48(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v20, 0(%%r1,%[ptr_y]) \n\t" 
-            "vst    %%v21, 16(%%r1,%[ptr_y]) \n\t" 
-            "vst    %%v22, 32(%%r1,%[ptr_y]) \n\t" 
-            "vst    %%v23, 48(%%r1,%[ptr_y]) \n\t"  
-           
-            "vl     %%v24, 64(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v25, 80(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v26, 96(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v27,112(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v16, 64(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v17, 80(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v18, 96(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v19,112(%%r1,%[ptr_y]) \n\t"  
-           
-            "vfmdb  %%v28,%%v24,%%v0 \n\t"
-            "vfmdb  %%v29,%%v25,%%v0 \n\t"
-            "vfmdb  %%v20,%%v24,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v21,%%v25,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v30,%%v26,%%v0 \n\t"
-            "vfmdb  %%v22,%%v26,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v31,%%v27,%%v0 \n\t"
-            "vfmdb  %%v23,%%v27,%%v1 \n\t" /* yn=x*s  */
-            /* 2nd parts*/
-            "vfmadb %%v28,%%v16,%%v1,%%v28 \n\t"  
-            "vfmsdb %%v20,%%v16,%%v0,%%v20 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v29,%%v17,%%v1,%%v29 \n\t"  
-            "vfmsdb %%v21,%%v17,%%v0,%%v21 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v30,%%v18,%%v1,%%v30 \n\t" 
-            "vfmsdb %%v22,%%v18,%%v0,%%v22 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v31,%%v19,%%v1,%%v31 \n\t" 
-            "vfmsdb %%v23,%%v19,%%v0,%%v23 \n\t"  /* yn=y*c-yn */
-
-            "vst    %%v28, 64(%%r1,%[ptr_x])  \n\t" 
-            "vst    %%v29, 80(%%r1,%[ptr_x])  \n\t" 
-            "vst    %%v30, 96(%%r1,%[ptr_x])  \n\t" 
-            "vst    %%v31, 112(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v20, 64(%%r1,%[ptr_y])  \n\t" 
-            "vst    %%v21, 80(%%r1,%[ptr_y])  \n\t" 
-            "vst    %%v22, 96(%%r1,%[ptr_y])  \n\t" 
-            "vst    %%v23, 112(%%r1,%[ptr_y]) \n\t"
-           
-            "vl     %%v24, 128(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v25, 144(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v26, 160(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v27, 176(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v16, 128(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v17, 144(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v18, 160(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v19, 176(%%r1,%[ptr_y]) \n\t"  
-           
-            "vfmdb  %%v28,%%v24,%%v0 \n\t"
-            "vfmdb  %%v29,%%v25,%%v0 \n\t"
-            "vfmdb  %%v20,%%v24,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v21,%%v25,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v30,%%v26,%%v0 \n\t"
-            "vfmdb  %%v22,%%v26,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v31,%%v27,%%v0 \n\t"
-            "vfmdb  %%v23,%%v27,%%v1 \n\t" /* yn=x*s  */
-            /* 2nd parts*/
-            "vfmadb %%v28,%%v16,%%v1,%%v28 \n\t"  
-            "vfmsdb %%v20,%%v16,%%v0,%%v20 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v29,%%v17,%%v1,%%v29 \n\t"  
-            "vfmsdb %%v21,%%v17,%%v0,%%v21 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v30,%%v18,%%v1,%%v30 \n\t" 
-            "vfmsdb %%v22,%%v18,%%v0,%%v22 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v31,%%v19,%%v1,%%v31 \n\t" 
-            "vfmsdb %%v23,%%v19,%%v0,%%v23 \n\t"  /* yn=y*c-yn */
-
-            "vst    %%v28, 128(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v29, 144(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v30, 160(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v31, 176(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v20, 128(%%r1,%[ptr_y]) \n\t" 
-            "vst    %%v21, 144(%%r1,%[ptr_y]) \n\t" 
-            "vst    %%v22, 160(%%r1,%[ptr_y]) \n\t" 
-            "vst    %%v23, 176(%%r1,%[ptr_y]) \n\t"  
-           
-            "vl     %%v24, 192(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v25, 208(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v26, 224(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v27, 240(%%r1,%[ptr_x]) \n\t" 
-            "vl     %%v16, 192(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v17, 208(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v18, 224(%%r1,%[ptr_y]) \n\t" 
-            "vl     %%v19, 240(%%r1,%[ptr_y]) \n\t"  
-           
-            "vfmdb  %%v28,%%v24,%%v0 \n\t"
-            "vfmdb  %%v29,%%v25,%%v0 \n\t"
-            "vfmdb  %%v20,%%v24,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v21,%%v25,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v30,%%v26,%%v0 \n\t"
-            "vfmdb  %%v22,%%v26,%%v1 \n\t" /* yn=x*s  */
-            "vfmdb  %%v31,%%v27,%%v0 \n\t"
-            "vfmdb  %%v23,%%v27,%%v1 \n\t" /* yn=x*s  */
-            /* 2nd parts*/
-            "vfmadb %%v28,%%v16,%%v1,%%v28 \n\t"  
-            "vfmsdb %%v20,%%v16,%%v0,%%v20 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v29,%%v17,%%v1,%%v29 \n\t"  
-            "vfmsdb %%v21,%%v17,%%v0,%%v21 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v30,%%v18,%%v1,%%v30 \n\t" 
-            "vfmsdb %%v22,%%v18,%%v0,%%v22 \n\t"  /* yn=y*c-yn */ 
-            "vfmadb %%v31,%%v19,%%v1,%%v31 \n\t" 
-            "vfmsdb %%v23,%%v19,%%v0,%%v23 \n\t"  /* yn=y*c-yn */
-
-            "vst    %%v28, 192(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v29, 208(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v30, 224(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v31, 240(%%r1,%[ptr_x]) \n\t" 
-            "vst    %%v20, 192(%%r1,%[ptr_y]) \n\t" 
-            "vst    %%v21, 208(%%r1,%[ptr_y]) \n\t" 
-            "vst    %%v22, 224(%%r1,%[ptr_y]) \n\t" 
-            "vst    %%v23, 240(%%r1,%[ptr_y]) \n\t"
-
-            "la    %%r1,256(%%r1) \n\t"
-            "clgrjl %%r1,%[tmp],1b        \n\t" 
-            : [mem_x] "+m" (*(double (*)[2*n])x),
-              [mem_y] "+m" (*(double (*)[2*n])y),
-              [tmp] "+&r"(n)
-            : [ptr_x] "a"(x), [ptr_y]  "a"(y),[cos] "f"(cosA),[sin] "f"(sinA) 
-            : "cc","r1" ,"v0","v1","v16",
-            "v17","v18","v19","v20","v21","v22","v23","v24","v25","v26","v27","v28","v29","v30","v31"
-            );
-      return;
-
+static void zrot_kernel_16(BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *c, FLOAT *s) {
+  __asm__("vlrepg %%v0,%[c]\n\t"
+    "vlrepg %%v1,%[s]\n\t"
+    "srlg   %[n],%[n],4\n\t"
+    "xgr    %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "pfd 2, 1024(%%r1,%[y])\n\t"
+    "vl  %%v24, 0(%%r1,%[x])\n\t"
+    "vl  %%v25, 16(%%r1,%[x])\n\t"
+    "vl  %%v26, 32(%%r1,%[x])\n\t"
+    "vl  %%v27, 48(%%r1,%[x])\n\t"
+    "vl  %%v16, 0(%%r1,%[y])\n\t"
+    "vl  %%v17, 16(%%r1,%[y])\n\t"
+    "vl  %%v18, 32(%%r1,%[y])\n\t"
+    "vl  %%v19, 48(%%r1,%[y])\n\t"
+    "vfmdb %%v28,%%v24,%%v0\n\t"
+    "vfmdb %%v29,%%v25,%%v0\n\t"
+    "vfmdb %%v20,%%v24,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v21,%%v25,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v30,%%v26,%%v0\n\t"
+    "vfmdb %%v22,%%v26,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v31,%%v27,%%v0\n\t"
+    "vfmdb %%v23,%%v27,%%v1\n\t" /* yn=x*s */
+    /* 2nd parts */
+    "vfmadb %%v28,%%v16,%%v1,%%v28\n\t"
+    "vfmsdb %%v20,%%v16,%%v0,%%v20\n\t" /* yn=y*c-yn */
+    "vfmadb %%v29,%%v17,%%v1,%%v29\n\t"
+    "vfmsdb %%v21,%%v17,%%v0,%%v21\n\t" /* yn=y*c-yn */
+    "vfmadb %%v30,%%v18,%%v1,%%v30\n\t"
+    "vfmsdb %%v22,%%v18,%%v0,%%v22\n\t" /* yn=y*c-yn */
+    "vfmadb %%v31,%%v19,%%v1,%%v31\n\t"
+    "vfmsdb %%v23,%%v19,%%v0,%%v23\n\t" /* yn=y*c-yn */
+    "vst  %%v28, 0(%%r1,%[x])\n\t"
+    "vst  %%v29, 16(%%r1,%[x])\n\t"
+    "vst  %%v30, 32(%%r1,%[x])\n\t"
+    "vst  %%v31, 48(%%r1,%[x])\n\t"
+    "vst  %%v20, 0(%%r1,%[y])\n\t"
+    "vst  %%v21, 16(%%r1,%[y])\n\t"
+    "vst  %%v22, 32(%%r1,%[y])\n\t"
+    "vst  %%v23, 48(%%r1,%[y])\n\t"
+    "vl  %%v24, 64(%%r1,%[x])\n\t"
+    "vl  %%v25, 80(%%r1,%[x])\n\t"
+    "vl  %%v26, 96(%%r1,%[x])\n\t"
+    "vl  %%v27, 112(%%r1,%[x])\n\t"
+    "vl  %%v16, 64(%%r1,%[y])\n\t"
+    "vl  %%v17, 80(%%r1,%[y])\n\t"
+    "vl  %%v18, 96(%%r1,%[y])\n\t"
+    "vl  %%v19, 112(%%r1,%[y])\n\t"
+    "vfmdb %%v28,%%v24,%%v0\n\t"
+    "vfmdb %%v29,%%v25,%%v0\n\t"
+    "vfmdb %%v20,%%v24,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v21,%%v25,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v30,%%v26,%%v0\n\t"
+    "vfmdb %%v22,%%v26,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v31,%%v27,%%v0\n\t"
+    "vfmdb %%v23,%%v27,%%v1\n\t" /* yn=x*s */
+    /* 2nd parts */
+    "vfmadb %%v28,%%v16,%%v1,%%v28\n\t"
+    "vfmsdb %%v20,%%v16,%%v0,%%v20\n\t" /* yn=y*c-yn */
+    "vfmadb %%v29,%%v17,%%v1,%%v29\n\t"
+    "vfmsdb %%v21,%%v17,%%v0,%%v21\n\t" /* yn=y*c-yn */
+    "vfmadb %%v30,%%v18,%%v1,%%v30\n\t"
+    "vfmsdb %%v22,%%v18,%%v0,%%v22\n\t" /* yn=y*c-yn */
+    "vfmadb %%v31,%%v19,%%v1,%%v31\n\t"
+    "vfmsdb %%v23,%%v19,%%v0,%%v23\n\t" /* yn=y*c-yn */
+    "vst  %%v28, 64(%%r1,%[x])\n\t"
+    "vst  %%v29, 80(%%r1,%[x])\n\t"
+    "vst  %%v30, 96(%%r1,%[x])\n\t"
+    "vst  %%v31, 112(%%r1,%[x])\n\t"
+    "vst  %%v20, 64(%%r1,%[y])\n\t"
+    "vst  %%v21, 80(%%r1,%[y])\n\t"
+    "vst  %%v22, 96(%%r1,%[y])\n\t"
+    "vst  %%v23, 112(%%r1,%[y])\n\t"
+    "vl  %%v24, 128(%%r1,%[x])\n\t"
+    "vl  %%v25, 144(%%r1,%[x])\n\t"
+    "vl  %%v26, 160(%%r1,%[x])\n\t"
+    "vl  %%v27, 176(%%r1,%[x])\n\t"
+    "vl  %%v16, 128(%%r1,%[y])\n\t"
+    "vl  %%v17, 144(%%r1,%[y])\n\t"
+    "vl  %%v18, 160(%%r1,%[y])\n\t"
+    "vl  %%v19, 176(%%r1,%[y])\n\t"
+    "vfmdb %%v28,%%v24,%%v0\n\t"
+    "vfmdb %%v29,%%v25,%%v0\n\t"
+    "vfmdb %%v20,%%v24,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v21,%%v25,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v30,%%v26,%%v0\n\t"
+    "vfmdb %%v22,%%v26,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v31,%%v27,%%v0\n\t"
+    "vfmdb %%v23,%%v27,%%v1\n\t" /* yn=x*s */
+    /* 2nd parts */
+    "vfmadb %%v28,%%v16,%%v1,%%v28\n\t"
+    "vfmsdb %%v20,%%v16,%%v0,%%v20\n\t" /* yn=y*c-yn */
+    "vfmadb %%v29,%%v17,%%v1,%%v29\n\t"
+    "vfmsdb %%v21,%%v17,%%v0,%%v21\n\t" /* yn=y*c-yn */
+    "vfmadb %%v30,%%v18,%%v1,%%v30\n\t"
+    "vfmsdb %%v22,%%v18,%%v0,%%v22\n\t" /* yn=y*c-yn */
+    "vfmadb %%v31,%%v19,%%v1,%%v31\n\t"
+    "vfmsdb %%v23,%%v19,%%v0,%%v23\n\t" /* yn=y*c-yn */
+    "vst  %%v28, 128(%%r1,%[x])\n\t"
+    "vst  %%v29, 144(%%r1,%[x])\n\t"
+    "vst  %%v30, 160(%%r1,%[x])\n\t"
+    "vst  %%v31, 176(%%r1,%[x])\n\t"
+    "vst  %%v20, 128(%%r1,%[y])\n\t"
+    "vst  %%v21, 144(%%r1,%[y])\n\t"
+    "vst  %%v22, 160(%%r1,%[y])\n\t"
+    "vst  %%v23, 176(%%r1,%[y])\n\t"
+    "vl  %%v24, 192(%%r1,%[x])\n\t"
+    "vl  %%v25, 208(%%r1,%[x])\n\t"
+    "vl  %%v26, 224(%%r1,%[x])\n\t"
+    "vl  %%v27, 240(%%r1,%[x])\n\t"
+    "vl  %%v16, 192(%%r1,%[y])\n\t"
+    "vl  %%v17, 208(%%r1,%[y])\n\t"
+    "vl  %%v18, 224(%%r1,%[y])\n\t"
+    "vl  %%v19, 240(%%r1,%[y])\n\t"
+    "vfmdb %%v28,%%v24,%%v0\n\t"
+    "vfmdb %%v29,%%v25,%%v0\n\t"
+    "vfmdb %%v20,%%v24,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v21,%%v25,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v30,%%v26,%%v0\n\t"
+    "vfmdb %%v22,%%v26,%%v1\n\t" /* yn=x*s */
+    "vfmdb %%v31,%%v27,%%v0\n\t"
+    "vfmdb %%v23,%%v27,%%v1\n\t" /* yn=x*s */
+    /* 2nd parts */
+    "vfmadb %%v28,%%v16,%%v1,%%v28\n\t"
+    "vfmsdb %%v20,%%v16,%%v0,%%v20\n\t" /* yn=y*c-yn */
+    "vfmadb %%v29,%%v17,%%v1,%%v29\n\t"
+    "vfmsdb %%v21,%%v17,%%v0,%%v21\n\t" /* yn=y*c-yn */
+    "vfmadb %%v30,%%v18,%%v1,%%v30\n\t"
+    "vfmsdb %%v22,%%v18,%%v0,%%v22\n\t" /* yn=y*c-yn */
+    "vfmadb %%v31,%%v19,%%v1,%%v31\n\t"
+    "vfmsdb %%v23,%%v19,%%v0,%%v23\n\t" /* yn=y*c-yn */
+    "vst  %%v28, 192(%%r1,%[x])\n\t"
+    "vst  %%v29, 208(%%r1,%[x])\n\t"
+    "vst  %%v30, 224(%%r1,%[x])\n\t"
+    "vst  %%v31, 240(%%r1,%[x])\n\t"
+    "vst  %%v20, 192(%%r1,%[y])\n\t"
+    "vst  %%v21, 208(%%r1,%[y])\n\t"
+    "vst  %%v22, 224(%%r1,%[y])\n\t"
+    "vst  %%v23, 240(%%r1,%[y])\n\t"
+    "agfi  %%r1,256\n\t"
+    "brctg %[n],0b"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) x),
+       "+m"(*(struct { FLOAT x[n * 2]; } *) y),[n] "+&r"(n)
+    : [x] "a"(x),[y] "a"(y),[c] "Q"(*c),[s] "Q"(*s)
+    : "cc", "r1", "v0", "v1", "v16", "v17", "v18", "v19", "v20", "v21",
+       "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
 }
 
-int CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT c, FLOAT s)
-{
-    BLASLONG i=0;
-    BLASLONG ix=0,iy=0;
-    FLOAT temp[2];
-    BLASLONG inc_x2;
-    BLASLONG inc_y2;
-
-    if ( n <= 0     )  return(0); 
-
-    if ( (inc_x == 1) && (inc_y == 1) )
-    {
+int CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y,
+          FLOAT c, FLOAT s) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
+  FLOAT temp[2];
+  BLASLONG inc_x2;
+  BLASLONG inc_y2;
+
+  if (n <= 0)
+    return (0);
+
+  if ((inc_x == 1) && (inc_y == 1)) {
+
+    BLASLONG n1 = n & -16;
+    if (n1 > 0) {
+      FLOAT cosa, sina;
+      cosa = c;
+      sina = s;
+      zrot_kernel_16(n1, x, y, &cosa, &sina);
+      i = n1;
+      ix = 2 * n1;
+    }
 
-        BLASLONG n1 = n & -16;
-        if ( n1 > 0 )
-        { 
-            zrot_kernel_16(n1, x, y, c, s);
-            i=n1; 
-            ix=2*n1; 
-        }
+    while (i < n) {
+      temp[0] = c * x[ix] + s * y[ix];
+      temp[1] = c * x[ix + 1] + s * y[ix + 1];
+      y[ix] = c * y[ix] - s * x[ix];
+      y[ix + 1] = c * y[ix + 1] - s * x[ix + 1];
+      x[ix] = temp[0];
+      x[ix + 1] = temp[1];
 
-         while(i < n)
-           {
-                temp[0]   = c*x[ix]   + s*y[ix] ;
-                temp[1]   = c*x[ix+1] + s*y[ix+1] ;
-                y[ix]     = c*y[ix]   - s*x[ix] ;
-                y[ix+1]   = c*y[ix+1] - s*x[ix+1] ;
-                x[ix]     = temp[0] ;
-                x[ix+1]   = temp[1] ;
+      ix += 2;
+      i++;
 
-                ix += 2 ; 
-                i++ ;
+    }
 
-            }
+  } else {
+    inc_x2 = 2 * inc_x;
+    inc_y2 = 2 * inc_y;
+    while (i < n) {
+      temp[0] = c * x[ix] + s * y[iy];
+      temp[1] = c * x[ix + 1] + s * y[iy + 1];
+      y[iy] = c * y[iy] - s * x[ix];
+      y[iy + 1] = c * y[iy + 1] - s * x[ix + 1];
+      x[ix] = temp[0];
+      x[ix + 1] = temp[1];
+
+      ix += inc_x2;
+      iy += inc_y2;
+      i++;
 
     }
-    else
-    {
-        inc_x2 = 2 * inc_x ;
-        inc_y2 = 2 * inc_y ;
-        while(i < n)
-        {
-            temp[0]   = c*x[ix]   + s*y[iy] ;
-            temp[1]   = c*x[ix+1] + s*y[iy+1] ;
-            y[iy]     = c*y[iy]   - s*x[ix] ;
-            y[iy+1]   = c*y[iy+1] - s*x[ix+1] ;
-            x[ix]     = temp[0] ;
-            x[ix+1]   = temp[1] ;
 
-            ix += inc_x2 ;
-            iy += inc_y2 ;
-            i++ ;
+  }
+  return (0);
 
-        }
-
-    }
-    return(0);
- 
 }
-
diff --git a/kernel/zarch/zscal.c b/kernel/zarch/zscal.c
index 4764c0a522..e497a6d7b9 100644
--- a/kernel/zarch/zscal.c
+++ b/kernel/zarch/zscal.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2013 - 2017, The OpenBLAS Project
+Copyright (c) 2013-2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -23,490 +23,403 @@ SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
 CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
 OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
- *****************************************************************************/
+*****************************************************************************/
 
 #include "common.h"
 
- 
-
-static void   zscal_kernel_8(BLASLONG n, FLOAT da_r,FLOAT da_i, FLOAT *x) {
-    BLASLONG tempR1 ;
-    __asm__ (
-             "pfd    2, 0(%[x_tmp]) \n\t" 
-#if !defined(CONJ)
-            "lgdr   %[t1],%[alpha_r]    \n\t" 
-            "vlvgp  %%v28,%[t1],%[t1]   \n\t" //load both from disjoint          
-            "lgdr   %[t1],%[alpha_i]    \n\t"  
-            "vlvgp  %%v29,%[t1],%[t1]   \n\t" //load both from disjoint   
-            "vflcdb %%v29,%%v29       \n\t" //complement both
-            "vlvgg  %%v29,%[t1],1     \n\t" //restore 2nd  so that  {-alpha_i, alpha_i}   
-
-#else
-            "lgdr   %[t1],%[alpha_i]    \n\t"  
-            "vlvgp  %%v29,%[t1],%[t1]   \n\t" //load both from disjoint        
-            "lgdr   %[t1],%[alpha_r]    \n\t" 
-            "vlvgp  %%v28,%[t1],%[t1]   \n\t" //load both from disjoint    
-            "vflcdb %%v28,%%v28         \n\t" //complement both
-            "vlvgg  %%v28,%[t1],0       \n\t" //restore 1st  so that  {alpha_r,-alpha_r}   
-#endif           
-                               
-            "xgr    %[t1],%[t1]        \n\t" 
-            "sllg   %[tmp],%[tmp],4    \n\t" 
-            "vl     %%v20 ,  0(%[t1],%[x_tmp])  \n\t" 
-            "vl     %%v21 , 16(%[t1],%[x_tmp])  \n\t" 
-            "vl     %%v22 , 32(%[t1],%[x_tmp])  \n\t" 
-            "vl     %%v23 , 48(%[t1],%[x_tmp])  \n\t"   
-                      
-            "lay  %[tmp],-64 (%[tmp]) \n\t" //tmp-=64 so that t1+64 can break tmp condition
-            "j 2f \n\t"
-            ".align 16 \n\t"
-            "1:     \n\t"
-  
-            "vpdi   %%v24 , %%v20, %%v20, 4     \n\t"
-            "vpdi   %%v25 , %%v21, %%v21, 4     \n\t"
-            "vpdi   %%v26 , %%v22, %%v22, 4     \n\t"
-            "vpdi   %%v27 , %%v23, %%v23, 4     \n\t" 
-            "vfmdb  %%v16,  %%v20, %%v28        \n\t"
-            "vfmdb  %%v17,  %%v21, %%v28        \n\t"
-            "vfmdb  %%v18,  %%v22, %%v28        \n\t"
-            "vfmdb  %%v19,  %%v23, %%v28        \n\t"
-            "vl     %%v20,  64(%[t1],%[x_tmp])  \n\t" 
-            "vl     %%v21,  80(%[t1],%[x_tmp])  \n\t" 
-            "vl     %%v22,  96(%[t1],%[x_tmp])  \n\t" 
-            "vl     %%v23, 112(%[t1],%[x_tmp])  \n\t" 
-            "vfmadb %%v16,  %%v24, %%v29, %%v16 \n\t"
-            "vfmadb %%v17,  %%v25, %%v29, %%v17 \n\t" 
-            "vfmadb %%v18,  %%v26, %%v29, %%v18 \n\t"
-            "vfmadb %%v19,  %%v27, %%v29, %%v19 \n\t"
-
-
-            "vst    %%v16 ,  0(%[t1],%[x_tmp])  \n\t" 
-            "vst    %%v17 , 16(%[t1],%[x_tmp])  \n\t" 
-            "vst    %%v18 , 32(%[t1],%[x_tmp])  \n\t" 
-            "vst    %%v19 , 48(%[t1],%[x_tmp])  \n\t"   
-    
-            "la     %[t1],64(%[t1] ) \n\t" 
-            "2:  \n\t" 
-            "pfd    2, 256(%[t1],%[x_tmp])  \n\t"  
-            "vpdi   %%v24 , %%v20, %%v20, 4     \n\t"
-            "vpdi   %%v25 , %%v21, %%v21, 4     \n\t"
-            "vpdi   %%v26 , %%v22, %%v22, 4     \n\t"
-            "vpdi   %%v27 , %%v23, %%v23, 4     \n\t" 
-
-            "vfmdb  %%v30,  %%v20, %%v28        \n\t"
-            "vfmdb  %%v31,  %%v21, %%v28        \n\t"
-            "vfmdb  %%v6,   %%v22, %%v28        \n\t"
-            "vfmdb  %%v7,   %%v23, %%v28       \n\t"
-
-            "vl     %%v20 , 64(%[t1],%[x_tmp])  \n\t" 
-            "vl     %%v21 , 80(%[t1],%[x_tmp])  \n\t"  
-            "vl     %%v22 , 96(%[t1],%[x_tmp])  \n\t" 
-            "vl     %%v23 ,112(%[t1],%[x_tmp])  \n\t" 
-
-            "vfmadb %%v30, %%v24, %%v29, %%v30  \n\t"
-            "vfmadb %%v31, %%v25, %%v29, %%v31  \n\t"
-            "vfmadb %%v6,  %%v26, %%v29, %%v6   \n\t"
-            "vfmadb %%v7,  %%v27, %%v29, %%v7   \n\t"
-
-
-            "vst    %%v30 ,  0(%[t1],%[x_tmp])  \n\t" 
-            "vst    %%v31 , 16(%[t1],%[x_tmp])  \n\t" 
-            "vst    %%v6 ,  32(%[t1],%[x_tmp])  \n\t" 
-            "vst    %%v7 ,  48(%[t1],%[x_tmp])  \n\t"  
- 
-            "la     %[t1],64(%[t1] ) \n\t"
-          
-
-             "clgrjl %[t1],%[tmp],1b         \n\t"   
-//----------------------------------------------------------------------
-            "vfmdb  %%v16,  %%v20, %%v28        \n\t"
-            "vfmdb  %%v17,  %%v21, %%v28        \n\t"
-            "vfmdb  %%v18,  %%v22, %%v28        \n\t"
-            "vfmdb  %%v19,  %%v23, %%v28        \n\t"
-            "vpdi   %%v24 , %%v20, %%v20, 4     \n\t"
-            "vpdi   %%v25 , %%v21, %%v21, 4     \n\t" 
-            "vpdi   %%v26 , %%v22, %%v22, 4     \n\t"
-            "vpdi   %%v27 , %%v23, %%v23, 4     \n\t"             
-            "vfmadb %%v16,  %%v24, %%v29, %%v16 \n\t"
-            "vfmadb %%v17,  %%v25, %%v29, %%v17 \n\t"
-            "vfmadb %%v18,  %%v26, %%v29, %%v18 \n\t"
-            "vfmadb %%v19,  %%v27, %%v29, %%v19 \n\t"
-
-            "vst   %%v16 ,  0(%[t1],%[x_tmp])   \n\t" 
-            "vst   %%v17 , 16(%[t1],%[x_tmp])   \n\t" 
-            "vst   %%v18 , 32(%[t1],%[x_tmp])   \n\t" 
-            "vst   %%v19 , 48(%[t1],%[x_tmp])   \n\t"   
-
-            : [mem_x] "+m" (*(double (*)[2*n])x),[tmp]"+&r"(n) ,  [t1] "=&a" (tempR1) 
-            : [x_tmp] "a"(x),  [alpha_r] "f"(da_r),[alpha_i] "f"(da_i)
-            : "cc",  "v6","v7", "v16",
-            "v17","v18","v19","v20","v21","v22","v23","v24","v25","v26","v27","v28","v29","v30","v31"
-            );
-            
-
-
+static void zscal_kernel_8(BLASLONG n, FLOAT *alpha, FLOAT *x) {
+  __asm__("vlrepg %%v0,0(%[alpha])\n\t"
+    "vleg   %%v1,8(%[alpha]),0\n\t"
+    "wflcdb %%v1,%%v1\n\t"
+    "vleg   %%v1,8(%[alpha]),1\n\t"
+    "srlg %[n],%[n],3\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "vl   %%v16,0(%%r1,%[x])\n\t"
+    "vl   %%v17,16(%%r1,%[x])\n\t"
+    "vl   %%v18,32(%%r1,%[x])\n\t"
+    "vl   %%v19,48(%%r1,%[x])\n\t"
+    "vl   %%v20,64(%%r1,%[x])\n\t"
+    "vl   %%v21,80(%%r1,%[x])\n\t"
+    "vl   %%v22,96(%%r1,%[x])\n\t"
+    "vl   %%v23,112(%%r1,%[x])\n\t"
+    "vpdi %%v24,%%v16,%%v16,4\n\t"
+    "vpdi %%v25,%%v17,%%v17,4\n\t"
+    "vpdi %%v26,%%v18,%%v18,4\n\t"
+    "vpdi %%v27,%%v19,%%v19,4\n\t"
+    "vpdi %%v28,%%v20,%%v20,4\n\t"
+    "vpdi %%v29,%%v21,%%v21,4\n\t"
+    "vpdi %%v30,%%v22,%%v22,4\n\t"
+    "vpdi %%v31,%%v23,%%v23,4\n\t"
+    "vfmdb %%v16,%%v16,%%v0\n\t"
+    "vfmdb %%v17,%%v17,%%v0\n\t"
+    "vfmdb %%v18,%%v18,%%v0\n\t"
+    "vfmdb %%v19,%%v19,%%v0\n\t"
+    "vfmdb %%v20,%%v20,%%v0\n\t"
+    "vfmdb %%v21,%%v21,%%v0\n\t"
+    "vfmdb %%v22,%%v22,%%v0\n\t"
+    "vfmdb %%v23,%%v23,%%v0\n\t"
+    "vfmadb %%v16,%%v24,%%v1,%%v16\n\t"
+    "vfmadb %%v17,%%v25,%%v1,%%v17\n\t"
+    "vfmadb %%v18,%%v26,%%v1,%%v18\n\t"
+    "vfmadb %%v19,%%v27,%%v1,%%v19\n\t"
+    "vfmadb %%v20,%%v28,%%v1,%%v20\n\t"
+    "vfmadb %%v21,%%v29,%%v1,%%v21\n\t"
+    "vfmadb %%v22,%%v30,%%v1,%%v22\n\t"
+    "vfmadb %%v23,%%v31,%%v1,%%v23\n\t"
+    "vst %%v16,0(%%r1,%[x])\n\t"
+    "vst %%v17,16(%%r1,%[x])\n\t"
+    "vst %%v18,32(%%r1,%[x])\n\t"
+    "vst %%v19,48(%%r1,%[x])\n\t"
+    "vst %%v20,64(%%r1,%[x])\n\t"
+    "vst %%v21,80(%%r1,%[x])\n\t"
+    "vst %%v22,96(%%r1,%[x])\n\t"
+    "vst %%v23,112(%%r1,%[x])\n\t"
+    "agfi  %%r1,128\n\t"
+    "brctg %[n],0b"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) x),[n] "+&r"(n)
+    : [x] "a"(x), "m"(*(const struct { FLOAT x[2]; } *) alpha),
+       [alpha] "a"(alpha)
+    : "cc", "r1", "v0", "v1", "v16", "v17", "v18", "v19", "v20", "v21",
+       "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
+       "v31");
 }
- 
-static void   zscal_kernel_8_zero_r(BLASLONG n, FLOAT da_i, FLOAT *x) {
- 
-        __asm__ (   "pfd    2, 0(%1)          \n\t" 
-                    "lgdr   %%r0,%[alpha]     \n\t"
-                    "vlvgp  %%v16,%%r0,%%r0   \n\t" //load both from disjoint
-                    "vflcdb %%v16,%%v16       \n\t" //complement both
-                    "vlvgg  %%v16,%%r0,0      \n\t" //restore 1st                   
-                    "vlr    %%v17 ,%%v16      \n\t" 
-                    "sllg   %%r0,%[n],4       \n\t"  
-                    "agr    %%r0,%[x_ptr]     \n\t"
-                    ".align 16    \n\t"    
-                    "1:     \n\t"  
-                    "vl     %%v24, 0(%[x_ptr])      \n\t"
-                    "vfmdb  %%v24,%%v24,%%v16        \n\t"
-                    "vsteg  %%v24, 0(%[x_ptr]),1    \n\t" 
-                    "vsteg  %%v24, 8(%[x_ptr]),0    \n\t" 
-                    "vl     %%v25, 16(%[x_ptr])     \n\t"
-                    "vfmdb  %%v25,%%v25,%%v17        \n\t"  
-                    "vsteg  %%v25, 16(%[x_ptr]),1   \n\t" 
-                    "vsteg  %%v25, 24(%[x_ptr]),0   \n\t" 
-                    "vl     %%v26, 32(%[x_ptr])     \n\t"
-                    "vfmdb  %%v26,%%v26,%%v16       \n\t"
-                    "vsteg  %%v26, 32(%[x_ptr]),1   \n\t" 
-                    "vsteg  %%v26, 40(%[x_ptr]),0   \n\t"   
-                    "vl     %%v27, 48(%[x_ptr])     \n\t" 
-                    "vfmdb  %%v27,%%v27,%%v17 \n\t"  
-                    "vsteg  %%v27, 48(%[x_ptr]),1   \n\t" 
-                    "vsteg  %%v27, 56(%[x_ptr]),0   \n\t" 
-                    "vl     %%v28, 64(%[x_ptr])     \n\t"
-                    "vfmdb  %%v28,%%v28,%%v16        \n\t"
-                    "vsteg  %%v28, 64(%[x_ptr]),1   \n\t" 
-                    "vsteg  %%v28, 72(%[x_ptr]),0   \n\t" 
-                    "vl     %%v29, 80(%[x_ptr])     \n\t"
-                    "vfmdb  %%v29,%%v29,%%v17        \n\t"  
-                    "vsteg  %%v29, 80(%[x_ptr]),1   \n\t" 
-                    "vsteg  %%v29, 88(%[x_ptr]),0   \n\t" 
-                    "vl     %%v30, 96(%[x_ptr])     \n\t"
-                    "vfmdb  %%v30,%%v30,%%v16       \n\t"
-                    "vsteg  %%v30,  96(%[x_ptr]),1  \n\t" 
-                    "vsteg  %%v30, 104(%[x_ptr]),0  \n\t"  
-                    "vl     %%v31, 112(%[x_ptr])    \n\t" 
-                    "vfmdb  %%v31,%%v31,%%v17 \n\t"  
-                    "vsteg  %%v31, 112(%[x_ptr]),1  \n\t" 
-                    "vsteg  %%v31, 120(%[x_ptr]),0  \n\t" 
-                    "la     %[x_ptr],128(%[x_ptr])  \n\t"
-                    "clgrjl %[x_ptr],%%r0,1b \n\t"
-                    : [mem] "+m" (*(double (*)[2*n])x) ,[x_ptr] "+&a"(x)
-                    : [n] "r"(n),[alpha] "f"(da_i)
-                    :"cc", "r0","f0", "f1","v16","v17" ,"v24","v25","v26","v27","v28","v29","v30","v31" 
-                 );
-
 
+static void zscal_kernel_8_zero_r(BLASLONG n, FLOAT *alpha, FLOAT *x) {
+  __asm__("vleg   %%v0,8(%[alpha]),0\n\t"
+    "wflcdb %%v0,%%v0\n\t"
+    "vleg   %%v0,8(%[alpha]),1\n\t"
+    "srlg %[n],%[n],3\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "vl   %%v16,0(%%r1,%[x])\n\t"
+    "vl   %%v17,16(%%r1,%[x])\n\t"
+    "vl   %%v18,32(%%r1,%[x])\n\t"
+    "vl   %%v19,48(%%r1,%[x])\n\t"
+    "vl   %%v20,64(%%r1,%[x])\n\t"
+    "vl   %%v21,80(%%r1,%[x])\n\t"
+    "vl   %%v22,96(%%r1,%[x])\n\t"
+    "vl   %%v23,112(%%r1,%[x])\n\t"
+    "vpdi %%v16,%%v16,%%v16,4\n\t"
+    "vpdi %%v17,%%v17,%%v17,4\n\t"
+    "vpdi %%v18,%%v18,%%v18,4\n\t"
+    "vpdi %%v19,%%v19,%%v19,4\n\t"
+    "vpdi %%v20,%%v20,%%v20,4\n\t"
+    "vpdi %%v21,%%v21,%%v21,4\n\t"
+    "vpdi %%v22,%%v22,%%v22,4\n\t"
+    "vpdi %%v23,%%v23,%%v23,4\n\t"
+    "vfmdb %%v16,%%v16,%%v0\n\t"
+    "vfmdb %%v17,%%v17,%%v0\n\t"
+    "vfmdb %%v18,%%v18,%%v0\n\t"
+    "vfmdb %%v19,%%v19,%%v0\n\t"
+    "vfmdb %%v20,%%v20,%%v0\n\t"
+    "vfmdb %%v21,%%v21,%%v0\n\t"
+    "vfmdb %%v22,%%v22,%%v0\n\t"
+    "vfmdb %%v23,%%v23,%%v0\n\t"
+    "vst %%v16,0(%%r1,%[x])\n\t"
+    "vst %%v17,16(%%r1,%[x])\n\t"
+    "vst %%v18,32(%%r1,%[x])\n\t"
+    "vst %%v19,48(%%r1,%[x])\n\t"
+    "vst %%v20,64(%%r1,%[x])\n\t"
+    "vst %%v21,80(%%r1,%[x])\n\t"
+    "vst %%v22,96(%%r1,%[x])\n\t"
+    "vst %%v23,112(%%r1,%[x])\n\t"
+    "agfi  %%r1,128\n\t"
+    "brctg %[n],0b"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) x),[n] "+&r"(n)
+    : [x] "a"(x), "m"(*(const struct { FLOAT x[2]; } *) alpha),
+       [alpha] "a"(alpha)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23");
 }
 
-static void   zscal_kernel_8_zero_i(BLASLONG n, FLOAT da_r, FLOAT *x) {
-           __asm__ ("pfd    2, 0(%[x_ptr])     \n\t"      
-                    "lgdr   %%r0,%[alpha]      \n\t"
-                    "vlvgp  %%v18,%%r0,%%r0    \n\t"
-                    "vlr    %%v19,%%v18        \n\t"
-                    "vlr    %%v16,%%v18        \n\t"
-                    "vlr    %%v17,%%v18        \n\t" 
-                    "sllg   %%r0,%[n],4        \n\t"  
-                    "agr    %%r0,%[x_ptr]      \n\t"
-                    ".align 16 \n\t"    
-                    "1:    \n\t"  
-                    "vl     %%v24, 0(%[x_ptr])  \n\t"
-                    "vfmdb  %%v24,%%v24,%%v18   \n\t"
-                    "vst    %%v24, 0(%[x_ptr])  \n\t" 
-                    "vl     %%v25, 16(%[x_ptr]) \n\t"
-                    "vfmdb  %%v25,%%v25,%%v19   \n\t"  
-                    "vst    %%v25, 16(%[x_ptr]) \n\t" 
-                    "vl     %%v26, 32(%[x_ptr]) \n\t"
-                    "vfmdb  %%v26,%%v26,%%v16   \n\t"
-                    "vst    %%v26, 32(%[x_ptr]) \n\t"  
-                    "vl     %%v27, 48(%[x_ptr]) \n\t" 
-                    "vfmdb  %%v27,%%v27,%%v17   \n\t"  
-                    "vst    %%v27, 48(%[x_ptr]) \n\t"  
-                    "vl     %%v28, 64(%[x_ptr]) \n\t"
-                    "vfmdb  %%v28,%%v28,%%v18   \n\t"
-                    "vst    %%v28, 64(%[x_ptr]) \n\t" 
-                    "vl     %%v29, 80(%[x_ptr]) \n\t"
-                    "vfmdb  %%v29,%%v29,%%v19   \n\t"  
-                    "vst    %%v29, 80(%[x_ptr]) \n\t" 
-                    "vl     %%v30, 96(%[x_ptr]) \n\t"
-                    "vfmdb  %%v30,%%v30,%%v16   \n\t"
-                    "vst    %%v30, 96(%[x_ptr]) \n\t"  
-                    "vl     %%v31,112(%[x_ptr]) \n\t" 
-                    "vfmdb  %%v31,%%v31,%%v17   \n\t"  
-                    "vst    %%v31,112(%[x_ptr]) \n\t"
-                    "la     %[x_ptr],128(%[x_ptr])   \n\t"
-                    "clgrjl %[x_ptr],%%r0,1b    \n\t"
-                    : [mem] "+m" (*(double (*)[2*n])x) ,[x_ptr] "+&a"(x)
-                    : [n] "r"(n),[alpha] "f"(da_r)
-                    : "cc", "r0","v16", "v17","v18","v19","v24","v25","v26","v27","v28","v29","v30","v31" 
-                 );
-
+static void zscal_kernel_8_zero_i(BLASLONG n, FLOAT *alpha, FLOAT *x) {
+  __asm__("vlrepg %%v0,0(%[alpha])\n\t"
+    "srlg %[n],%[n],3\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "vl   %%v16,0(%%r1,%[x])\n\t"
+    "vl   %%v17,16(%%r1,%[x])\n\t"
+    "vl   %%v18,32(%%r1,%[x])\n\t"
+    "vl   %%v19,48(%%r1,%[x])\n\t"
+    "vl   %%v20,64(%%r1,%[x])\n\t"
+    "vl   %%v21,80(%%r1,%[x])\n\t"
+    "vl   %%v22,96(%%r1,%[x])\n\t"
+    "vl   %%v23,112(%%r1,%[x])\n\t"
+    "vfmdb %%v16,%%v16,%%v0\n\t"
+    "vfmdb %%v17,%%v17,%%v0\n\t"
+    "vfmdb %%v18,%%v18,%%v0\n\t"
+    "vfmdb %%v19,%%v19,%%v0\n\t"
+    "vfmdb %%v20,%%v20,%%v0\n\t"
+    "vfmdb %%v21,%%v21,%%v0\n\t"
+    "vfmdb %%v22,%%v22,%%v0\n\t"
+    "vfmdb %%v23,%%v23,%%v0\n\t"
+    "vst %%v16,0(%%r1,%[x])\n\t"
+    "vst %%v17,16(%%r1,%[x])\n\t"
+    "vst %%v18,32(%%r1,%[x])\n\t"
+    "vst %%v19,48(%%r1,%[x])\n\t"
+    "vst %%v20,64(%%r1,%[x])\n\t"
+    "vst %%v21,80(%%r1,%[x])\n\t"
+    "vst %%v22,96(%%r1,%[x])\n\t"
+    "vst %%v23,112(%%r1,%[x])\n\t"
+    "agfi  %%r1,128\n\t"
+    "brctg %[n],0b"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) x),[n] "+&r"(n)
+    : [x] "a"(x), "m"(*(const struct { FLOAT x[2]; } *) alpha),
+       [alpha] "a"(alpha)
+    : "cc", "r1", "v0", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
+       "v23");
 }
 
-static void  zscal_kernel_8_zero(BLASLONG n,  FLOAT *x) {
-
-     __asm__ (      "pfd 2, 0(%[x_ptr])    \n\t"      
-                    "vzero %%v24     \n\t"
-                    "vzero %%v25     \n\t"
-                    "vzero %%v26     \n\t"
-                    "vzero %%v27     \n\t" 
-                    "sllg  %%r0,%[n],4 \n\t"  
-                    "agr   %%r0,%[x_ptr]   \n\t"
-                    ".align 16 \n\t"    
-                    "1: \n\t" 
-                    "pfd     2, 256( %[x_ptr])  \n\t"     
-                    "vst  %%v24,  0( %[x_ptr])  \n\t" 
-                    "vst  %%v25, 16( %[x_ptr])  \n\t" 
-                    "vst  %%v26, 32( %[x_ptr])  \n\t"   
-                    "vst  %%v27, 48( %[x_ptr])  \n\t"  
-                    "vst  %%v24, 64( %[x_ptr])  \n\t" 
-                    "vst  %%v25, 80( %[x_ptr])  \n\t" 
-                    "vst  %%v26, 96( %[x_ptr])  \n\t"  
-                    "vst  %%v27,112( %[x_ptr])  \n\t"  
-              
-                    "la     %[x_ptr],128(%[x_ptr]) \n\t"
-                    "clgrjl %[x_ptr],%%r0,1b \n\t"
-                    : [mem] "+m" (*(double (*)[2*n])x),[x_ptr] "+&a"(x) 
-                    : [n] "r"(n)
-                    :"cc" ,"r0","v24","v25","v26","v27"
-                 );
-
+static void zscal_kernel_8_zero(BLASLONG n, FLOAT *x) {
+  __asm__("vzero %%v0\n\t"
+    "srlg %[n],%[n],3\n\t"
+    "xgr   %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "vst  %%v0,0(%%r1,%[x])\n\t"
+    "vst  %%v0,16(%%r1,%[x])\n\t"
+    "vst  %%v0,32(%%r1,%[x])\n\t"
+    "vst  %%v0,48(%%r1,%[x])\n\t"
+    "vst  %%v0,64(%%r1,%[x])\n\t"
+    "vst  %%v0,80(%%r1,%[x])\n\t"
+    "vst  %%v0,96(%%r1,%[x])\n\t"
+    "vst  %%v0,112(%%r1,%[x])\n\t"
+    "agfi  %%r1,128\n\t"
+    "brctg %[n],0b"
+    : "=m"(*(struct { FLOAT x[n * 2]; } *) x),[n] "+&r"(n)
+    : [x] "a"(x)
+    : "cc", "r1", "v0");
 }
 
-
-
-
-
-static void zscal_kernel_inc_8(BLASLONG n, FLOAT da_r,FLOAT da_i, FLOAT *x, BLASLONG inc_x) {
-
-    BLASLONG i;
-    BLASLONG inc_x2 = 2 * inc_x;
-    BLASLONG inc_x3 = inc_x2 + inc_x;
-    FLOAT t0, t1, t2, t3; 
-
-    for (i = 0; i < n; i += 4) {
-        t0 = da_r * x[0] - da_i * x[1];
-        t1 = da_r * x[inc_x] - da_i * x[inc_x + 1];
-        t2 = da_r * x[inc_x2] - da_i * x[inc_x2 + 1];
-        t3 = da_r * x[inc_x3] - da_i * x[inc_x3 + 1];
-
-        x[1] = da_i * x[0] + da_r * x[1];
-        x[inc_x + 1] = da_i * x[inc_x] + da_r * x[inc_x + 1];
-        x[inc_x2 + 1] = da_i * x[inc_x2] + da_r * x[inc_x2 + 1];
-        x[inc_x3 + 1] = da_i * x[inc_x3] + da_r * x[inc_x3 + 1];
-
-        x[0] = t0;
-        x[inc_x] = t1;
-        x[inc_x2] = t2;
-        x[inc_x3] = t3;
-
-        x += 4 * inc_x;
-
-    }
-
-
+static void zscal_kernel_inc_8(BLASLONG n, FLOAT *alpha, FLOAT *x,
+                               BLASLONG inc_x) {
+  BLASLONG i;
+  BLASLONG inc_x2 = 2 * inc_x;
+  BLASLONG inc_x3 = inc_x2 + inc_x;
+  FLOAT t0, t1, t2, t3;
+  FLOAT da_r = alpha[0];
+  FLOAT da_i = alpha[1];
+
+  for (i = 0; i < n; i += 4) {
+    t0 = da_r * x[0] - da_i * x[1];
+    t1 = da_r * x[inc_x] - da_i * x[inc_x + 1];
+    t2 = da_r * x[inc_x2] - da_i * x[inc_x2 + 1];
+    t3 = da_r * x[inc_x3] - da_i * x[inc_x3 + 1];
+
+    x[1] = da_i * x[0] + da_r * x[1];
+    x[inc_x + 1] = da_i * x[inc_x] + da_r * x[inc_x + 1];
+    x[inc_x2 + 1] = da_i * x[inc_x2] + da_r * x[inc_x2 + 1];
+    x[inc_x3 + 1] = da_i * x[inc_x3] + da_r * x[inc_x3 + 1];
+
+    x[0] = t0;
+    x[inc_x] = t1;
+    x[inc_x2] = t2;
+    x[inc_x3] = t3;
+
+    x += 4 * inc_x;
+  }
 }
 
-int CNAME(BLASLONG n, BLASLONG dummy0, BLASLONG dummy1, FLOAT da_r, FLOAT da_i, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *dummy, BLASLONG dummy2) {
-    BLASLONG i = 0, j = 0;
-    FLOAT temp0;
-    FLOAT temp1;
-
+int CNAME(BLASLONG n, BLASLONG dummy0, BLASLONG dummy1, FLOAT da_r, FLOAT da_i,
+          FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *dummy,
+          BLASLONG dummy2) {
+  BLASLONG i = 0, j = 0;
+  FLOAT temp0;
+  FLOAT temp1;
+  FLOAT alpha[2] __attribute__ ((aligned(16)));
 
-    if (inc_x != 1) {
-        inc_x <<= 1;
+  if (inc_x != 1) {
+    inc_x <<= 1;
 
-        if (da_r == 0.0) {
-
-            BLASLONG n1 = n & -2;
-
-            if (da_i == 0.0) {
-
-                while (j < n1) {
-
-                    x[i] = 0.0;
-                    x[i + 1] = 0.0;
-                    x[i + inc_x] = 0.0;
-                    x[i + 1 + inc_x] = 0.0;
-                    i += 2 * inc_x;
-                    j += 2;
-
-                }
+    if (da_r == 0.0) {
 
-                while (j < n) {
+      BLASLONG n1 = n & -2;
 
-                    x[i] = 0.0;
-                    x[i + 1] = 0.0;
-                    i += inc_x;
-                    j++;
+      if (da_i == 0.0) {
 
-                }
+        while (j < n1) {
 
-            } else {
+          x[i] = 0.0;
+          x[i + 1] = 0.0;
+          x[i + inc_x] = 0.0;
+          x[i + 1 + inc_x] = 0.0;
+          i += 2 * inc_x;
+          j += 2;
 
-                while (j < n1) {
+        }
 
-                    temp0 = -da_i * x[i + 1];
-                    x[i + 1] = da_i * x[i];
-                    x[i] = temp0;
-                    temp1 = -da_i * x[i + 1 + inc_x];
-                    x[i + 1 + inc_x] = da_i * x[i + inc_x];
-                    x[i + inc_x] = temp1;
-                    i += 2 * inc_x;
-                    j += 2;
+        while (j < n) {
 
-                }
+          x[i] = 0.0;
+          x[i + 1] = 0.0;
+          i += inc_x;
+          j++;
 
-                while (j < n) {
+        }
 
-                    temp0 = -da_i * x[i + 1];
-                    x[i + 1] = da_i * x[i];
-                    x[i] = temp0;
-                    i += inc_x;
-                    j++;
+      } else {
 
-                }
+        while (j < n1) {
 
+          temp0 = -da_i * x[i + 1];
+          x[i + 1] = da_i * x[i];
+          x[i] = temp0;
+          temp1 = -da_i * x[i + 1 + inc_x];
+          x[i + 1 + inc_x] = da_i * x[i + inc_x];
+          x[i + inc_x] = temp1;
+          i += 2 * inc_x;
+          j += 2;
 
+        }
 
-            }
+        while (j < n) {
 
-        } else {
+          temp0 = -da_i * x[i + 1];
+          x[i + 1] = da_i * x[i];
+          x[i] = temp0;
+          i += inc_x;
+          j++;
 
+        }
 
-            if (da_i == 0.0) {
-                BLASLONG n1 = n & -2;
+      }
 
-                while (j < n1) {
+    } else {
 
-                    temp0 = da_r * x[i];
-                    x[i + 1] = da_r * x[i + 1];
-                    x[i] = temp0;
-                    temp1 = da_r * x[i + inc_x];
-                    x[i + 1 + inc_x] = da_r * x[i + 1 + inc_x];
-                    x[i + inc_x] = temp1;
-                    i += 2 * inc_x;
-                    j += 2;
+      if (da_i == 0.0) {
+        BLASLONG n1 = n & -2;
 
-                }
+        while (j < n1) {
 
-                while (j < n) {
+          temp0 = da_r * x[i];
+          x[i + 1] = da_r * x[i + 1];
+          x[i] = temp0;
+          temp1 = da_r * x[i + inc_x];
+          x[i + 1 + inc_x] = da_r * x[i + 1 + inc_x];
+          x[i + inc_x] = temp1;
+          i += 2 * inc_x;
+          j += 2;
 
-                    temp0 = da_r * x[i];
-                    x[i + 1] = da_r * x[i + 1];
-                    x[i] = temp0;
-                    i += inc_x;
-                    j++;
+        }
 
-                }
+        while (j < n) {
 
-            } else {
+          temp0 = da_r * x[i];
+          x[i + 1] = da_r * x[i + 1];
+          x[i] = temp0;
+          i += inc_x;
+          j++;
 
-                BLASLONG n1 = n & -8;
-                if (n1 > 0) { 
-                    zscal_kernel_inc_8(n1, da_r,da_i, x, inc_x);
-                    j = n1;
-                    i = n1 * inc_x;
-                }
+        }
 
-                while (j < n) {
+      } else {
 
-                    temp0 = da_r * x[i] - da_i * x[i + 1];
-                    x[i + 1] = da_r * x[i + 1] + da_i * x[i];
-                    x[i] = temp0;
-                    i += inc_x;
-                    j++;
+        BLASLONG n1 = n & -8;
+        if (n1 > 0) {
+          alpha[0] = da_r;
+          alpha[1] = da_i;
+          zscal_kernel_inc_8(n1, alpha, x, inc_x);
+          j = n1;
+          i = n1 * inc_x;
+        }
 
-                }
+        while (j < n) {
 
-            }
+          temp0 = da_r * x[i] - da_i * x[i + 1];
+          x[i + 1] = da_r * x[i + 1] + da_i * x[i];
+          x[i] = temp0;
+          i += inc_x;
+          j++;
 
         }
 
-        return (0);
-    }
-
+      }
 
-    BLASLONG n1 = n & -8;
-    if (n1 > 0) {
+    }
 
+    return (0);
+  }
 
-        if (da_r == 0.0)
-            if (da_i == 0)
-                zscal_kernel_8_zero(n1,  x);
-            else
-                zscal_kernel_8_zero_r(n1, da_i, x);
-        else
-            if (da_i == 0)
-            zscal_kernel_8_zero_i(n1, da_r, x);
-        else
-            zscal_kernel_8(n1, da_r,da_i, x);
+  BLASLONG n1 = n & -8;
+  if (n1 > 0) {
 
-        i = n1 << 1;
-        j = n1;
-    }
+    alpha[0] = da_r;
+    alpha[1] = da_i;
 
+    if (da_r == 0.0)
+      if (da_i == 0)
+        zscal_kernel_8_zero(n1, x);
+      else
+        zscal_kernel_8_zero_r(n1, alpha, x);
+    else if (da_i == 0)
+      zscal_kernel_8_zero_i(n1, alpha, x);
+    else
+      zscal_kernel_8(n1, alpha, x);
 
-    if (da_r == 0.0) {
+    i = n1 << 1;
+    j = n1;
+  }
 
-        if (da_i == 0.0) {
+  if (da_r == 0.0) {
 
-            while (j < n) {
+    if (da_i == 0.0) {
 
-                x[i] = 0.0;
-                x[i + 1] = 0.0;
-                i += 2;
-                j++;
+      while (j < n) {
 
-            }
+        x[i] = 0.0;
+        x[i + 1] = 0.0;
+        i += 2;
+        j++;
 
-        } else {
+      }
 
-            while (j < n) {
+    } else {
 
-                temp0 = -da_i * x[i + 1];
-                x[i + 1] = da_i * x[i];
-                x[i] = temp0;
-                i += 2;
-                j++;
+      while (j < n) {
 
-            }
+        temp0 = -da_i * x[i + 1];
+        x[i + 1] = da_i * x[i];
+        x[i] = temp0;
+        i += 2;
+        j++;
 
-        }
+      }
 
-    } else {
+    }
 
-        if (da_i == 0.0) {
+  } else {
 
-            while (j < n) {
+    if (da_i == 0.0) {
 
-                temp0 = da_r * x[i];
-                x[i + 1] = da_r * x[i + 1];
-                x[i] = temp0;
-                i += 2;
-                j++;
+      while (j < n) {
 
-            }
+        temp0 = da_r * x[i];
+        x[i + 1] = da_r * x[i + 1];
+        x[i] = temp0;
+        i += 2;
+        j++;
 
-        } else {
+      }
 
-            while (j < n) {
+    } else {
 
-                temp0 = da_r * x[i] - da_i * x[i + 1];
-                x[i + 1] = da_r * x[i + 1] + da_i * x[i];
-                x[i] = temp0;
-                i += 2;
-                j++;
+      while (j < n) {
 
-            }
+        temp0 = da_r * x[i] - da_i * x[i + 1];
+        x[i + 1] = da_r * x[i + 1] + da_i * x[i];
+        x[i] = temp0;
+        i += 2;
+        j++;
 
-        }
+      }
 
     }
 
-    return (0);
-}
-
+  }
 
+  return (0);
+}
diff --git a/kernel/zarch/zswap.c b/kernel/zarch/zswap.c
index 0620790020..bc466866cb 100644
--- a/kernel/zarch/zswap.c
+++ b/kernel/zarch/zswap.c
@@ -1,5 +1,5 @@
 /***************************************************************************
-Copyright (c) 2013-2017, The OpenBLAS Project
+Copyright (c) 2013-2019, The OpenBLAS Project
 All rights reserved.
 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
@@ -25,286 +25,145 @@ OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 *****************************************************************************/
 
- 
 #include "common.h"
 
-
-#if defined(Z13_SWAP_A)
-static void   zswap_kernel_16(BLASLONG n, FLOAT *x, FLOAT *y)
-{
-         __asm__ volatile(
-            "pfd  1, 0(%[ptr_x]) \n\t"
-            "pfd  2, 0(%[ptr_y]) \n\t"
-            "srlg %[n_tmp],%[n_tmp],4      \n\t"
-            "xgr  %%r1,%%r1      \n\t"
-            ".align 16 \n\t"
-            "1:  \n\t"
-            "pfd 2, 256(%%r1,%[ptr_x]) \n\t"
-            "pfd 2, 256(%%r1,%[ptr_y]) \n\t"
-            
-            "vl  %%v24, 0(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v16, 0(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v24, 0(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v16, 0(%%r1,%[ptr_x]) \n\t" 
-
-            "vl  %%v25, 16(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v17, 16(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v25, 16(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v17, 16(%%r1,%[ptr_x]) \n\t" 
-
-            "vl  %%v26, 32(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v18, 32(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v26, 32(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v18, 32(%%r1,%[ptr_x]) \n\t"           
-
-            "vl  %%v27, 48(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v19, 48(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v27, 48(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v19, 48(%%r1,%[ptr_x]) \n\t"    
-
-            "vl  %%v28, 64(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v20, 64(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v28, 64(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v20, 64(%%r1,%[ptr_x]) \n\t"   
-
-            "vl  %%v29, 80(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v21, 80(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v29, 80(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v21, 80(%%r1,%[ptr_x]) \n\t" 
-
-            "vl  %%v30, 96(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v22, 96(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v30, 96(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v22, 96(%%r1,%[ptr_x]) \n\t" 
-
-            "vl  %%v31, 112(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v23, 112(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v31, 112(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v23, 112(%%r1,%[ptr_x]) \n\t" 
-
-            "vl  %%v24, 128(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v16, 128(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v24, 128(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v16, 128(%%r1,%[ptr_x]) \n\t" 
-
-            "vl  %%v25, 144(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v17, 144(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v25, 144(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v17, 144(%%r1,%[ptr_x]) \n\t" 
-
-            "vl  %%v26, 160(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v18, 160(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v26, 160(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v18, 160(%%r1,%[ptr_x]) \n\t"           
-
-            "vl  %%v27, 176(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v19, 176(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v27, 176(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v19, 176(%%r1,%[ptr_x]) \n\t"    
-
-            "vl  %%v28, 192(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v20, 192(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v28, 192(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v20, 192(%%r1,%[ptr_x]) \n\t"   
-
-            "vl  %%v29, 208(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v21, 208(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v29, 208(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v21, 208(%%r1,%[ptr_x]) \n\t" 
-
-            "vl  %%v30, 224(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v22, 224(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v30, 224(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v22, 224(%%r1,%[ptr_x]) \n\t" 
-
-            "vl  %%v31, 240(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v23, 240(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v31, 240(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v23, 240(%%r1,%[ptr_x]) \n\t"    
-          
-            "la  %%r1,256(%%r1) \n\t"
-            "brctg %[n_tmp],1b"
-            : [mem_x] "+m" (*(double (*)[2*n])x),
-              [mem_y] "+m" (*(double (*)[2*n])y),
-              [n_tmp] "+&r"(n)
-            : [ptr_x] "a"(x), [ptr_y] "a"(y) 
-            : "cc", "r1", "v16","v17","v18","v19","v20","v21","v22","v23"
-              ,"v24","v25","v26","v27","v28","v29","v30","v31"
-            );
-    return;
-
-}
-
-#else
-
-static void   zswap_kernel_16(BLASLONG n, FLOAT *x, FLOAT *y)
-{
-         __asm__ volatile(
-            "pfd 2, 0(%[ptr_x]) \n\t"
-            "pfd 2, 0(%[ptr_y]) \n\t"
-            "srlg %[n_tmp],%[n_tmp],4       \n\t"
-            "xgr %%r1,%%r1       \n\t"
-            ".align 16 \n\t"
-            "1: \n\t"
-            "pfd 2, 256(%%r1,%[ptr_x]) \n\t"
-            "pfd 2, 256(%%r1,%[ptr_y]) \n\t"
-            
-            "vl  %%v16, 0(%%r1,%[ptr_x])   \n\t" 
-            "vl  %%v17, 16(%%r1,%[ptr_x])  \n\t" 
-            "vl  %%v18, 32(%%r1,%[ptr_x])  \n\t" 
-            "vl  %%v19, 48(%%r1,%[ptr_x])  \n\t"  
-            "vl  %%v20, 64(%%r1,%[ptr_x])  \n\t" 
-            "vl  %%v21, 80(%%r1,%[ptr_x])  \n\t" 
-            "vl  %%v22, 96(%%r1,%[ptr_x])  \n\t" 
-            "vl  %%v23, 112(%%r1,%[ptr_x]) \n\t"
-            "vl  %%v24, 128(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v25, 144(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v26, 160(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v27, 176(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v28, 192(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v29, 208(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v30, 224(%%r1,%[ptr_x]) \n\t" 
-            "vl  %%v31, 240(%%r1,%[ptr_x]) \n\t"
-
-
-            "vl  %%v0, 0(%%r1,%[ptr_y])    \n\t" 
-            "vl  %%v1, 16(%%r1,%[ptr_y])   \n\t" 
-            "vl  %%v2, 32(%%r1,%[ptr_y])   \n\t" 
-            "vl  %%v3, 48(%%r1,%[ptr_y])   \n\t"  
-            "vl  %%v4, 64(%%r1,%[ptr_y])   \n\t" 
-            "vl  %%v5, 80(%%r1,%[ptr_y])   \n\t" 
-            "vl  %%v6, 96(%%r1,%[ptr_y])   \n\t" 
-            "vl  %%v7, 112(%%r1,%[ptr_y])  \n\t"
-            "vst %%v0,  0(%%r1,%[ptr_x])   \n\t" 
-            "vst %%v1, 16(%%r1,%[ptr_x])   \n\t" 
-            "vst %%v2, 32(%%r1,%[ptr_x])   \n\t" 
-            "vst %%v3, 48(%%r1,%[ptr_x])   \n\t"  
-            "vst %%v4, 64(%%r1,%[ptr_x])   \n\t" 
-            "vst %%v5, 80(%%r1,%[ptr_x])   \n\t" 
-            "vst %%v6, 96(%%r1,%[ptr_x])   \n\t" 
-            "vst %%v7, 112(%%r1,%[ptr_x])  \n\t" 
-
-            "vl  %%v0, 128(%%r1,%[ptr_y])  \n\t" 
-            "vl  %%v1, 144(%%r1,%[ptr_y])  \n\t" 
-            "vl  %%v2, 160(%%r1,%[ptr_y])  \n\t" 
-            "vl  %%v3, 176(%%r1,%[ptr_y])  \n\t"  
-            "vl  %%v4, 192(%%r1,%[ptr_y])  \n\t" 
-            "vl  %%v5, 208(%%r1,%[ptr_y])  \n\t" 
-            "vl  %%v6, 224(%%r1,%[ptr_y])  \n\t" 
-            "vl  %%v7, 240(%%r1,%[ptr_y])  \n\t" 
-            "vst %%v0, 128(%%r1,%[ptr_x])  \n\t" 
-            "vst %%v1, 144(%%r1,%[ptr_x])  \n\t" 
-            "vst %%v2, 160(%%r1,%[ptr_x])  \n\t" 
-            "vst %%v3, 176(%%r1,%[ptr_x])  \n\t"  
-            "vst %%v4, 192(%%r1,%[ptr_x])  \n\t" 
-            "vst %%v5, 208(%%r1,%[ptr_x])  \n\t" 
-            "vst %%v6, 224(%%r1,%[ptr_x])  \n\t" 
-            "vst %%v7, 240(%%r1,%[ptr_x])  \n\t"
-
-            "vst %%v16,  0(%%r1,%[ptr_y])  \n\t" 
-            "vst %%v17, 16(%%r1,%[ptr_y])  \n\t" 
-            "vst %%v18, 32(%%r1,%[ptr_y])  \n\t" 
-            "vst %%v19, 48(%%r1,%[ptr_y])  \n\t"  
-            "vst %%v20, 64(%%r1,%[ptr_y])  \n\t" 
-            "vst %%v21, 80(%%r1,%[ptr_y])  \n\t" 
-            "vst %%v22, 96(%%r1,%[ptr_y])  \n\t" 
-            "vst %%v23, 112(%%r1,%[ptr_y]) \n\t"
-            "vst %%v24, 128(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v25, 144(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v26, 160(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v27, 176(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v28, 192(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v29, 208(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v30, 224(%%r1,%[ptr_y]) \n\t" 
-            "vst %%v31, 240(%%r1,%[ptr_y]) \n\t"
- 
-          
-            "la  %%r1,256(%%r1) \n\t"
-            "brctg %[n_tmp],1b"
-            : [mem_x] "+m" (*(double (*)[2*n])x),
-              [mem_y] "+m" (*(double (*)[2*n])y),
-              [n_tmp] "+&r"(n)
-            : [ptr_x] "a"(x), [ptr_y] "a"(y) 
-            : "cc",  "r1", "v0","v1","v2","v3","v4","v5","v6","v7","v16",
-            "v17","v18","v19","v20","v21","v22","v23","v24","v25","v26","v27","v28","v29","v30","v31" 
-            );
-    return;
-
+static void zswap_kernel_16(BLASLONG n, FLOAT *x, FLOAT *y) {
+  __asm__("srlg %[n],%[n],4\n\t"
+    "xgr  %%r1,%%r1\n\t"
+    "0:\n\t"
+    "pfd 2, 1024(%%r1,%[x])\n\t"
+    "pfd 2, 1024(%%r1,%[y])\n\t"
+    "vl  %%v16, 0(%%r1,%[x])\n\t"
+    "vl  %%v17, 16(%%r1,%[x])\n\t"
+    "vl  %%v18, 32(%%r1,%[x])\n\t"
+    "vl  %%v19, 48(%%r1,%[x])\n\t"
+    "vl  %%v20, 64(%%r1,%[x])\n\t"
+    "vl  %%v21, 80(%%r1,%[x])\n\t"
+    "vl  %%v22, 96(%%r1,%[x])\n\t"
+    "vl  %%v23, 112(%%r1,%[x])\n\t"
+    "vl  %%v24, 128(%%r1,%[x])\n\t"
+    "vl  %%v25, 144(%%r1,%[x])\n\t"
+    "vl  %%v26, 160(%%r1,%[x])\n\t"
+    "vl  %%v27, 176(%%r1,%[x])\n\t"
+    "vl  %%v28, 192(%%r1,%[x])\n\t"
+    "vl  %%v29, 208(%%r1,%[x])\n\t"
+    "vl  %%v30, 224(%%r1,%[x])\n\t"
+    "vl  %%v31, 240(%%r1,%[x])\n\t"
+    "vl  %%v0, 0(%%r1,%[y])\n\t"
+    "vl  %%v1, 16(%%r1,%[y])\n\t"
+    "vl  %%v2, 32(%%r1,%[y])\n\t"
+    "vl  %%v3, 48(%%r1,%[y])\n\t"
+    "vl  %%v4, 64(%%r1,%[y])\n\t"
+    "vl  %%v5, 80(%%r1,%[y])\n\t"
+    "vl  %%v6, 96(%%r1,%[y])\n\t"
+    "vl  %%v7, 112(%%r1,%[y])\n\t"
+    "vst  %%v0, 0(%%r1,%[x])\n\t"
+    "vst  %%v1, 16(%%r1,%[x])\n\t"
+    "vst  %%v2, 32(%%r1,%[x])\n\t"
+    "vst  %%v3, 48(%%r1,%[x])\n\t"
+    "vst  %%v4, 64(%%r1,%[x])\n\t"
+    "vst  %%v5, 80(%%r1,%[x])\n\t"
+    "vst  %%v6, 96(%%r1,%[x])\n\t"
+    "vst  %%v7, 112(%%r1,%[x])\n\t"
+    "vl  %%v0, 128(%%r1,%[y])\n\t"
+    "vl  %%v1, 144(%%r1,%[y])\n\t"
+    "vl  %%v2, 160(%%r1,%[y])\n\t"
+    "vl  %%v3, 176(%%r1,%[y])\n\t"
+    "vl  %%v4, 192(%%r1,%[y])\n\t"
+    "vl  %%v5, 208(%%r1,%[y])\n\t"
+    "vl  %%v6, 224(%%r1,%[y])\n\t"
+    "vl  %%v7, 240(%%r1,%[y])\n\t"
+    "vst  %%v0, 128(%%r1,%[x])\n\t"
+    "vst  %%v1, 144(%%r1,%[x])\n\t"
+    "vst  %%v2, 160(%%r1,%[x])\n\t"
+    "vst  %%v3, 176(%%r1,%[x])\n\t"
+    "vst  %%v4, 192(%%r1,%[x])\n\t"
+    "vst  %%v5, 208(%%r1,%[x])\n\t"
+    "vst  %%v6, 224(%%r1,%[x])\n\t"
+    "vst  %%v7, 240(%%r1,%[x])\n\t"
+    "vst  %%v16, 0(%%r1,%[y])\n\t"
+    "vst  %%v17, 16(%%r1,%[y])\n\t"
+    "vst  %%v18, 32(%%r1,%[y])\n\t"
+    "vst  %%v19, 48(%%r1,%[y])\n\t"
+    "vst  %%v20, 64(%%r1,%[y])\n\t"
+    "vst  %%v21, 80(%%r1,%[y])\n\t"
+    "vst  %%v22, 96(%%r1,%[y])\n\t"
+    "vst  %%v23, 112(%%r1,%[y])\n\t"
+    "vst  %%v24, 128(%%r1,%[y])\n\t"
+    "vst  %%v25, 144(%%r1,%[y])\n\t"
+    "vst  %%v26, 160(%%r1,%[y])\n\t"
+    "vst  %%v27, 176(%%r1,%[y])\n\t"
+    "vst  %%v28, 192(%%r1,%[y])\n\t"
+    "vst  %%v29, 208(%%r1,%[y])\n\t"
+    "vst  %%v30, 224(%%r1,%[y])\n\t"
+    "vst  %%v31, 240(%%r1,%[y])\n\t"
+    "agfi   %%r1,256\n\t"
+    "brctg  %[n],0b"
+    : "+m"(*(struct { FLOAT x[n * 2]; } *) x),
+       "+m"(*(struct { FLOAT x[n * 2]; } *) y),[n] "+&r"(n)
+    : [x] "a"(x),[y] "a"(y)
+    : "cc", "r1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7", "v16",
+       "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
+       "v27", "v28", "v29", "v30", "v31");
 }
 
-#endif
-
-
-
- 
-
-
-int CNAME(BLASLONG n, BLASLONG dummy0, BLASLONG dummy1, FLOAT dummy3, FLOAT dummy4, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *dummy, BLASLONG dummy2)
-{
-    BLASLONG i=0;
-    BLASLONG ix=0,iy=0;
-    FLOAT temp[2];
-    BLASLONG inc_x2, inc_y2;
-
-    if ( n <= 0     )  return(0);
-
-    if ( (inc_x == 1) && (inc_y == 1 ))
-    {
-
-        BLASLONG n1 = n & -16;
-        if ( n1 > 0 )
-        {
-            zswap_kernel_16(n1, x, y);
-            i=n1;
-            ix = 2* n1;
-            iy = 2* n1;
-        }
-
-        while(i < n)
-        {
-
-            temp[0]  = x[ix]   ;
-            temp[1]  = x[ix+1] ;
-            x[ix]    = y[iy]   ;
-            x[ix+1]  = y[iy+1] ;
-            y[iy]    = temp[0] ;
-            y[iy+1]  = temp[1] ;
-
-            ix += 2 ;
-            iy += 2 ;
-            i++ ;
+int CNAME(BLASLONG n, BLASLONG dummy0, BLASLONG dummy1, FLOAT dummy3,
+          FLOAT dummy4, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y,
+          FLOAT *dummy, BLASLONG dummy2) {
+  BLASLONG i = 0;
+  BLASLONG ix = 0, iy = 0;
+  FLOAT temp[2];
+  BLASLONG inc_x2, inc_y2;
+
+  if (n <= 0)
+    return (0);
+
+  if ((inc_x == 1) && (inc_y == 1)) {
+
+    BLASLONG n1 = n & -16;
+    if (n1 > 0) {
+      zswap_kernel_16(n1, x, y);
+      i = n1;
+      ix = 2 * n1;
+      iy = 2 * n1;
+    }
 
+    while (i < n) {
 
-        }
+      temp[0] = x[ix];
+      temp[1] = x[ix + 1];
+      x[ix] = y[iy];
+      x[ix + 1] = y[iy + 1];
+      y[iy] = temp[0];
+      y[iy + 1] = temp[1];
 
+      ix += 2;
+      iy += 2;
+      i++;
 
     }
-    else
-    {
 
-        inc_x2 = 2 * inc_x;
-        inc_y2 = 2 * inc_y;
+  } else {
 
-        while(i < n)
-        {
+    inc_x2 = 2 * inc_x;
+    inc_y2 = 2 * inc_y;
 
-            temp[0]  = x[ix]   ;
-            temp[1]  = x[ix+1] ;
-            x[ix]    = y[iy]   ;
-            x[ix+1]  = y[iy+1] ;
-            y[iy]    = temp[0] ;
-            y[iy+1]  = temp[1] ;
+    while (i < n) {
 
-            ix += inc_x2 ;
-            iy += inc_y2 ;
-            i++ ;
+      temp[0] = x[ix];
+      temp[1] = x[ix + 1];
+      x[ix] = y[iy];
+      x[ix + 1] = y[iy + 1];
+      y[iy] = temp[0];
+      y[iy + 1] = temp[1];
 
-        }
+      ix += inc_x2;
+      iy += inc_y2;
+      i++;
 
     }
-    return(0);
-    
-
-}
 
+  }
+  return (0);
 
+}
diff --git a/lapack-netlib/LAPACKE/include/lapacke.h b/lapack-netlib/LAPACKE/include/lapacke.h
index 6ded78c8b7..c5ea465e0d 100644
--- a/lapack-netlib/LAPACKE/include/lapacke.h
+++ b/lapack-netlib/LAPACKE/include/lapacke.h
@@ -70,7 +70,11 @@
 
 /* Complex type (single precision) */
 #ifndef lapack_complex_float
+#ifndef __cplusplus
 #include <complex.h>
+#else
+#include <complex>
+#endif
 #define lapack_complex_float    float _Complex
 #endif
 
@@ -86,7 +90,11 @@ lapack_complex_float lapack_make_complex_float( float re, float im );
 
 /* Complex type (double precision) */
 #ifndef lapack_complex_double
+#ifndef __cplusplus
 #include <complex.h>
+#else
+#include <complex>
+#endif
 #define lapack_complex_double   double _Complex
 #endif
 
diff --git a/lapack/CMakeLists.txt b/lapack/CMakeLists.txt
index c0a7543caa..d48a270ab7 100644
--- a/lapack/CMakeLists.txt
+++ b/lapack/CMakeLists.txt
@@ -63,7 +63,6 @@ if (USE_THREAD)
 
   # these do not have 'z' versions
   set(PARALLEL_SOURCES
-    ${GETRF_SRC}
     lauum/lauum_U_parallel.c
     lauum/lauum_L_parallel.c
     potrf/potrf_U_parallel.c
@@ -81,6 +80,10 @@ if (USE_THREAD)
     trtri/trtri_L_parallel.c
   )
 
+  foreach (float_type ${FLOAT_TYPES})
+    GenerateNamedObjects("${GETRF_SRC}" "" "getrf_parallel" false "" "" false ${float_type})  
+  endforeach()
+
   GenerateNamedObjects("${PARALLEL_SOURCES}")
 endif ()
 
diff --git a/param.h b/param.h
index 938a82a9e4..f094fb0f25 100644
--- a/param.h
+++ b/param.h
@@ -605,7 +605,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 
 #define SYMV_P  8
 
-#define SWITCH_RATIO	4
+#define SWITCH_RATIO	16
 
 #ifdef ARCH_X86
 
@@ -1999,7 +1999,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 #define ZGEMM_DEFAULT_UNROLL_M 2
 #define ZGEMM_DEFAULT_UNROLL_N 2
 
-#ifdef OS_LINUX
+#if defined(OS_LINUX) || defined(OS_DARWIN)
 #if L2_SIZE == 1024976
 #define SGEMM_DEFAULT_P 320
 #define DGEMM_DEFAULT_P 256
@@ -2622,7 +2622,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 
 #if defined(CORTEXA53) || defined(CORTEXA57) || \
     defined(CORTEXA72) || defined(CORTEXA73) || \
-    defined(FALKOR)
+    defined(FALKOR)    || defined(TSV110)
 
 #define SGEMM_DEFAULT_UNROLL_M  16
 #define SGEMM_DEFAULT_UNROLL_N  4
@@ -2946,6 +2946,46 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 #endif
 
 
+#if defined(Z14)
+#define SNUMOPT		2
+#define DNUMOPT		2
+
+#define GEMM_DEFAULT_OFFSET_A 0
+#define GEMM_DEFAULT_OFFSET_B 0
+#define GEMM_DEFAULT_ALIGN 0x03fffUL
+
+#define SGEMM_DEFAULT_UNROLL_M  8
+#define SGEMM_DEFAULT_UNROLL_N  4
+
+#define DGEMM_DEFAULT_UNROLL_M  8
+#define DGEMM_DEFAULT_UNROLL_N  4
+
+#define CGEMM_DEFAULT_UNROLL_M  4
+#define CGEMM_DEFAULT_UNROLL_N  4
+
+#define ZGEMM_DEFAULT_UNROLL_M  4
+#define ZGEMM_DEFAULT_UNROLL_N  4
+
+#define SGEMM_DEFAULT_P	456
+#define DGEMM_DEFAULT_P	320
+#define CGEMM_DEFAULT_P 480
+#define ZGEMM_DEFAULT_P 224
+
+#define SGEMM_DEFAULT_Q 488
+#define DGEMM_DEFAULT_Q 384
+#define CGEMM_DEFAULT_Q 128
+#define ZGEMM_DEFAULT_Q 352
+
+#define SGEMM_DEFAULT_R 8192
+#define DGEMM_DEFAULT_R 4096
+#define CGEMM_DEFAULT_R 4096
+#define ZGEMM_DEFAULT_R 2048
+
+
+#define SYMV_P	16
+#endif
+
+
 
 #ifdef GENERIC
 
diff --git a/utest/CMakeLists.txt b/utest/CMakeLists.txt
index 1b426afe7e..dc306501f2 100644
--- a/utest/CMakeLists.txt
+++ b/utest/CMakeLists.txt
@@ -61,7 +61,7 @@ foreach (OUTPUTCONFIG ${CMAKE_CONFIGURATION_TYPES})
   set_target_properties( ${OpenBLAS_utest_bin} PROPERTIES RUNTIME_OUTPUT_DIRECTORY_${OUTPUTCONFIG} ${CMAKE_CURRENT_BINARY_DIR})
 endforeach()
 
-if (MSVC)
+if (MSVC AND BUILD_SHARED_LIBS)
 add_custom_command(TARGET ${OpenBLAS_utest_bin}
           POST_BUILD
           COMMAND ${CMAKE_COMMAND} -E copy ${PROJECT_BINARY_DIR}/lib/${CMAKE_CFG_INTDIR}/${OpenBLAS_LIBNAME}.dll ${CMAKE_CURRENT_BINARY_DIR}/.