[ARM CPU] Add rotary embedding fp16 kernel #23013

fajin-corp · 2024-12-05T00:01:34Z

Description

Add fp16 kernel to rotary embedding to boost performance.

Motivation and Context

Part of performance optimization work for group query attention

onnxruntime/contrib_ops/cpu/bert/rotary_embedding.cc

+      if (rotary_emb_dim < head_size) {
+        std::memcpy(output_data + rotary_emb_dim,
+                    input_data + rotary_emb_dim,
+                    (head_size - rotary_emb_dim) * sizeof(T));


onnxruntime/contrib_ops/cpu/bert/rotary_embedding.cc

+      if (rotary_emb_dim < head_size) {
+        std::memcpy(output_data + rotary_emb_dim,
+                    input_data + rotary_emb_dim,
+                    (head_size - rotary_emb_dim) * sizeof(T));


### Description Add fp16 kernel to rotary embedding to boost performance. ### Motivation and Context Part of performance optimization work for group query attention

fajin-corp added 7 commits December 4, 2024 00:48

set up framework for rotary embedding mlas kernels

2a0df33

added fallback kernel

d5cc006

finished fp16 kernel

c6f3a31

fix build on arm

093b192

enable fp16 test

1feb485

fix ut

a556805

fix linting

ca91b3d

fajin-corp requested a review from a team as a code owner December 5, 2024 00:01

fix mac build

7f03841

github-advanced-security bot found potential problems Dec 5, 2024

View reviewed changes

jywu-msft requested review from liqunfu, aciddelgado and edgchen1 December 5, 2024 04:20

amarin16 approved these changes Dec 6, 2024

View reviewed changes

fajin-corp merged commit bd5a759 into main Dec 6, 2024
95 checks passed

fajin-corp deleted the fajin/gqa-rotary branch December 6, 2024 21:25

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[ARM CPU] Add rotary embedding fp16 kernel #23013

[ARM CPU] Add rotary embedding fp16 kernel #23013

fajin-corp commented Dec 5, 2024

[ARM CPU] Add rotary embedding fp16 kernel #23013

[ARM CPU] Add rotary embedding fp16 kernel #23013

Conversation

fajin-corp commented Dec 5, 2024

Description

Motivation and Context