refactor: decouple kv-cache storage #379

yzh119 · 2024-07-18T08:03:09Z

In our previous design, k-cache and v-cache are coupled together as a (num_pages, 2, page_size, num_heads, head_dim) or a (num_pages, 2, num_heads, page_size, head_dim) tensor.

In this PR, we decouple the k-cache and v-cache storage to enable more flexible kv-cache storage. Note that the original coupled layout is still supported, but we also supports standalone k-cache and k-cache.

Followup of #379

yzh119 added 2 commits July 18, 2024 07:58

upd

e6d91c4

upd

881824d

yzh119 merged commit d68a408 into main Jul 18, 2024

yzh119 mentioned this pull request Jul 19, 2024

feat: expose decoupled kv-cache to pytorch api #383

Merged

yzh119 added a commit that referenced this pull request Jul 20, 2024

feat: expose decoupled kv-cache to pytorch api (#383)

457a0ae

Followup of #379

yzh119 deleted the decouple-kv-cache branch July 24, 2024 10:38

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

refactor: decouple kv-cache storage #379

refactor: decouple kv-cache storage #379

yzh119 commented Jul 18, 2024

refactor: decouple kv-cache storage #379

refactor: decouple kv-cache storage #379

Conversation

yzh119 commented Jul 18, 2024