support to export gguf q4_0 and q4_1 format #393

n1ck-guo · 2024-12-24T08:05:13Z

export function
q4_0
q4_1
q4_k

using llama.cpp(llama-cli) test q4_0 and q4_1 quantized file, work well.

#288

Signed-off-by: n1ck-guo <heng.guo@intel.com>

for more information, see https://pre-commit.ci

Signed-off-by: n1ck-guo <heng.guo@intel.com>

…to hengguo/gguf

for more information, see https://pre-commit.ci

Signed-off-by: n1ck-guo <heng.guo@intel.com>

for more information, see https://pre-commit.ci

Signed-off-by: n1ck-guo <heng.guo@intel.com>

…to hengguo/gguf

auto_round/export/export_to_gguf/quant.py

auto_round/export/export_to_gguf/export.py

auto_round/__main__.py

Signed-off-by: n1ck-guo <heng.guo@intel.com>

auto_round/export/export_to_gguf/convert.py

Signed-off-by: n1ck-guo <heng.guo@intel.com>

auto_round/script/llm.py

auto_round/__main__.py

auto_round/export/export_to_gguf/export.py

auto_round/script/llm.py

Signed-off-by: n1ck-guo <heng.guo@intel.com>

auto_round/script/llm.py

Signed-off-by: n1ck-guo <heng.guo@intel.com>

auto_round/export/export_to_gguf/export.py

Signed-off-by: n1ck-guo <heng.guo@intel.com>

test_cuda/test_gguf.py

Signed-off-by: n1ck-guo <heng.guo@intel.com>

auto_round/export/export_to_gguf/convert.py

wenhuach21 · 2024-12-31T05:25:38Z

auto_round/export/export_to_gguf/convert.py

+    endianness: gguf.GGUFEndian
+    use_temp_file: bool
+    lazy: bool
+    part_names: list[str]


why not calling gguf code directly

cannot. Different model series use different class to write gguf file.

Signed-off-by: n1ck-guo <heng.guo@intel.com>

wenhuach21 · 2025-01-07T07:55:29Z

remember to add checker in save_quantized and add warning when combined with fp_layers later

auto_round/script/llm.py

wenhuach21 · 2025-01-07T08:20:28Z

auto_round/script/llm.py

    for format in formats:
        if format not in supported_formats:
            raise ValueError(f"{format} is not supported, we only support {supported_formats}")
+        if format in ["gguf:q4_0", "gguf:q4_1"]:


support gguf later if we could inference the exact type by the quantization config

auto_round/script/llm.py

wenhuach21

iterx_xpu to itrex_xpu

Signed-off-by: n1ck-guo <heng.guo@intel.com>

wenhuach21 · 2025-01-07T08:31:58Z

auto_round/autoround.py

@@ -1267,6 +1267,14 @@ def save_quantized(self, output_dir=None, format="auto_round", inplace=True, **k
            if processor is not None:
                processor.save_pretrained(output_dir)
            return
+        if format in ["gguf:q4_0", "gguf:q4_1"]:
+            if self.group_size != 32:


also better check bits

export gguf

8355347

Signed-off-by: n1ck-guo <heng.guo@intel.com>

n1ck-guo requested review from wenhuach21 and WeiweiZhang1 December 24, 2024 08:05

pre-commit-ci bot and others added 11 commits December 24, 2024 08:06

[pre-commit.ci] auto fixes from pre-commit.com hooks

dd55003

for more information, see https://pre-commit.ci

q4_0/1 port c++ to python

f67219b

Signed-off-by: n1ck-guo <heng.guo@intel.com>

Merge branch 'hengguo/gguf' of https://github.com/intel/auto-round in…

611c4c1

…to hengguo/gguf

[pre-commit.ci] auto fixes from pre-commit.com hooks

ce1c48e

for more information, see https://pre-commit.ci

change to llama.cpp stype and add uint8 store

7ab730b

Signed-off-by: n1ck-guo <heng.guo@intel.com>

abstract

287b5af

Signed-off-by: n1ck-guo <heng.guo@intel.com>

merge

49d95a8

Signed-off-by: n1ck-guo <heng.guo@intel.com>

update

113532a

Signed-off-by: n1ck-guo <heng.guo@intel.com>

[pre-commit.ci] auto fixes from pre-commit.com hooks

ee66c47

for more information, see https://pre-commit.ci

fix

d395c6b

Signed-off-by: n1ck-guo <heng.guo@intel.com>

Merge branch 'hengguo/gguf' of https://github.com/intel/auto-round in…

8b13f1f

…to hengguo/gguf

wenhuach21 reviewed Dec 27, 2024

View reviewed changes

auto_round/export/export_to_gguf/quant.py Show resolved Hide resolved

wenhuach21 reviewed Dec 27, 2024

View reviewed changes

auto_round/export/export_to_gguf/export.py Show resolved Hide resolved

wenhuach21 reviewed Dec 30, 2024

View reviewed changes

auto_round/__main__.py Outdated Show resolved Hide resolved

update

ce2c346

Signed-off-by: n1ck-guo <heng.guo@intel.com>

wenhuach21 reviewed Dec 30, 2024

View reviewed changes

auto_round/export/export_to_gguf/convert.py Outdated Show resolved Hide resolved

default sequence eval

8bceb3f

Signed-off-by: n1ck-guo <heng.guo@intel.com>

wenhuach21 reviewed Dec 30, 2024

View reviewed changes

auto_round/script/llm.py Outdated Show resolved Hide resolved

wenhuach21 reviewed Dec 30, 2024

View reviewed changes

auto_round/__main__.py Outdated Show resolved Hide resolved

wenhuach21 reviewed Dec 30, 2024

View reviewed changes

auto_round/export/export_to_gguf/export.py Show resolved Hide resolved

wenhuach21 reviewed Dec 30, 2024

View reviewed changes

auto_round/script/llm.py Outdated Show resolved Hide resolved

n1ck-guo added 3 commits December 30, 2024 01:52

modify by comments

722a1d8

Signed-off-by: n1ck-guo <heng.guo@intel.com>

update

8712170

Signed-off-by: n1ck-guo <heng.guo@intel.com>

pylint

1aa979a

Signed-off-by: n1ck-guo <heng.guo@intel.com>

wenhuach21 reviewed Dec 30, 2024

View reviewed changes

auto_round/script/llm.py Outdated Show resolved Hide resolved

n1ck-guo added 2 commits December 30, 2024 02:29

clean

515160d

Signed-off-by: n1ck-guo <heng.guo@intel.com>

pylint

a064c44

Signed-off-by: n1ck-guo <heng.guo@intel.com>

n1ck-guo added 3 commits December 30, 2024 03:21

fix

fa2328d

Signed-off-by: n1ck-guo <heng.guo@intel.com>

update

7906284

Signed-off-by: n1ck-guo <heng.guo@intel.com>

Merge branch 'main' into hengguo/gguf

4261191

wenhuach21 reviewed Dec 31, 2024

View reviewed changes

auto_round/export/export_to_gguf/export.py Show resolved Hide resolved

n1ck-guo added 2 commits December 30, 2024 21:31

add ut

e525f97

Signed-off-by: n1ck-guo <heng.guo@intel.com>

add cuda ut

b0f96a0

Signed-off-by: n1ck-guo <heng.guo@intel.com>

wenhuach21 reviewed Dec 31, 2024

View reviewed changes

test_cuda/test_gguf.py Show resolved Hide resolved

add requirements

c7ec3a5

Signed-off-by: n1ck-guo <heng.guo@intel.com>

wenhuach21 reviewed Dec 31, 2024

View reviewed changes

auto_round/export/export_to_gguf/convert.py Outdated Show resolved Hide resolved

wenhuach21 reviewed Dec 31, 2024

View reviewed changes

n1ck-guo added 4 commits December 31, 2024 01:13

format

79c5c5a

Signed-off-by: n1ck-guo <heng.guo@intel.com>

code scane

2720287

Signed-off-by: n1ck-guo <heng.guo@intel.com>

update

db15354

Signed-off-by: n1ck-guo <heng.guo@intel.com>

merge main

24a68a9

Signed-off-by: n1ck-guo <heng.guo@intel.com>

wenhuach21 changed the title ~~[WIP] support to export gguf format~~ support to export gguf q4_0 and q4_1 format Jan 7, 2025

wenhuach21 self-requested a review January 7, 2025 07:55

wenhuach21 approved these changes Jan 7, 2025

View reviewed changes

wenhuach21 reviewed Jan 7, 2025

View reviewed changes

auto_round/script/llm.py Outdated Show resolved Hide resolved

wenhuach21 reviewed Jan 7, 2025

View reviewed changes

auto_round/script/llm.py Outdated Show resolved Hide resolved

wenhuach21 requested changes Jan 7, 2025

View reviewed changes

update

cb67c1a

Signed-off-by: n1ck-guo <heng.guo@intel.com>

wenhuach21 reviewed Jan 7, 2025

View reviewed changes

wenhuach21 self-requested a review January 7, 2025 08:33

wenhuach21 approved these changes Jan 7, 2025

View reviewed changes

wenhuach21 merged commit 86767b0 into main Jan 8, 2025
8 checks passed

wenhuach21 deleted the hengguo/gguf branch January 8, 2025 01:36

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

support to export gguf q4_0 and q4_1 format #393

support to export gguf q4_0 and q4_1 format #393

n1ck-guo commented Dec 24, 2024 •

edited by wenhuach21

Loading

wenhuach21 Dec 31, 2024

n1ck-guo Dec 31, 2024

wenhuach21 commented Jan 7, 2025 •

edited

Loading

wenhuach21 Jan 7, 2025

wenhuach21 left a comment

wenhuach21 Jan 7, 2025

support to export gguf q4_0 and q4_1 format #393

support to export gguf q4_0 and q4_1 format #393

Conversation

n1ck-guo commented Dec 24, 2024 • edited by wenhuach21 Loading

wenhuach21 Dec 31, 2024

Choose a reason for hiding this comment

n1ck-guo Dec 31, 2024

Choose a reason for hiding this comment

wenhuach21 commented Jan 7, 2025 • edited Loading

wenhuach21 Jan 7, 2025

Choose a reason for hiding this comment

wenhuach21 left a comment

Choose a reason for hiding this comment

wenhuach21 Jan 7, 2025

Choose a reason for hiding this comment

n1ck-guo commented Dec 24, 2024 •

edited by wenhuach21

Loading

wenhuach21 commented Jan 7, 2025 •

edited

Loading