llama model load error: tensor 'blk.3.attn_qkv.weight' data is not within the file bounds, model is corrupted or incomplete #328

wuanzhuan · 2024-12-11T13:47:09Z

os: windows11 pro 10.0.22621
cpu: Intel(R) Core(TM) i9-10850K CPU @ 3.60GHz 3.60 GHz
gpu: NVIDIA GeForce RTX 3090 driver version: 32.0.15.6094
model Meta-Llama-3.1-8B-Instruct-Q5_K_M.gguf and Meta-Llama-3.1-8B-Instruct-Q2_K.gguf
git branch: main

log when select the model:

[2024-12-11 21:39:18.050] [info] [WASI-NN] GGML backend: LLAMA_COMMIT c8a00909
[2024-12-11 21:39:18.051] [info] [WASI-NN] GGML backend: LLAMA_BUILD_NUMBER [2024-12-11 21:39:18.095] [info] [WASI-NN] llama.cpp: llama_model_loader: [2024-12-11 21:39:18.096] [info] [WASI-NN] llama.cpp: llama_model_loader: [2024-12-11 21:39:18.096] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 0: [2024-12-11 21:39:18.096] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 1: [2024-12-11 21:39:18.096] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 2: [2024-12-11 21:39:18.096] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 3: [2024-12-11 21:39:18.097] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 4: [2024-12-11 21:39:18.097] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 5: [2024-12-11 21:39:18.097] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 6: [2024-12-11 21:39:18.097] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 7: [2024-12-11 21:39:18.097] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 8: [2024-12-11 21:39:18.097] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 9: [2024-12-11 21:39:18.098] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 10: [2024-12-11 21:39:18.098] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 11: [2024-12-11 21:39:18.098] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 12: [2024-12-11 21:39:18.098] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 13: [2024-12-11 21:39:18.098] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 14: [2024-12-11 21:39:18.098] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 15: [2024-12-11 21:39:18.099] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 16: [2024-12-11 21:39:18.099] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 17: [2024-12-11 21:39:18.099] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 18: [2024-12-11 21:39:18.100] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 19: [2024-12-11 21:39:18.100] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 20: [2024-12-11 21:39:18.100] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 21: [2024-12-11 21:39:18.126] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 22: [2024-12-11 21:39:18.134] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 23: [2024-12-11 21:39:18.190] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 24: [2024-12-11 21:39:18.190] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 25: [2024-12-11 21:39:18.190] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 26: [2024-12-11 21:39:18.191] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 27: [2024-12-11 21:39:18.191] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 28: [2024-12-11 21:39:18.191] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 29: [2024-12-11 21:39:18.191] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 30: [2024-12-11 21:39:18.191] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 31: [2024-12-11 21:39:18.192] [info] [WASI-NN] llama.cpp: llama_model_loader: - kv 32: [2024-12-11 21:39:18.192] [info] [WASI-NN] llama.cpp: llama_model_loader: - type f32: [2024-12-11 21:39:18.192] [info] [WASI-NN] llama.cpp: llama_model_loader: - type q5_K: [2024-12-11 21:39:18.192] [info] [WASI-NN] llama.cpp: llama_model_loader: - type q6_K: [2024-12-11 21:39:18.424] [info] [WASI-NN] llama.cpp: llm_load_vocab: special [2024-12-11 21:39:18.449] [info] [WASI-NN] llama.cpp: llm_load_vocab: token [2024-12-11 21:39:18.449] [info] [WASI-NN] llama.cpp: llm_load_print_meta: format [2024-12-11 21:39:18.450] [info] [WASI-NN] llama.cpp: llm_load_print_meta: arch [2024-12-11 21:39:18.450] [info] [WASI-NN] llama.cpp: llm_load_print_meta: vocab type [2024-12-11 21:39:18.450] [info] [WASI-NN] llama.cpp: llm_load_print_meta: n_vocab [2024-12-11 21:39:18.450] [info] [WASI-NN] llama.cpp: llm_load_print_meta: n_merges [2024-12-11 21:39:18.450] [info] [WASI-NN] llama.cpp: llm_load_print_meta: vocab_only [2024-12-11 21:39:18.451] [info] [WASI-NN] llama.cpp: llm_load_print_meta: n_ctx_train [2024-12-11 21:39:18.451] [info] [WASI-NN] llama.cpp: llm_load_print_meta: n_embd [2024-12-11 21:39:18.451] [info] [WASI-NN] llama.cpp: llm_load_print_meta: n_layer [2024-12-11 21:39:18.451] [info] [WASI-NN] llama.cpp: llm_load_print_meta: n_head [2024-12-11 21:39:18.451] [info] [WASI-NN] llama.cpp: llm_load_print_meta: n_head_kv [2024-12-11 21:39:18.451] [info] [WASI-NN] llama.cpp: llm_load_print_meta: n_rot [2024-12-11 21:39:18.451] [info] [WASI-NN] llama.cpp: llm_load_print_meta: n_swa [2024-12-11 21:39:18.452] [info] [WASI-NN] llama.cpp: llm_load_print_meta: n_embd_head_k [2024-12-11 21:39:18.452] [info] [WASI-NN] llama.cpp: llm_load_print_meta: n_embd_head_v [2024-12-11 21:39:18.452] [info] [WASI-NN] llama.cpp: llm_load_print_meta: n_gqa [2024-12-11 21:39:18.452] [info] [WASI-NN] llama.cpp: llm_load_print_meta: n_embd_k_gqa [2024-12-11 21:39:18.452] [info] [WASI-NN] llama.cpp: llm_load_print_meta: n_embd_v_gqa [2024-12-11 21:39:18.452] [info] [WASI-NN] llama.cpp: llm_load_print_meta: f_norm_eps [2024-12-11 21:39:18.453] [info] [WASI-NN] llama.cpp: llm_load_print_meta: f_norm_rms_eps [2024-12-11 21:39:18.453] [info] [WASI-NN] llama.cpp: llm_load_print_meta: f_clamp_kqv [2024-12-11 21:39:18.453] [info] [WASI-NN] llama.cpp: llm_load_print_meta: [2024-12-11 21:39:18.453] [info] [WASI-NN] llama.cpp: llm_load_print_meta: f_logit_scale [2024-12-11 21:39:18.453] [info] [WASI-NN] llama.cpp: llm_load_print_meta: n_ff [2024-12-11 21:39:18.453] [info] [WASI-NN] llama.cpp: llm_load_print_meta: n_expert [2024-12-11 21:39:18.453] [info] [WASI-NN] llama.cpp: llm_load_print_meta: n_expert_used [2024-12-11 21:39:18.454] [info] [WASI-NN] llama.cpp: llm_load_print_meta: causal attn [2024-12-11 21:39:18.454] [info] [WASI-NN] llama.cpp: llm_load_print_meta: pooling type [2024-12-11 21:39:18.454] [info] [WASI-NN] llama.cpp: llm_load_print_meta: rope type [2024-12-11 21:39:18.454] [info] [WASI-NN] llama.cpp: llm_load_print_meta: rope scaling [2024-12-11 21:39:18.454] [info] [WASI-NN] llama.cpp: llm_load_print_meta: freq_base_train [2024-12-11 21:39:18.454] [info] [WASI-NN] llama.cpp: llm_load_print_meta: [2024-12-11 21:39:18.455] [info] [WASI-NN] llama.cpp: llm_load_print_meta: n_ctx_orig_yarn [2024-12-11 21:39:18.455] [info] [WASI-NN] llama.cpp: llm_load_print_meta: rope_finetuned [2024-12-11 21:39:18.455] [info] [WASI-NN] llama.cpp: llm_load_print_meta: ssm_d_conv [2024-12-11 21:39:18.455] [info] [WASI-NN] llama.cpp: llm_load_print_meta: ssm_d_inner [2024-12-11 21:39:18.456] [info] [WASI-NN] llama.cpp: llm_load_print_meta: ssm_d_state [2024-12-11 21:39:18.456] [info] [WASI-NN] llama.cpp: llm_load_print_meta: ssm_dt_rank [2024-12-11 21:39:18.456] [info] [WASI-NN] llama.cpp: llm_load_print_meta: model type [2024-12-11 21:39:18.456] [info] [WASI-NN] llama.cpp: llm_load_print_meta: model ftype [2024-12-11 21:39:18.456] [info] [WASI-NN] llama.cpp: llm_load_print_meta: model params [2024-12-11 21:39:18.456] [info] [WASI-NN] llama.cpp: llm_load_print_meta: model size [2024-12-11 21:39:18.457] [info] [WASI-NN] llama.cpp: llm_load_print_meta: general.name [2024-12-11 21:39:18.457] [info] [WASI-NN] llama.cpp: llm_load_print_meta: BOS token [2024-12-11 21:39:18.457] [info] [WASI-NN] llama.cpp: llm_load_print_meta: EOS token [2024-12-11 21:39:18.457] [info] [WASI-NN] llama.cpp: llm_load_print_meta: LF token [2024-12-11 21:39:18.457] [info] [WASI-NN] llama.cpp: llm_load_print_meta: EOT token [2024-12-11 21:39:18.458] [info] [WASI-NN] llama.cpp: llm_load_print_meta: [2024-12-11 21:39:18.473] [info] [WASI-NN] llama.cpp: ggml_cuda_init: GGML_CUDA_FORCE_MMQ: [2024-12-11 21:39:18.473] [info] [WASI-NN] llama.cpp: ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: [2024-12-11 21:39:18.473] [info] [WASI-NN] llama.cpp: ggml_cuda_init: found [2024-12-11 21:39:18.473] [info] [WASI-NN] llama.cpp: Device 0: NVIDIA GeForce [2024-12-11 21:39:18.592] [info] [WASI-NN] llama.cpp: llm_load_tensors: ggml ctx size = [2024-12-11 21:39:21.495] [info] [WASI-NN] llama.cpp: llm_load_tensors: offloading [2024-12-11 21:39:21.496] [info] [WASI-NN] llama.cpp: llm_load_tensors: offloading [2024-12-11 21:39:21.496] [info] [WASI-NN] llama.cpp: llm_load_tensors: offloaded [2024-12-11 21:39:21.496] [info] [WASI-NN] llama.cpp: llm_load_tensors: [2024-12-11 21:39:21.497] [info] [WASI-NN] llama.cpp: llm_load_tensors: [2024-12-11 21:39:23.534] [info] [WASI-NN] llama.cpp:
[2024-12-11 21:39:23.543] [info] [WASI-NN] GGML backend: llama_system_info: [2024-12-11 21:39:23.546] [info] [WASI-NN] GGML backend: LLAMA_COMMIT c8a00909
[2024-12-11 21:39:23.547] [info] [WASI-NN] GGML backend: LLAMA_BUILD_NUMBER [2024-12-11 21:39:23.552] [error] [WASI-NN] llama.cpp: llama_model_load: error [2024-12-11 21:39:23.552] [error] [WASI-NN] llama.cpp: llama_load_model_from_file: [2024-12-11 21:39:23.552] [error] [WASI-NN] GGML backend: Error: unable to [2024-12-11T13:39:23Z ERROR stdout] Backend Error: WASI-NN Backend Error: Error: Operation("Backend Error: WASI-NN Backend Error: Caller module passed Error loading model: Failed to start the model 3499
loaded meta data with 33 key-value pairs and 292 tensors from C:\Users\wuanz\AppData\Roaming\moxin-org\moly\data\model_downloads\second-state/Meta-Llama-3.1-8B-Instruct-GGUF\Meta-Llama-3.1-8B-Instruct-Q5_K_M.gguf (version GGUF V3 (latest))
Dumping metadata keys/values. Note: KV overrides do not apply in this output.
general.architecture str = llama
general.type str = model
general.name str = Meta Llama 3.1 8B Instruct
general.finetune str = Instruct
general.basename str = Meta-Llama-3.1
general.size_label str = 8B
general.license str = llama3.1
general.tags arr[str,6] = ["facebook", "meta", "pytorch", "llam...
general.languages arr[str,8] = ["en", "de", "fr", "it", "pt", "hi", ...
llama.block_count u32 = 32
llama.context_length u32 = 131072
llama.embedding_length u32 = 4096
llama.feed_forward_length u32 = 14336
llama.attention.head_count u32 = 32
llama.attention.head_count_kv u32 = 8
llama.rope.freq_base f32 = 500000.000000
llama.attention.layer_norm_rms_epsilon f32 = 0.000010
general.file_type u32 = 17
llama.vocab_size u32 = 128256
llama.rope.dimension_count u32 = 128
tokenizer.ggml.model str = gpt2
tokenizer.ggml.pre str = llama-bpe
tokenizer.ggml.tokens arr[str,128256] = ["!", """, "#", "$", "%", "&", "'", ...
tokenizer.ggml.token_type arr[i32,128256] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
tokenizer.ggml.merges arr[str,280147] = ["臓臓", "臓臓臓臓", "臓臓臓臓", "...
tokenizer.ggml.bos_token_id u32 = 128000
tokenizer.ggml.eos_token_id u32 = 128009
tokenizer.chat_template str = {{- bos_token }}\n{%- if custom_tools ...
general.quantization_version u32 = 2
quantize.imatrix.file str = /models_out/Meta-Llama-3.1-8B-Instruc...
quantize.imatrix.dataset str = /training_dir/calibration_datav3.txt
quantize.imatrix.entries_count i32 = 224
quantize.imatrix.chunks_count i32 = 125
66 tensors
193 tensors
33 tensors
tokens cache size = 256
to piece cache size = 0.7999 MB
= GGUF V3 (latest)
= llama
= BPE
= 128256
= 280147
= 0
= 131072
= 4096
= 32
= 32
= 8
= 128
= 0
= 128
= 128
= 4
= 1024
= 1024
= 0.0e+00
= 1.0e-05
= 0.0e+00
f_max_alibi_bias = 0.0e+00
= 0.0e+00
= 14336
= 0
= 0
= 1
= 0
= 0
= linear
= 500000.0
freq_scale_train = 1
= 131072
= unknown
= 0
= 0
= 0
= 0
= 8B
= Q5_K - Medium
= 8.03 B
= 5.33 GiB (5.70 BPW)
= Meta Llama 3.1 8B Instruct
= 128000 '<|begin_of_text|>'
= 128009 '<|eot_id|>'
= 128 '脛'
= 128009 '<|eot_id|>'
max token length = 256
no
no
1 CUDA devices:
RTX 3090, compute capability 8.6, VMM: yes
0.27 MiB
32 repeating layers to GPU
non-repeating layers to GPU
33/33 layers to GPU
CPU buffer size = 344.44 MiB
CUDA0 buffer size = 5115.50 MiB
AVX = 0 | AVX_VNNI = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | AVX512_BF16 = 0 | FMA = 0 | NEON = 0 | SVE = 0 | ARM_FMA = 0 | F16C = 0 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 0 | SSSE3 = 0 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 |
3499
loading model: tensor 'blk.3.attn_qkv.weight' data is not within the file bounds, model is corrupted or incomplete
failed to load model
init model.
Caller module passed an invalid argument
an invalid argument")

joulei added area: wasmedge bug labels Dec 26, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

llama model load error: tensor 'blk.3.attn_qkv.weight' data is not within the file bounds, model is corrupted or incomplete #328

llama model load error: tensor 'blk.3.attn_qkv.weight' data is not within the file bounds, model is corrupted or incomplete #328

wuanzhuan commented Dec 11, 2024 •

edited

Loading

llama model load error: tensor 'blk.3.attn_qkv.weight' data is not within the file bounds, model is corrupted or incomplete #328

llama model load error: tensor 'blk.3.attn_qkv.weight' data is not within the file bounds, model is corrupted or incomplete #328

Comments

wuanzhuan commented Dec 11, 2024 • edited Loading

wuanzhuan commented Dec 11, 2024 •

edited

Loading