Add quantization support for TGI #757

achandrasekar · 2024-07-30T04:09:03Z

This change adds quantization support so we can use quantization techniques like eetq, bitsandbytes, etc. when deploying models using TGI. It allows us to benchmark models like Llama3 405B using FP8 too.

benchmarks/inference-server/text-generation-inference/variables.tf

* Add quantization support for TGI * Fix formatting * Move comment into description

Add quantization support for TGI

c2a691d

achandrasekar requested review from ahg-g and annapendleton as code owners July 30, 2024 04:09

Fix formatting

3c0369d

annapendleton approved these changes Jul 30, 2024

View reviewed changes

benchmarks/inference-server/text-generation-inference/variables.tf Outdated Show resolved Hide resolved

Move comment into description

4f2d6d1

achandrasekar merged commit 464a071 into GoogleCloudPlatform:main Jul 30, 2024
6 checks passed

leroyjb pushed a commit to leroyjb/ai-on-gke that referenced this pull request Jan 24, 2025

Add quantization support for TGI (GoogleCloudPlatform#757)

d6a0932

* Add quantization support for TGI * Fix formatting * Move comment into description

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add quantization support for TGI #757

Add quantization support for TGI #757

achandrasekar commented Jul 30, 2024

Add quantization support for TGI #757

Add quantization support for TGI #757

Conversation

achandrasekar commented Jul 30, 2024