feat: Update README.md to add Phi-Medium (#537)

**Reason for Change**: Add Phi-Medium to readme --------- Signed-off-by: Ishaan Sehgal <ishaanforthewin@gmail.com>
kaito-project · Jul 25, 2024 · 5413920 · 5413920
1 parent 66f5711
commit 5413920
Show file tree

Hide file tree

Showing 4 changed files with 12 additions and 11 deletions.
diff --git a/presets/models/mistral/model.go b/presets/models/mistral/model.go
@@ -65,7 +65,7 @@ func (*mistral7b) GetTuningParameters() *model.PresetParam {
 		DiskStorageRequirement:    "100Gi",
 		GPUCountRequirement:       "1",
 		TotalGPUMemoryRequirement: "16Gi",
-		PerGPUMemoryRequirement:   "16Gi", // We run Mistral using native vertical model parallel, no per GPU memory requirement.
+		PerGPUMemoryRequirement:   "16Gi",
 		//TorchRunParams:            tuning.DefaultAccelerateParams,
 		//ModelRunParams:            mistralRunParams,
 		ReadinessTimeout: time.Duration(30) * time.Minute,

diff --git a/presets/models/phi2/model.go b/presets/models/phi2/model.go
@@ -58,7 +58,7 @@ func (*phi2) GetTuningParameters() *model.PresetParam {
 		DiskStorageRequirement:    "50Gi",
 		GPUCountRequirement:       "1",
 		TotalGPUMemoryRequirement: "16Gi",
-		PerGPUMemoryRequirement:   "16Gi", // We run Phi using native vertical model parallel, no per GPU memory requirement.
+		PerGPUMemoryRequirement:   "16Gi",
 		// TorchRunParams:            inference.DefaultAccelerateParams,
 		// ModelRunParams:            phiRunParams,
 		ReadinessTimeout: time.Duration(30) * time.Minute,

diff --git a/presets/models/phi3/README.md b/presets/models/phi3/README.md
@@ -1,9 +1,10 @@
 ## Supported Models
-| Model name               | Model source | Sample workspace|Kubernetes Workload|Distributed inference|
-|--------------------------|:----:|:----:| :----: |:----: |
-| phi-3-mini-4k-instruct   |[microsoft](https://huggingface.co/microsoft/Phi-3-mini-4k-instruct)|[link](../../../examples/inference/kaito_workspace_phi_3.yaml)|Deployment| false|
-| phi-3-mini-128k-instruct |[microsoft](https://huggingface.co/microsoft/Phi-3-mini-128k-instruct)|[link](../../../examples/inference/kaito_workspace_phi_3.yaml)|Deployment| false|
-
+| Model name               |                              Model source                               | Sample workspace|Kubernetes Workload|Distributed inference|
+|--------------------------|:-----------------------------------------------------------------------:|:----:| :----: |:----: |
+| phi-3-mini-4k-instruct   |  [microsoft](https://huggingface.co/microsoft/Phi-3-mini-4k-instruct)   |[link](../../../examples/inference/kaito_workspace_phi_3.yaml)|Deployment| false|
+| phi-3-mini-128k-instruct | [microsoft](https://huggingface.co/microsoft/Phi-3-mini-128k-instruct)  |[link](../../../examples/inference/kaito_workspace_phi_3.yaml)|Deployment| false|
+| phi-3-mini-4k-instruct   | [microsoft](https://huggingface.co/microsoft/Phi-3-medium-4k-instruct)  |[link](../../../examples/inference/kaito_workspace_phi_3.yaml)|Deployment| false|
+| phi-3-mini-128k-instruct   | [microsoft](https://huggingface.co/microsoft/Phi-3-medium-128k-instruct) |[link](../../../examples/inference/kaito_workspace_phi_3.yaml)|Deployment| false|
 
 ## Image Source
 - **Public**: Kaito maintainers manage the lifecycle of the inference service images that contain model weights. The images are available in Microsoft Container Registry (MCR).

diff --git a/presets/models/phi3/model.go b/presets/models/phi3/model.go
@@ -77,7 +77,7 @@ func (*phi3Mini4KInst) GetTuningParameters() *model.PresetParam {
 		DiskStorageRequirement:    "50Gi",
 		GPUCountRequirement:       "1",
 		TotalGPUMemoryRequirement: "16Gi",
-		PerGPUMemoryRequirement:   "16Gi", // We run Phi using native vertical model parallel, no per GPU memory requirement.
+		PerGPUMemoryRequirement:   "16Gi",
 		// TorchRunParams:            inference.DefaultAccelerateParams,
 		// ModelRunParams:            phiRunParams,
 		ReadinessTimeout: time.Duration(30) * time.Minute,
@@ -116,7 +116,7 @@ func (*phi3Mini128KInst) GetTuningParameters() *model.PresetParam {
 		DiskStorageRequirement:    "50Gi",
 		GPUCountRequirement:       "1",
 		TotalGPUMemoryRequirement: "16Gi",
-		PerGPUMemoryRequirement:   "16Gi", // We run Phi using native vertical model parallel, no per GPU memory requirement.
+		PerGPUMemoryRequirement:   "16Gi",
 		// TorchRunParams:            inference.DefaultAccelerateParams,
 		// ModelRunParams:            phiRunParams,
 		ReadinessTimeout: time.Duration(30) * time.Minute,
@@ -155,7 +155,7 @@ func (*Phi3Medium4kInstruct) GetTuningParameters() *model.PresetParam {
 		DiskStorageRequirement:    "50Gi",
 		GPUCountRequirement:       "1",
 		TotalGPUMemoryRequirement: "13Gi",
-		PerGPUMemoryRequirement:   "13Gi", // We run Phi using native vertical model parallel, no per GPU memory requirement.
+		PerGPUMemoryRequirement:   "13Gi",
 		// TorchRunParams:            inference.DefaultAccelerateParams,
 		// ModelRunParams:            phiRunParams,
 		ReadinessTimeout: time.Duration(30) * time.Minute,
@@ -194,7 +194,7 @@ func (*Phi3Medium128kInstruct) GetTuningParameters() *model.PresetParam {
 		DiskStorageRequirement:    "50Gi",
 		GPUCountRequirement:       "1",
 		TotalGPUMemoryRequirement: "13Gi",
-		PerGPUMemoryRequirement:   "13Gi", // We run Phi using native vertical model parallel, no per GPU memory requirement.
+		PerGPUMemoryRequirement:   "13Gi",
 		// TorchRunParams:            inference.DefaultAccelerateParams,
 		// ModelRunParams:            phiRunParams,
 		ReadinessTimeout: time.Duration(30) * time.Minute,