fix the audio size output for phi models (#886)

microsoft · Feb 6, 2025 · e6777d5 · e6777d5
1 parent 85e8032
commit e6777d5
Show file tree

Hide file tree

Showing 2 changed files with 4 additions and 1 deletion.
diff --git a/shared/api/speech_features.hpp b/shared/api/speech_features.hpp
@@ -638,7 +638,7 @@ class Phi4AudioEmbed {
         return result
     */
     auto embedded_size_data = embeded_size.Allocate({1});
-    embedded_size_data[0] = std::ceil(static_cast<float>(ts_logmel.Shape()[1]) / audio_compression_rate_);
+    embedded_size_data[0] = std::ceil(static_cast<float>(ts_logmel.Shape()[0]) / audio_compression_rate_);
     return status;
   }
 

diff --git a/test/pp_api_test/test_feature_extraction.cc b/test/pp_api_test/test_feature_extraction.cc
@@ -67,6 +67,9 @@ TEST(ExtractorTest, TestPhi4AudioFeatureExtraction) {
   err = OrtxGetTensorData(tensor.get(), reinterpret_cast<const void**>(&data), &shape, &num_dims);
   ASSERT_EQ(num_dims, 1);
   ASSERT_EQ(std::vector<int64_t>(shape, shape + num_dims), std::vector<int64_t>({3}));
+  ASSERT_EQ(std::vector<int64_t>(reinterpret_cast<const int64_t*>(data),
+                                 reinterpret_cast<const int64_t*>(data) + 3),
+                                 std::vector<int64_t>({138, 167, 168}));
 }
 
 TEST(ExtractorTest, TestPhi4AudioFeatureExtraction8k) {