New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

Sign up for GitHub

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Jump to bottom

Add support for kube_scheduler SLI metrics #15731

Merged

jennchenn merged 14 commits into master from jenn/CONT-4201-add-support-for-kube-scheduler-sli-metrics

Sep 8, 2023

Member

jennchenn commented Aug 31, 2023 •

edited

Loading

What does this PR do?

This PR introduces two new scheduler metrics: kube_scheduler.slis.kubernetes_healthcheck and kube_scheduler.slis.kubernetes_healthchecks_total.

Motivation

Kubernetes v1.26 exposed a new /metrics/slis endpoint (reference here). This PR adds support for capturing the new metrics exposed for the scheduler: kubernetes_healthcheck and kubernetes_healthcheck.

Additional Notes

Open to suggestions if the current metrics names are unclear!

Review checklist (to be filled by reviewers)

Feature or bugfix MUST have appropriate tests (unit, integration, e2e)
Changelog entries must be created for modifications to shipped code
Add the qa/skip-qa label if the PR doesn't need to be tested during QA.

jennchenn added the containers label

ghost added the integration/kube_scheduler label

jennchenn added the changelog/Added label

ghost added the documentation label

jennchenn force-pushed the jenn/CONT-4201-add-support-for-kube-scheduler-sli-metrics branch from b5f71d1 to f43d0be Compare

August 31, 2023 15:23

codecov bot commented Aug 31, 2023 •

edited

Loading

Codecov Report

Merging #15731 (ca0570e) into master (d64642e) will increase coverage by 0.05%.
The diff coverage is 97.70%.

Flag	Coverage Δ
activemq	`?`
cassandra	`?`
hive	`?`
hivemq	`?`
hudi	`?`
ignite	`?`
jboss_wildfly	`?`
kafka	`?`
kube_scheduler	`97.50% <97.70%> (+0.04%)`	⬆️
presto	`?`
solr	`?`
tomcat	`?`

Flags with carried forward coverage won't be shown. Click here to find out more.

github-actions bot commented Aug 31, 2023 •

edited

Loading

Test Results

  4 files   4 suites 12s ⏱️
11 tests 11 ✔️ 0 💤 0 ❌
24 runs 22 ✔️ 2 💤 0 ❌

Results for commit ca0570e.

♻️ This comment has been updated with latest results.

jennchenn marked this pull request as ready for review

August 31, 2023 15:43

jennchenn requested review from a team as code owners

August 31, 2023 15:43

jennchenn mentioned this pull request

Add rule to allow agent role to curl /metrics/slis DataDog/helm-charts#1155

Merged

4 tasks

cswatt previously approved these changes

View reviewed changes

Contributor

cswatt left a comment

changelog approved by docs

sblumenthal reviewed

View reviewed changes

Member

sblumenthal left a comment

Looks good so far, just a couple of comments on my side

kube_scheduler/datadog_checks/kube_scheduler/sli_metrics.py Show resolved Hide resolved

kube_scheduler/datadog_checks/kube_scheduler/sli_metrics.py

+                      except Exception as e:
+                          self.log.debug("Unable to collect query slis endpoint: %s", e)
+                          return False
+                      self._slis_available = r.status_code != 404 and r.status_code != 403

Member

sblumenthal Sep 1, 2023

If this function is supposed to be called, then I think we want to ignore a 404, but at the very least log an error for a 403, as that means that their agent or environment is not properly configured and they should be made aware of that

jennchenn dismissed cswatt’s stale review via

8a6509b

September 1, 2023 19:49

jennchenn requested a review from sblumenthal

September 1, 2023 21:18

jennchenn mentioned this pull request

Add rule to allow agent role to curl /metrics/slis DataDog/datadog-operator#910

Merged

2 tasks

sblumenthal previously approved these changes

View reviewed changes

yzhan289 reviewed

View reviewed changes

Contributor

yzhan289 left a comment

Just a few small comments!

kube_scheduler/tests/test_sli_metrics.py Outdated

+                  def assert_metric(name, **kwargs):
+                      # Wrapper to keep assertions < 120 chars
+                      aggregator.assert_metric(NAMESPACE + name, **kwargs)

Contributor

yzhan289 Sep 7, 2023

Suggested change

      
                    aggregator.assert_metric(NAMESPACE + name, **kwargs)
          
                    aggregator.assert_metric(f"{NAMESPACE}.{name}", **kwargs)

Member Author

jennchenn Sep 7, 2023

Since we run tests in Python 2 I couldn't use f-strings, but I used format instead

kube_scheduler/tests/test_sli_metrics.py Outdated

Comment on lines 44 to 48

+                  assert_metric('.slis.kubernetes_healthcheck', value=1, tags=['name:ping', 'type:healthz'])
+                  assert_metric(
+                      '.slis.kubernetes_healthchecks_total', value=2450, tags=['name:ping', 'status:success', 'type:healthz']
+                  )

Contributor

yzhan289 Sep 7, 2023

Suggested change

      
                assert_metric('.slis.kubernetes_healthcheck', value=1, tags=['name:ping', 'type:healthz'])
          
                assert_metric(
          
                    '.slis.kubernetes_healthchecks_total', value=2450, tags=['name:ping', 'status:success', 'type:healthz']
          
                )
          
                assert_metric('slis.kubernetes_healthcheck', value=1, tags=['name:ping', 'type:healthz'])
          
                assert_metric(
          
                    'slis.kubernetes_healthchecks_total', value=2450, tags=['name:ping', 'status:success', 'type:healthz']
          
                )

kube_scheduler/tests/test_sli_metrics.py Outdated

Comment on lines 17 to 18

		CHECK_NAME = 'kube_scheduler'
		NAMESPACE = 'kube_scheduler'

Contributor

yzhan289 Sep 7, 2023

Nit: personally I think you can just remove NAMESPACE and use CHECK_NAME.

kube_scheduler/tests/test_sli_metrics.py Outdated Show resolved Hide resolved

kube_scheduler/tests/test_sli_metrics.py Outdated

+              @pytest.fixture()
+              def mock_metrics():
+                  f_name = os.path.join(os.path.dirname(__file__), 'fixtures', 'metrics_slis_1.27.3.txt')

Contributor

yzhan289 Sep 7, 2023

Instead of os.path.dirname(__file__), you can call get_here(). Example:

integrations-core/kong/tests/common.py

Line 11 in 3567074

HERE = get_here()

yzhan289 mentioned this pull request

Add goroutine_by_scheduling_operation metric to kube_scheduler check #15697

Merged

3 tasks

jennchenn dismissed sblumenthal’s stale review via

238c1b6

September 7, 2023 18:59

github-actions bot commented Sep 7, 2023

The validations job has failed; please review the Files changed tab for possible suggestions to resolve.

1 similar comment

github-actions bot commented Sep 7, 2023

The validations job has failed; please review the Files changed tab for possible suggestions to resolve.

jennchenn requested a review from yzhan289

September 7, 2023 20:32

yzhan289 previously approved these changes

View reviewed changes

Contributor

yzhan289 left a comment

LGTM for agent integ!

jennchenn added 5 commits

September 8, 2023 11:23


          Create scraper for SLI metrics

e5d2d56


          Add sli metrics test fixture

2b6cc7d


          Capture sli kubernetes_healthcheck and healthchecks_total metrics

f122c21


          Add unit tests for detecting sli endpoint logic


          Remove unused urljoin helper function

45de315

jennchenn added 8 commits

September 8, 2023 11:23


          Add new metrics to metadata

fbbfbe9


          Add changelog entry

9b9b0e1


          Fix logic for checking if sli endpoint is available

bb44a0e


          Add check to prevent querying metrics if url unavailable

812573a


          Use general instance fixture

3fdc15b


          Use get_here helper function to get current directory

50444e1


          Use format instead of f string for python 2 support

7bcf858


          Remove custom tag from default test instance fixture

563d9ef

jennchenn dismissed yzhan289’s stale review via

563d9ef

September 8, 2023 15:24

jennchenn force-pushed the jenn/CONT-4201-add-support-for-kube-scheduler-sli-metrics branch from 4b479a2 to 563d9ef Compare

September 8, 2023 15:24

sblumenthal approved these changes

View reviewed changes


          Merge branch 'master' into jenn/CONT-4201-add-support-for-kube-schedu…

ca0570e

…ler-sli-metrics

jennchenn merged commit 1d70f94 into master

jennchenn deleted the jenn/CONT-4201-add-support-for-kube-scheduler-sli-metrics branch

September 8, 2023 18:15

jennchenn mentioned this pull request

[operator] Add rule to allow operator cluster role to curl /metrics/slis DataDog/helm-charts#1166

Merged

5 tasks

jennchenn mentioned this pull request

Support kubernetes controller manager SLI metrics #15914

Merged

3 tasks

jennchenn mentioned this pull request

Update tags and filter by type for kube scheduler SLI metrics #15929

Merged

3 tasks

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

containers documentation integration/kube_scheduler