Fixed hanged KubernetesPodOperator #28336

moiseenkov · 2022-12-13T14:24:15Z

Fixes: #23497

Inserted a container status check before pulling longs from a stream, because KubernetesPodOperator hangs when attempting to read logs of the terminated container. With the current fix we make sure that the container is alive or was terminated no longer than the specified timeout before reading logs.
Updated unit tests

airflow/providers/cncf/kubernetes/utils/pod_manager.py

Taragolis

nit: datetime

airflow/providers/cncf/kubernetes/utils/pod_manager.py

tests/providers/cncf/kubernetes/utils/test_pod_manager.py

Taragolis

Look nice for me. However better that also someone else look on this changes

potiuk

LGTM too. @dstandish @jedcunningham - maybe you can take a look too?

airflow/providers/cncf/kubernetes/operators/kubernetes_pod.py

airflow/providers/cncf/kubernetes/utils/pod_manager.py

moiseenkov · 2023-02-15T09:24:55Z

@dimberman , @dstandish , @jedcunningham, hi.
Could you please review my fixes?

potiuk · 2023-02-25T16:42:19Z

Needs re-review @dimberman @dstandish I guess.

stale

dstandish · 2023-02-27T17:54:50Z

Hi, I dismissed my old review, so it's not blocking.

I do have a suggestion though I'm sorry if it's a bit late in the game. And maybe it doesn't have to be done in this PR.

But so the thing that stuck out to me when looking at this is, we do a kube api call (in logs_available) every chunk in the log stream. This seems like it could result in a lot of calls and depending on how many such processes on the cluster could cause problems. Just a hunch I guess. But so it would seem to me that to avoid this, perhaps you could run the logs_available check in a thread, just have it run periodically, like once every 30 seconds or something, and then when it returns false, just set a stop boolean on the consumer so that it knows to exit the loop. This decouples the checking from the log stream so that you that checking does not increase in response to log volume.

dstandish · 2023-02-27T18:10:44Z

OK I just experimented with our own "event scheduler" helper and it seems that we could use it to limit calls without managing threads. Here's a code sample:

import time

from airflow.utils.event_scheduler import EventScheduler

class Tracker:
    stop = False
    counter = 0

def hello(tracker: Tracker):
    tracker.counter += 1
    print("hi! %s" % tracker.counter)
    if tracker.counter > 10:
        tracker.stop = True

e = EventScheduler()
tracker = Tracker()
e.call_regular_interval(2, hello, (tracker,))

while True:
    e.run(blocking=False)
    time.sleep(0.5)
    if tracker.stop is True:
        break

I believe what this does is, keep track of how long it's been since hello has been called. and then in every loop, it checks whether it needs to run, and runs it if it does. So you could replace hello with the call to check if pod still running. And it won't make those network calls more than it has to.

dimberman · 2023-02-27T18:22:17Z

LGTM Let's merge when tests pass

moiseenkov · 2023-02-28T10:02:13Z

@dstandish , thank you for proposing a nicer approach.
You mentioned earlier that we do k8s API calls every chunk. It is true for earlier versions of this PR, but currently the API response is being cached for 120 seconds. Please, take a look at the method PodLogsConsumer.read_pod() - it invokes PodManager.read_pod() only if the cache is empty or last call was more than self.read_pod_cache_timeout seconds ago (by default 120s). Thus there's no such problem now, however the EventScheduler approach would look nicer, and the code can always be refactored if needed.

dstandish · 2023-02-28T14:27:38Z

Ah ok thanks 👍

moiseenkov requested a review from jedcunningham as a code owner December 13, 2022 14:24

boring-cyborg bot added provider:cncf-kubernetes Kubernetes provider related issues area:providers labels Dec 13, 2022

moiseenkov force-pushed the fix_hang_kybernetes_pod_operator branch 8 times, most recently from 09c496a to da0d40a Compare December 15, 2022 08:59

Taragolis reviewed Dec 17, 2022

View reviewed changes

airflow/providers/cncf/kubernetes/utils/pod_manager.py Outdated Show resolved Hide resolved

moiseenkov force-pushed the fix_hang_kybernetes_pod_operator branch from da0d40a to 6c19712 Compare December 19, 2022 08:32

Taragolis reviewed Dec 19, 2022

View reviewed changes

airflow/providers/cncf/kubernetes/utils/pod_manager.py Outdated Show resolved Hide resolved

tests/providers/cncf/kubernetes/utils/test_pod_manager.py Outdated Show resolved Hide resolved

moiseenkov force-pushed the fix_hang_kybernetes_pod_operator branch 3 times, most recently from 62c82b4 to b368ce9 Compare December 21, 2022 10:28

Taragolis requested review from dstandish and potiuk December 28, 2022 11:07

Taragolis approved these changes Dec 28, 2022

View reviewed changes

potiuk approved these changes Dec 28, 2022

View reviewed changes

dstandish previously requested changes Dec 28, 2022

View reviewed changes

airflow/providers/cncf/kubernetes/operators/kubernetes_pod.py Outdated Show resolved Hide resolved

airflow/providers/cncf/kubernetes/utils/pod_manager.py Show resolved Hide resolved

airflow/providers/cncf/kubernetes/utils/pod_manager.py Outdated Show resolved Hide resolved

dstandish reviewed Dec 30, 2022

View reviewed changes

airflow/providers/cncf/kubernetes/utils/pod_manager.py Show resolved Hide resolved

dstandish reviewed Dec 30, 2022

View reviewed changes

airflow/providers/cncf/kubernetes/utils/pod_manager.py Outdated Show resolved Hide resolved

moiseenkov force-pushed the fix_hang_kybernetes_pod_operator branch 2 times, most recently from 45093c9 to b56e4a8 Compare January 19, 2023 14:32

moiseenkov force-pushed the fix_hang_kybernetes_pod_operator branch from b56e4a8 to 9370669 Compare January 31, 2023 14:34

eladkal requested a review from dstandish February 1, 2023 07:45

moiseenkov force-pushed the fix_hang_kybernetes_pod_operator branch 2 times, most recently from 64b97ef to 31ffba3 Compare February 6, 2023 15:12

moiseenkov force-pushed the fix_hang_kybernetes_pod_operator branch 2 times, most recently from f4b28d7 to f1b17dd Compare February 10, 2023 10:26

dimberman requested changes Feb 13, 2023

View reviewed changes

airflow/providers/cncf/kubernetes/utils/pod_manager.py Show resolved Hide resolved

airflow/providers/cncf/kubernetes/utils/pod_manager.py Show resolved Hide resolved

airflow/providers/cncf/kubernetes/utils/pod_manager.py Outdated Show resolved Hide resolved

moiseenkov force-pushed the fix_hang_kybernetes_pod_operator branch 2 times, most recently from a81264f to 51114aa Compare February 13, 2023 17:28

potiuk requested a review from dimberman February 20, 2023 09:36

neko1437 mentioned this pull request Feb 23, 2023

Fix k8s pod.execute randomly stuck indefinitely by logs consumption (#23497) #23618

Merged

moiseenkov force-pushed the fix_hang_kybernetes_pod_operator branch from 51114aa to c9f0629 Compare February 24, 2023 15:49

dimberman approved these changes Feb 27, 2023

View reviewed changes

Fixed hanged KubernetesPodOperator

6007df5

potiuk force-pushed the fix_hang_kybernetes_pod_operator branch from fe14347 to 6007df5 Compare February 27, 2023 20:41

potiuk merged commit 6d2face into apache:main Mar 4, 2023

eladkal mentioned this pull request Apr 2, 2023

Status of testing Providers that were prepared on April 02, 2023 #30427

Closed

64 tasks

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fixed hanged KubernetesPodOperator #28336

Fixed hanged KubernetesPodOperator #28336

moiseenkov commented Dec 13, 2022 •

edited by eladkal

Loading

Taragolis left a comment

Taragolis left a comment

potiuk left a comment

moiseenkov commented Feb 15, 2023

potiuk commented Feb 25, 2023

dstandish commented Feb 27, 2023

dstandish commented Feb 27, 2023 •

edited

Loading

dimberman commented Feb 27, 2023

moiseenkov commented Feb 28, 2023

dstandish commented Feb 28, 2023

Fixed hanged KubernetesPodOperator #28336

Fixed hanged KubernetesPodOperator #28336

Conversation

moiseenkov commented Dec 13, 2022 • edited by eladkal Loading

Taragolis left a comment

Choose a reason for hiding this comment

Taragolis left a comment

Choose a reason for hiding this comment

potiuk left a comment

Choose a reason for hiding this comment

moiseenkov commented Feb 15, 2023

potiuk commented Feb 25, 2023

dstandish commented Feb 27, 2023

dstandish commented Feb 27, 2023 • edited Loading

dimberman commented Feb 27, 2023

moiseenkov commented Feb 28, 2023

dstandish commented Feb 28, 2023

moiseenkov commented Dec 13, 2022 •

edited by eladkal

Loading

dstandish commented Feb 27, 2023 •

edited

Loading