Niezrozumiały restart podów (usługa WWW - Node.js)

0

Cześć wszystkim;
Pytanie odnośnie Kubernetesa. Mam okazję pracować z nim od jakiegoś czasu i dzisiaj miałem taką sytuację, że dwie repliki Deployment'u wyłożyły się w dokładnie tej samej sekundzie. Szukałem też przyczyny tego restartu. Niestety z samej aplikacji nie zalogowało mi nic podejrzanego, a describe z podów wyglądał tak: "Reason: Error; Exit Code:1" -.-
Byłem przekonany (być może błędnie), że jak uruchomię więcej niż jedną replikę, to będzie mała szansa, że pod zrestartuje się dokładnie w tym samym czasie, np. w przypadku jakiegoś "nieoczekiwanego błędu wewnętrznego" aplikacji.
W logach jedno znalazłem jeszcze - do zarządzania liczbą replik mam uruchomione HPA, i krótko przed restartem podów HPA rzucił eventy:

Warning | FailedGetResourseMetric | hpa | failed to get cpu utilization: unable to get metrics from resource cpu: metrics returned from resource metrics API
Warning | FailedComputeMetricsReplicas | hpa | invalid metrics (1 invalid out of 1), first error is: unable to get metrics from resource cpu: metrics returned from resource metrics API

Ten błąd metryk może być powodem restartu tych replik?
Jakie macie pomysły?

Dzięki za wypowiedź w temacie.

0
adamerot napisał(a):

Ten błąd metryk może być powodem restartu tych replik?

Według mnie nie powinien, więc szukałbym w innym miejscu.
HPA sam z siebie nie powinien nic restartować. Mógłby zeskalować w dół, ale wtedy widziałbyś w logach co innego.

Ile masz node'ów? Może cały node się zrestartował i akurat na nim były te 2 repliki?

0

@some_ONE: Nodów mam akurat jeden (wiem, że produkcyjnie nie jest to zalecana konfiguracja), ale generalnie na tym nodzie mam kilkanaście podów i między innymi serwis składający się z API (dwa pody) i WWW (dwa pody) i tylko pody z WWW uległy restartowi..

1 użytkowników online, w tym zalogowanych: 0, gości: 1