Potężne lagi na Linux KDE Neon. Przegrzewanie procesora?

0

Posiadam Dell XPS 13, 16 GB RAM oraz Core i7. Od jakiegoś czasu co jakiś czas system mi ostro przymula. Obraz się zawiesza, kursor myszy przestaje działać. top podaje load average na poziomie 4-5 więc zapas jeszcze pozostaje (mam 8 rdzeni).

W logach widzę:

var/log/syslog.1:Apr 21 22:13:57 adam-XPS-13-9370 kernel: [258365.170470] mce: CPU3: Core temperature above threshold, cpu clock throttled (total events = 1997)
/var/log/syslog.1:Apr 21 22:13:57 adam-XPS-13-9370 kernel: [258365.170470] mce: CPU7: Core temperature above threshold, cpu clock throttled (total events = 1997)
/var/log/syslog.1:Apr 21 22:13:57 adam-XPS-13-9370 kernel: [258365.170472] mce: CPU4: Package temperature above threshold, cpu clock throttled (total events = 3320)
/var/log/syslog.1:Apr 21 22:13:57 adam-XPS-13-9370 kernel: [258365.170473] mce: CPU0: Package temperature above threshold, cpu clock throttled (total events = 3320)
/var/log/syslog.1:Apr 21 22:13:57 adam-XPS-13-9370 kernel: [258365.170474] mce: CPU5: Package temperature above threshold, cpu clock throttled (total events = 3320)
/var/log/syslog.1:Apr 21 22:13:57 adam-XPS-13-9370 kernel: [258365.170475] mce: CPU1: Package temperature above threshold, cpu clock throttled (total events = 3320)
/var/log/syslog.1:Apr 21 22:13:57 adam-XPS-13-9370 kernel: [258365.170476] mce: CPU7: Package temperature above threshold, cpu clock throttled (total events = 3320)
/var/log/syslog.1:Apr 21 22:13:57 adam-XPS-13-9370 kernel: [258365.170477] mce: CPU3: Package temperature above threshold, cpu clock throttled (total events = 3320)
/var/log/syslog.1:Apr 21 22:13:57 adam-XPS-13-9370 kernel: [258365.170487] mce: CPU2: Package temperature above threshold, cpu clock throttled (total events = 3320)
/var/log/syslog.1:Apr 21 22:13:57 adam-XPS-13-9370 kernel: [258365.170488] mce: CPU6: Package temperature above threshold, cpu clock throttled (total events = 3320)
/var/log/syslog.1:Apr 21 22:13:57 adam-XPS-13-9370 kernel: [258365.178477] mce: CPU3: Core temperature/speed normal
/var/log/syslog.1:Apr 21 22:13:57 adam-XPS-13-9370 kernel: [258365.178478] mce: CPU5: Package temperature/speed normal

Dodam że często wentylator ostro pracuje. Myślicie że to problem z hardware?

2
Adam Boduch napisał(a):

Posiadam Dell XPS 13
Dodam że często wentylator ostro pracuje. Myślicie że to problem z hardware?

Chyba to popularny sprzęt?
Uruchomiłbym z pendrive jakiś Live Linux i niech sobie pochodzi.

0

Idź do serwisu, niech Ci to sprawdzą w serwisie. Sprawdź czy nie masz coś uruchomionego co może Ci to robić (ale zakładam z kontekstu tego tematu że praktycznie prawie na pewno nie),

Nie wiem jaką masz dystrybucje linuksa, natomiast na pewno są narzędzia diagnostyczne na temat sprzętu.

https://askubuntu.com/questio[...]rdware-errors-in-ubuntu-17-04

Sprawdź thermal paste/wiatrak jeżeli Ci to gwarancji nie zje.

2

Nie podałeś jakie masz częstotliwości przed/po, zainstaluj tam coś w stylu sar/collectd na przyszłość (wystarczy zainstalować, one się "podopisują" do usług/crona), na cito możesz użyć np. glances lub dstat (pewnie trzeba doinstalować)

Tym czasem, na wiadomy problem spróbuj tego: https://github.com/georgewhewell/undervolt (undervolting procesora, powinno pomóc)

Gdyby to jednak z powodu pamięci (jej braku), to zainstaluj (skompiluj i dodaj do usług startowych) to: https://github.com/rfjakob/earlyoom

0

Sprawdź sobie temperatury:

watch sensors
0

Dzięki za porady. Póki co zainstalowałem sobie thermald i monitoruje temperaturę. Wczoraj miałem max 60 - 70 stopni, teraz 45, bez odpalonego IDE czy dockera.

Niestety gwarancja się już skończyła :) Będę monitorował i informował o postępach :)
OS dostaje laga przy takich wartościach:

screenshot-20200423073616.png

sensors daje w tym momencie

[email protected]:~/lenovo-throttling-fix$ sensors
coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +47.0°C  (high = +100.0°C, crit = +100.0°C)
Core 0:        +46.0°C  (high = +100.0°C, crit = +100.0°C)
Core 1:        +46.0°C  (high = +100.0°C, crit = +100.0°C)
Core 2:        +47.0°C  (high = +100.0°C, crit = +100.0°C)
Core 3:        +46.0°C  (high = +100.0°C, crit = +100.0°C)

(więc chyba na chwilę obecną dobrze).

Co do dmesg to z tych istotnych IMHO:

[12166.009400] mce: CPU3: Core temperature above threshold, cpu clock throttled (total events = 129)
[12166.009401] mce: CPU7: Core temperature above threshold, cpu clock throttled (total events = 129)
[12166.009402] mce: CPU7: Package temperature above threshold, cpu clock throttled (total events = 241)
[12166.009403] mce: CPU3: Package temperature above threshold, cpu clock throttled (total events = 241)
[12166.009442] mce: CPU4: Package temperature above threshold, cpu clock throttled (total events = 241)
[12166.009443] mce: CPU1: Package temperature above threshold, cpu clock throttled (total events = 241)
[12166.009444] mce: CPU0: Package temperature above threshold, cpu clock throttled (total events = 241)
[12166.009445] mce: CPU5: Package temperature above threshold, cpu clock throttled (total events = 241)
[12166.009446] mce: CPU2: Package temperature above threshold, cpu clock throttled (total events = 241)
[12166.009447] mce: CPU6: Package temperature above threshold, cpu clock throttled (total events = 241)
[12166.010422] mce: CPU7: Core temperature/speed normal
[12166.010423] mce: CPU3: Core temperature/speed normal
[12166.010423] mce: CPU3: Package temperature/speed normal
[12166.010424] mce: CPU7: Package temperature/speed normal
[12166.010456] mce: CPU2: Package temperature/speed normal
[12166.010457] mce: CPU6: Package temperature/speed normal
[12166.010458] mce: CPU5: Package temperature/speed normal
[12166.010458] mce: CPU1: Package temperature/speed normal
[12166.010472] mce: CPU4: Package temperature/speed normal
[12166.010473] mce: CPU0: Package temperature/speed normal
1

Przynajmniej w polskim prawie i warunkach gwarancji jest, info o tym że gwarancja wydłużana jest o czas naprawy. No i ostatnia naprawa ma jakby odrębną 3 miesięczną gwarancję, a tutaj żeby wymienić LCD musieli całego rozebrać. Jak jest w przypadku importu z USA teraz to nie wiem.

0

TL;DR Stawiam na brudny wentylator.

Sugestie ode mnie:

  1. przygotuj kompa do serwisu
    1.1 Spisz numer seryjny dysku
    1.2 Zaszyfruj kompa / zmien haslo na skomplikowane
    1.3 Spisz model i layout pamieci jesli wymienna
  2. Oddaj na przeczyszczenie
  3. Zastanow sie dlaczego masz tyle syfu w powietrzu i jak to zmienic.
2

Miałem ten problem, zresztą - to dość "popularna" sprawa przy Dellach i Lenovo (fraza w Google: linux cpu stuck at 800 MHz). W skrócie: procesor jest automatycznie ograniczony względem bazowej częstotliwości i mocy (albo oba scenariusze na raz), najczęściej z powodu nadmiernego przegrzania.

Najpierw zainstaluj sysbench i zrób "baseline", w sensie na świeżo odpalonym, ale wychłodzonym sprzęcie, zrób test, sprawdź ile się on wykonuje (obciąż wszystkie rdzenie + daj jakąś liczbę, iteracji, by parę minut sysbench mielił) i zapisz wynik. Sprawdź w którym momencie testu częstotliwość CPU spada.

Następnie upewnij się, że z chłodzeniem fizycznie wszystko ok - kup pastę termoprzewodzącą i alkohol izopropylowy (w czasach pandemii jego cena może być absurdalna) do wyczyszczenia starej pasty. Odkręć tył, wymontuj chłodzenie, przeczyść wentylatory z kurzu, zmyj izopropanolem pozostałości starej pasty z radiatora oraz CPU i (ewentualnie jak masz) GPU i nałóż nową pasty (byle jaki firm na YT pokazuje jak zrobić to poprawnie - unikaj hinduskich jedynie). Potem zrób ten sam stress test i obserwuj czy jest poprawa.

Bez względu czy poprawa jest wyraźna, czy jej nie ma - undervolting zawsze warto zrobić (wartości offsetu -0.050 do -0.150 mV - zależy od procesora, zobacz na forach Twój model procesora) - to rozwiązało mój problem definitywnie, w sensie sysbench mielił procka całą noc i nie było spadku częstotliwości ani na moment

1 użytkowników online, w tym zalogowanych: 0, gości: 1, botów: 0