Table des matières de l'article :
À l'arrivée de l'été, les températures extérieures augmentent considérablement et, même si les centres de données sont conçus pour maintenir un environnement contrôlé, la chaleur extérieure peut toujours affecter la température interne des serveurs. Cela peut entraîner divers problèmes qui, s'ils ne sont pas traités correctement, peuvent provoquer des ralentissements du serveur ou même des redémarrages inattendus.. Dans cet article, nous explorerons comment les températures estivales peuvent révéler des problèmes latents dans les systèmes de refroidissement des serveurs et comment résoudre ces problèmes.
Impact des températures élevées dans les centres de données
Les centres de données sont équipés de systèmes de refroidissement avancés pour maintenir une température stable et sûre pour les serveurs. Cependant, pendant l'été, et en particulier dans les salles de données des petites entreprises qui ne sont pas tout à fait conformes aux normes de l'industrie, la charge thermique peut augmenter en raison de la chaleur externe, mettant ainsi la pression sur ces systèmes. Même de petites augmentations de température peuvent avoir un impact significatif sur les composants du serveur, notamment les processeurs, qui génèrent beaucoup de chaleur pendant leur fonctionnement.
Problèmes courants causés par la chaleur
- Panne du ventilateur (FAN): Les ventilateurs sont essentiels pour dissiper la chaleur des processeurs et autres composants. Au fil du temps, les ventilateurs peuvent s’user et cesser de fonctionner correctement, réduisant ainsi l’efficacité du refroidissement.
- Peu de dissipation de la pâte thermique: La pâte thermique est utilisée pour améliorer le transfert de chaleur entre le CPU et le dissipateur thermique. Si la pâte thermique est épuisée ou n'est plus conforme, l'efficacité du refroidissement diminue, provoquant une surchauffe du processeur.
- Atteindre le seuil de température (Seuil): De nombreux serveurs sont configurés pour s'arrêter automatiquement lorsque la température du processeur dépasse un certain seuil afin d'éviter tout dommage. Cela peut entraîner des redémarrages soudains si les températures estivales poussent les processeurs au-delà de ces limites.
- Limitation du processeur: Lorsqu'un processeur atteint des températures élevées, il peut commencer à réduire sa vitesse d'horloge pour réduire la chaleur générée, un processus connu sous le nom de limitation. Cela peut entraîner des ralentissements importants des performances du serveur.
Diagnostiquer les problèmes liés à la chaleur
Le diagnostic des problèmes liés à la chaleur peut être relativement simple en personne en observant directement les composants physiques du serveur. Cependant, pour un utilisateur ou un administrateur système inexpérimenté, il peut être plus difficile d'identifier ces problèmes sans les outils appropriés. C'est là que l'utilité des outils logiciels comme lm_capteurs.
Qu'est-ce que lm_sensors ?
lm_capteurs est un outil logiciel essentiel pour surveiller la température, la tension et la vitesse du ventilateur sur les systèmes Linux. Cet outil vous permet d'obtenir des données en temps réel à partir de capteurs intégrés aux composants matériels du serveur, facilitant ainsi le diagnostic des problèmes de surchauffe et de refroidissement. lm_sensors est particulièrement utile pour les administrateurs système qui souhaitent maintenir leur matériel dans un état optimal, en évitant les pannes dues à une surchauffe ou à des dysfonctionnements des ventilateurs.
Installation de lm_sensors
L'installation de lm_sensors varie en fonction de la distribution Linux que vous utilisez. Ci-dessous, nous fournissons des instructions pour les principales familles de distributions : les dérivés de Red Hat (comme CentOS et Fedora) et les dérivés de Debian (comme Ubuntu).
Distributions Red Hat dérivées
Pour installer lm_sensors sur des distributions basées sur Red Hat, telles que CentOS, Fedora ou RHEL, vous pouvez utiliser le gestionnaire de packages yum
o dnf
.
Distributions Debian dérivées
Pour installer lm_sensors sur des distributions basées sur Debian, telles qu'Ubuntu et Debian elle-même, vous pouvez utiliser le gestionnaire de paquets apt
.
Fonctions de lm_sensors
- Surveillance de la température: Fournit des lectures précises de la température de divers composants tels que le CPU, le GPU et les cartes mères.
- Vérifiez les tensions: Surveille les tensions d'alimentation pour s'assurer qu'elles se situent dans les limites de fonctionnement sûres.
- Contrôle du ventilateur: Mesure la vitesse de vos ventilateurs pour vous assurer qu'ils fonctionnent correctement.
- Configuration du seuil: Permet de définir des seuils de température et de tension pour activer des alarmes en cas de valeurs anormales.
Étude de cas : analyse de l'image téléchargée
Dans l'image téléchargée ci-dessous, nous voyons un exemple de sortie de commande sensors
sur un système Linux. Ce système s'était redémarré deux fois en une matinée. Nous analysons les données pour identifier les problèmes.
Analyse détaillée
- Température du processeur: L'un des premiers indicateurs de problèmes de surchauffe est la température du processeur. Sur l'image, nous voyons que la température du CPU (CPUIN) est extrêmement élevée, atteignant 90.0°C. Cette valeur dépasse largement le seuil d'alarme fixé à 80.0°C. Le seuil d'alarme est une limite prédéfinie qui, si elle est dépassée, indique que le processeur fonctionne à une température dangereusement élevée. Le dépassement de cette limite réduit non seulement les performances du serveur, mais peut également endommager de manière permanente les composants matériels. Une surchauffe aussi importante suggère que le système de refroidissement ne fonctionne pas correctement.
- Ventilateurs (VENTILATEUR): Un autre aspect crucial à considérer est le fonctionnement des ventilateurs. Les ventilateurs sont chargés de maintenir une température de fonctionnement sûre pour le processeur et les autres composants en dissipant la chaleur générée pendant le fonctionnement. Dans la sortie, on remarque que tous les ventilateurs (fan1, fan2, …, fan7) affichent une vitesse de 0 RPM. C'est un signe clair que les ventilateurs ne fonctionnent pas. Si les ventilateurs ne tournent pas, la circulation de l'air est insuffisante pour refroidir les composants internes du serveur, ce qui entraîne rapidement une surchauffe.
diagnostic
Le principal problème dans ce cas réside dans les ventilateurs cassés, qui ont entraîné une surchauffe du processeur. Lorsque tous les ventilateurs sont inactifs, la chaleur générée par le processeur n'est pas dissipée efficacement, ce qui entraîne une augmentation rapide de la température jusqu'à des niveaux critiques. Cela a déclenché le mécanisme d'arrêt automatique du serveur pour éviter des dommages permanents, entraînant des redémarrages soudains.
Solutions et recommandations
- Remplacement des ventilateurs: La solution immédiate consiste à remplacer les ventilateurs défectueux pour rétablir un flux d'air et un refroidissement adéquats.
- Vérification de la pâte thermique: Vérifiez l'état de la pâte thermique et remplacez-la si nécessaire pour améliorer la dissipation thermique.
- Contrôle continu: utilisez des outils tels que lm_sensors pour surveiller en permanence les températures et la vitesse des ventilateurs, en définissant des alarmes pour éviter de futurs problèmes de surchauffe.
- Inspection de puissance: Vérifiez les tensions d'alimentation pour vous assurer qu'il n'y a aucun problème avec l'alimentation ou la distribution électrique.
conclusion
Les températures estivales peuvent avoir des conséquences néfastes sur les serveurs, même dans les centres de données les mieux équipés. Des problèmes tels que des ventilateurs cassés et de la pâte thermique usée peuvent passer inaperçus jusqu'à ce qu'une chaleur externe les mette en lumière, provoquant des ralentissements et des redémarrages soudains. Grâce à des outils comme lm_sensors, il est possible de surveiller l'état des composants matériels en temps réel et d'intervenir rapidement pour éviter les dommages et les interruptions de service. La maintenance préventive et la surveillance continue sont essentielles pour garantir le bon fonctionnement des serveurs, même dans les conditions les plus extrêmes.