28 juin 2024

Des serveurs qui se rebootent l'été (et pas seulement l'été)

Comment les températures estivales peuvent mettre en lumière des problèmes silencieux tels que des ralentissements et des redémarrages brusques

À l'arrivée de l'été, les températures extérieures augmentent considérablement et, même si les centres de données sont conçus pour maintenir un environnement contrôlé, la chaleur extérieure peut toujours affecter la température interne des serveurs. Cela peut entraîner divers problèmes qui, s'ils ne sont pas traités correctement, peuvent provoquer des ralentissements du serveur ou même des redémarrages inattendus.. Dans cet article, nous explorerons comment les températures estivales peuvent révéler des problèmes latents dans les systèmes de refroidissement des serveurs et comment résoudre ces problèmes.

Impact des températures élevées dans les centres de données

Les centres de données sont équipés de systèmes de refroidissement avancés pour maintenir une température stable et sûre pour les serveurs. Cependant, pendant l'été, et en particulier dans les salles de données des petites entreprises qui ne sont pas tout à fait conformes aux normes de l'industrie, la charge thermique peut augmenter en raison de la chaleur externe, mettant ainsi la pression sur ces systèmes. Même de petites augmentations de température peuvent avoir un impact significatif sur les composants du serveur, notamment les processeurs, qui génèrent beaucoup de chaleur pendant leur fonctionnement.

Problèmes courants causés par la chaleur

  1. Panne du ventilateur (FAN): Les ventilateurs sont essentiels pour dissiper la chaleur des processeurs et autres composants. Au fil du temps, les ventilateurs peuvent s’user et cesser de fonctionner correctement, réduisant ainsi l’efficacité du refroidissement.
  2. Peu de dissipation de la pâte thermique: La pâte thermique est utilisée pour améliorer le transfert de chaleur entre le CPU et le dissipateur thermique. Si la pâte thermique est épuisée ou n'est plus conforme, l'efficacité du refroidissement diminue, provoquant une surchauffe du processeur.
  3. Atteindre le seuil de température (Seuil): De nombreux serveurs sont configurés pour s'arrêter automatiquement lorsque la température du processeur dépasse un certain seuil afin d'éviter tout dommage. Cela peut entraîner des redémarrages soudains si les températures estivales poussent les processeurs au-delà de ces limites.
  4. Limitation du processeur: Lorsqu'un processeur atteint des températures élevées, il peut commencer à réduire sa vitesse d'horloge pour réduire la chaleur générée, un processus connu sous le nom de limitation. Cela peut entraîner des ralentissements importants des performances du serveur.

Diagnostiquer les problèmes liés à la chaleur

Le diagnostic des problèmes liés à la chaleur peut être relativement simple en personne en observant directement les composants physiques du serveur. Cependant, pour un utilisateur ou un administrateur système inexpérimenté, il peut être plus difficile d'identifier ces problèmes sans les outils appropriés. C'est là que l'utilité des outils logiciels comme lm_capteurs.

Qu'est-ce que lm_sensors ?

capteurs lm

lm_capteurs est un outil logiciel essentiel pour surveiller la température, la tension et la vitesse du ventilateur sur les systèmes Linux. Cet outil vous permet d'obtenir des données en temps réel à partir de capteurs intégrés aux composants matériels du serveur, facilitant ainsi le diagnostic des problèmes de surchauffe et de refroidissement. lm_sensors est particulièrement utile pour les administrateurs système qui souhaitent maintenir leur matériel dans un état optimal, en évitant les pannes dues à une surchauffe ou à des dysfonctionnements des ventilateurs.

Installation de lm_sensors

L'installation de lm_sensors varie en fonction de la distribution Linux que vous utilisez. Ci-dessous, nous fournissons des instructions pour les principales familles de distributions : les dérivés de Red Hat (comme CentOS et Fedora) et les dérivés de Debian (comme Ubuntu).

Distributions Red Hat dérivées

Pour installer lm_sensors sur des distributions basées sur Red Hat, telles que CentOS, Fedora ou RHEL, vous pouvez utiliser le gestionnaire de packages yum o dnf.

Distributions Debian dérivées

Pour installer lm_sensors sur des distributions basées sur Debian, telles qu'Ubuntu et Debian elle-même, vous pouvez utiliser le gestionnaire de paquets apt.

Fonctions de lm_sensors

  • Surveillance de la température: Fournit des lectures précises de la température de divers composants tels que le CPU, le GPU et les cartes mères.
  • Vérifiez les tensions: Surveille les tensions d'alimentation pour s'assurer qu'elles se situent dans les limites de fonctionnement sûres.
  • Contrôle du ventilateur: Mesure la vitesse de vos ventilateurs pour vous assurer qu'ils fonctionnent correctement.
  • Configuration du seuil: Permet de définir des seuils de température et de tension pour activer des alarmes en cas de valeurs anormales.

Étude de cas : analyse de l'image téléchargée

Dans l'image téléchargée ci-dessous, nous voyons un exemple de sortie de commande sensors sur un système Linux. Ce système s'était redémarré deux fois en une matinée. Nous analysons les données pour identifier les problèmes.

Capteur de sortie

Analyse détaillée

  • Température du processeur: L'un des premiers indicateurs de problèmes de surchauffe est la température du processeur. Sur l'image, nous voyons que la température du CPU (CPUIN) est extrêmement élevée, atteignant 90.0°C. Cette valeur dépasse largement le seuil d'alarme fixé à 80.0°C. Le seuil d'alarme est une limite prédéfinie qui, si elle est dépassée, indique que le processeur fonctionne à une température dangereusement élevée. Le dépassement de cette limite réduit non seulement les performances du serveur, mais peut également endommager de manière permanente les composants matériels. Une surchauffe aussi importante suggère que le système de refroidissement ne fonctionne pas correctement.
  • Ventilateurs (VENTILATEUR): Un autre aspect crucial à considérer est le fonctionnement des ventilateurs. Les ventilateurs sont chargés de maintenir une température de fonctionnement sûre pour le processeur et les autres composants en dissipant la chaleur générée pendant le fonctionnement. Dans la sortie, on remarque que tous les ventilateurs (fan1, fan2, …, fan7) affichent une vitesse de 0 RPM. C'est un signe clair que les ventilateurs ne fonctionnent pas. Si les ventilateurs ne tournent pas, la circulation de l'air est insuffisante pour refroidir les composants internes du serveur, ce qui entraîne rapidement une surchauffe.

diagnostic

Le principal problème dans ce cas réside dans les ventilateurs cassés, qui ont entraîné une surchauffe du processeur. Lorsque tous les ventilateurs sont inactifs, la chaleur générée par le processeur n'est pas dissipée efficacement, ce qui entraîne une augmentation rapide de la température jusqu'à des niveaux critiques. Cela a déclenché le mécanisme d'arrêt automatique du serveur pour éviter des dommages permanents, entraînant des redémarrages soudains.

Solutions et recommandations

  1. Remplacement des ventilateurs: La solution immédiate consiste à remplacer les ventilateurs défectueux pour rétablir un flux d'air et un refroidissement adéquats.
  2. Vérification de la pâte thermique: Vérifiez l'état de la pâte thermique et remplacez-la si nécessaire pour améliorer la dissipation thermique.
  3. Contrôle continu: utilisez des outils tels que lm_sensors pour surveiller en permanence les températures et la vitesse des ventilateurs, en définissant des alarmes pour éviter de futurs problèmes de surchauffe.
  4. Inspection de puissance: Vérifiez les tensions d'alimentation pour vous assurer qu'il n'y a aucun problème avec l'alimentation ou la distribution électrique.

conclusion

Les températures estivales peuvent avoir des conséquences néfastes sur les serveurs, même dans les centres de données les mieux équipés. Des problèmes tels que des ventilateurs cassés et de la pâte thermique usée peuvent passer inaperçus jusqu'à ce qu'une chaleur externe les mette en lumière, provoquant des ralentissements et des redémarrages soudains. Grâce à des outils comme lm_sensors, il est possible de surveiller l'état des composants matériels en temps réel et d'intervenir rapidement pour éviter les dommages et les interruptions de service. La maintenance préventive et la surveillance continue sont essentielles pour garantir le bon fonctionnement des serveurs, même dans les conditions les plus extrêmes.

Vous avez des doutes ? Vous ne savez pas par où commencer ? Contactez-nous !

Nous avons toutes les réponses à vos questions pour vous aider à faire le bon choix.

Discute avec nous

Discutez directement avec notre support avant-vente.

0256569681

Contactez-nous par téléphone pendant les heures de bureau 9h30 - 19h30

Contactez-nous en ligne

Ouvrez une demande directement dans l'espace contact.

INFORMATIONS

Managed Server Srl est un acteur italien leader dans la fourniture de solutions système GNU/Linux avancées orientées vers la haute performance. Avec un modèle d'abonnement peu coûteux et prévisible, nous garantissons que nos clients ont accès à des technologies avancées en matière d'hébergement, de serveurs dédiés et de services cloud. En plus de cela, nous proposons des conseils système sur les systèmes Linux et une maintenance spécialisée en SGBD, sécurité informatique, Cloud et bien plus encore. Nous nous distinguons par notre expertise dans l'hébergement de CMS Open Source de premier plan tels que WordPress, WooCommerce, Drupal, Prestashop, Joomla, OpenCart et Magento, soutenus par un service d'assistance et de conseil de haut niveau adapté aux administrations publiques, aux PME et à toutes tailles.

Red Hat, Inc. détient les droits de Red Hat®, RHEL®, RedHat Linux® et CentOS® ; AlmaLinux™ est une marque commerciale d'AlmaLinux OS Foundation ; Rocky Linux® est une marque déposée de la Rocky Linux Foundation ; SUSE® est une marque déposée de SUSE LLC ; Canonical Ltd. détient les droits sur Ubuntu® ; Software in the Public Interest, Inc. détient les droits sur Debian® ; Linus Torvalds détient les droits sur Linux® ; FreeBSD® est une marque déposée de The FreeBSD Foundation ; NetBSD® est une marque déposée de la Fondation NetBSD ; OpenBSD® est une marque déposée de Theo de Raadt. Oracle Corporation détient les droits sur Oracle®, MySQL® et MyRocks® ; Percona® est une marque déposée de Percona LLC ; MariaDB® est une marque déposée de MariaDB Corporation Ab ; REDIS® est une marque déposée de Redis Labs Ltd. F5 Networks, Inc. détient les droits sur NGINX® et NGINX Plus® ; Varnish® est une marque déposée de Varnish Software AB. Adobe Inc. détient les droits sur Magento® ; PrestaShop® est une marque déposée de PrestaShop SA ; OpenCart® est une marque déposée d'OpenCart Limited. Automattic Inc. détient les droits sur WordPress®, WooCommerce® et JetPack® ; Open Source Matters, Inc. détient les droits sur Joomla® ; Dries Buytaert détient les droits sur Drupal®. Amazon Web Services, Inc. détient les droits sur AWS® ; Google LLC détient les droits sur Google Cloud™ et Chrome™ ; Microsoft Corporation détient les droits sur Microsoft®, Azure® et Internet Explorer® ; La Fondation Mozilla détient les droits sur Firefox®. Apache® est une marque déposée de The Apache Software Foundation ; PHP® est une marque déposée du groupe PHP. CloudFlare® est une marque déposée de Cloudflare, Inc. ; NETSCOUT® est une marque déposée de NETSCOUT Systems Inc. ; ElasticSearch®, LogStash® et Kibana® sont des marques déposées d'Elastic NV. Hetzner Online GmbH détient les droits sur Hetzner® ; OVHcloud est une marque déposée d'OVH Groupe SAS ; cPanel®, LLC détient les droits sur cPanel® ; Plesk® est une marque déposée de Plesk International GmbH ; Facebook, Inc. détient les droits sur Facebook®. Ce site n'est affilié, sponsorisé ou autrement associé à aucune des entités mentionnées ci-dessus et ne représente en aucune manière aucune de ces entités. Tous les droits sur les marques et noms de produits mentionnés sont la propriété de leurs titulaires respectifs des droits d'auteur. Toutes les autres marques mentionnées appartiennent à leurs titulaires. MANAGED SERVER® est une marque déposée au niveau européen par MANAGED SERVER SRL, Via Enzo Ferrari, 9, 62012 Civitanova Marche (MC), Italie.

Retour en haut de page