Pendant des années, l'histoire decentre de donnéesla consommation d’énergie a suivi un arc prévisible. La numérisation se développait, bien sûr, mais les gains d’efficacité grâce à de meilleurs serveurs, à la virtualisation et à la consolidation du cloud ont maintenu la consommation totale d’électricité étonnamment stable. La demande mondiale en énergie des centres de données a représenté environ 1 % de la consommation totale d’électricité, soit environ 200 térawattheures par an, pendant la majeure partie d’une décennie.
Cette époque touche à sa fin.
La convergence de l’IA générative, de l’extraction de cryptomonnaies, de l’informatique de pointe et de la croissance exponentielle des appareils connectés a brisé l’ancienne courbe d’efficacité. Les estimations du secteur montrent désormais que la demande en énergie des centres de données augmente à des rythmes annuels jamais vus depuis le début des années 2000. Dans certaines régions – Irlande, Virginie du Nord, Singapour – les centres de données représentent déjà 15 à 25 % de la consommation totale d’électricité, obligeant les régulateurs à imposer des moratoires sur les nouvelles constructions.
Dans ce contexte, les choix d'infrastructure qui ressemblaient autrefois à des détails techniques (architecture de refroidissement, topologie de distribution d'énergie, planification de la densité des racks) sont devenus des décisions de conseil d'administration. Le coût de l'énergie n'est plus un élément de campagne. C'est une contrainte pour la croissance.
L'efficacité de l'utilisation de l'énergie, ou PUE, est la mesure d'efficacité standard du secteur des centres de données depuis près de deux décennies. Il s'agit d'un rapport simple : la puissance totale de l'installation divisée par la puissance de l'équipement informatique.
Un PUE de 2,0 signifie que pour chaque watt alimentant les serveurs et le stockage, un autre watt est consacré au refroidissement, à l'éclairage, aux pertes de conversion d'énergie et à d'autres frais généraux. Un PUE de 1,2 signifie que les frais généraux ne consomment que 0,2 watts par watt informatique.
Le secteur dispose de niveaux largement acceptés basés sur le PUE :
| Niveau | PUE | DCiE | Ce que cela signifie |
|---|---|---|---|
| Platine | <1,25 | >0,80 | Efficacité de classe mondiale, nécessite généralement un refroidissement gratuit ou un refroidissement liquide |
| Or | 1,25 – 1,43 | 0,70 – 0,80 | Très efficace, réalisable avec des conceptions modernes dans des climats modérés |
| Argent | 1,43 – 1,67 | 0,60 – 0,70 | Acceptable pour les installations plus anciennes ou les climats plus chauds |
| Bronze | 1,67 – 2,00 | 0,50 – 0,60 | Typique pour les centres de données existants sans rénovations majeures |
| Équitable | 2h00 – 2h50 | 0,40 – 0,50 | Mauvaise efficacité, coût d'exploitation élevé |
| Pauvre | >2,50 | <0,40 | Inefficacité critique, nécessitant probablement une attention immédiate |
Le problème est que de nombreuses organisations ne connaissent pas réellement leur PUE. Ils estiment. Ils devinent. Ou bien ils mesurent uniquement au compteur principal du service public et assument le reste.
Une enquête sectorielle de 2023 a révélé que près de 40 % des opérateurs de centres de données n'avaient jamais mesuré le PUE au niveau du rack. Parmi ceux qui l’ont fait, l’écart entre le PUE déclaré et le PUE réel était en moyenne de 0,3 point – suffisamment pour faire passer une installation du niveau Or au niveau Argent sans que personne ne s’en aperçoive.
Comprendre pourquoi le PUE varie si considérablement commence par examiner où l'alimentation quitte un centre de données.
Dans une installation refroidie par air typique avec un PUE d’environ 1,8, la répartition ressemble à peu près à ceci :
La charge de refroidissement est la variable la plus importante. Une installation située dans un climat tempéré utilisant l'air extérieur pour le refroidissement gratuit peut consacrer seulement 15 % de sa puissance non informatique au refroidissement. La même installation dans un climat tropical avec un refroidissement mécanique toute l'année pourrait dépenser 40 pour cent.
C'est pourquoi les fournisseurs de colocation annoncent le PUE au niveau de l'établissement mais fournissent le PUE au compteur du client : des chiffres différents, des implications différentes. Le client paie pour tout.
La gestion traditionnelle des centres de données supposait un environnement relativement statique. Les casiers ont été remplis pendant des mois ou des années. Le refroidissement pourrait être ajusté lentement. La distribution électrique a été surdimensionnée dès le premier jour.
L’ère du cloud a changé les hypothèses. Les racks se remplissent désormais en jours. Les charges de travail se déplacent automatiquement entre les serveurs. Les clusters d’IA haute densité peuvent consommer trois fois plus de puissance que les racks de calcul à usage général adjacents.
Ces changements ont obligé à repenser la gestion des infrastructures. Trois tendances se démarquent.
Premièrement, la densité augmente de manière inégale.Il y a dix ans, un rack de serveur standard consommait entre 5 et 8 kilowatts. Aujourd'hui, les racks à usage général consomment entre 10 et 15 kilowatts. Les racks de calcul haute performance et de formation à l’IA dépassent régulièrement les 30 kilowatts par rack. Certains dépassent les 50 kilowatts.
Cela crée des problèmes de gestion thermique que le refroidissement par air peine à résoudre. À 20 kilowatts par rack, le refroidissement par air reste efficace avec un confinement adéquat. A 30 kilowatts, cela devient marginal. À 40 kilowatts et plus, le refroidissement liquide passe d’facultatif à nécessaire.
Deuxièmement, la planification des capacités est devenue prédictive.L’ancienne méthode – acheter plus de capacité que nécessaire et la laisser inutilisée – ne fonctionne plus à grande échelle. La capacité inutilisée entraîne à la fois un coût en capital et un coût de maintenance continu.
Les systèmes de gestion d'infrastructure modernes utilisent des données historiques et des prévisions de charge de travail pour prédire quand l'alimentation, le refroidissement ou l'espace rack seront épuisés. Les meilleurs systèmes peuvent recommander de reconfigurer la capacité existante ou de commander du nouveau matériel, quelques jours ou semaines avant qu'une contrainte ne devienne critique.
Troisièmement, les exigences de visibilité ont expaniqué.Un centre de données traditionnel peut suivre l'alimentation au niveau des PDU. Une installation moderne a besoin de visibilité au niveau du rack, parfois au niveau du serveur, et de plus en plus au niveau de la charge de travail – savoir quelle machine virtuelle ou quel conteneur pilote quelle consommation d'énergie.
Infrastructure du centre de donnéesLes logiciels de gestion (DCIM) existent depuis plus d’une décennie, mais leur adoption reste inégale. Moins de la moitié des centres de données d’entreprise ont déployé un système DCIM complet. Beaucoup n’ont utilisé qu’une fraction de ses capacités.
Un système DCIM correctement mis en œuvre fait quatre choses :
Gestion d'actifs.Chaque serveur, commutateur, PDU et unité de refroidissement est suivi dans une base de données de gestion de configuration (CMDB). Emplacement, puissance nominale, connexions réseau, historique de maintenance, tout cela. Cela semble basique, mais de nombreuses organisations suivent encore les actifs dans des feuilles de calcul qui s'écoulent plusieurs mois entre les mises à jour.
Surveillance en temps réel.Consommation électrique au niveau de la PDU ou du rack, température et humidité aux points d'alimentation et de retour, état du système de refroidissement, état de santé de la batterie de l'onduleur. Les alarmes se déclenchent lorsque les paramètres s'écartent des points de consigne. L’objectif est de détecter les problèmes avant qu’ils n’entraînent des temps d’arrêt.
Planification des capacités.Le système connaît la quantité d'énergie et de capacité de refroidissement disponible, la quantité utilisée et la quantité réservée pour un déploiement futur. Il peut modéliser l’impact de l’ajout d’un nouveau rack haute densité ou du retrait d’un ensemble de serveurs plus anciens.
Visualisation.Un jumeau numérique du centre de données — rack par rack, dalle par dalle — affiche les conditions actuelles et permet aux opérateurs de simuler les changements. En ajoutant 10 kilowatts de charge à la troisième ligne, quatrième colonne : cela dépasse-t-il la capacité de refroidissement ? Le système répond avant que quiconque ne déplace l'équipement.
Réduire la consommation énergétique des centres de données n’a rien de mystérieux. Les méthodes sont bien comprises. Le défi réside dans la discipline de mise en œuvre.
Augmentez la température de l'air soufflé.La plupart des centres de données fonctionnent à froid – 18 à 20 degrés Celsius au retour de l’unité de refroidissement – parce que c’est ce que les opérateurs ont toujours fait. Les directives de l'ASHRAE recommandent désormais une température de 24 à 27 degrés. Chaque augmentation de degré réduit l’énergie de refroidissement d’environ 4 pour cent. Un fonctionnement à 26 degrés au lieu de 20 degrés permet d'économiser 20 à 25 % de la puissance de refroidissement.
Élimine le mélange d’air chaud et froid.Le confinement des allées chaudes, le confinement des allées froides ou les conduits d'évacuation verticaux forcent l'air de refroidissement à aller là où il est nécessaire plutôt que de circuler brièvement à l'avant des racks. Le confinement à lui seul réduit généralement l’énergie de refroidissement de 15 à 25 pour cent.
Utilisez des variateurs de vitesse.Les ventilateurs et les pompes à vitesse constante gaspillent de l’énergie à charge partielle. Les entraînements à vitesse variable adaptent le débit d’air et d’eau à la demande réelle. Les périodes de récupération des rénovations sont généralement de 1 à 3 ans.
Optimisez le fonctionnement de l'onduleur.La plupart des systèmes UPS fonctionnent en mode double conversion en continu, convertissant le courant alternatif en courant continu et inversement en courant alternatif même lorsque l'alimentation secteur est propre. Les systèmes UPS modernes peuvent passer en mode éco lorsque la qualité de l'énergie le permet, atteignant un rendement de 99 % au lieu de 94 à 96 %. Le compromis est un bref temps de transfert vers la batterie en cas de panne de courant. Pour les charges informatiques dotées d’alimentations conçues pour de tels transferts, le risque est minime.
Adoptez une distribution à haute tension.La distribution de l'alimentation à 415 V au lieu de 208 V réduit les pertes de distribution d'environ 25 %. Cela nécessite des PDU et des alimentations de serveur compatibles, mais de nombreux appareils modernes le prennent en charge.
Société Shangyu CPSY, une entreprise de haute technologie axée sur l'infrastructure des centres de données, rapporte un PUE de 1,3 pour ses solutions de centres de données modulaires. Cela place l’entreprise au niveau Gold, évoluant vers Platinum.
Les économies d'énergie revendiquées de 25 pour cent par rapport aux conceptions conventionnelles proviennent de plusieurs facteurs. Les systèmes UPS modulaires avec une efficacité de 97,4 pour cent au niveau du système réduisent les pertes de distribution qui s'élèveraient autrement à 15 à 20 pour cent. Les climatiseurs de précision dotés de compresseurs à vitesse variable et de ventilateurs EC ajustent la puissance de refroidissement en fonction de la charge thermique réelle plutôt que de fonctionner à capacité fixe. Et la disposition physique (confinement des allées chaudes, espacement optimal des racks, plancher surélevé avec des dalles perforées de taille appropriée) répond à la gestion du flux d'air qui mine de nombreuses installations par ailleurs efficaces.
Le portefeuille de certifications de l'entreprise comprend ISO 9001 (gestion de la qualité) et ISO 27001 (gestion de la sécurité de l'information). Ses déploiements clients incluent des partenariats avec Huawei, ZTE et Inspur, avec des installations d'exportation aux États-Unis, au Royaume-Uni, en Allemagne, en France et en Australie.
Pendant des années, le refroidissement liquide a été une technologie de niche pour les centres de calcul intensif. Cela évolue rapidement.
Les clusters de formation IA utilisant les GPU NVIDIA H100 ou les prochains GPU B200 génèrent 30 à 50 kilowatts par rack dans des configurations purement refroidies par air. À ces densités, le refroidissement par air nécessite des débits d'air élevés : des ventilateurs bruyants, des racks profonds et un contrôle thermique encore marginal.
Le refroidissement liquide directement sur puce élimine 60 à 80 % de la chaleur à la source. Les chips refroidissent. Les ventilateurs tournent plus lentement. Le climatiseur individuel gère uniquement la chaleur restante provenant des blocs d’alimentation, de la mémoire et d’autres composants.
Le gain d’efficacité est substantiel. Les installations dotées d'un refroidissement direct sur les puces rapportent des valeurs PUE de 1,1 à 1,2. Les compromis sont des coûts d'investissement plus élevés, une gestion des fuites plus complexe et la nécessité d'un traitement de l'eau de qualité industrielle.
Le refroidissement par immersion totale – submergeant des serveurs entiers dans un fluide diélectrique – pousse le PUE en dessous de 1,1 mais reste spécialisé. La plupart des centres de données commerciaux adopteront d'abord le refroidissement direct sur puce, puis l'immersion pour des zones spécifiques à haute densité.
La plate-forme de centre de données SHANGYU comprend des dispositions pour les architectures de refroidissement par air et par liquide, reconnaissant que les futurs déploiements à haute densité nécessiteront une gestion thermique basée sur les fluides, quelle que soit la conception des installations.
La plupart des équipes opérationnelles des centres de données travaillent toujours de manière réactive. Une alarme retentit. Quelqu'un enquête. Un correctif est appliqué. Le cycle se répète.
La transition vers la gestion prédictive nécessite trois capacités qui manquent à de nombreuses organisations.
Données de configuration complètes.Savoir ce qui se trouve dans le centre de données (chaque serveur, chaque commutateur, chaque PDU, chaque unité de refroidissement) constitue la base. Sans données CMDB précises, la planification des capacités relève de la conjecture.
Télémétrie granulaire.La mesure de la puissance au niveau du rack est le minimum. La mesure de la puissance par serveur est meilleure. L'attribution de puissance au niveau de la charge de travail est la meilleure solution, mais la plus difficile à réaliser.
Des analyses qui distinguent le signal du bruit.Un pic de température sur un rack peut signifier une panne de ventilateur. Un pic de température dans la moitié du centre de données peut signifier une panne du refroidisseur. Le système doit différencier et recommander des réponses en conséquence.
La plate-forme DCIM de SHANGYU fournit une prise en charge des appareils SNMP et Modbus, des interfaces d'application Web et Windows et une intégration avec des caméras réseau pour l'imagerie déclenchée par des événements. Les objectifs déclarés sont simples : réduire les temps d'arrêt coûteux, réduire les coûts d'exploitation quotidiens grâce à un contrôle environnemental complet et améliorer la visibilité et la traçabilité de la gestion.
La consommation énergétique des centres de données représente environ 1 % de la demande mondiale en électricité. Ce nombre semble petit jusqu’à ce qu’il soit mis en contexte. Cela équivaut à peu près à la consommation totale d’électricité du Royaume-Uni.
Plus important encore, le taux de croissance s’accélère. Les projections du secteur montrent que la demande d'énergie des centres de données augmentera de 10 à 15 % par an jusqu'en 2030, sous l'effet de l'IA, de l'adoption du cloud et de l'expansion continue des appareils connectés. À ce rythme, les centres de données consommeraient 3 à 4 % de l’électricité mondiale d’ici la fin de la décennie.
Les gains d'efficacité qui ont permis de maintenir la consommation d'énergie stable au cours de la décennie précédente provenaient de la virtualisation des serveurs (réduction du nombre de serveurs physiques), de l'amélioration de l'efficacité des disques (passage des disques rotatifs aux SSD) et du large déploiement du refroidissement gratuit (en utilisant l'air extérieur au lieu de la réfrigération mécanique). Ces fruits à portée de main ont été largement cueillis.
La prochaine vague d’efficacité viendra du refroidissement liquide, de la distribution de tensions plus élevées, des contrôles de refroidissement optimisés par l’IA et, peut-être le plus important, d’un meilleur alignement entre la capacité de l’infrastructure et la charge informatique réelle. Ce dernier élément nécessite le type de visibilité en temps réel et d’analyse prédictive que les systèmes DCIM fournissent, mais que peu d’installations utilisent pleinement.
Connaissez-vous votre PUE réel, et non le numéro figurant sur la fiche technique ?Si vous n'avez pas mesuré à la sortie de l'onduleur et à l'entrée de l'équipement informatique, vous ne le savez pas. La différence est votre véritable frais généraux.
Vos systèmes de refroidissement s’affrontent-ils ?Dans de nombreux centres de données, les unités CRAC sont configurées avec des bandes de température et d'humidité qui se chevauchent. Une unité déshumidifie tandis qu’une autre humidifie. L’un refroidit tandis qu’un autre réchauffe. Ce n’est pas inhabituel. Ce n’est pas non plus efficace.
Quelle est la consommation électrique au repos de vos serveurs ?Les données du secteur montrent que les serveurs d'entreprise typiques consomment 30 à 40 % de leur puissance maximale lorsqu'ils ne font rien. L’arrêt ou la mise en veille des serveurs inutilisés constitue la mesure d’efficacité la plus rentable disponible. C'est aussi le plus négligé.
Pourriez-vous augmenter la température de votre air soufflé de deux degrés sans enfreindre les spécifications de l’équipement ?Probablement oui. La plupart des équipements sont conçus pour des températures d'admission de 25 à 27 degrés. La plupart des centres de données fonctionnent entre 20 et 22 degrés. Cet écart de six degrés représente des années d’énergie de refroidissement inutile.
À quand remonte la dernière fois que vous avez validé l’efficacité de votre UPS ?L'efficacité nominale est mesurée à pleine charge avec un facteur de puissance parfait. L'efficacité réelle à charge partielle avec un facteur de puissance réel peut être inférieure de 5 à 10 points.