Pubblicato il Maggio 17, 2024

Il 40% del budget IT è spesso sprecato in risorse server inattive. La soluzione non è comprare più potenza, ma analizzare i colli di bottiglia reali e i costi nascosti di licenze ed energia.

  • Misurare i picchi di carico (percentili p95/p99) invece delle medie previene il costoso sovradimensionamento.
  • La scelta tra Scale-up e Scale-out dipende più dal costo delle competenze e delle licenze software che dal solo hardware.

Raccomandazione: Iniziate con un audit delle prestazioni del codice applicativo: spesso il problema è il software, non l’hardware.

Per un CTO o un IT Manager di una PMI italiana in crescita, la scena è familiare: l’azienda accelera, gli utenti aumentano, le applicazioni mission-critical rallentano. L’istinto primario, quasi pavloviano, è quello di gettare hardware sul problema: comprare un server più potente, aggiungere RAM, espandere lo storage. È la via apparentemente più semplice per recuperare prestazioni e tranquillità. Ma è anche la più costosa e, spesso, la meno efficace. Molti approcci tradizionali si basano su consigli generici come “monitorare l’uso della CPU” o “prepararsi al futuro” acquistando capacità in eccesso, una pratica che porta dritto al problema che affligge innumerevoli aziende: pagare profumatamente per infrastrutture che, per la maggior parte del tempo, restano drammaticamente silenti e inattive.

E se la vera ottimizzazione dei costi non risiedesse nella potenza bruta, ma nell’intelligenza con cui si acquista flessibilità? Questo articolo non vi dirà semplicemente di comprare più RAM o CPU. Al contrario, vi guiderà a smettere di pagare per il “just in case” (il cosiddetto over-provisioning), attraverso un approccio analitico e orientato al ROI. Il nostro obiettivo è spostare il focus dal semplice costo di acquisto dell’hardware (TCO) al “Costo Totale della Flessibilità”, che include variabili spesso trascurate ma critiche come le licenze software, i consumi energetici specifici del mercato italiano e le competenze tecniche necessarie. Impareremo a distinguere tra un investimento strategico e un puro spreco di budget, concentrandoci sulle metriche di business reali, non solo su quelle di sistema.

Nel corso di questa analisi, affronteremo le strategie di scaling più efficaci per un database in crescita, definiremo un processo in passaggi chiave per mappare i consumi reali e identificheremo gli errori di configurazione che possono vanificare anche l’hardware più performante. Infine, esploreremo le logiche di migrazione verso un cloud ibrido, un passo cruciale per le PMI italiane che devono bilanciare innovazione e conformità normativa, in particolare con il GDPR.

Perché il 40% delle aziende paga per risorse server che restano inattive?

Il sovradimensionamento non è un semplice errore di calcolo; è un vero e proprio debito tecnico infrastrutturale. Le aziende, nel timore di downtime o di rallentamenti durante i picchi di carico, acquistano capacità computazionale “per ogni evenienza”. Il risultato è un parco macchine, on-premise o in cloud, le cui risorse di CPU, RAM e storage vengono utilizzate solo per una frazione minima del loro potenziale. Questo spreco ha un costo diretto e misurabile, specialmente nel contesto italiano. L’infrastruttura inutilizzata non è a costo zero: consuma energia. Con un costo medio dell’energia per i data center che in Italia si attesta su valori significativi, come i 133,5 €/MWh previsti nel 2025, ogni core CPU e ogni GB di RAM in idle rappresenta una perdita netta.

A questo si aggiungono i costi “nascosti” ma altrettanto impattanti. Le licenze software, specialmente per database, sistemi operativi e piattaforme di virtualizzazione, sono spesso calcolate per socket o per core. Pagare licenze per core che restano costantemente al di sotto del 10% di utilizzo è un puro spreco di budget IT che potrebbe essere reinvestito in innovazione. L’approccio reattivo basato sulla paura porta a un circolo vizioso: un rallentamento porta a un upgrade, che porta a un maggiore costo fisso, che a sua volta riduce le risorse disponibili per ottimizzare la vera causa del problema, che spesso risiede nel software e non nell’hardware.

L’antidoto a questo spreco non è smettere di pianificare per la crescita, ma cambiare il paradigma di misurazione. Invece di basarsi su stime approssimative, un dimensionamento corretto (right-sizing) parte dall’analisi dei dati storici e dalla correlazione tra le metriche di sistema (CPU, RAM) e le metriche di business (transazioni al secondo, utenti attivi). Questo permette di acquistare non solo potenza, ma flessibilità operativa, garantendo che ogni euro speso per l’infrastruttura generi un ritorno sull’investimento tangibile.

Scale-up o Scale-out: quale strategia scegliere per un database in crescita?

Quando un’applicazione, e in particolare il suo database, raggiunge i limiti di performance, la domanda che ogni IT Manager si pone è: come scalare? Le due strade maestre sono lo Scale-up (scalabilità verticale) e lo Scale-out (scalabilità orizzontale). Lo Scale-up consiste nel potenziare la singola macchina esistente, aggiungendo più CPU, più RAM o dischi più veloci. È l’approccio tradizionale, monolitico. Lo Scale-out, invece, prevede di affiancare al server esistente altre macchine (nodi), distribuendo il carico su un’architettura cluster. Questa seconda opzione è nativa del mondo cloud e dei sistemi distribuiti.

La scelta non è banale e non può basarsi solo sul costo iniziale dell’hardware. Bisogna valutare il “Costo Totale della Flessibilità”. Lo Scale-up può sembrare più semplice da gestire, poiché richiede competenze da sistemista tradizionale, ma presenta un limite fisico invalicabile: a un certo punto, non si potrà più aggiungere hardware alla macchina. Inoltre, può comportare costi di licenza proibitivi per software (come alcuni database proprietari) che si legano al numero di core della singola macchina. Lo Scale-out, d’altro canto, offre una scalabilità quasi illimitata e permette di utilizzare hardware “commodity” a basso costo e software open-source, ma richiede competenze più moderne e specializzate, tipiche del mondo DevOps e SRE (Site Reliability Engineering), per gestire la complessità di un’architettura distribuita.

Rappresentazione visiva di server interconnessi in configurazione scale-out

Come illustrato, un’architettura scale-out trasforma un singolo punto di fallimento in una rete resiliente di nodi interconnessi. Per una PMI italiana, la decisione deve tenere conto delle competenze interne, del budget a lungo termine e della natura dell’applicazione. Un’applicazione legacy monolitica potrebbe beneficiare di uno Scale-up, mentre una nuova piattaforma basata su microservizi è candidata ideale per lo Scale-out. Il seguente confronto del TCO (Total Cost of Ownership) per il mercato italiano può aiutare a orientare la scelta.

Questa tabella, basata su un’analisi comparativa del mercato italiano, evidenzia come i costi iniziali e operativi possano variare drasticamente.

Confronto TCO Scale-up vs Scale-out per il mercato italiano
Parametro Scale-up Scale-out
Costo iniziale hardware €15.000-30.000 €8.000-12.000 per nodo
Competenze richieste Sistemista tradizionale DevOps/SRE specializzato
Costi licenze (es. Oracle vs PostgreSQL) €10.000+/anno Open source disponibile
Scalabilità massima Limitata da hardware Virtualmente illimitata

Come mappare il consumo reale di CPU e RAM in 5 passaggi chiave

Il “right-sizing” di un server non è un’arte oscura, ma una disciplina basata sui dati. Affidarsi all’istinto o a regole empiriche generiche è il modo più sicuro per sovradimensionare. Per evitare la “trappola della media”, ovvero dimensionare sulla base dell’utilizzo medio che nasconde i picchi reali, è necessario un approccio analitico. L’obiettivo è comprendere il comportamento dell’applicazione sotto carico per dimensionare l’infrastruttura sui picchi effettivi, non su valori medi che non rappresentano la realtà operativa. Un utilizzo medio della CPU del 20% non dice nulla se per 5 minuti ogni ora la CPU satura al 100%, bloccando l’operatività aziendale.

Per ambienti virtualizzati, è fondamentale mantenere un margine operativo. Secondo le linee guida Microsoft per la pianificazione della capacità, puntare a un utilizzo medio sostenuto della CPU che non superi un target tra il 40% e il 60% permette di assorbire picchi imprevisti senza degradazione delle performance. Per raggiungere questo obiettivo, è necessario un monitoraggio granulare. L’analisi dei percentili p95 e p99 è la chiave: queste metriche indicano il valore di consumo che non viene superato rispettivamente nel 95% e 99% del tempo. Dimensionare su questi valori, anziché sulla media, garantisce che l’infrastruttura possa gestire quasi tutti i picchi di carico reali, offrendo un’esperienza utente fluida.

Questo processo di mappatura permette di costruire un modello previsionale affidabile, legando la crescita delle risorse IT alla crescita del business. Ad esempio, se si osserva che ogni 100 nuovi utenti iscritti comportano un aumento del 5% del consumo di RAM al p95, si può pianificare l’acquisto di nuove risorse in modo proattivo ma giustificato, basandosi su metriche di business concrete.

Piano d’azione per il dimensionamento ottimale del server

  1. Audit prestazionale del codice: Prima di considerare l’hardware, identificate le inefficienze a livello applicativo. Un’ottimizzazione del software può ridurre drasticamente il bisogno di risorse.
  2. Calcolo dei core e RAM di base: Calcolate un punto di partenza basato su carichi di lavoro noti, ad esempio 1 core ogni 10 utenti per servizi RDP o un minimo di 2 core e 4GB di RAM base per un’istanza MS SQL.
  3. Stima per utente: Considerate il consumo per utente per applicazioni standard, come circa 256MB di RAM per un utente che utilizza applicativi Office base in ambiente Terminal Server.
  4. Monitoraggio dei percentili: Abbandonate le medie. Monitorate e dimensionate sui valori dei percentili p95 e p99 per CPU e RAM per gestire i picchi reali di carico.
  5. Correlazione con i KPI di business: Mettete in relazione il consumo di risorse con indicatori di performance aziendali (es. ordini/ora, utenti attivi) per creare un modello di previsione della capacità affidabile.

L’errore di configurazione che rallenta le applicazioni mission-critical

A volte, il problema delle performance non risiede nella quantità di risorse, ma in come queste vengono allocate e configurate. Un errore comune, soprattutto in ambienti virtualizzati, è quello che può essere definito “generosità ingiustificata”: l’assegnazione di un numero eccessivo di vCPU (virtual CPU) a una singola macchina virtuale (VM). L’idea intuitiva è “più vCPU equivalgono a più potenza”, ma la realtà è più complessa. Un sistema operativo come Windows Server può funzionare egregiamente con due vCPU per carichi base, ma assegnarne otto a un’applicazione che non è in grado di parallelizzare il carico su tutti i core può essere controproducente. L’hypervisor dovrà infatti attendere che otto core fisici siano disponibili contemporaneamente per eseguire un ciclo di istruzioni della VM, un fenomeno noto come “CPU Ready Time” che introduce latenza e rallenta l’applicazione.

Questo problema è amplificato dai costi di licenza. Come evidenziato da esperti del settore, il sovradimensionamento in ambienti virtualizzati ha un impatto diretto sul portafoglio. Molte piattaforme, come quelle di Microsoft o VMware, legano i loro costi di licenza al numero di socket fisici o al numero di core utilizzati. Pertanto, un’architettura progettata con un numero eccessivo di macchine virtuali o di vCPU per VM non solo è potenzialmente meno performante, ma gonfia inutilmente la fattura delle licenze.

Se un numero così elevato di macchine virtuali è necessario allora il sistema è ben dimensionato, altrimenti si rischia di sovradimensionare la progettazione. In quest’ultimo caso, bisogna ricordare bene che per ogni socket montato si aggiungono i costi di licenza di determinate piattaforme Microsoft o VMware.

– Blog Artera, Virtualizzazione e Dimensionamento Server

Un altro errore classico riguarda la configurazione della memoria, in particolare la memoria Heap della JVM (Java Virtual Machine) in ambienti containerizzati. Assegnare a un container una certa quantità di RAM (es. 4GB) ma configurare la JVM per utilizzarne solo una frazione (es. 1GB) è uno spreco di risorse evidente. Al contrario, configurare una Heap troppo grande può portare a lunghe e frequenti pause di “Garbage Collection” che “congelano” l’applicazione, causando rallentamenti percepibili dall’utente finale. Un’attenta analisi e un tuning specifico per ogni applicazione sono quindi indispensabili per garantire che le risorse allocate vengano utilizzate in modo efficiente.

Quando aggiornare l’hardware: i 3 segnali che il tuo server sta per cedere

In un’ottica di ottimizzazione dei costi, sostituire un server non deve essere una decisione basata sull’età anagrafica della macchina, ma su segnali concreti e misurabili che indicano un guasto imminente o un’obsolescenza funzionale. Continuare a utilizzare un server che sta per cedere espone l’azienda a rischi di downtime non pianificato, con costi potenzialmente enormi in termini di perdita di fatturato e di reputazione. Esistono tre segnali chiave, di natura tecnica ed economica, che ogni IT Manager dovrebbe monitorare attentamente.

Il primo segnale, e forse il più critico, proviene direttamente dal sistema. La comparsa di errori di memoria ECC (Error-Correcting Code) non correggibili nei log di sistema (visibili, ad esempio, con il comando `dmesg` in Linux) è un campanello d’allarme da non ignorare mai. La memoria ECC è progettata per rilevare e correggere errori a singolo bit; quando gli errori diventano multipli e non più correggibili, significa che il modulo RAM è quasi certamente sul punto di guastarsi in modo definitivo. Ignorare questo segnale è come guidare con la spia dell’olio accesa: il guasto non è una possibilità, ma una certezza imminente.

Close-up macro di componenti server con indicatori LED di stato

Oltre ai segnali tecnici, esistono considerazioni economiche e di sicurezza. Ecco i tre indicatori principali che suggeriscono la necessità di un upgrade:

  • Segnale 1: Errori di memoria critici. La comparsa di errori ECC non correggibili nei log di sistema è un preavviso quasi certo di un guasto imminente della RAM.
  • Segnale 2: Costo di mantenimento antieconomico. Quando il costo annuale di mantenimento del server (considerando le tariffe elettriche italiane, i costi di raffreddamento e il rischio di guasto con conseguente costo di fermo macchina) supera il valore economico residuo del server stesso, la sua sostituzione diventa un investimento sensato.
  • Segnale 3: Fine del supporto per la sicurezza. Il momento in cui il produttore hardware o software cessa di rilasciare aggiornamenti di sicurezza critici (firmware, patch del sistema operativo) è un punto di non ritorno. Un server non aggiornabile diventa una porta aperta per vulnerabilità come Log4Shell o non è in grado di supportare protocolli di sicurezza moderni come TLS 1.3, esponendo l’intera azienda a rischi inaccettabili.

Tier III o Tier IV: vale davvero la pena pagare il 30% in più per l’uptime?

La scelta di un data center per ospitare la propria infrastruttura on-premise o di colocation è una decisione strategica. In Italia, il mercato dei data center è in piena espansione, ma la scelta del fornitore non può basarsi solo sulla vicinanza geografica. Un parametro fondamentale è la classificazione “Tier” dell’Uptime Institute, che certifica la resilienza e l’affidabilità di un data center. Le due categorie più comuni per le applicazioni business-critical sono Tier III e Tier IV. La differenza principale risiede nel livello di ridondanza e, di conseguenza, nell’uptime garantito.

Un data center Tier III offre una ridondanza N+1, il che significa che per ogni componente necessario al funzionamento (alimentazione, raffreddamento) ne esiste uno di backup. Questo garantisce un uptime del 99.982%, che si traduce in un massimo di 90 minuti di downtime all’anno. Un data center Tier IV, invece, porta la ridondanza a un livello superiore (2N+1), con due percorsi di distribuzione indipendenti e completamente ridondati per ogni componente. Questo design “fault tolerant” permette di sostenere qualsiasi intervento di manutenzione o guasto singolo senza alcuna interruzione del servizio, garantendo un uptime del 99.995%, ovvero meno di 26 minuti di downtime annuo. Tuttavia, questa maggiore affidabilità ha un costo: un servizio in un data center Tier IV può costare in media il 30% in più rispetto a un Tier III.

La domanda per un CTO è quindi puramente legata al ROI: il costo di quei 64 minuti di potenziale downtime annuo in più giustifica un investimento superiore del 30%? Per un sito di e-commerce che fattura migliaia di euro al minuto, la risposta è probabilmente sì. Per un’applicazione gestionale interna usata durante l’orario d’ufficio, un downtime pianificato di notte o nel weekend per manutenzione potrebbe essere perfettamente accettabile. La scelta dipende da un’analisi costi-benefici legata all’impatto di un’interruzione sul business specifico.

Confronto downtime annuale Tier III vs Tier IV
Caratteristica Tier III Tier IV
Downtime annuale 90 minuti 26 minuti
Uptime garantito 99.982% 99.995%
Sovrapprezzo medio Base +30%
Ridondanza componenti N+1 2N+1
Manutenzione Con interruzione parziale Senza interruzione

Power Usage Effectiveness: come abbassare il tuo indice sotto 1.2 grazie al liquido

Il Power Usage Effectiveness (PUE) è la metrica standard per misurare l’efficienza energetica di un data center. Si calcola dividendo l’energia totale consumata dalla struttura per l’energia effettivamente utilizzata dall’attrezzatura IT (server, storage, network). Un PUE ideale è 1.0 (nessuno spreco), mentre un PUE di 2.0 significa che per ogni watt usato dai server, un altro watt viene sprecato in raffreddamento, illuminazione e altre perdite. In un contesto di costi energetici in aumento, come quello italiano, abbassare il PUE non è solo una questione di sostenibilità ambientale, ma una leva strategica per il controllo dei costi operativi.

L’obiettivo per i data center moderni, come indicato da diverse analisi di settore, è raggiungere un PUE inferiore a 1.5. Il principale responsabile di un PUE elevato è il sistema di raffreddamento, che può arrivare a consumare fino al 40% dell’energia totale di un data center. Per questo, le tecnologie di raffreddamento innovative sono al centro delle strategie di ottimizzazione. Ad esempio, il “Free Cooling” è una tecnica che sfrutta l’aria esterna a bassa temperatura durante i mesi più freddi per raffreddare i server, riducendo drasticamente l’uso di costosi e energivori chiller. Aziende come Data4, che hanno visto i costi energetici aumentare del 60% rispetto al 2021 nei loro campus italiani, utilizzano massicciamente questa tecnologia per contenere le spese.

Tuttavia, la frontiera dell’efficienza è rappresentata dal raffreddamento a liquido. A differenza dell’aria, il liquido ha una capacità termica molto superiore, permettendo di trasportare il calore lontano dai componenti in modo molto più efficiente. Esistono due approcci principali: il “Direct-to-Chip”, dove il liquido viene portato direttamente a contatto con i processori tramite piastre fredde, e il “raffreddamento a immersione”, dove interi server vengono immersi in un fluido dielettrico non conduttivo. Queste tecnologie, sebbene richiedano un investimento iniziale maggiore, permettono di eliminare quasi completamente la necessità di sistemi di condizionamento dell’aria tradizionali, consentendo di raggiungere PUE vicini a 1.1 o addirittura inferiori. Per le aziende con carichi di lavoro ad alta densità (HPC, AI), l’investimento nel raffreddamento a liquido può avere un ROI molto rapido, grazie al drastico taglio della bolletta energetica.

Da ricordare

  • Il sovradimensionamento è un debito tecnico che genera costi continui in termini di energia e licenze.
  • Analizzare i percentili di carico (p95/p99) invece delle medie è l’unico modo per dimensionare sui picchi reali senza sprechi.
  • Per i dati sensibili in Italia, un modello di cloud ibrido con piena conformità al GDPR non è un’opzione ma una necessità strategica.

Come migrare al SaaS ibrido mantenendo i dati sensibili on-premise?

La migrazione al cloud, in particolare verso modelli SaaS (Software as a Service), offre alle PMI agilità e costi operativi ridotti. Tuttavia, per molte aziende italiane, affidare l’intera infrastruttura a un provider esterno solleva legittime preoccupazioni, soprattutto riguardo alla sicurezza e alla sovranità dei dati sensibili. La soluzione a questo dilemma non è un “aut aut” tra on-premise e cloud pubblico, ma una sintesi strategica: il cloud ibrido. Questo modello permette di sfruttare il meglio di entrambi i mondi: l’elasticità e l’innovazione delle piattaforme SaaS per le applicazioni non critiche, e la sicurezza e il controllo di un’infrastruttura on-premise (o in un data center privato) per ospitare i dati più preziosi e sensibili.

Questa non è solo una scelta tecnica, ma una necessità imposta dalla normativa. Il Garante per la protezione dei dati personali è molto chiaro su questo punto. La natura di certi dati richiede un livello di protezione che solo un controllo diretto può garantire. Per una PMI italiana, questo significa che dati sanitari, genetici, reddituali o coperti da segreto industriale devono essere gestiti con misure di sicurezza eccezionali, difficilmente delegabili a un provider SaaS generico la cui infrastruttura potrebbe risiedere al di fuori dell’UE.

Una particolare attenzione va posta nell’ipotesi in cui i dati caricati siano qualificabili come sensibili. Il Garante Privacy ha infatti affermato che alcune informazioni che si intende inserire sui sistemi del fornitore di servizio, per loro intrinseca natura, quali ad esempio i dati sanitari, genetici, reddituali, biometrici o quelli coperti da segreto industriale, possono esigere particolari misure di sicurezza.

– Garante per la protezione dei dati personali, Cloud computing e GDPR: regole di accountability

Implementare un’architettura ibrida richiede una pianificazione attenta. È fondamentale scegliere un provider cloud che non solo supporti nativamente modelli ibridi, ma che garantisca anche la conformità al GDPR, con data center localizzati in Europa (preferibilmente in Italia) per minimizzare la latenza e rispettare le normative sulla sovranità dei dati. La strategia consiste nel creare un’interconnessione sicura tra l’ambiente on-premise e il cloud, dove le applicazioni SaaS possono accedere ai dati necessari tramite API sicure, senza che i dati stessi lascino mai il perimetro controllato dall’azienda. Questo approccio permette di innovare rapidamente, adottando i migliori servizi SaaS sul mercato, mantenendo al contempo il pieno controllo sul patrimonio informativo più critico.

Pianificare una migrazione sicura è il passo finale e più delicato. Rivedere i principi di una migrazione ibrida conforme al GDPR è essenziale per il successo.

Ora che avete gli strumenti analitici per valutare costi, prestazioni e conformità, il prossimo passo logico è applicare questi principi al vostro ambiente specifico. Iniziate oggi stesso a mappare i vostri carichi di lavoro e ad analizzare i costi nascosti per costruire un’infrastruttura che supporti la crescita del vostro business, non che prosciughi il vostro budget IT.

Scritto da Giulia Romano, Data Center Operations Manager e Cloud Architect con 12 anni di esperienza nella gestione di infrastrutture ibride ad alta disponibilità. Esperta in strategie di Disaster Recovery, virtualizzazione e ottimizzazione energetica (Green IT).