Ascolta l’Audio dell’Articolo
Ascolta il Mini Podcast dell’articolo
Un fiume di dati, ma pochi davvero utilizzati
La trasformazione digitale della sanità si giocherà sulla capacità di usare i dati in modo sicuro, continuo e interoperabile. Oggi il settore sanitario genera circa il 30% del volume informativo globale, mentre secondo IDC la produzione mondiale di dati triplicherà entro il 2028, passando da 181 a 394 zettabyte.
Eppure questo patrimonio resta in gran parte inespresso: si stima che il 97% dei dati sanitari non venga sfruttato, bloccato da vincoli normativi e timori legati alla privacy. Una cautela comprensibile, ma che spesso si traduce in un freno alla ricerca, alla diagnosi precoce e all’innovazione terapeutica. Per sbloccare valore senza esporre i cittadini a rischi serve un cambio di paradigma.
Dati sintetici: identici nella struttura, diversi nelle identità
I dati sintetici sono informazioni generate artificialmente tramite algoritmi di machine learning e intelligenza artificiale, progettati per riprodurre la struttura statistica dei dataset reali senza contenere riferimenti a persone identificabili. In pratica, consentono di lavorare su un gemello statistico dei dati clinici, utile per addestrare modelli, validare ipotesi e sviluppare soluzioni, ma innocuo per la privacy.
Il loro punto di forza è duplice: tutela integrale dell’identità dei pazienti e maggiore qualità dei dataset a supporto dell’AI. Quando le basi dati reali sono incomplete, sbilanciate o scarse, le versioni sintetiche aiutano a ridurre le distorsioni e ad aumentare la robustezza dei modelli.
- Anonimato garantito: nessun dato riconducibile a persone fisiche.
- Dataset più ricchi e bilanciati: coprono meglio casistiche rare o sottorappresentate.
- Bias ridotti: performance più eque e affidabili dei modelli di AI.
Dalla ricerca ai trial: risultati e impatti misurabili
I benefici non sono teorici. In oncologia, l’impiego di dati sintetici ha migliorato fino al 17,5% la capacità dei modelli di identificare lesioni nelle fasi iniziali, con potenziali ricadute su diagnosi tempestive e percorsi terapeutici più efficaci. L’effetto è ancora più evidente nelle malattie rare, dove la scarsità di casi limita la solidità degli studi: il sintetico consente di costruire coorti numericamente adeguate.
Nei trial clinici, le synthetic control arms permettono di sostituire o affiancare i gruppi di controllo tradizionali con simulazioni statisticamente affidabili, riducendo tempi e costi senza abbassare gli standard scientifici. Le simulazioni del Synthetic Health Data Hub, rapporto realizzato da TEHA con Aindo e Novartis, stimano che un sistema sanitario regionale che adotti in modo diffuso i dati sintetici possa attivare fino a 92 studi clinici aggiuntivi all’anno, con risparmi per circa 89,5 milioni di euro per il servizio sanitario regionale e un contributo diretto al Pil pari a 12 milioni di euro.
Regole, etica e prossimi passi verso la piena interoperabilità
Il quadro normativo europeo sta convergendo. Lo European Health Data Space riconosce i dati sintetici come modalità legittima di riutilizzo del dato sanitario, favorendo un uso standardizzato e interoperabile a fini di ricerca e innovazione. Parallelamente, l’AI Act ne valorizza il ruolo nell’addestramento dei sistemi ad alto rischio, perché riducono l’esposizione ai dati reali e tutelano maggiormente i diritti dei cittadini. L’Italia ha anticipato il percorso con la legge 132 del 2025, introducendo una base giuridica autonoma per la sintetizzazione dei dati sanitari a fini di ricerca.
Secondo il Synthetic Health Data Hub di TEHA, Aindo e Novartis, entro il 2030 i dati sintetici supereranno quelli reali nell’addestramento dei modelli di AI. Per trasformare questa prospettiva in valore concreto servono tecnologie robuste, auditabili e conformi alle normative, una governance etica trasparente e piattaforme capaci di garantire tracciabilità e qualità. È la strada per un’AI in sanità in cui privacy e innovazione non siano più in conflitto, ma parti della stessa soluzione, con dati che diventano davvero un motore di conoscenza e cura.