Dati sintetici: la chiave per un’AI sicura nella sanità

Ascolta l’Audio dell’Articolo

Ascolta il Mini Podcast dell’articolo

Un fiume di dati, ma pochi davvero utilizzati

La trasformazione digitale della sanità si giocherà sulla capacità di usare i dati in modo sicuro, continuo e interoperabile. Oggi il settore sanitario genera circa il 30% del volume informativo globale, mentre secondo IDC la produzione mondiale di dati triplicherà entro il 2028, passando da 181 a 394 zettabyte.
Eppure questo patrimonio resta in gran parte inespresso: si stima che il 97% dei dati sanitari non venga sfruttato, bloccato da vincoli normativi e timori legati alla privacy. Una cautela comprensibile, ma che spesso si traduce in un freno alla ricerca, alla diagnosi precoce e all’innovazione terapeutica. Per sbloccare valore senza esporre i cittadini a rischi serve un cambio di paradigma.

Dati sintetici: identici nella struttura, diversi nelle identità

I dati sintetici sono informazioni generate artificialmente tramite algoritmi di machine learning e intelligenza artificiale, progettati per riprodurre la struttura statistica dei dataset reali senza contenere riferimenti a persone identificabili. In pratica, consentono di lavorare su un gemello statistico dei dati clinici, utile per addestrare modelli, validare ipotesi e sviluppare soluzioni, ma innocuo per la privacy.
Il loro punto di forza è duplice: tutela integrale dell’identità dei pazienti e maggiore qualità dei dataset a supporto dell’AI. Quando le basi dati reali sono incomplete, sbilanciate o scarse, le versioni sintetiche aiutano a ridurre le distorsioni e ad aumentare la robustezza dei modelli.

Anonimato garantito: nessun dato riconducibile a persone fisiche.
Dataset più ricchi e bilanciati: coprono meglio casistiche rare o sottorappresentate.
Bias ridotti: performance più eque e affidabili dei modelli di AI.

Dalla ricerca ai trial: risultati e impatti misurabili

I benefici non sono teorici. In oncologia, l’impiego di dati sintetici ha migliorato fino al 17,5% la capacità dei modelli di identificare lesioni nelle fasi iniziali, con potenziali ricadute su diagnosi tempestive e percorsi terapeutici più efficaci. L’effetto è ancora più evidente nelle malattie rare, dove la scarsità di casi limita la solidità degli studi: il sintetico consente di costruire coorti numericamente adeguate.
Nei trial clinici, le synthetic control arms permettono di sostituire o affiancare i gruppi di controllo tradizionali con simulazioni statisticamente affidabili, riducendo tempi e costi senza abbassare gli standard scientifici. Le simulazioni del Synthetic Health Data Hub, rapporto realizzato da TEHA con Aindo e Novartis, stimano che un sistema sanitario regionale che adotti in modo diffuso i dati sintetici possa attivare fino a 92 studi clinici aggiuntivi all’anno, con risparmi per circa 89,5 milioni di euro per il servizio sanitario regionale e un contributo diretto al Pil pari a 12 milioni di euro.

Regole, etica e prossimi passi verso la piena interoperabilità

Il quadro normativo europeo sta convergendo. Lo European Health Data Space riconosce i dati sintetici come modalità legittima di riutilizzo del dato sanitario, favorendo un uso standardizzato e interoperabile a fini di ricerca e innovazione. Parallelamente, l’AI Act ne valorizza il ruolo nell’addestramento dei sistemi ad alto rischio, perché riducono l’esposizione ai dati reali e tutelano maggiormente i diritti dei cittadini. L’Italia ha anticipato il percorso con la legge 132 del 2025, introducendo una base giuridica autonoma per la sintetizzazione dei dati sanitari a fini di ricerca.
Secondo il Synthetic Health Data Hub di TEHA, Aindo e Novartis, entro il 2030 i dati sintetici supereranno quelli reali nell’addestramento dei modelli di AI. Per trasformare questa prospettiva in valore concreto servono tecnologie robuste, auditabili e conformi alle normative, una governance etica trasparente e piattaforme capaci di garantire tracciabilità e qualità. È la strada per un’AI in sanità in cui privacy e innovazione non siano più in conflitto, ma parti della stessa soluzione, con dati che diventano davvero un motore di conoscenza e cura.