Pubblicato il Marzo 15, 2024

La collaborazione tra università e imprese si blocca spesso sulla gestione dei dati sensibili. La soluzione non è chiudere i dati, ma costruire un’architettura di fiducia digitale.

  • Strumenti come IDEM e Virtual Research Environments (VRE) garantiscono accesso controllato e analisi sicura dei dati “in-place”.
  • Protocolli come gli Electronic Lab Notebook (ELN) e i principi FAIR trasformano i dati da un rischio a un asset strategico, tracciabile e valorizzabile.

Raccomandazione: Adottare un approccio integrato che combini policy legali, standard di dati e piattaforme tecnologiche federate per abilitare l’innovazione in sicurezza.

La spinta verso l’Open Science ha creato un paradosso per chi, come i manager dei Technology Transfer Office (TTO), deve mediare tra il mondo accademico e quello industriale. Da un lato, la necessità di condividere i dati per accelerare la ricerca; dall’altro, l’imperativo di proteggere la proprietà intellettuale (PI) che ne deriva, un asset fondamentale per la competitività. Spesso, la risposta istintiva è la chiusura, la creazione di silos che frenano l’innovazione per paura di fughe di dati o di compromissione di futuri brevetti. Questo approccio, però, è un’illusione di sicurezza che ostacola il progresso.

Le soluzioni generiche, come l’uso di cloud storage non specializzati o la semplice firma di accordi di non divulgazione, si rivelano inadeguate di fronte alla complessità dei dati di ricerca, specialmente quelli sensibili. La vera sfida non è impedire la condivisione, ma orchestrarla. E se la chiave non fosse blindare i dati, ma costruire un’architettura di fiducia digitale? Un ecosistema dove la condivisione non è più un rischio per la proprietà intellettuale, ma la condizione stessa per poterla creare e valorizzare in modo sicuro e tracciabile.

Questo articolo esplora le componenti pratiche di tale architettura, pensate specificamente per il contesto della ricerca italiana. Analizzeremo le piattaforme, i protocolli e le strategie che permettono ai ricercatori universitari e ai partner aziendali di collaborare efficacemente su dati sensibili, trasformando il potenziale conflitto tra apertura e protezione in una sinergia produttiva. Vedremo come le tecnologie esistenti, se correttamente implementate, forniscano le garanzie necessarie per navigare con fiducia le complesse acque della ricerca mista pubblico-privato.

In questa guida, esploreremo le fondamenta tecnologiche e strategiche per una collaborazione sicura. Partendo dalla gestione delle identità digitali fino ad arrivare alle infrastrutture per la gestione di dati su larga scala, delineeremo un percorso concreto per i TTO e i ricercatori.

EduGAIN e IDEM: come permettere ai ricercatori di accedere con le credenziali dell’università

Il primo pilastro di un’architettura di fiducia digitale è sapere con certezza chi accede a cosa. In un progetto di collaborazione tra un’università e un’azienda, la gestione degli accessi a risorse condivise (dataset, software, repository) può diventare un incubo di account multipli e password deboli, aprendo gravi falle di sicurezza. La soluzione è la federazione di identità, un concetto che permette a un utente di usare le proprie credenziali istituzionali per accedere a servizi esterni in modo sicuro e controllato. Qui entrano in gioco IDEM (IDEntity Management per l’accesso federato), la federazione nazionale gestita dal GARR, e eduGAIN, l’interconnessione globale delle federazioni accademiche.

Quando un ricercatore dell’Università di Pisa deve accedere a un server del partner industriale a Milano, non ha bisogno di un nuovo account. Utilizza semplicemente le sue credenziali @unipi.it. Il sistema dell’azienda, fidandosi dell’autenticazione certificata dalla federazione IDEM, gli garantisce l’accesso con i permessi specifici per quel progetto. Questo meccanismo non solo semplifica la vita al ricercatore, ma fornisce al TTO e ai responsabili IT una tracciabilità completa degli accessi. In Italia, questo sistema è già una realtà consolidata: secondo i dati della rete GARR, oltre il 90% degli enti che fanno parte del sistema della ricerca pubblica italiana aderisce alla federazione IDEM, rendendola lo standard de facto per l’accesso sicuro.

L’adozione di un sistema di identità federata è il prerequisito per qualsiasi piattaforma di collaborazione. Garantisce che solo le persone autorizzate possano entrare nell’ambiente di lavoro condiviso, ponendo le basi per una gestione sicura dei dati sensibili e della proprietà intellettuale. Senza un controllo robusto delle identità, ogni altro livello di sicurezza è compromesso.

Electronic Lab Notebook (ELN): perché abbandonare il quaderno cartaceo protegge i brevetti futuri

Una volta garantito l’accesso sicuro, la seconda domanda cruciale per la tutela della PI è: come documentiamo le scoperte? Per decenni, il quaderno di laboratorio cartaceo è stato il custode delle idee. Tuttavia, nell’era digitale, questo strumento presenta limiti insormontabili: è difficilmente condivisibile, vulnerabile a perdite o danneggiamenti e, soprattutto, la sua datazione non è legalmente inoppugnabile in caso di dispute brevettuali. L’abbandono del cartaceo in favore di un Electronic Lab Notebook (ELN) non è un vezzo tecnologico, ma una mossa strategica per creare quella che possiamo definire tracciabilità probatoria.

Un ELN è una piattaforma software che consente di registrare esperimenti, dati grezzi, analisi e conclusioni in un formato digitale strutturato. La sua funzione più importante, ai fini della PI, è la marcatura temporale certificata (timestamping). Ogni inserimento viene firmato digitalmente con data e ora non modificabili. Questo crea una cronologia inalterabile dell’attività di ricerca, fornendo una prova robusta di anteriorità in caso di contenzioso su un’invenzione. In un contesto di collaborazione, dove più persone di diverse istituzioni contribuiscono a un’idea, poter dimostrare “chi ha pensato cosa e quando” è fondamentale per una corretta attribuzione della paternità e una giusta ripartizione dei benefici economici futuri.

Sistema digitale di registrazione dati scientifici con marcatura temporale certificata

La collaborazione tra università e industria in Italia ha un potenziale innovativo enorme, come dimostra uno studio che ha analizzato 282 brevetti co-generati da sette università italiane con partner industriali. Proteggere questo potenziale fin dalla sua genesi è un dovere. L’ELN trasforma il processo di ricerca da un’annotazione privata a un flusso di dati tracciabile e legalmente valido, proteggendo l’investimento intellettuale di entrambe le parti prima ancora che si parli di depositare un brevetto.

FAIR Data Principles: come rendere i tuoi dati trovabili e riutilizzabili per ottenere più citazioni

Avere dati sicuri e ben documentati è solo metà del lavoro. Per essere veramente utili in una collaborazione, i dati devono essere comprensibili e utilizzabili anche da chi non li ha prodotti. Qui intervengono i principi FAIR (Findable, Accessible, Interoperable, Reusable). Attenzione: FAIR non significa “open”. Un dato può essere perfettamente FAIR pur rimanendo ad accesso ristretto. Il mantra che guida questa filosofia, promosso anche a livello europeo, è chiaro.

as open as possible, as closed as necessary

– EU Competitiveness Council, Council Conclusions 9029

Rendere un dataset “FAIR” significa arricchirlo con metadati standardizzati che ne descrivono il contenuto, il formato e il contesto. Significa assegnargli un identificatore unico e persistente (come un DOI) che lo renda “trovabile” (Findable) attraverso i motori di ricerca accademici. Significa specificare i protocolli per accedervi (Accessible), anche se l’accesso è riservato a un gruppo di lavoro specifico. Significa usare formati e vocabolari comuni (Interoperable) e, infine, rilasciarlo con una licenza chiara che ne definisca le condizioni di riutilizzo (Reusable). Per un TTO, promuovere l’adozione dei principi FAIR è un investimento strategico. Un dataset FAIR è più facile da valorizzare: può essere citato, riutilizzato in nuovi progetti e diventa un asset concreto da includere negli accordi di collaborazione, aumentandone il valore percepito. Inoltre, garantisce la conservazione a lungo termine del patrimonio di ricerca, con archivi come Zenodo o altri repository disciplinari che richiedono la conservazione per un periodo minimo di 10 anni.

Piano d’azione: Implementare i principi FAIR

  1. Assegnare un identificatore persistente (come DOI o Handle) a ogni dataset per garantirne la reperibilità univoca nel tempo.
  2. Creare metadati esaustivi e standardizzati che descrivano il contenuto, il contesto e la metodologia di raccolta dei dati.
  3. Registrare i metadati in cataloghi online indicizzati, rendendo i dati rintracciabili attraverso i motori di ricerca accademici.
  4. Utilizzare formati di file aperti e vocabolari controllati standard per la propria disciplina, garantendo l’interoperabilità.
  5. Rilasciare i dati con una licenza d’uso chiara (es. Creative Commons) che ne definisca le condizioni di riutilizzo.

Virtual Research Environments: lavorare insieme sullo stesso dataset senza scaricarlo sul PC personale

Il timore più grande nella condivisione di dati sensibili è la perdita di controllo. Una volta che un file viene scaricato sul computer di un partner, si moltiplicano i rischi di copie non autorizzate, fughe di dati o violazioni accidentali. I Virtual Research Environments (VRE), o Ambienti di Ricerca Virtuali, risolvono questo problema alla radice, introducendo il concetto di analisi “data-in-place”. Invece di spostare i dati verso gli strumenti di analisi, il VRE porta gli strumenti (software statistico, algoritmi di machine learning) direttamente dove risiedono i dati, in un ambiente cloud sicuro e controllato.

Immaginiamo un progetto di genomica tra un ospedale universitario e un’azienda farmaceutica. I dati genetici dei pazienti sono estremamente sensibili. Utilizzando un VRE, i ricercatori di entrambe le istituzioni accedono a una piattaforma web condivisa. Lì trovano sia il dataset (che non può essere scaricato) sia gli strumenti software per analizzarlo. Ognuno lavora sullo stesso, unico dataset, e tutte le operazioni sono tracciate. Questo approccio mitiga drasticamente il rischio di data breach e garantisce che la proprietà dei dati grezzi rimanga saldamente nelle mani dell’istituzione di origine. L’approccio collaborativo con i provider tecnologici, come nel caso della partnership tra la CRUI (Conferenza dei Rettori delle Università Italiane) e MongoDB, sta democratizzando l’accesso a queste tecnologie avanzate per gli atenei italiani, riducendo il divario tra grandi e piccole istituzioni.

L’adozione di queste piattaforme non solo risponde a un’esigenza di sicurezza, ma abilita anche una ricerca più potente e scalabile. In un’economia sempre più guidata dall’intelligenza artificiale, la capacità di analizzare grandi moli di dati è un vantaggio competitivo enorme. Sfruttare appieno il potenziale della GenAI potrebbe portare a un incremento del PIL nazionale di 150-170 miliardi di euro all’anno nei prossimi dieci anni, e la ricerca collaborativa è uno dei motori principali di questa trasformazione.

Tecnologie dual-use: l’errore di condividere software di simulazione con partner di paesi sanzionati

L’architettura di fiducia non è solo tecnologica, ma anche legale e procedurale. Non tutti i dati e non tutte le tecnologie possono essere condivisi liberamente. Un TTO deve essere particolarmente vigile riguardo alle tecnologie “dual-use”, ovvero beni, software e tecnologie sviluppati per scopi civili ma che potrebbero avere applicazioni militari. La normativa europea e internazionale impone restrizioni severe sull’esportazione di tali tecnologie verso determinati paesi o entità. Condividere un software di simulazione fluidodinamica con un partner in un paese soggetto a sanzioni, anche se per un progetto di ricerca puramente accademico, può costituire una violazione con gravi conseguenze legali e reputazionali per l’università.

La prevenzione passa attraverso due canali: la consapevolezza e la contrattualistica. È fondamentale formare i ricercatori affinché siano in grado di riconoscere il potenziale dual-use delle loro ricerche. Parallelamente, ogni accordo di collaborazione deve essere attentamente vagliato dall’ufficio legale e dal TTO. La scelta della giusta forma contrattuale è essenziale per definire chiaramente i confini della collaborazione, le responsabilità delle parti e la titolarità della proprietà intellettuale. Le università italiane, come l’Università di Milano-Bicocca, forniscono modelli-tipo che prevedono clausole specifiche per la tutela della PI, coerenti con le policy di ateneo.

Il seguente quadro aiuta a distinguere le principali tipologie di accordo, un primo passo fondamentale per ogni TTO per inquadrare correttamente una nuova partnership.

Tipologie di accordi università-imprese
Tipo di Accordo Caratteristiche Proprietà Intellettuale
Contratto di ricerca commissionata Esclusivo interesse del committente, corrispettivo in denaro Generalmente al committente
Convenzione di collaborazione scientifica Interesse comune, cooperazione del personale Condivisa secondo accordi
Accordo quadro Collaborazione stabile per ampi programmi Da definire caso per caso

Una gestione proattiva del rischio legale, basata su una profonda conoscenza delle normative e su accordi contrattuali solidi, è un pilastro non negoziabile della collaborazione scientifica internazionale. Ignorare questi aspetti significa esporre l’istituzione a rischi inaccettabili.

Come collegare le tue API alla Piattaforma Digitale Nazionale Dati (PDND)

Una volta che i dati della ricerca sono sicuri, documentati e FAIR, il passo successivo è renderli interoperabili non solo all’interno di un progetto, ma con l’intero ecosistema digitale nazionale. La Piattaforma Digitale Nazionale Dati (PDND), gestita da PagoPA S.p.A. per conto della Presidenza del Consiglio, è l’infrastruttura strategica che abilita lo scambio di dati tra le pubbliche amministrazioni, e le università, in quanto enti pubblici, sono attori chiave di questo sistema. Collegare i propri repository di dati di ricerca alla PDND tramite API (Application Programming Interface) significa moltiplicare il loro valore.

Un’API è un “ponte” software che permette a due sistemi diversi di comunicare e scambiarsi informazioni in modo standardizzato e controllato. Ad esempio, un’università potrebbe esporre tramite API un catalogo di metadati dei propri dataset di ricerca anonimizzati. Altri enti pubblici o ministeri potrebbero “chiamare” questa API per ottenere statistiche aggregate o individuare centri di competenza su temi specifici, senza accedere direttamente ai dati sensibili. Questo non solo aumenta la visibilità della ricerca prodotta, ma apre anche la strada a nuove collaborazioni e finanziamenti, allineando l’ateneo agli obiettivi di digitalizzazione del Paese.

Architettura di integrazione API con la Piattaforma Digitale Nazionale Dati

Questo approccio si integra perfettamente con le piattaforme di trasferimento tecnologico esistenti, come Knowledge Share, che mettono in connessione il mondo della ricerca con quello delle imprese. Rendere i risultati della ricerca “interrogabili” tramite API standardizzate facilita il matching tra un’esigenza industriale e una soluzione tecnologica sviluppata in ambito accademico. L’interoperabilità non è più solo un principio tecnico, ma diventa un motore di trasferimento tecnologico e di impatto economico per l’intero sistema-paese.

Riproducibilità della ricerca: come i protocolli digitali riducono la variabilità tra operatori

Un aspetto spesso sottovalutato della digitalizzazione della ricerca è il suo impatto sulla riproducibilità scientifica. La “crisi della riproducibilità” è un problema noto in molte discipline: studi pubblicati che altri laboratori non riescono a replicare, spesso a causa di piccole, non documentate variazioni nei protocolli sperimentali. In una collaborazione università-azienda, dove i risultati devono essere solidi e trasferibili in un contesto industriale, la mancanza di riproducibilità può minare la fiducia e far fallire un intero progetto. L’adozione di protocolli digitali, gestiti tramite piattaforme come gli ELN o sistemi LIMS (Laboratory Information Management System), è la soluzione più efficace per ridurre la variabilità tra operatori.

Un protocollo digitale non è un semplice file di testo, ma una procedura guidata e interattiva. Specifica ogni passaggio, ogni dosaggio, ogni parametro strumentale in modo univoco. L’operatore, sia esso nell’università o nell’azienda, segue lo stesso identico workflow, e il sistema registra ogni azione, ogni deviazione e ogni risultato intermedio. Questo garantisce che un esperimento condotto a Roma sia eseguito esattamente come a Boston, eliminando l’ambiguità delle note scritte a mano. Come ribadito anche dal Programma Nazionale per la Ricerca (PNR) 2021-2027, i dati e i risultati devono aderire a standard che ne garantiscano la fruizione e il riutilizzo, e la standardizzazione dei protocolli è un pilastro di questa visione.

Questa standardizzazione non solo aumenta la robustezza scientifica, ma accelera anche il trasferimento tecnologico. Un protocollo digitale validato può essere trasferito a un partner industriale come un “pacchetto” completo e pronto per essere implementato nei loro laboratori di R&S o di controllo qualità, riducendo drasticamente i tempi e i costi di adozione. La riproducibilità, abilitata dalla tecnologia, cessa di essere un problema e diventa un vantaggio competitivo.

Da ricordare

  • L’identità federata è sicurezza: L’accesso tramite credenziali uniche (IDEM/eduGAIN) non è solo comodo, ma è il primo livello di sicurezza per tracciare chi accede a cosa.
  • Il dato FAIR è un asset: Rendere i dati Trovabili, Accessibili, Interoperabili e Riutilizzabili aumenta le citazioni e il potenziale di partnership, non i rischi.
  • La prevenzione è legale e tecnica: La protezione della PI si basa tanto su clausole contrattuali chiare (es. contratti di ricerca vs. convenzioni) quanto su tecnologie come gli ELN che forniscono prove datate.

Infrastrutture IT per la medicina di precisione: come gestire Petabyte di dati omici in ospedale?

Tutti i principi e le tecnologie finora discussi convergono e trovano la loro massima espressione in settori ad altissima intensità di dati, come la medicina di precisione. La gestione di petabyte di dati “omici” (genomici, proteomici, metabolomici) generati da ospedali universitari e centri di ricerca rappresenta la sfida finale per qualsiasi architettura IT. Questi dati non sono solo enormi in volume, ma anche estremamente sensibili, e la loro analisi richiede una potenza di calcolo che supera le capacità di un singolo istituto. Qui, la collaborazione sicura non è un’opzione, ma l’unica via possibile per il progresso.

La risposta a questa sfida è la creazione di infrastrutture di ricerca integrate e federate. Il governo italiano, attraverso il PNRR, sta investendo massicciamente in questa direzione. Un esempio lampante è il progetto ITINERIS (Italian Integrated Environmental Research Infrastructures System), che mira a costruire l’hub italiano per l’accesso ai dati per la ricerca ambientale e biomedica integrata.

Studio di caso: Il progetto ITINERIS e l’investimento del PNRR

Il progetto ITINERIS, coordinato dal CNR, è un esempio emblematico di come l’Italia stia costruendo la sua infrastruttura per la ricerca del futuro. Con un finanziamento dal PNRR di 155 milioni di Euro, il progetto coinvolge 22 infrastrutture di ricerca europee e nazionali. L’obiettivo è creare un sistema federato che permetta ai ricercatori di accedere e analizzare dati ambientali e biomedici provenienti da fonti diverse in un ambiente sicuro e interoperabile, applicando i principi di identità federata (IDEM), dati FAIR e ambienti di ricerca virtuali (VRE) su scala nazionale.

Per un ospedale che gestisce dati omici, questo significa poter partecipare a studi multicentrici senza dover spostare fisicamente i dati dei pazienti. Le analisi vengono eseguite “in-place” all’interno dell’infrastruttura federata, garantendo la massima sicurezza e conformità al GDPR. Per un TTO, questo modello apre opportunità senza precedenti per attrarre partnership con le più grandi aziende farmaceutiche e biotech del mondo, offrendo accesso a dati di altissima qualità in un ambiente controllato e legalmente ineccepibile.

L’applicazione di questi principi a casi complessi dimostra la loro validità. Comprendere come queste infrastrutture gestiscono sfide reali consolida la visione strategica.

Per avviare la trasformazione digitale della collaborazione scientifica nel vostro ateneo, il primo passo è mappare le infrastrutture esistenti e dialogare con i responsabili IT per integrare soluzioni federate, trasformando la gestione del dato da un onere a un’opportunità strategica.

Scritto da Elena Bianchi, CIO e Business Analyst con focus sulla Digital Transformation per le PMI. Esperta in implementazione ERP, Business Intelligence e metodologie Agile applicate ai processi aziendali e amministrativi.