Profondo

Blog

CasaCasa / Blog / Profondo

Oct 09, 2023

Profondo

Communications Biology volume

Biologia delle comunicazioni volume 6, numero articolo: 241 (2023) Citare questo articolo

1050 accessi

2 Altmetrico

Dettagli sulle metriche

Uno dei maggiori problemi nel bioimaging, spesso altamente sottovalutato, è se le caratteristiche estratte per un compito di discriminazione o regressione rimarranno valide per un insieme più ampio di esperimenti simili o in presenza di perturbazioni imprevedibili durante il processo di acquisizione dell'immagine. Tale problema è ancora più importante quando viene affrontato nel contesto delle caratteristiche del deep learning a causa della mancanza di una relazione nota a priori tra i descrittori della scatola nera (caratteristiche profonde) e le proprietà fenotipiche delle entità biologiche oggetto di studio. A questo proposito, l'uso diffuso di descrittori, come quelli provenienti da Reti Neurali Convoluzionali (CNN) pre-addestrate, è ostacolato dal fatto che sono privi di significato fisico apparente e fortemente soggetti a bias non specifici, cioè caratteristiche che non non dipendono dai fenotipi cellulari, ma piuttosto da artefatti di acquisizione, come cambiamenti di luminosità o struttura, spostamenti della messa a fuoco, autofluorescenza o fotosbiancamento. La piattaforma software Deep-Manager proposta offre la possibilità di selezionare in modo efficiente quelle caratteristiche che hanno una minore sensibilità ai disturbi aspecifici e, allo stesso tempo, un elevato potere discriminante. Deep-Manager può essere utilizzato nel contesto di funzionalità sia artigianali che profonde. Le prestazioni senza precedenti del metodo sono dimostrate utilizzando cinque diversi casi di studio, che vanno dalla selezione artigianale delle caratteristiche di intensità della proteina fluorescente verde nell'indagine sulla morte delle cellule del cancro al seno correlata alla chemioterapia all'affrontare i problemi relativi al contesto del Deep Transfer Learning. Deep-Manager, disponibile gratuitamente su https://github.com/BEEuniroma2/Deep-Manager, è adatto per l'uso in molti campi del bioimaging ed è concepito per essere costantemente aggiornato con nuove perturbazioni e modalità di acquisizione delle immagini.

La riproducibilità è una delle principali preoccupazioni nella ricerca biomedica, soprattutto quando mira a costruire solide basi per future terapie cliniche volte a migliorare la salute umana. I dati biologici sono spesso molto variabili, principalmente a causa di parametri sperimentali incontrollabili. Ciò è particolarmente drammatico nel caso delle acquisizioni di bioimmagini per l'analisi quantitativa. Se le immagini non vengono acquisite sullo stesso microscopio, con la stessa impostazione, utilizzando la stessa sorgente luminosa e lo stesso supporto cellulare, tali immagini non sono facilmente confrontabili a meno che non vengano implementati metodi di standardizzazione che, però, possono alterare la dinamica attesa dei segnali. Questa è un’enorme limitazione nell’applicazione alla biologia dei metodi della scienza computazionale, come i potenti strumenti di analisi delle immagini basati sull’intelligenza artificiale.

A questo proposito, identificare un sottoinsieme di caratteristiche dell’immagine che si riferiscono in maniera ottimale ad una specifica patologia o, più in generale, ad un aspetto oggetto di indagine1,2 è ancora una questione di frontiera, spesso sottovalutata, soprattutto nei compiti di classificazione basati su immagini. Le prestazioni dei classificatori eseguiti su un sottoinsieme di funzionalità artigianali o black-box non sono generalmente scalabili e di solito diminuiscono drasticamente se utilizzati su set di dati diversi da quelli utilizzati per la costruzione del classificatore, mancando di riproducibilità e generalizzabilità3. La ragione principale è che i campioni sperimentali disponibili per la fase di selezione delle caratteristiche sono solitamente scarsi o non così generali da coprire possibili variazioni ammissibili, anche che si verificano nelle stesse condizioni biologiche. In pratica, quando i risultati ottenuti su un insieme più piccolo di esperimenti vengono estesi a una pletora di casi più generali e indipendenti, ci si aspetta che le prestazioni peggiorino drasticamente, come mostrato in Fig. 1 (ramo rosso a sinistra). Non importa se nel contesto di funzionalità artigianali o di Deep Transfer Learning (DTL)4,5 (ovvero, descrittori provenienti da una rete neurale convoluzionale (CNN) pre-addestrata), è essenziale selezionare le funzionalità che assicurano una validità molto ampia su dati eterogenei esperimenti biologici, con adeguata rappresentatività e generalizzabilità dei risultati. Questo aspetto è stato sottovalutato, soprattutto nel contesto delle caratteristiche DTL, dove devono essere affrontati altri due problemi importanti: la dimensionalità delle caratteristiche (migliaia di caratteristiche per una data immagine) e la ridondanza (molte caratteristiche sono fortemente correlate). L'attenzione si è concentrata principalmente su come diminuire il numero di caratteristiche da estrarre piuttosto che su come selezionare quelle più generali (cioè valide). La selezione dei descrittori più rappresentativi, sia manuali che DTL, nelle immagini biomediche è lungi dall'essere un processo facile ed è altamente soggetto al rischio che le caratteristiche non dipendano dai fenotipi cellulari ma piuttosto dalla luminosità, dagli artefatti della trama, dai cambiamenti di messa a fuoco , autofluorescenza e altri disturbi imprevedibili. Per risolvere questo problema, presentiamo qui una piattaforma, denominata Deep-Manager (DM) (il ramo blu in Fig. 1), che consente di identificare e selezionare praticamente le migliori caratteristiche per un dato compito di classificazione dopo l'estrazione tramite funzioni personalizzate o dopo trasferimento tramite una determinata rete DL preaddestrata definita dall'utente. Il termine profondo si riferisce esplicitamente a caratteristiche profonde, per le quali il problema di una selezione efficiente delle caratteristiche è irrisolto e il rischio di distorsione è enorme3. Tuttavia, come dimostrato in questo lavoro, la piattaforma può anche funzionare su intensità e caratteristiche di texture artigianali comunemente quantificate nelle immagini biomediche. Il DM può quindi aiutare molto i biologi nella loro pratica quotidiana a verificare la validità generale delle caratteristiche razionalmente selezionate. La piattaforma DM identifica le caratteristiche estratte che rappresentano specificamente le caratteristiche degli oggetti cellula/tessuto, scartando le variazioni macroscopiche non specifiche che si verificano involontariamente nel set di dati di addestramento. Ciò è fondamentale quando il processo di acquisizione dell'immagine è molto complesso e al limite pratico della ripetibilità (ad esempio, l'intensità dell'emissione verde misurata è correlata con un evento specifico o semplicemente con fenomeni di autofluorescenza? A livello di bassa intensità, la risposta non è banale ). Ad esempio, negli esperimenti biologici su cellule viventi6, il processo di acquisizione può essere lungo (ad esempio, giorni) e le condizioni di acquisizione sono difficili da controllare per l'intero periodo, sia quando si utilizza la luce a trasmissione a contrasto di fase o la fluorescenza time-lapse (TM) microscopia7,8. Anche l'eterogeneità intra-esperimento delle sequenze video, così come la variazione inter-esperimento dovuta a cambiamenti incontrollati nella configurazione di acquisizione9, portano ad alti rischi di conclusioni errate a causa della scarsa validità delle caratteristiche estratte. Questi effetti inducono errori nel modello di riconoscimento e conclusioni biologiche o cliniche fuorvianti (ad esempio, risposta al farmaco non vera). A questo proposito, la piattaforma DM consente di selezionare in modo efficiente, tra tutte le caratteristiche estratte da una rete neurale DTL o da descrittori artigianali personalizzati, quelle che presentano una minore sensibilità ai disturbi e, allo stesso tempo, un elevato potere discriminante (Fig. 1 ramo blu). Dopo l'applicazione dei diversi test di degradazione al set di dati di addestramento (Fig. 1 espansione a destra), le caratteristiche sono caratterizzate in termini di potere discriminante (DP) e sensibilità alle degradazioni (SENS), misurata come differenza relativa nei valori DP prima e dopo l'iniezione di degradazione (vedere Metodi per i dettagli). Viene quindi utilizzato un approccio multi-soglia per separare le caratteristiche con DP elevata e SENS bassa (punti ciano nel ramo blu della Fig. 1) dagli altri gruppi di caratteristiche (DP bassa e/o alta sensibilità, punti verdi e blu nella Fig. 1 ramo blu). Le funzionalità selezionate possono quindi essere utilizzate in un'attività di classificazione proposta dall'utente, in cui viene chiesto di caricare un set di test indipendente di immagini etichettate, il set di dati di test, per verificare la validità delle funzionalità selezionate valutando la loro DP su un set diverso ( Fig. 1).

thSENS (0.1) and SENS = 0.11 > thSENS (0.1) respectively) to perturbations (autofluorescence, photobleaching, saturation). Nevertheless, descriptor g75, still remains significant in terms of t-test analysis (p-value < ***) but presents a sensitivity value SENS larger than the threshold due to an unacceptable worsening in the DP performance after perturbation injection. n = 1293 biologically independent samples have been considered./p>