Più biglietti della lotteria compri, maggiori sono le probabilità di vincere, ma spendere più di quanto guadagni non è una strategia saggia. Qualcosa di simile accade nell'Intelligenza artificiale basata sul deep learning: sappiamo che più grande è una rete neurale (più parametri ha), meglio può apprendere il compito che le viene assegnato. Purtroppo però, rendere una rete infinitamente grande durante l’addestramento non è solo impossibile, ma anche estremamente inefficiente.
I cervelli biologici apprendono attraverso un processo molto parco nell’uso delle risorse che si è provato a imitare fornendo alle macchine un addestramento graduale, che parte cioè da esempi più semplici e progredisce verso quelli più complessi — un modello noto come curriculum learning. Sorprendentemente però si è visto che questa strategia apparentemente sensata è irrilevante per le reti molto grandi (“sovraparametrizzate”, in gergo tecnico).
Un nuovo studio pubblicato nel Journal of Statistical Mechanics: Theory and Experiment (JSTAT) ha cercato di capire il perché di questo fallimento, suggerendo che queste reti sovraparametrizzate sono talmente “ricche” da sfruttare spontaneamente un percorso di apprendimento basato più sulla quantità di risorse che sulla loro qualità. Questa osservazione potrebbe in realtà essere una buona notizia, poiché suggerisce che, regolando con attenzione la dimensione iniziale della rete, il curriculum learning potrebbe rivelarsi una strategia valida, da sfruttare per creare reti neurali più efficienti e, quindi, meno energeticamente dispendiose.
Siamo in un momento di grande entusiasmo per l’IA basata su reti neurali come ChatGPT: ogni giorno emerge un nuovo bot o una nuova funzione che tutti vogliono provare, anche nell’ambito della ricerca scientifica e delle applicazioni industriali. Questo però richiede una crescente potenza di calcolo—e quindi un maggiore consumo di energia—sollevando preoccupazioni riguardo alle fonti energetiche necessarie e alle emissioni prodotte da questo settore. Rendere questa tecnologia capace di fare di più con meno è quindi cruciale.
Le reti neurali sono modelli computazionali costituiti da molti “nodi” che eseguono calcoli, con una lontana somiglianza alle reti di neuroni nei cervelli biologici. Questi modelli sono in grado di apprendere autonomamente dai dati che ricevono: per esempio, possono “vedere” un vasto numero di immagini e imparare a categorizzarle e riconoscerle senza istruzioni dirette.
Nell’ambito della ricerca è noto che, durante la fase di addestramento, reti neurali più grandi, cioè con un maggior numero di parametri, sono in grado di svolgere i compiti richiesti con maggiore precisione. Questa strategia è nota con il termine tecnico di Lottery Ticket Hypothesis e presenta lo svantaggio significativo di richiedere un’enorme quantità di risorse computazionali, con tutti i problemi associati, come la necessità di avere computer sempre più potenti e un crescente consumo energetico.
Per trovare una soluzione, si è rivolta l’attenzione ai cervelli biologici, dove questo problema sembra essere stato, almeno parzialmente, risolto. I nostri cervelli, con solo due o tre pasti al giorno, riescono a svolgere compiti che per una rete neurale richiedono supercomputer e enormi quantità di energia. Come ci riescono?
La risposta potrebbe risiedere nell’ordine con cui apprendiamo le cose. “Se qualcuno non ha mai suonato il pianoforte e gli metti davanti un pezzo di Chopin, difficilmente farà progressi,” spiega Luca Saglietti, fisico dell’Università Bocconi di Milano, che ha coordinato lo studio. “Normalmente, c’è un percorso di apprendimento che dura anni, che per arrivare a Chopin parte da Fra Martino campanaro.”
Quando i dati vengono forniti alle macchine in un ordine di difficoltà crescente, si parla di curriculum learning. In realtà, il metodo attualmente più comune per addestrare le reti neurali è fornire loro input casuali con reti sovra parametrizzate molto potenti. Una volta che la rete ha imparato, è possibile ridurre il numero di parametri—persino a meno del 10% del valore iniziale—perché non sono più necessari. Se però si inizia con solo il 10% dei parametri, la rete non riesce ad apprendere. Per questo, anche se un’IA potrebbe alla fine funzionare su uno smartphone, durante l’addestramento richiede server enormi.
Ci si è dunque chiesti se il curriculum learning potesse ridurre le risorse necessarie. Ma finora la ricerca ha suggerito che, per reti estremamente sopra parametrizzate, il curriculum learning sembra irrilevante: le prestazioni durante l’addestramento non migliorano.
Il nuovo lavoro di Saglietti e colleghi ha cercato di capire il perché. “Ciò che abbiamo osservato è che una rete neurale sopra parametrizzata non ha bisogno di un percorso di apprendimento, perché, invece di essere guidata dagli esempi, è guidata dal fatto che dispone già di tante risorse—parametri che per caso si trovano già vicini a una soluzione e vengono imboccati spontaneamente,” spiega Saglietti.
In altre parole, anche se le si offrono dati di apprendimento ottimizzati in ordine di difficoltà, la rete preferisce affidarsi alle sue vaste risorse di elaborazione, trovando al suo interno percorsi che con pochi aggiustamenti possono già svolgere il compito.
Questo è in realtà una buona notizia, perché non significa che le reti non possano beneficiare del curriculum learning, ma che, data l’alta quantità di parametri iniziali, sono spinte in una direzione diversa. In teoria, quindi, si potrebbe trovare un modo per iniziare con reti più piccole e adottare il curriculum learning. “Questa è una parte dell’ipotesi esplorata nel nostro studio,” spiega Saglietti. “Almeno negli esperimenti che abbiamo condotto, abbiamo osservato che, iniziando con reti più piccole, l’effetto del curriculum—mostrare esempi in un ordine curato—inizia a migliorare le prestazioni rispetto a quando l’input viene fornito casualmente. Questo miglioramento è maggiore rispetto a quando si continua ad aumentare i parametri fino al punto in cui l’ordine degli input non importa più.”
L’articolo Tilting the Odds at the Lottery: the Interplay of Overparameterisation and Curricula in Neural Networks fa parte della collezione JSTAT Machine Learning 2024 ed è stato presentato per la prima volta alla 41ª Conferenza Internazionale sull’Apprendimento Automatico (ICML 2024), tenutasi a Vienna nel luglio 2024.
|
|