In evidenza
Sezioni
Magazine
Annunci
Quotidiani GNN
Comuni
Intelligenza artificiale

L’idea di Meta: migliorare le IA usando una IA per migliorare Wikipedia

L’idea di Meta: migliorare le IA usando una IA per migliorare Wikipedia
Menlo Park ha sviluppato un software che scrive biografie di personaggi poco rappresentati online, iniziando dalle donne. Ecco come funziona e perché riguarda (anche) il futuro delle macchine. E pure il nostro
3 minuti di lettura

Come fanno le macchine a comprendere quello che diciamo e scriviamo? Come fanno Alexa, Siri e Google Home a rispondere alle nostre richieste? Come fa WhatsApp a sapere quali parole vogliamo digitare mentre stiamo mandando un messaggio? Insomma: come fanno le intelligenze artificiali a capirci? Leggendo quello che scriviamo, soprattutto quello che scriviamo online.

Questi software divorano Internet, sfogliano pagine e pagine e pagine di articoli, documenti, post sui social network, commenti e testi e imparano. Sono bravissimi a farlo e questa cosa funziona molto bene, sempre meglio col passare del tempo. Però c’è un problema. Il problema è che questi testi (quelli che le macchine leggono per imparare) sono uno specchio di quello che siamo noi come persone: se siamo razzisti, maschilisti, misogini, complottisti o negazionisti, lo saranno pure le IA. Lo saranno perché glielo abbiamo insegnato noi.

Il problema è noto da tempo nell’ambito della comunità scientifica che si occupa di intelligenze artificiali, natural language processing e machine learning e molti ricercatori sono al lavoro per risolverlo. Anche dentro a Meta, che però ha pensato di affrontare la questione da un lato insolito: non alla foce ma alla sorgente, non nella fase di output ma in quella di input. Cercando di migliorare quello che le macchine leggono per imparare.

Usare una IA per migliorare Wikipedia

La compagnia di Zuckerberg, che controlla (fra gli altri) Facebook, Instagram e WhatsApp, ha deciso di intervenire su Wikipedia. Perché? Un po' perché è fra i siti più consultati dalle IA per studiare (Gpt-3, il software di NLP sviluppato da OpenAI e finanziato da Microsoft, se l’è letta tutta), ma soprattutto perché è un’ottima fonte anche per noi umani: è tra i 10 siti più visitati al mondo e spesso costituisce la prima risorsa per chi cerca informazioni su figure storiche e di rilievo. Che però non hanno tutte lo stesso spazio: secondo la stessa Wikimedia Foundation, solo il 20% delle biografie presenti sul sito inglese riguarda personaggi femminili e la percentuale cala ancora se si tratta di donne appartenenti a gruppi minoritari, come scienziati donna oppure donne africane o asiatiche. Sì: per sua stessa ammissione, Wikipedia ha un problema di genere. E lo hanno (lo avranno) anche le IA che imparano da lì.

Qui entra in campo Meta: Angela Fan, ricercatrice della divisione Artificial Intelligence della società di Menlo Park, ha progettato un “metodo scientifico aperto e riproducibile” che “contribuirà ad aumentare la rappresentazione culturale delle donne e delle minoranze sul Web”. E che fra l’altro si basa proprio sull’intelligenza artificiale.

Secondo quanto raccontato, per Fan si trattava anche di un problema personale: in terza elementare le fu chiesto di scrivere un saggio su una figura storica cui fosse dedicato un libro presente nella biblioteca della scuola. Avrebbe voluto farlo su Eleanor Roosevelt, ma non essendoci libri su di lei, fu in qualche modo costretta a parlare del marito Theodore, 26esimo presidente degli Stati Uniti. Se accadesse oggi, gli studenti consulterebbero Wikipedia. E probabilmente si troverebbero di fronte allo stesso problema.

Angela Fan
Angela Fan 

Non solo donne: come funziona il progetto di Meta

Il modello di IA sviluppato da Fan insieme con Claire Gardent, relatrice dell’Université de Lorraine, in Francia, dovrebbe essere in grado di fare ricerche online e poi scrivere testi biografici, appunto sullo stile di Wikipedia.

Funziona così: la IA cerca nei siti informazioni rilevanti sui personaggi e scrive una bozza (completa di citazioni) usando come campione i dati utilizzati in 1527 biografie di donne appartenenti a gruppi emarginati. Nelle intenzioni, queste bozze “potranno costituire un punto di partenza per le persone che scrivono contenuti per Wikipedia e per i fact-checker”, velocizzando il lavoro e dunque “contribuendo ad aumentare la pubblicazione di biografie dedicate ai gruppi sottorappresentati”.

Dal punto di vista tecnico, il processo di creazione di una biografia inizia con l'uso di un'architettura RAG (la sigla sta per Retrieval-Augmented Generation) basata sulla pre-formazione su larga scala, che insegna alla IA a identificare solo le informazioni rilevanti, come il luogo di nascita o quello in cui la persona ha frequentato la scuola. Poi si passa alla stesura del testo e infine alla bibliografia, con link alle fonti consultate. L’idea è di arrivare a una voce di Wikipedia che raccolga tutti gli elementi necessari e includa i primi anni di vita del personaggio, il suo percorso scolastico e la carriera.

Da quanto scritto sin qui, è facile capire che questo lavoro complesso sia ancora più complesso se si tratta di gruppi emarginati o poco rappresentati online, per i quali è disponibile una minore quantità di informazioni.

Nonostante questo, l’idea di Meta è di dedicare ancora più attenzione al progetto, individuando “altri gruppi sottorappresentati su Wikipedia, oltre alle donne, come le persone transgender o non binarie, per le quali si registrano forme di pregiudizio che investono anche i siti di informazione”. Alla fine, il risultato sarà duplice: avremo una Wikipedia più ricca e di conseguenza le IA che impareranno da lì saranno più colte, informate e inclusive. E anche potremo scrivere una ricerca scolastica su Eleanor Roosevelt (che comunque una sua pagina su Wikipedia la ha).