Questi sistemi non rispondono più solo a semplici domande, ma sono in grado di produrre testi e risposte complesse sulla base dell’analisi di una grande quantità di dati, con possibili applicazioni anche nel settore Life Science. Valeria Croce, che si occupa di brevetti europei per Jacobacci & Partners, ci aiuta a inquadrarne meglio limiti e potenzialità

Un sistema d’intelligenza artificiale potrebbe essere in grado di passare l’esame da avvocato con un punteggio che si collochi nella fascia superiore del migliore 10%? Si, secondo gli sviluppatori di ChatGPT-4, l’ultima versione del sistema chatbot di OpenAI lanciata in Italia a marzo 2023. Un risultato che, secondo l’azienda, ha migliorato molto le prestazioni della versione precedente GPT-3.5, che superava sì l’esame di avvocatura, ma collocandosi nel 10% dei risultati più bassi. ChatGPT è solo uno dei tanti esempi possibili di sistemi di simulazione delle conversazioni basati sull’intelligenza artificiale (le cosiddette AI conversazionali). Forse il più noto, anche a causa del blocco subito a fine marzo dal Garante della protezione dei dati personali, e ora rientrato dopo l’introduzione di opportuni accorgimenti correttivi a maggior tutela della privacy degli utilizzatori. «Il termine chatbot fa riferimento a software che utilizzano modelli di apprendimento automatico per l’elaborazione di un linguaggio di conversazione naturale - spiega Valeria Croce, mandataria brevettuale europea di Jacobacci & Partners - Alcuni di questi modelli sono indicati con il termine Large Language Model (LLM), e analizzano su base statistica enormi quantità di dati nella forma di testo, deducendo al loro interno le relazioni statistiche tra una parola e l’altra. Ciò che imparano viene poi utilizzato per produrre risposte ai quesiti posti dagli utilizzatori, mettendo insieme parole, che alla fine compongono un testo, sfruttando le logiche delle stesse correlazioni che hanno imparato». Non si tratta, quindi, di un semplice copia-e-incolla di testi presenti in rete, ma di vere e proprie rielaborazioni delle informazioni apprese da questi sistemi di deep learning.

Sistemi in continua evoluzione

Le chatbot sono una realtà già da molti anni. Nella loro versione primitiva, sono quei riquadri che compaiono su molte pagine di siti web, offrendosi di rispondere alle domande e risolvere i dubbi più frequenti (quelle note come “FAQ”) dei visitatori. «I primi sistemi erano più semplici, creati con l’obiettivo di imitare le capacità e le abilità umane nell’espressione e nel linguaggio. Un sistema semplice può essere comunque efficiente quando ha un ambito di applicazione circoscritto, in cui l’algoritmo riconosce un numero limitato di parole chiave. In questo caso, il sistema deve confrontarsi con domande e situazioni frequenti, molto prevedibili e fornire risposte sulla base di quelle impostate. Non è richiesto di andare oltre questi compiti», spiega Croce. La continua e rapidissima crescita delle potenze di calcolo dei supercomputer che stanno dietro questo tipo di applicazioni informatiche rende, in realtà, questi primi esempi di sistemi chatbot ormai quasi cose d’altri tempi. I sistemi di ultima generazione non solo sono in grado di elaborare testi anche lunghi e complessi in risposta agli input che gli vengono dati (i cosiddetti prompt), ma in alcuni casi sono già integrati all’interno dei motori di ricerca, di cui amplificano il campo di applicazione. Le chatbot, va sottolineato, non sono di per sé motori di ricerca, ma solo algoritmi di analisi ed elaborazione di testi. Alcune funzioni dello stesso ChatGPT, ad esempio, sono state integrate in Bing AI, il motore di ricerca di Microsoft, e sono accessibili dal menù “Chat” del browser Edge. Ciò rende possibile porre domande reali e articolate al motore di ricerca, ottenendo come risposta un vero e proprio testo, contenente anche i link che il sistema giudica rilevanti (chatGPT, invece, non fornisce link). Anche Google sta lavorando alla sua intelligenza artificiale conversazionale, Bard, per il momento disponibile solo in forma di “esperimento” a cui sono chiamati a collaborare gli stessi utenti, fornendo i dati per il suo addestramento. Bard utilizza il modello linguistico LLM LaMDA (Language Model for Dialogue Applications), sviluppato da Google nel 2017. I limiti attuali di questa intelligenza artificiale sono ben noti ai suoi sviluppatori, che avvertono che «Bard è un esperimento e potrebbe dare risposte inaccurate o inappropriate». «Oggi sono disponibili sistemi chatbot che vanno oltre il rispondere alle semplici domande prevedibili. L’acronimo GPT significa Generative Pre-trained Transfomer, identifica i sistemi più avanzati. ChatGPT, ad esempio, è disponibile anche in una versione più evoluta a pagamento (“ChatGPT plus”); Open AI indica di voler garantire un beneficio alla collettività, mettendo a disposizione la versione gratuita dell’intelligenza artificiale. Questi modelli evoluti si basano su tecniche di apprendimento automatico ottimizzato mediante supervisione umana. Questo tipo d’intervento è definito apprendimento “per rinforzo”: come riportato dalla stessa società, grazie al feedback umano, vengono eliminate le risposte errate fornite nella fase di allenamento e vengono premiate le risposte corrette», commenta Valeria Croce. Non da ultimo, i sistemi di intelligenza artificiale conversazionale parlano molte lingue e possono essere utilizzati anche come traduttori, per ottenere in modo automatico testi in una lingua diversa. «Soprattutto per l’inglese, molti sistemi hanno ormai raggiunto una padronanza davvero ottima», sottolinea Croce.

Non solo testi

Il sistema ChatGPT-4 è in grado, rispetto alle versioni precedenti, di accettare informazioni anche in forma di immagini, video o audio, restituendo un prodotto in forma di testo. «In generale, questi sistemi si evolvono rispetto al tipo di risultato fornito all’utilizzatore, in termini di lunghezza, complessità del testo prodotto e velocità di elaborazione. L’ultima evoluzione di ChatGPT, ad esempio, è in grado di elaborare risposte più lunghe e mirate rispetto alle richieste e intenzioni di chi formula la domanda. Come promosso da Open AI, può anche scrivere testi di canzoni o scenografie, ad esempio, o imitare lo stile di scrittura di un certo autore», indica Croce. Un’evoluzione simile, in termini di capacità di restituire contenuti sempre più elaborati e complessi, la si osserva anche nel campo delle intelligenze artificiali deputate alla creazione di immagini sulla base delle informazioni immesse con i prompt. Anche in questo caso, gli strumenti più semplici e di utilizzo gratuito (come, ad esempio, Bing Image Creator di Microsoft) sono affiancati da algoritmi molto più evoluti e a pagamento. Esempi di questo senso includono Dall.E di Open AI (anch’esso integrato all’interno del motore di ricerca Bing), l’iniziativa indipendente Midjourney Bot, Stable Diffusion (un modello di diffusione latente text-to-image in grado di generare immagini realistiche di qualità fotografica a partire dai testi di input). A seconda della piattaforma, inoltre, variano i termini di licenza sui contenuti generati tramite l’intelligenza artificiale: in alcuni casi viene concessa piena libertà di utilizzo (es. Stable Diffusion), mentre in altri casi si possono applicare licenze Creative Commons o per usi commerciali, a seconda del piano di abbonamento scelto (es. Midjourney). «Software come Dall.E sono in grado di creare immagini artistiche e realistiche sulla base della descrizione che viene fornita. Possono assemblare concetti e stili diversi, creare immagini completamente nuove o inserire nuovi elementi all’interno di un’immagine già nota. Si parla, in questo caso, di in-painting. Si può anche partire da un’immagine nota, come quella di una persona, e inserirla in un contesto creato ad hoc sulla base di specifiche informazioni (out-painting). Questo tipo di sistema è anche in grado di trarre ispirazione da un modello iconico e riproporlo con delle varianti», spiega Valeria Croce.

Alcune possibili applicazioni nel Life Science

  • Produzione di testi scientifici
  • Analisi e organizzazione di dati clinici
  • Indagini su strutture molecolari per la sintesi di nuovi composti chimici
  • Conduzione di ricerche di anteriorità per settore brevettuale

Limiti e allucinazioni

Come visto, i sistemi GPT non sono ancora giunti a maturità, e possono quindi fornire contenuti non rispondenti a quanto richiesto. Google, ad esempio, avvisa che Bard contiene controlli built-in di sicurezza e meccanismi chiari per il feedback da parte degli utenti, in linea con i principi AI della società, ma, ciò nonostante, è necessario essere consapevoli che potrebbero essere generate informazioni inaccurate o affermazioni offensive. «I parametri di safety e alignment possono essere utilizzati per valutare l’evoluzione di un sistema - spiega Valeria Croce - L’allineamento consente di verificare che le risposte date dal sistema siano in linea con le istruzioni inserite a monte, ad esempio che i contenuti non siano violenti e rispondano all’etica imposta al sistema». Uno dei limiti fondamentali di questo tipo di tecnologia AI riconosciuto dalle stesse aziende sviluppatrici è che talvolta le chatbot possono scrivere risposte plausibili, ma completamente errate o prive di senso. «Si parla di “allucinazione”, con riferimento alla difficoltà di questi sistemi di distinguere l’informazione reale da un’informazione di fantasia. Ciò deriva dal fatto che l’analisi fatta dagli algoritmi è un’analisi statistica sulle parole che compongono i testi, non sono ancora in grado di comprendere il significato delle parole dei testi elaborati alla fonte», spiega Valeria Croce. È stato lo stesso vicepresidente senior di Google e direttore di Google Search, Prabhakar Raghavan, a utilizzare il termine “allucinazione” per definire questo tipo di problematica in un’intervista di febbraio 2023 al giornale tedesco Welt am Sonntag, come riportato da Reuters. La mandataria di Jacobacci & Partners aggiunge anche che, per quanto riguarda i limiti tecnici di questi sistemi, essi sono fondamentalmente legati alle attuali potenze di calcolo, e potrebbero essere superati nel tempo. «Ci sono poi limiti intrinseci, da individuare essenzialmente nell’insieme dei dati di partenza - aggiunge - Si può trattare di limiti quantitativi (quanti dati ha a disposizione il sistema per apprendere) o circa la loro precisione e correttezza: tanto maggiore il numero dei dati, migliori sono le prestazioni; tanto migliore è la qualità dei dati, tanto più precisa è la risposta. Per minimizzare il rischio che il sistema possa generare risposte plausibili, ma errate o senza senso, un suggerimento è di porre domande molto circoscritte e ben dettagliate, di modo che il sistema riconosca di dover consultare un set di dati limitato».

Qualche concreto esempio di utilizzo 

Gli esempi applicativi delle intelligenze artificiali conversazionali possono essere infiniti. Rimanendo in campo scientifico, sistemi di questo genere potrebbero venire utilizzati per la creazione di contenuti più o meno estesi, come ad esempio una tesi. Un’operazione che potrebbe venire resa più facile da sistemi quali Poe AI, piattaforma online sviluppata da Quora che consente di interagire contemporaneamente con diversi chatbot AI (tra cui anche ChatGPT-4, oltre che Sage, Claude di Anthropic e Dragonfly). «Ci sono poi applicazioni più pratiche, come la compilazione di ricerche in base all’elaborazione di una grande massa di dati d’interesse, che possono essere analizzati dal sistema AI per estrarne le informazioni richieste - indica Valeria Croce - Nel settore Life Science, ad esempio, si potrebbe ipotizzare la produzione di testi su un determinato argomento scientifico oppure applicazioni per il momento più avveniristiche, ma non troppo distanti. Ad esempio, con questi sistemi si potrebbero analizzare dati strutturali di molecole per assistere la ricerca di nuovi composti chimici da sintetizzare e utilizzare per una determinata terapia. Oppure, potrebbero essere utili per effettuare analisi di dati clinici. Gli studi clinici producono una quantità molto abbondante di dati articolati, spesso di difficile analisi; questi sistemi potrebbero “alleggerire”, e di certo velocizzare, la loro lettura e organizzazione, così da poter trarre il maggior numero di informazioni conclusive, che ad oggi necessitano di una lunga elaborazione umana». Un limite attuale all’utilizzo di ChatGPT in campo scientifico, e non solo, è dato dal fatto che la base dati di questa chatbot è al momento ferma al 2021. Fatto che limita grandemente la possibilità d’individuare tutte le informazioni pertinenti da includere nelle risposte, specie in settori a rapido tasso di evoluzione come quello scientifico. «Il Life Science è un mondo tecnologicamente molto avanzato, che produce continuamente nuovi dati che talvolta confutano e spesso integrano quelli precedenti. La mancanza di aggiornamento di due anni di questo sistema è un gap enorme per il mondo scientifico, ma ha comunque dato una dimostrazione di grandissima potenzialità», commenta Croce. Nel settore brevettuale, e non solo, le intelligenze artificiali conversazionali potrebbero venire anche utilizzate per condurre ricerche di anteriorità su un determinato argomento d’interesse. «Da dati preliminari in tal senso, sembrerebbe che si possano ottenere risposte articolate e complesse, ma anche ricche di inesattezze, ad esempio a livello dell’elenco di citazioni scientifiche ottenute (ricco di referenze sbagliate). Ci siamo chiesti l’effettiva applicabilità di questi sistemi al settore brevettuale. La tecnica di scrittura oppure di analisi di un brevetto è molto complessa e comprende una componente tecnica e strategica molto elevata, che va oltre le semplici definizioni linguistiche. Al momento non c’è un sistema in grado di svolgere questo lavoro. Una possibile applicazione, invece, potrebbe essere quella di analizzare un portfolio brevettuale anche esteso, per ottenere conclusioni su alcuni trend di protezione brevettuale all’interno di un vasto numero di famiglie brevettuali», aggiunge Croce. A conclusione di questa carrellata sui sistemi AI conversazionali, la mandataria di Jacobacci e Partners sottolinea come, molto probabilmente, il meglio dell’intelligenza artificiale lo si possa ottenere, in ogni caso, quando gli algoritmi sono sotto controllo dell’intelligenza umana. «Le potenzialità sono enormi, si tratta di una rivoluzione cominciata e che non può fermarsi; gli utilizzi e i vantaggi superano di gran lunga i limiti, che possono essere superati - sottolinea Valeria Croce - Un’evoluzione con maggiore controllo di questi sistemi sia in ingresso che in uscita aiuterà sicuramente a diffonderne l’utilizzo. Molto probabilmente, inoltre, le chatbot saranno in grado di offrire le migliori prestazioni ove utilizzati da persone addestrate a interagire con essi, e abituate anche ad analizzare in modo critico le risposte ottenute, in quanto a conoscenza dei punti “deboli” dei processi di elaborazione delle informazioni».

Vincoli di sicurezza

I sistemi di AI conversazionale sono anche soggetti a controlli esterni di sicurezza, mirati a impedire che generino contenuti violenti, di odio, etc. «Questo tipo di controllo può essere effettuato sia alla fine del processo di elaborazione, sui risultati finali, che all’inizio, limitando l’esposizione dei sistemi a certi tipi di contenuti. Per sistemi come Dall.E, inoltre, viene spesso inserita un’altra limitazione importante, finalizzata a evitare che possano essere generate immagini realistiche comprendenti volti reali di persone o di personaggi pubblici. Sono previsti anche vincoli di sicurezza per gli utenti, che non possono utilizzare questi sistemi per gli usi che sono proibiti al sistema stesso», indica Croce. Vincoli che, in quest’ultimo caso, potrebbero però venire facilmente aggirati grazie all’ingenuità degli algoritmi nell’interpretare quanto gli viene richiesto. Un esempio reso noto al pubblico si riferisce a un’interrogazione di ChatGPT di fornire un elenco di siti pirata da cui scaricare contenuti protetti da copyright. «Il sistema si è rifiutato - racconta Croce - perché ha capito che l’uso era illecito. Ma quando è stato chiesto un elenco di siti pirata da evitare per non incorrere in un illecito, il sistema ha dimostrato di essere ingenuamente vulnerabile e ha risposto alla richiesta. Un altro rischio è che la possibile creazione di contenuti errati possa contribuire a sua volta a mettere in circolo informazioni non corrette, che a loro volta potrebbero auto-alimentare il sistema. Più in generale, se consideriamo l’impatto di questi sistemi sulla società, un possibile rischio è che essi possano rimpiazzare molte figure lavorative di medio-basso livello».

https://www.notiziariochimicofarmaceutico.it/

 

Sui temi dell'Intelligenza artificiale, potrebbero interessarti anche: