
Dalle attività di innovazione di Piazza Copernico sono nate interessanti applicazioni nell’ambito dell’intelligenza artificiale.
In primis il progetto Semanticase sull’applicazione di modelli di Natural Language Processing and Understandings, che è stato significativamente impiegato in diversi contesti organizzativi e ambiti di business. Ma un progetto come questo, oltre alla sua capacità di adattarsi ai contenuti dell’azienda, è anche un interessante e continuo laboratorio di ricerca che il gruppo di R&S di Piazza Copernico porta avanti con dedizione e passione.
Dalla precisa scelta di lavorare in modalità Open Innovation, collaborando con enti di ricerca in un interscambio continuo di spunti di riflessione e direttrici di indagine, nel 2021 è nato il progetto di ricerca sulla Topic Correlation, che è stato oggetto di collaborazione di Piazza Copernico con IAC – CNR di Roma e DISMA del Politecnico di Torino.

Alessandro Dell’Orto, giovane data scientist appena inserito nel team R&S di Piazza Copernico, per entrare nel vivo delle attività propone una breve intervista ai protagonisti del progetto.

Daniela Pellegrini
(learning & innovation expert – Piazza Copernico)

Gianluca Mastrantonio
(Disma – Politecnico di Torino)

Mario Santoro
(IAC – Cnr di Roma)

Come nasce la scelta di Piazza Copernico di fare Open Innovation?
L’Open Innovation è una scelta fondamentale nell’area R&S di Piazza Copernico fin dalle origini. Per noi è importante fondare le nostre attività sul confronto con gli enti di ricerca e le università, su tutti i temi che trattiamo: dalla semantica, alla data science, ai metodi di apprendimento e formazione.
Collaboriamo con gli esperti basando i progetti sulle indicazioni emergenti dagli studi internazionali e scegliendo i modelli meglio applicabili ai diversi casi concreti di innovazione che l’azienda affronta.
Per garantirci questo dialogo costante con il mondo della Ricerca abbiamo scelto stipulare apposite convenzioni con gli organismi di ricerca, per realizzare il piano di ricerca che aggiorniamo annualmente in base anche alle esigenze recepite dalle aziende clienti.


Quali sono le motivazioni che hanno portato Piazza Copernico ad investire sul tema della Topic Correlation?
Avendo consolidato nel tempo molti diversi tipi di analisi sulla semantica, che sono attualmente implementati in Semanticase, nel 2021 abbiamo voluto indagare meglio le strutture logiche tra i topic.
Ci interessava arrivare a comprendere meglio le relazioni tra i topic, non solo in termini gerarchici, ma di relazioni e connessioni. Poter individuare i topic che relazionano cluster tematici diversi o che accentrano diversi topic, significa avere una vista interessante sui nuclei concettuali fondamentali e imprescindibili di un insieme di testi.
Abbiamo ritenuto essenziale questo studio per comprendere sempre più a fondo le tematiche analizzate da Semanticase.


Cosa è la Topic Correlation in poche parole? Perché è importante? Stiamo parlando di sistemi di Grafi di Conoscenza?
L’Open Innovation è una scelta fondamentale nell’area R&S di Piazza Copernico fin dalle origini. Per noi è importante fondare le nostre attività sul confronto con gli enti di ricerca e le università, su tutti i temi che trattiamo: dalla semantica, alla data science, ai metodi di apprendimento e formazione.
Collaboriamo con gli esperti basando i progetti sulle indicazioni emergenti dagli studi internazionali e scegliendo i modelli meglio applicabili ai diversi casi concreti di innovazione che l’azienda affronta.
Per garantirci questo dialogo costante con il mondo della Ricerca abbiamo scelto stipulare apposite convenzioni con gli organismi di ricerca, per realizzare il piano di ricerca che aggiorniamo annualmente in base anche alle esigenze recepite dalle aziende clienti.
Il modello che usiamo ha alcuni parametri che stimiamo, che ci permettono di individuare e poi di generare le liste di topic e parole con probabilità e ranking associati.
Uno di questi parametri può essere interpretato quasi come la matrice di correlazione degli argomenti tra loro. Usiamo il termine “quasi” poiché è un po’ più complicato della cosidetta Sigma della distribuzione di Gauss a più dimensioni. Diciamo che ne è una parente, che però ci permette di capire quanto alcuni argomenti siano legati tra loro o non lo siano per niente.
Facciamo un piccolo esempio: “pioggia” e “ombrello” sono due eventi molto correlati, ovvero molto frequentemente se piove prendo l’ombrello e viceversa, altresì “spiaggia tropicale” e “tuta da sci” sono molto poco correlati.
In maniera un po’ più complessa possiamo pensare la stessa cosa della topic correlation: da un punto di vista di interpretazione semantica possiamo vedere quali argomenti siano più correlati tra loro e quali di meno.
Ci spieghiamo meglio:
La correlation va da un minimo di -1 ad un massimo di +1; si può fissare una soglia, ad esempio, a 0.7. Se due topic hanno correlation più grande sono uniti tra loro; iterando la procedura si genera un grafico di clustering bidimensionale ovvero vediamo uno o più network di topic e anche topic isolati.
In definitiva, lo studio della Topic Correlation ci aiuta ad aumentare la comprensione del corpus documentale in studio.


Perché le risposte già presenti nella letteratura non erano adeguate a descrivere le relazioni tra i topic?
Il calcolo della Topic Correlation presente in letteratura riportava una stima ottenuta come se avessimo solo informazioni sulle prevalenze dei topic dal modello e non sulla sopracitata Sigma. Trattava, quindi, le prevalenze dei topic come dati e generava la Topic Correlation.


Quali direttrici di indagine avete indagato? Potete raccontare in parole semplici la logica adottata?
La strada è stata quella di seguire la matematica del modello di stima dei topic, anche se tortuosa. Dal modello non possiamo usare direttamente la Sigma poichè c’è un problema di dipendenza tra le prevalenze dei topic.
Semplificando: la somma della prevalenza di tutti i topic deve essere 1 (constraint).
Supponiamo di avere 3 topic, chiaramente conoscendo il valore dei primi due sappiamo il valore del terzo. Ora se dovesse cambiare il primo topic, gli altri cambierebbero, sia perchè correlati, sia per rispettare la somma ad 1. Bisognava eliminare la dipendenza da questo constraint.
Fortunatamente la teoria ci ha assistito: l’idea di base è che la correlazione tra due topic può essere calcolata fissandone un terzo.
Questo ci ha portato a dover definire 3 tipi di correlation (vi omettiamo i tediosi dettagli tecnici):
- strong correlation, dove la correlation tra 2 topic è sempre alta (sopra una certa soglia), fissando di volta in volta tutti gli altri;
- mean/median correlation, dove la correlation tra 2 topic è in media/mediana alta;
- weak correlation, dove la correlation tra 2 topic è alta, fissando almeno uno degli altri topic.


Quali primi i risultati sperimentali?
Questa procedura più complessa in realtà ci ha dato la possibilità di esplorare più sottigliezze semantiche.
Ad esempio, topic con strong correlation sono presenti in testi più tecnici dove per definizione alcuni argomenti sono sempre correlati tra loro.
In testi non tecnici, la strong correlation ci fa capire quali argomenti possono essere ricondotti a un’unica sorgente di significati, altresì comparandola con la mean/median possiamo capire “la semantica media sugli argomenti”.
Infine, la weak correlation, confrontata con le altre, ci fa capire, per fare una metafora, quali sono le strade di significati più particolari.


Quali ricadute pensate possa avere la Topic Correlation sui progetti di analisi semantica?
Gli argomenti svelati da Semanticase sono auto-esplicativi, e l’utente riesce poi a ricondurli ad un proprio schema.
Molto spesso il network mentale e quello riscontrato nei dati corrispondono.
Questa implementazione della Topic Correlation permette di verificare la propria conoscenza del corpus e ampliarla, trovando quelle relazioni semantiche che spesso possono sfuggire.

Questa funzione sarà centrale per migliorare le analisi di Semanticase, in primis su questionari e survey arricchendo fortemente la qualità dell’interpretazione, ma nella gestione dei documentali per costruire viste migliori sulla struttura dei dati.
Inoltre, questo strumento sarà fondamentale per l’addestramento dei motori di ricerca semantica.
