Hugging Face non è un nome sconosciuto nel mondo dell'intelligenza artificiale. Fondata nel 2016, questa azienda americana ha sviluppato diversi strumenti incentrati sull'intelligenza artificiale, utilizzati da grandi nomi come Microsoft, Google e Grammarly.
L'ultima novità del workshop Hugging Face è che sono riusciti a ridurre i modelli avanzati di intelligenza artificiale a una dimensione tale da poter essere eseguiti anche su un telefono. Potremmo chiederci, pensando ad Apple Intelligence in esecuzione sul telefono o al Samsung Galaxy AI. La novità attuale riguarda però un tipo particolare di intelligenza artificiale: i cosiddetti modelli visivo-linguistici. Queste forme di intelligenza artificiale possono essere considerate una fusione di modelli di visione e di linguaggio naturale. Si tratta di sistemi in grado di elaborare contemporaneamente informazioni visive (immagini, video) e informazioni linguistiche (testi, sottotitoli). L'obiettivo di tali modelli è aiutare le macchine a comprendere e interpretare meglio il mondo, in modo simile a come fanno gli esseri umani.
Hugging Face è riuscita a ridimensionare tali modelli visivo-linguistici in modo che le loro prestazioni rimangano adeguate, ma vengano eseguiti su un semplice dispositivo portatile, come uno smartphone. I nuovi modelli SmolVLM dell'azienda (SmolVLM-256M, SmolVLM-500M) sono stati rilasciati rispettivamente con 256 milioni e 500 milioni di parametri ed elaborano immagini e interpretano contenuti visivi e linguistici a velocità precedentemente irraggiungibili in questa classe di dimensioni.
La versione più piccola, la SmolVLM-256M (che è il modello visivo-linguistico più piccolo al mondo), ad esempio, elabora 16 esempi al secondo utilizzando solo 15 GB di RAM con una dimensione batch di 64, rendendola particolarmente interessante per le aziende che elaborano grandi quantità di dati visivi. Vogliono elaborare i dati. L'ingombro di memoria sorprendentemente ridotto consente alle aziende di implementare istanze cloud più economiche, riducendo i costi infrastrutturali, scrive il sito internet VentureBeat.
Lo sviluppo ha già attirato l'attenzione di grandi aziende tecnologiche. Sebbene IBM abbia certamente accesso a risorse informatiche significative, ha stretto una partnership con Hugging Face per integrare il modello 256M nel suo software di elaborazione dei documenti Docling, presumibilmente perché utilizzando modelli più piccoli come questo, possono elaborare in modo efficiente milioni di documenti a una frazione del costo.
Mentre molti ricercatori in precedenza davano per scontato che per compiti visivo-linguistici avanzati fossero necessari modelli più grandi, SmolVLM ha dimostrato che risultati simili potevano essere ottenuti con architetture più piccole ed efficienti. Ad esempio, la versione da 500 milioni di parametri raggiunge il 90 percento delle prestazioni della versione da 2,2B (2,2 miliardi) di parametri nei benchmark chiave. Riducendo drasticamente le risorse necessarie per utilizzare l'intelligenza artificiale visivo-linguistica, l'innovazione di Hugging Face può contribuire ad alleviare le preoccupazioni relative sia all'impatto ambientale negativo sia ai costi computazionali. Inoltre, i sistemi sopra menzionati sono open source, in linea con le precedenti pratiche di Hugging Face, il che significa che le funzionalità avanzate dell'intelligenza artificiale stanno diventando accessibili a un numero sempre maggiore di persone.

