Ci sono ancora troppe app che uno screen reader non riesce a leggere: configuratori di periferiche, launcher di videogiochi, pannelli di controllo pieni di pulsanti senza etichetta. Per un cieco o un ipovedente sono muri. Al congresso della National Federation of the Blind, ad Austin dal 3 all’8 luglio 2026, Vispero (la casa madre di Freedom Scientific) porta in anteprima provabile uno strumento pensato per quei muri: il JAWS AI Agent, un’intelligenza artificiale che oltre a leggere lo schermo clicca, digita e naviga al posto dell’utente, su comando in linguaggio naturale.
La distinzione conta. Un lettore di schermo tradizionale descrive quello che c’è sotto il cursore e legge il testo; sta all’utente muovere il focus e premere i tasti. Un agente agentico riceve un’istruzione a voce o scritta (“compilami questo modulo”, “apri le impostazioni di questa periferica”) e la esegue da solo, sequenza di clic e digitazioni compresa. Le informazioni tecniche circolate finora arrivano da un’analisi indipendente firmata da Arjan Niraula e dagli eventi in programma al congresso NFB: la pagina ufficiale “What’s New” di Freedom Scientific al momento non è apribile direttamente, quindi alcuni dettagli operativi restano da confermare con la beta.
Come funziona: albero di accessibilità, screenshot e clic per coordinate
Secondo la ricostruzione di Niraula, il JAWS AI Agent combina tre fonti di dati per capire cosa c’è sullo schermo. La prima è l’albero di accessibilità, cioè la struttura del codice che le applicazioni ben costruite espongono agli screen reader. La seconda è la cattura dello schermo: screenshot di quello che appare sul monitor, utili quando il codice non dice nulla di leggibile. La terza è la consapevolezza del contesto, cioè sapere quale applicazione ha il focus in quel momento.
Il pezzo che sblocca le app inaccessibili è il clic basato su coordinate XY. Quando un pulsante non ha etichetta e non compare nell’albero di accessibilità, l’agente lo individua nell’immagine e ci clicca sopra alle coordinate giuste, come farebbe una persona vedente puntando il mouse. È la stessa logica che JAWS già usa da tempo con OCR e riconoscimento visivo, portata dal descrivere gli elementi al livello di agire su di essi.
Le prove al congresso: JAWS AI Training Suite, Room 210
Il congresso NFB 2026 si tiene al JW Marriott di Austin, in Texas, dal 3 all’8 luglio. Vispero allestisce una JAWS AI Training Suite nella Room 210, dedicata alle funzioni basate su intelligenza artificiale, dove il JAWS AI Agent si può provare con le mani. La suite resta aperta ad accesso libero dalle 9:00 alle 17:00 di sabato 4 e domenica 5 luglio 2026: l’anteprima del nuovo strumento si prova in quella finestra, insieme alle altre demo AI di JAWS ospitate nella stanza, senza slot orari fissi.
Il fatto che Vispero scelga il palcoscenico NFB per mostrarlo dal vivo, con prove pratiche invece di un semplice comunicato, dice qualcosa sul peso che l’azienda gli attribuisce. Il congresso della National Federation of the Blind è il raduno annuale più grande di persone cieche negli Stati Uniti, un banco di prova dove gli utenti reali mettono alla frusta le novità.
A cosa serve: i punti in cui oggi ci si blocca
L’agente è pensato per i momenti in cui un non vedente resta bloccato da app profondamente inaccessibili. Gli esempi citati sono precisi: i configuratori software delle periferiche, come Logitech Options+ per mouse e tastiere, dove impostare un tasto o un profilo con lo screen reader è spesso impossibile. I launcher dei videogiochi e gli elementi di gioco solo visivi, terreno storicamente ostile a chi non vede. Le sequenze di impostazioni complesse dentro le applicazioni, come certe formattazioni in Word che richiedono di attraversare menu e finestre a catena.
Sono situazioni in cui l’utente sa cosa vuole ottenere ma l’interfaccia non gli lascia una strada praticabile con la tastiera. L’idea è delegare all’agente proprio quel tratto: gli si dice l’obiettivo, lui compone la sequenza di clic e digitazioni e la porta a termine, anche dove l’interfaccia non parla agli screen reader tradizionali.
Human-in-the-loop: conferma prima delle azioni rischiose e stop immediato
Un’intelligenza artificiale che clicca e digita da sola apre un problema ovvio: cosa succede se sbaglia bersaglio o invia qualcosa che non doveva. L’approccio dichiarato è human-in-the-loop, con l’essere umano che resta al comando. Prima di azioni rischiose come l’invio di un modulo, l’agente si ferma e chiede conferma esplicita all’utente. C’è poi un pulsante di stop immediato per interrompere qualsiasi operazione in corso.
Sono garanzie sensate, perché il rischio di un agente che opera su moduli, acquisti o impostazioni di sistema ricade tutto sull’utente. Quanto siano solide nella pratica lo diranno le prove al congresso e poi la beta pubblica, quando l’agente uscirà dall’ambiente controllato della demo.
Integrazione in JAWS e Fusion, beta pubblica in estate
Il JAWS AI Agent è integrato direttamente in JAWS e in Fusion (la combinazione di JAWS e dell’ingranditore ZoomText), senza installare un’app a parte. Questo, secondo l’analisi di Niraula, lo differenzia dagli assistenti AI generici, capaci solo di fotografare lo schermo: l’agente parte già dentro l’ecosistema del lettore di schermo, con accesso all’albero di accessibilità e al contesto dell’applicazione attiva. Resta uno strumento complementare, che affianca la lettura schermo tradizionale senza rimpiazzarla.
La beta pubblica è attesa per l’inizio-metà estate 2026, con il rilascio completo previsto in seguito. Chi usa JAWS o Fusion e vuole capire se il JAWS AI Agent risolve i suoi blocchi quotidiani avrà quindi modo di provarlo di persona, prima al congresso di Austin e poi sulla propria macchina con la beta. La prova decisiva saranno le app che oggi lasciano un cieco a metà strada.