Questa intelligenza artificiale può dire cosa stai digitando in base al suono

Blog

CasaCasa / Blog / Questa intelligenza artificiale può dire cosa stai digitando in base al suono

Aug 11, 2023

Questa intelligenza artificiale può dire cosa stai digitando in base al suono

Questo articolo fa parte della nostra esclusiva serie IEEE Journal Watch in collaborazione con IEEE Xplore. Secondo, i messaggi digitati possono essere decodificati dal semplice suono delle dita che toccano i tasti

Questo articolo fa parte della nostra esclusiva serie IEEE Journal Watch in collaborazione con IEEE Xplore.

Secondo un recente articolo condotto da ricercatori delle Università di Durham e Surrey e dell'Università di Londra, i messaggi digitati possono essere decodificati dal semplice suono delle dita che battono sui tasti.

I ricercatori hanno addestrato due modelli di apprendimento automatico a riconoscere i clic distintivi di ciascun tasto sulla tastiera di un laptop Apple. I modelli sono stati addestrati sull'audio raccolto da due fonti: uno smartphone posizionato nelle vicinanze e una videochiamata condotta su Zoom. Riportano una precisione del 95% per il modello audio dello smartphone e del 93% per il modello di chiamata Zoom.

Questi modelli potrebbero rendere possibile il cosiddetto attacco acustico del canale laterale. Sebbene la tecnica presentata in questo articolo si basi su tecniche contemporanee di apprendimento automatico, tali attacchi risalgono almeno agli anni ’50, quando i servizi di intelligence britannici registrarono di nascosto i dispositivi di crittografia meccanica utilizzati dal governo egiziano.

Un attacco acustico al canale laterale di un laptop stima quali tasti sono stati premuti e in quale ordine, dalle registrazioni audio di una persona che lo utilizza. Questi attacchi possono rivelare informazioni sensibili dell'utente, come PIN bancari, password di account o credenziali governative.

I modelli del team sono costruiti attorno a reti neurali convoluzionali, o CNN. Proprio come tali reti possono riconoscere i volti in mezzo alla folla, così possono riconoscere i modelli in uno spettrogramma, il grafico di un segnale audio. Il programma isola l'audio di ogni pressione di un tasto, trasforma la sua forma d'onda in uno spettrogramma, estrae da esso i modelli di frequenza di ogni clic e calcola la probabilità relativa che un dato tasto sia stato premuto.

“Abbiamo considerato i dati acustici come un’immagine per la CNN”, afferma Ehsan Toreini, coautore del rapporto. “Penso che questo sia il motivo principale per cui il nostro metodo funziona così bene”.

Un attacco acustico del canale laterale si basa sulla stima di quali tasti sono stati premuti e in quale ordine per ricostruire informazioni sensibili.

L’attacco presentato nel documento ha una portata limitata. I due modelli di decodifica audio sono stati addestrati e valutati sui dati raccolti dallo stesso utente che digitava su un singolo laptop. Inoltre, il processo di formazione utilizzato richiede che i suoni chiave siano abbinati a etichette chiave. Resta da vedere quanto sarebbe efficace questo attacco se utilizzato su altri modelli di laptop in ambienti audio diversi e con utenti diversi. Inoltre, la necessità di dati di addestramento etichettati pone limiti all’ampiezza di implementazione del modello.

Tuttavia, esistono scenari plausibili in cui un utente malintenzionato avrebbe accesso ai dati audio etichettati di una persona che digita. Sebbene tali dati possano essere difficili da raccogliere di nascosto, una persona potrebbe essere costretta a fornirli. In una recente intervista sul podcast Smashing Security, Toreini e la coautrice Maryam Mehrnezhad descrivono uno scenario ipotetico in cui un'azienda richiede ai nuovi dipendenti di fornire tali dati in modo che possano essere monitorati in seguito. In un'intervista con IEEE Spectrum, Mehrnezhad ha affermato che “un altro esempio potrebbe essere la violenza da parte del partner. Un ex partner o un partner attuale potrebbero essere un cattivo attore in quello scenario.

Il gruppo di ricerca presenta diversi modi per mitigare i rischi di questo attacco. Per prima cosa, potresti semplicemente digitare velocemente: la digitazione a tocco può combinare la pressione di singoli tasti e complicare l'isolamento e la decodifica della pressione dei tasti. Anche i cambiamenti sistemici aiuterebbero. I servizi di videochiamata come Zoom potrebbero introdurre profili di rumore o distorsione audio nelle registrazioni che impedirebbero ai modelli di apprendimento automatico di abbinare facilmente l’audio ai caratteri digitati.

“La comunità della sicurezza informatica e della privacy dovrebbe elaborare soluzioni più sicure e rispettose della privacy che consentano alle persone di utilizzare le tecnologie moderne senza rischi e paure”, afferma Mehrnezhad. “Crediamo che ci sia spazio affinché l’industria e i politici trovino soluzioni migliori per proteggere l’utente in diversi contesti e applicazioni”.

I ricercatori hanno presentato il loro articolo al recente Simposio europeo IEEE del 2023 sulla sicurezza e la privacy.