Cortana, Siri et Google Now, futurs vecteurs d'attaque de vos smartphones (et YouTube au passage…)

Les vidéos web qui mettent en scène des chats très mignons pullulent sur les portails vidéos comme YouTube. Elles sont drôles ou stupides, en fonction des goûts de chacun. Mais de l’avis général, elles sont inoffensives, sauf peut-être pour la productivité en entreprise. Inoffensives ? Et bien non. Des experts en sécurité viennent de démontrer qu’elles peuvent pirater votre smartphone.

Comment ? La bande son de ces vidéos peut dissimuler des commandes vocales. Et ces messages peuvent donner des ordres à Siri, Google Now ou encore Cortana. Des ordres malicieux, bien sûr. Des chercheurs en cybersécurité décrivent le mode de fonctionnement de ce type de menace dans un document de recherche qui sera présenté le mois prochain au Symposium USENIX à Austin, Texas. Une vidéo permet également de mieux comprendre la technique utilisée.

[embedded content]

Vidéo de présentation du hack de l’assistant vocal d’un smartphone. (Source : Université de Georgetown)

Si la reconnaissance vocale prend rapidement son envol rapidement sur les smartphones, ces logiciels de capture et d’analyse de la voix peuvent donc pirater des appareils, en plus de rendre de nouveaux services prévient Micah Sherr, co-auteur de l’article publié par l’Université de Georgetown.

Impossible de détecter quoi que ce soit de compréhensible

L’équipe de chercheur a réussi à moduler les commandes vocales de manière à ce que les humains ne puissent les entendre, mais que l’assistant vocal les perçoive. A l’écoute, impossible de détecter quoi que ce soit de compréhensible. Mais Google Now, Siri ou Cortana reçoivent le message 5 sur 5.

« Ok Google, Open XKCD.com » dit la voix, et le téléphone à proximité ouvre cette URL.

Une fois la connexion effectuée, ce ne sont pas les scénarios de piratage qui manquent : téléchargement de malware, instructions illicites données au smartphone… ; seule l’imagination des pirates semble être la limite. Il est possible d’ effectuer des tests sur cette page. Les auteurs mentionnent que certains sons vous paraîtront reconnassables à l’oreille, mais que cela n’intervient que quand vous en connaissez à l’avance la teneur. Sinon, impossible de reconnaître ce qui est dit.

La force du nombre

Bien sûr, la manipulation ne fonctionne pas à chaque fois. Mais comme dans le cas d’une attaque par force brute, tout est une question de proportion. Si un million de personnes regardent une vidéo de chaton embarquant un message secret, 10.000 d’entre eux peuvent avoir avoir leur téléphone à proximité de leur ordinateur. Et si 5.000 d’entre eux se connectent à une URL hébergeant des logiciels malveillants, « vous avez 5.000 smartphones sous le contrôle d’un attaquant » explique Micah Sherr.

Et si les pirates connaissent les tenants et les aboutissants du logiciel de reconnaissance vocale lui-même, et connaissent son fonctionnement interne, ils peuvent créer des commandes vocales qui sont encore plus difficiles à déchiffrer par les humains.

Face à cette menace, les développeurs de logiciels de reconnaissance vocale pourraient incorporer des filtres pour différencier les sons humains et ceux générés par ordinateur mentionne le document de recherche. Jusqu’à ce qu’une nouvelle technique de piratage voit le jour.

Débat vidéo

Les rendez-vous de l’IT : L’humain, le vecteur de menace ?

Go to Source


bouton-devis