Vision Pro d’Apple fait les gros titres au début de 2024 quand Brian Tong partagé un Demo FaceTime montrant un avatar numérique réaliste imitant les expressions faciales avec une précision surprenante. Une demande de brevet internationale nouvellement surface révèle désormais la fondation technique derrière ce réalisme.
Le brevet, intitulé Estimation de l’expression pour les casques utilisant une antenne à faible profil et une détection de caractéristique d’impédancedécrit comment Apple utilise la détection RF basée sur l’antenne pour cartographier des mouvements subtils de face et de main. Ces signaux sont ramassés sans contact physique et interprétés pour reproduire les positions de la bouche, de la mâchoire, des joues et même de la langue en 3D.
Selon le brevet, les antennes sont intégrées dans la partie inférieure du casque Vision Pro. Ces antennes détectent les changements dans les fréquences d’auto-résonance causées par les mouvements faciaux ou manuels de l’utilisateur. Le système traduit ensuite ces signaux en données faciales à haute résolution qui peuvent animer une personnalité virtuelle en temps réel – que soient photoréaliste ou stylisées.
Le système RF peut même capturer des expressions lorsque les mains obscurcissent le visage, comme pendant la parole ou les gestes. Une disposition d’antenne polarisée croisée aide à réduire le bruit de l’interférence environnementale et améliore la résolution des mouvements de la bouche et des doigts.
Comment Vision Pro capture les expressions réelles
La méthode d’Apple ne s’appuie pas fortement sur les fréquences d’images mais utilise plutôt des balayages de fréquence précis pour capturer les mouvements clés. Dans un exemple, le système échantillonne 31 points et génère 124 valeurs de données à 8,5 images par seconde. Cela suffit pour animer une position de bouche fermée ou un geste souriant avec des dents visibles.
Les antennes utilisées sont des antennes à sous à profil faible, parfois pliées ou en couches pour s’adapter dans la conception compacte du casque. Leur placement et leur polarisation aident à minimiser les interférences à partir de revêtements de visage comme les barbes ou les masques. Ils prennent également en charge l’intégration avec les modèles ML et les algorithmes basés sur des règles pour ajuster les inclinaisons de tête ou les gestes.
Ce brevet ajoute à la poussée d’Apple au réalisme dans la communication virtuelle. Alors que les avatars existaient depuis longtemps, capturer des nuances expressives sans capteurs volumineux ni caméras visibles est ce qui distingue Vision Pro.
Comme indiqué dans Dépôt de brevets internationaux d’Apple 2025072268inventeurs Istvan Szini, Brian Tsang, et Daehwa Kim sont crédités de cette évolution. Leur expertise combinée dans la conception d’antennes, les appareils portables et l’apprentissage automatique forment l’épine dorsale de cette nouvelle couche d’interface.
Le brevet signale un changement plus large vers une communication plus immersive et humaine dans les espaces XR. Apple ne se contente pas de cartographier les visages – cela est de redéfinir la façon dont nous nous présentons dans les salles virtuelles.