Pomme Développement d’un nouveau Modèle d’IA, Fastvlmindique une technologie qui pourrait conduire ses lunettes intelligentes attendues. Les rapports suggèrent qu’Apple prévoit de publier des appareils portables compatibles AI, avec des lunettes intelligentes potentiellement lancé vers 2027. Ce nouveau modèle offre un aperçu de la façon dont l’IA sur dispositif d’Apple pourrait fonctionner.
FastVLM, un modèle de langage visuel, traite des images haute résolution avec une vitesse et une efficacité remarquables. L’équipe de recherche sur l’apprentissage automatique d’Apple l’a conçu en utilisant MLX, leur cadre d’apprentissage automatique ouvert adapté à Apple Silicon. Cela permet aux modèles tels que FastVLM de s’entraîner et d’exécuter localement sur les appareils Apple.
Selon Apple, FastVLM exige beaucoup moins de puissance de calcul que les modèles comparables. Le modèle démontre des capacités pratiques, identifiant correctement les doigts retenues, les emojis à l’écran et le texte manuscrit.
Efficacité et vitesse par conception
Au cœur de FastVLM se trouve un codeur nommé Fastvithd, spécialement conçu pour des performances VLM efficaces avec des images à haute résolution. Apple indique que ce codeur est jusqu’à 3,2 fois plus rapide et son modèle est 3,6 fois plus petit que les modèles de vision similaires. Une telle efficacité est critique si un appareil doit traiter les informations visuelles localement, sans dépendance au cloud, pour des réponses instantanées.
FastVLM offre également moins de jetons, un facteur clé pour l’inférence rapide – l’étape où le modèle interprète les données et génère une réponse. Apple affirme que son modèle atteint 85 fois plus de temps pour d’abord par rapport à des modèles similaires. Cette métrique mesure le retard entre votre invite initiale et le premier élément de sortie du modèle. Moins de jetons sur un modèle plus rapide et plus léger signifie un traitement plus rapide pour vous.
Le Référentiel GitHub Pour FastVLM note sa plus petite variante surpasse Llava onevision-0.5b avec ce temps de temps de 85x plus rapide et un encodeur de vision plus petit de 3,4x. Variantes plus grandes en utilisant le Modèle de grande langue QWEN2-7B surpasserait les modèles récents comme Cambrian-1-8B avec un temps de temps de 7,9x plus rapide pour d’abord, en utilisant un seul encodeur d’image.
Implications pour les futurs portables
La combinaison de la vitesse, de la faible demande de calcul et du traitement local fait de FastVLM un candidat solide pour des appareils tels que des lunettes intelligentes. Ces appareils portables nécessitent une compréhension immédiate et une réaction à l’environnement de l’utilisateur. La capacité d’effectuer des tâches visuelles complexes sans s’appuyer sur une connexion nuageuse constante est un avantage significatif.
Apple a rendu FastVLM disponible sur Githubet un rapport technique peut être trouvé sur arxiv. Le projet comprend également une application Demo iOS pour présenter les performances du modèle sur un appareil mobile. Cela signale l’investissement continu d’Apple dans les capacités de l’IA qui pourraient définir sa prochaine génération de technologies personnelles.