L’équipe d’apprentissage automatique d’Apple, en travaillant avec des chercheurs de Université de Nanjing et Université des sciences et technologies de Hong Kongprésenté Matrix3d. Ce nouveau modèle d’IA reconstruit Objets 3D et des scènes utilisant seulement quelques-uns Photos 2Dreprésentant un déplacement significatif par rapport aux méthodes actuelles.

La photogrammétrie, la science de la fabrication de mesures à partir de photographies pour créer des modèles ou des cartes 3D, implique traditionnellement des modèles multiples et séparés pour des tâches telles que l’estimation de la pose et la prédiction de la profondeur.

Selon les chercheurs, ce processus en plusieurs étapes peut entraîner des inefficacités et des erreurs. Matrix3D aborde cela en effectuant toutes ces étapes dans un seul processus unifié. Il prend des images, des paramètres de la caméra comme l’angle et la distance focale, et les données de profondeur, les traitant via une architecture. Cette approche simplifie votre flux de travail et améliore la précision.

Nouvelle approche de la reconstruction 3D

La méthode de formation pour Matrix3D est particulièrement remarquable. Les chercheurs ont utilisé une stratégie d’apprentissage masquée. Cette technique, similaire à celle utilisée dans les systèmes d’IA basés sur les transformateurs précoces, qui a contribué à des développements comme les versions initiales de Chatgpt, impliquaient de cacher au hasard des parties des données d’entrée pendant la formation. Cela a forcé Matrix3d ​​à apprendre à remplir les informations manquantes.

L’équipe indique que cette méthode est cruciale car elle permet à Matrix3D de s’entraîner efficacement même avec des ensembles de données plus petits ou incomplets. Les résultats démontrent la capacité du modèle. Avec seulement trois images d’entrée, Matrix3D peut générer des reconstructions 3D détaillées d’objets individuels et d’environnements entiers.

Comme indiqué par l’équipe de recherche, ce modèle de transformateur de diffusion unifié présente des configurations flexibles d’entrée et de sortie, prend en charge plusieurs tâches de photogrammétrie de base et est optimisable de bout en bout. Cela élimine le besoin de plusieurs modèles spécifiques à des tâches.

Implications pour Apple Vision Pro

La capacité de Matrix3D à créer des environnements 3D détaillés à partir d’une entrée minimale a des applications claires. Cette technologie pourrait améliorer considérablement les expériences des casques immersifs comme Apple Vision Pro. Vous pouvez l’utiliser pour générer rapidement du contenu 3D ou apporter des espaces du monde réel dans des environnements virtuels avec une plus grande facilité. Les chercheurs mettent en évidence son potentiel en tant qu’outil innovant pour la création de contenu 3D, offrant un contrôle à grain fin via des interactions multi-rondes.

L’équipe a rendu le code source de Matrix3d ​​disponible sur Github et a publié leur document de recherche sur arxiv. Vous pouvez également visiter leur projet site web Pour afficher des exemples de vidéos et interagir avec les loisirs de cloud de points.



Articles connexes