Vers le contenu
Pop-up-arrière-plan-abstrait-1070 × 625-1-2024

Redéfinir la capture de la réalité à l'aide d'un ordinateur de poche

Découvrez une combinaison inégalée d'agilité, d'ergonomie et de qualité de données exceptionnelle à partir d'un appareil portable.

NEWSLETTER

Obtenez les dernières nouvelles au fur et à mesure qu'elles arrivent.
Vous recevrez notre site newsletter une fois par mois pour vous informer des événements et webinaires à venir ainsi que des dernières nouvelles du domaine.
blog
Tim Runge21 août, 20254 min lire

Apprendre aux espaces 3D à se comprendre eux-mêmes : Explorer l'intelligence sémantique à NavVis

NavVis a toujours eu pour objectif d'aider les gens à mieux saisir et explorer les espaces intérieurs et extérieurs. Nos scanners et nos logiciels transforment des lieux réels en espaces numériques 3D précis et détaillés. Mais que se passerait-il si ces espaces numériques pouvaient faire plus que montrer ce qui s'y trouve ? Et s'ils pouvaient aussi comprendre leur propre contenu ?

Lors de notre récent CodeJam, les ingénieurs ont expérimenté un premier prototype qui fait un grand pas dans cette direction : L'amélioration de l'éclatement gaussien en 3D grâce à des caractéristiques sémantiques.

L'idée : donner du sens à la 3D

Aujourd'hui, de puissants modèles d'IA reconnaissent et étiquettent clairement les objets sur des photos en 2D. Il suffit de montrer une photo à ces modèles pour qu'ils détectent instantanément les chaises, les tables, les portes, etc. Cependant, dans les scènes en 3D, ce type de compréhension est loin d'être acquis.

C'est pourquoi NavVisManuel Dahnert, expert en apprentissage automatique qui a précédemment obtenu un doctorat à l'Université technique de Munich, s'est posé la question suivante : Pouvons-nous transférer ces connaissances 2D dans des environnements 3D, en particulier des environnements 3D de "Gaussian Splatting", afin que les utilisateurs puissent interagir avec des objets, et pas seulement avec la géométrie ?

L'hypothèse de Manuel était simple mais ambitieuse. Si nous pouvions appliquer la compréhension des images 2D directement aux environnements numériques 3D, NavVispourraient éventuellement interagir avec les espaces de manière plus riche. Ils pourraient interroger un jumeau numérique par type d'objet, demander des vérifications rapides de l'inventaire ou même filtrer un modèle 3D pour se concentrer uniquement sur des éléments spécifiques.

Pourquoi des gaussiennes et non des nuages de points ?

L'éclatement gaussien modélise une scène sous la forme de milliers de "taches" colorées qui se chevauchent, au lieu de millions de points discrets. Chaque tache a une taille, une couleur et une profondeur, ce qui permet de la relier plus facilement aux images de caméra origine.

Cette structure permet également aux étiquettes sémantiques des images 2D d'être transférées plus naturellement en 3D. Elle permet également d'alléger les fichiers, d'obtenir un rendu plus rapide et de prendre en charge des surfaces et des occlusions plus lisses, tout en préservant l'aspect original de l'image. NavVis sous le nuage de points pour des mesures précises.

En bref : les gaussiennes offrent une base plus expressive et plus efficace pour donner un sens aux données 3D.

Construction du prototype

  1. Le modèle Segment Anything (SAM) permet d'isoler des objets dans chaque image.
  2. Les caractéristiques vision-langage de CLIP ont associé ces objets à des catégories telles que chaise ou porte.
  3. Les pixels étiquetés ont été transférés dans la scène de l'éclatement, colorant chaque blob appartenant au même type d'objet.

Dans le prototype de Manuel, différents types d'objets apparaissaient systématiquement dans des couleurs différentes. Toutes les chaises apparaissent dans une couleur, les tables dans une autre et les portes dans une autre encore. Bien qu'il n'ait pas encore été en mesure d'ajouter des requêtes textuelles, les résultats ont clairement démontré le potentiel de cette méthode. La scène numérique n'était pas seulement réaliste, elle était aussi sémantiquement organisée.

Voir 1 Voir 2 Voir 3
blog blog blog

Figure 1 : Exemples d'éclaboussures gaussiennes en 3D utilisant la cuisine du QG de NavVis comme environnement de test. Les différentes couleurs indiquent les différents types d'objets.

Valeur pratique

  • Filtrer un jumeau numérique pour ne visualiser que les équipements critiques
  • Comparez en quelques secondes les meubles capturés à un modèle de conception.
  • Compter des objets spécifiques sans annotation manuelle.

La compréhension sémantique des scènes 3D ouvre de nombreuses possibilités. Imaginez que vous vous promeniez dans le jumeau numérique d'un bâtiment et que vous filtriez rapidement pour ne voir que les équipements de sécurité incendie. Ou encore, imaginez un directeur des travaux identifiant instantanément les pièces d'un bâtiment à moitié achevé qui correspondent ou diffèrent de leurs modèlesBIM . Ces fonctionnalités peuvent faire gagner beaucoup de temps et d'efforts dans des industries tels que la construction, la gestion des installations et les inspections de sécurité.

En d'autres termes, nous pensons que la combinaison des espaces numériques et de la compréhension sémantique peut conduire à une navigation plus intelligente, à des recherches plus rapides et à une meilleure prise de décision.

Des fondations partagées : Des panoramas plus propres

NavVisL'exploration de la compréhension sémantique ne se limite pas aux espaces 3D. Une autre équipe de notre CodeJam a utilisé des modèles de segmentation similaires pour supprimer automatiquement les opérateurs des panoramas capturés par nos scanners laser NavVis MLX .

Ce résultat plus propre signifie moins d'édition manuelle, des images plus claires et une amélioration générale de l'expérience de l'utilisateur. Elle montre également à quel point la segmentation sémantique peut être pratique et utile aujourd'hui, même sans intégration 3D complète.

Limites actuelles et questions ouvertes

  • Taille du fichier : la scène sémantique est encore lourde, l'optimisation est en cours.
  • Couverture du domaine : les modèles ouverts gèrent bien les objets de la vie quotidienne, mais ils ont du mal avec les articles industriels spécialisés ; des données de formation supplémentaires peuvent être nécessaires.
  • Enveloppe de coûts : le traitement en nuage doit rester dans les limites d'un budget qui ne soit pas prohibitif pour les clients actuels.
  • Interface utilisateur: NavVis IVION aura besoin de moyens pour exposer des filtres et des requêtes sémantiques.

Bien que les premiers résultats soient prometteurs, Manuel et le reste de l'équipe reconnaissent que le travail n'en est qu'à ses débuts. Pour passer du prototype au produit, il faudra poursuivre les essais sur des scènes réelles, en particulier dans des environnements industriels complexes.

L'objectif est de s'assurer que les futures fonctions sémantiques répondent aux mêmes attentes en matière de précision, de fiabilité et de performance que celles qui s'appliquent à toutes les fonctions de NavVis .

Perspectives d'avenir

L'innovation suit ici un parcours prévisible : prototype → mesure → itération. Certaines idées aboutissent à la planificationun produit. D'autres alimentent la recherche future. Ce travail se situe au stade de la recherche, mais s'aligne sur les besoins clairs des clients et sur l'orientation générale de l'industrie.

Nos ingénieurs continuent de réduire la taille des modèles, de mettre en place des requêtes textuelles de base et de tester des ensembles de données plus importants et plus variés. Au fur et à mesure que ces étapes se mettent en place, la capacité peut se rapprocher des projets pilotes avec de vraies données clients.

NavVis sera prêt pour le moment où la compréhension sémantique deviendra une attente quotidienne.

ARTICLES ASSOCIÉS