Bolt3D el nou sistema d’IA de Google crea escenes 3D en només 6 segons

24 març, 2025

Un innovador sistema d’IA de Google promet revolucionar la creació d’escenes 3D a partir de fotos, aconseguint resultats en temps rècord.

L’últim avenç de Google Research i Google DeepMind, conegut com Bolt3D, està canviant les regles del joc en la generació d’escenes tridimensionals a partir d’imatges. Aquest sistema és capaç de transformar fotos en entorns 3D realistes en tan sols 6.25 segons amb l’ajuda d’una GPU Nvidia H100, un temps notable comparat amb altres sistemes que poden trigar des de minuts fins a hores.

La màgia de Bolt3D rau en la seva capacitat per determinar la ubicació de cada píxel en l’espai tridimensional i assignar-li un color adequat. Posteriorment, un segon model s’encarrega d’avaluar la transparència de cada punt i de com s’estén a través de l’espai, aconseguint un nivell de detall sorprenent.

La tècnica clau darrere d’aquest sistema és el “Gaussian splatting”, que permet emmagatzemar dades de manera eficient organitzant l’escena 3D a través de funcions gaussianes tridimensionals en quadrícules bidimensionals. Això no només facilita la visualització de l’escena des de qualsevol angle en temps real, sinó que també optimitza la mida dels fitxers en eliminar àrees transparents i comprimir les dades restants.

Un salt qualitatiu en la generació 3D

Les proves realitzades indiquen que Bolt3D supera significativament a mètodes existents com Flash3D i DepthSplat. Mentre que aquestes alternatives només poden difuminar les àrees no visibles, Bolt3D té la capacitat de crear contingut realista fins i tot per a parts ocultes de les escenes.

Comparativa de Bolt3D amb Flash3D i altres.

Aquesta innovació és possible gràcies a un model d’IA especialitzat en dades espacials. Els investigadors van descobrir que els models convencionals, entrenats únicament amb fotos, no podien gestionar la complexitat de la informació tridimensional. Bolt3D va ser entrenat amb un vast conjunt de dades que abasta aproximadament 300.000 escenes 3D, combinant reconstruccions basades en fotografies i models generats per ordinador, cosa que permet al sistema fer inferències informades sobre àrees que no pot veure completament.

A pesar del seu impressionant rendiment, Bolt3D no està exempt de limitacions. La generació de detalls fins, especialment aquells de menys de vuit píxels d’ample, així com la representació de materials transparents i superfícies altament reflectants, encara presenta desafiaments. A més, la qualitat final de l’escena depèn en gran mesura de les condicions en què van ser preses les fotos i de la mida requerida de l’escena generada.

A pesar d’aquestes consideracions, Bolt3D representa un avanç significatiu en la creació de contingut 3D. La seva velocitat podria fer que la generació d’escenes tridimensionals a gran escala sigui una realitat. Encara que no hi ha informació sobre la seva disponibilitat pública, els interessats poden explorar més sobre el sistema i veure demostracions interactives al lloc del projecte.

Aquest desenvolupament arriba en un moment en què Stability AI ha presentat el seu propi sistema, SPAR3D, que també pot generar objectes 3D a partir d’imatges individuals ràpidament. La diferència clau rau en què mentre SPAR3D se centra en objectes individuals, Bolt3D és capaç de gestionar escenes completes, obrint noves possibilitats en l’àmbit de la creació digital.

Deixa el primer comentari