Dataconomy ES
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy ES
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

El artículo de Apple Research presenta Matrix3D para la generación de contenido 3D

byAytun Çelebi
14 mayo 2025
in Research
Home Research

La fotogrametría ha sido durante mucho tiempo un elemento básico en la reconstrucción de la escena 3D, pero su tubería tradicional, los requisitos de imagen densos, las etapas de procesamiento desconectadas y el error acumulativo, ha sido un obstinado cuello de botella. El nuevo modelo Matrix3D de Appledetallado en un lanzado recientemente trabajo de investigaciónpresenta un marco unificado diseñado para eliminar esas barreras integrando múltiples tareas de fotogrametría en un solo sistema generativo.

A diferencia de los flujos de trabajo de fotogrametría tradicional, que se basan en herramientas separadas para la estimación de pose, la predicción de profundidad y la síntesis de visión novedosa, Matrix3D maneja todas estas funciones dentro de un modelo. Este cambio es más que una consolidación técnica. Representa una evolución filosófica hacia sistemas adaptables de extremo a extremo capaces de abordar la reconstrucción 3D con una entrada mínima, a veces incluso de una sola imagen.

Un enfoque todo en uno para la fotogrametría

Matrix3d ​​se basa en un transformador de difusión multimodal (Dit) arquitectura. Esto significa que no solo aprende de las imágenes RGB, sino también de los mapas de profundidad y las posturas de la cámara, todas codificadas en una representación 2D unificada. Por ejemplo, convierte la geometría 3D en mapas de profundidad 2.5D y representa la información de la cámara utilizando mapas de rayos Plücker. Este diseño le permite aplicar técnicas de modelos de imagen generativos modernos a la generación 3D de visión múltiple.

El modelo opera aprendiendo a predecir modalidades faltantes de las entradas enmascaradas. Durante el entrenamiento, Matrix3D está expuesto a conjuntos de datos parcialmente completos, algunos con solo pares de postura de imagen, otros con pares de profundidad de imágenes. La estrategia de enmascaramiento expande significativamente el grupo de capacitación utilizable y enseña al modelo a generalizar a través de las configuraciones de entrada. Al eliminar la dependencia de conjuntos de datos completos, también mejora la robustez del modelo en aplicaciones prácticas del mundo real.

El artículo de Apple Research presenta Matrix3D para la generación de contenido 3D
(Crédito de la imagen)

Rendimiento en todas las tareas

Los investigadores de Apple compararon Matrix3d ​​en múltiples conjuntos de datos, incluido CO3D, DTU y GSO. Para la estimación de pose en condiciones de entrada dispersas, Matrix3d ​​superó a los modelos de última generación como Raydiffusion y Dust3R. Su capacidad para estimar las posturas de la cámara de solo dos o tres imágenes demostró ser superior tanto en precisión de rotación como de traducción.

En la síntesis de nuevas vistas, el modelo logró puntajes competitivos de PSNR y SSIM en varias configuraciones de cámara. Cuando se probó contra sistemas principales como Sincronador, Wonder3dy Cero123xl, Matrix3D entregó consistentemente resultados de mayor fidelidad. La adición de mapas de profundidad mejoró aún más estas métricas, mostrando la resistencia de su manejo de modalidad híbrida.

Para la estimación de profundidad, Matrix3d ​​demostró su adaptabilidad nuevamente. A pesar de que el modelo fue entrenado en múltiples vistas, funcionó bien en tareas monoculares, superando modelos de profundidad especializados como Metric3D V2 y Profundar cualquier V2. Esto fue particularmente evidente en escenas complejas del conjunto de datos DTU, donde Matrix3D produjo un error relativo más bajo y puntajes de desviación cuadrada media de raíz.

El artículo de Apple Research presenta Matrix3D para la generación de contenido 3D
(Crédito de la imagen)

Una de las características más destacadas de Matrix3d ​​es su Capacidad para reconstruir la geometría 3D de entradas extremadamente limitadas. El modelo puede comenzar desde una sola imagen, estimar las posturas de la cámara faltantes y los mapas de profundidad, y sintetizar vistas adicionales necesarias para inicializar una tubería de salpicaduras gaussianas 3D (3DGS). Estos pasos previamente requerían herramientas separadas o datos de entrada extensos. Ahora, se pueden ejecutar dentro de un marco unificado que simplifica todo el proceso de reconstrucción.

Con Matrix3D, incluso los conjuntos de imágenes dispersas sin soltar se vuelven viables para la reconstrucción 3D. El modelo estima de forma autónoma pose, llena las vistas faltantes y prepara la entrada para los motores de representación. Sus resultados fueron validados contra puntos de referencia y comparaciones visuales, mostrando una precisión prometedora a pesar de operar con menos recursos que los métodos competitivos. Matrix3d ​​ofrece resultados comparables a sistemas multi-GPU como CAT3D mientras se ejecutan de manera eficiente en una sola GPU.

El artículo de Apple Research presenta Matrix3D para la generación de contenido 3D
(Crédito de la imagen)

En las tareas híbridas, Matrix3D se posiciona de manera única. Puede ingerir combinaciones arbitrarias de RGB, pose y entradas de profundidad, y generar las salidas correspondientes sin necesidad de reentrenamiento o cambios arquitectónicos. Esta capacidad abre puertas para una aplicación más amplia en diseño 3D interactivo, generación de contenido AR/VR y escaneo de entorno en tiempo real.

  • CuantitativamenteMatrix3d ​​establece nuevos puntos de referencia en varias tareas de fotogrametría. En la estimación de pose, alcanza más del 96 por ciento de precisión de rotación relativa con solo dos vistas. Para una síntesis de vista novedosa, ofrece puntajes SSIM y PSNR superiores en múltiples configuraciones. Predicción en profundidad, registra errores relativos absolutos más bajos y relaciones inferiores más altas en comparación con las líneas de base especializadas.
  • Cualitativamentelas mejoras son igualmente llamativas. Las salidas visuales muestran geometría más nítida, menos artefactos y una mejor consistencia en los puntos de vista. En comparación con los modelos anteriores, Matrix3D ofrece representaciones estables incluso bajo restricciones de entrada difíciles. Esto refuerza la utilidad de las tuberías de fotogrametría unificadas basadas en difusión como la próxima frontera en la generación 3D.

Crédito de imagen destacado

Tags: ManzanaMatriz3d

Recent Posts

  • ¿Listo para un chatgpt que realmente te conozca?
  • Las herramientas de investigación de IA podrían estar creando más problemas de los que resuelven
  • ¿Su socio generativo de IA súper útil es en secreto haciendo que su trabajo sea aburrido?
  • Adele de Microsoft quiere darle a su IA un perfil cognitivo
  • El artículo de Apple Research presenta Matrix3D para la generación de contenido 3D

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us

Social icon element need JNews Essential plugin to be activated.
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.