En el aprendizaje automático, pocas ideas han logrado unificar la complejidad de la forma en que la tabla periódica alguna vez lo hizo para la química. Ahora, Investigadores del MIT, Microsoft y Google están intentando hacer exactamente eso con I-Con, o el aprendizaje contrastante de información. La idea es engañosamente simple: representar la mayoría de los algoritmos de aprendizaje automático (clasificación, regresión, agrupación e incluso modelos de idiomas grandes) como casos especiales de un principio general: aprender las relaciones entre los puntos de datos.
Al igual que los elementos químicos se dividen en grupos predecibles, los investigadores afirman que los algoritmos de aprendizaje automático también forman un patrón. Al mapear esos patrones, I-Con no solo aclara los viejos métodos. Predice otros nuevos. Una de esas predicciones? Un algoritmo de clasificación de imágenes de última generación que requiere cero etiquetas humanas.
Imagina una cena de salón de baile. Cada invitado (punto de datos) encuentra un asiento (clúster) idealmente cerca de amigos (datos similares). Algunos amigos se sientan juntos, otros se extendieron por las mesas. Esta metáfora, llamada Gala de agrupación, captura cómo I-Con trata la agrupación: optimizar cómo los puntos de datos de Data se basan en las relaciones inherentes. No se trata solo de quién está al lado de quién, sino qué tipos de vínculos importan; ya sea similitud visual, etiquetas de clase compartida o conexiones gráficas.
Esta analogía del salón de baile se extiende a todo el aprendizaje automático. El marco I-Con muestra que los algoritmos difieren principalmente en cómo definen esas relaciones. Cambie la lista de invitados o la lógica de los asientos, y obtendrá la reducción de la dimensionalidad, el aprendizaje auto-supervisado o la agrupación espectral. Todo se reduce a preservar ciertas relaciones mientras simplifica otras.
La arquitectura detrás de i-coN
En esencia, I-Con se basa en una base teórica de información. El objetivo: minimizar la diferencia (divergencia KL) entre una distribución objetivo, lo que el algoritmo cree que las relaciones deberían ser y una distribución aprendida, la salida del modelo real. Formalmente, esto está escrito como:
L (θ, ϕ) = ∑ dKL(pθ (· | i) || qϕ (· | i))
Surgen diferentes técnicas de aprendizaje de cómo se construyen las dos distribuciones, Pθ y Qϕ. Cuando Pθ agrupa las imágenes por cercanía visual y Qϕ las agrupa por similitud de etiqueta, el resultado se supervisa la clasificación. Cuando Pθ se basa en la estructura del gráfico, y Qϕ se aproxima a través de grupos, obtenemos la agrupación espectral. Incluso el modelado del lenguaje se ajusta, tratando la concurrencia de tokens como una relación para ser preservada.
La mesa que organiza todo
Inspirado en la tabla periódica de Chemistry, el equipo I-Con construyó un algoritmos de categorización de cuadrícula basados en sus tipos de conexión. Cada cuadrado de la tabla representa una forma única de que los puntos de datos se relacionan en el espacio de entrada versus salida. Una vez que se colocaron todas las técnicas conocidas, quedaron brechas sorprendentes. Estas brechas no apuntaron a los datos faltantes: insinuaron métodos que podrían existir pero que aún no se habían descubierto.
Para probar esto, los investigadores completaron una de esas brechas al combinar la agrupación con el aprendizaje de contrastante debia. El resultado: un nuevo método que superó a los clasificadores de imágenes no supervisados existentes en Imagenet en un 8%. Funcionó al inyectar una pequeña cantidad de ruido («amistad universal» entre los puntos de datos, lo que hizo que el proceso de agrupación fuera más estable y menos sesgado hacia las tareas demasiado confidenciales.
Debiasing juega un papel central en este descubrimiento. El aprendizaje tradicional del contraste penaliza las muestras diferentes con demasiada dureza, incluso cuando esas muestras podrían no estar realmente no relacionadas. I-CON presenta un mejor enfoque: mezclar una distribución uniforme que suaviza supuestos demasiado rígidos sobre las separaciones de datos. Es un ajuste conceptualmente limpio con ganancias medibles en el rendimiento.
Otro método implica expandir la definición de vecindario en sí. En lugar de mirar solo a los vecinos directos más cercanos, I-Con se propaga a través del gráfico del vecindario, llevando «caminatas» para capturar una estructura más global. Estas caminatas simulan cómo se extiende la información a través de nodos, mejorando el proceso de agrupación. Las pruebas sobre los transformadores de la visión de Dino confirman que la propagación a pequeña escala (longitud de caminata de 1 o 2) produce la mayor ganancia sin abrumar al modelo.
Investigación: la IA de Google come sus clics
Rendimiento y recompensa
El marco I-Con no es solo la teoría. En ImageNet-1K, venció a los modelos de agrupación de vanguardia anteriores como TEMI y Scan utilizando funciones más simples de pérdida de equilibrio. A diferencia de sus predecesores, I-Con no necesita sanciones o restricciones de tamaño sintonizadas manualmente. Simplemente funciona: Dino-S Vit-S, Vit-B y Vit-L Vit-L.
Debiased Infonce Clustering (I-Con) Precisión húngara mejorada por:
- +4.5% en VIT-B/14
- +7.8% en Vit-L/14
También superó a K-means, la agrupación contrastante y escaneó de manera consistente. La clave radica en su unificación limpia de los métodos y la adaptabilidad: probabilidades de canto, gráficos vecinos, etiquetas de clase, todos están bajo un paraguas.
I-Con no es solo un unifier; Es un plan para la invención. Al demostrar que muchos algoritmos son solo formas diferentes de elegir distribuciones de vecindarios, permite a los investigadores inventar nuevas combinaciones. Intercambie un tipo de conexión por otro. Mezclar en Debiasing. Tune la profundidad del vecindario. Cada ajuste corresponde a una nueva entrada en la tabla, un nuevo algoritmo listo para ser probado.
Como dijo el sombreado de MIT Alshammari, el aprendizaje automático está comenzando a sentirse menos como un arte de conjeturas y más como un espacio de diseño estructurado. I-Con convierte el aprendizaje en exploración: menos alquimia, más ingeniería.
Lo que I-Con realmente ofrece es una filosofía más profunda del aprendizaje automático. Revela que debajo de la gran diversidad de modelos y métodos, puede existir una estructura común, una construida no en fórmulas rígidas, sino en la lógica relacional. En ese sentido, I-Con no resuelve inteligencia. Lo mapea. Y al igual que la primera mesa periódica, nos da una idea de lo que todavía está esperando ser descubierto.