Google Deepmind ha identificado una limitación arquitectónica fundamental dentro de los sistemas de generación de recuperación (RAG) que dependen de densos incrustaciones. Esta limitación revela que las integridades de tamaño fijo no pueden representar todas las combinaciones de documentos relevantes a medida que la base de datos escalas, lo que impacta la efectividad de la recuperación. El problema central radica en la capacidad de representación de los incrustaciones de tamaño fijo. Una incrustación de dimensión fija no puede representar con precisión todas las combinaciones posibles de documentos relevantes cuando la base de datos supera un cierto tamaño. Esta limitación se basa en principios de complejidad de la comunicación y teoría del rango de letrero. Se han establecido límites de capacidad teórica basados en el tamaño de la incrustación. Los incrustaciones de 512 dimensiones alcanzan su límite alrededor de 500,000 documentos. El aumento de las dimensiones a 1024 extiende el límite a aproximadamente 4 millones de documentos. Un aumento adicional a 4096 dimensiones eleva el techo a 250 millones de documentos. Estos límites representan las estimaciones de los mejores casos bajo optimización de incrustación libre, donde los vectores están optimizados directamente contra las etiquetas de prueba. Según el informe de Google Deepmind, se anticipa que los incrustaciones limitadas por el idioma real en el mundo no fallarán incluso antes. Para demostrar empíricamente esta limitación, Google Deepmind introdujo el punto de referencia límite, diseñado para probar los incrustantes. El punto de referencia de límite incluye dos configuraciones: límite completo y límite pequeño. La configuración completa del límite consta de 50,000 documentos, donde incluso fuertes integradores experimentan un colapso en el rendimiento, y el retiro@100 a menudo cayó por debajo del 20%. El límite de la configuración pequeña, que comprende solo 46 documentos, todavía plantea un desafío para los modelos. El rendimiento varía significativamente, permaneciendo lejos de ser confiable. Resultados específicos de probar el límite La configuración pequeña incluye: PromPtriever Llama3 8B logró un 54.3% de recuperación@2 con 4096 dimensiones. Gritlm 7b obtuvo 38.4% de recuperación@2, también con 4096 dimensiones. E5-Mistral 7B alcanzó el 29.5% de retiro@2, utilizando 4096 dimensiones. Gemini Insquitió el 33.7% de retiro@2 con 3072 dimensiones. La investigación muestra que incluso con solo 46 documentos, ningún incrustador logra un recuerdo completo, enfatizando que la limitación proviene de la arquitectura de incrustación de un solo vector, no únicamente del tamaño del conjunto de datos. En contraste, BM25, un modelo léxico escaso clásico, elude esta limitación. Los modelos dispersos operan en espacios dimensionales no resuenos, facilitando la captura de combinaciones que las incrustaciones densas no pueden representar de manera efectiva. Las implementaciones actuales de RAG a menudo suponen que las integridades pueden escalar indefinidamente con el aumento de los volúmenes de datos. La investigación de Google Deepmind demuestra la incorrección de esta suposición, revelando que la incrustación del tamaño restringe inherentemente la capacidad de recuperación. Esta restricción afecta significativamente a los motores de búsqueda empresarial que administran millones de documentos, sistemas de agente que se basan en consultas lógicas complejas y tareas de recuperación de seguimiento de instrucciones donde las consultas definen dinámicamente la relevancia. Los puntos de referencia existentes, como MTEB, no capturan adecuadamente estas limitaciones porque solo prueban un subconjunto estrecho de combinaciones de documentos de consulta. El equipo de investigación sugiere que la recuperación escalable requiere ir más allá de las integridades de un solo vector. Las alternativas a las incrustaciones de un solo vector incluyen codificadores cruzados, que logran un retiro perfecto en el punto de referencia límite al calificar directamente los pares de documentos de consulta, aunque con una latencia de alta inferencia. Los modelos de múltiples vectores, como Colbert, ofrecen una recuperación más expresiva al asignar múltiples vectores por secuencia, mejorar el rendimiento en las tareas límite. Los modelos dispersos, incluidos BM25, TF-IDF y retrievers neurales escasos, se escalan mejor en la búsqueda de alta dimensión pero carecen de generalización semántica. El hallazgo clave es que la innovación arquitectónica, en lugar de simplemente aumentar el tamaño del embedido, es esencial. El análisis del equipo de investigación revela que las incrustaciones densas, a pesar de su uso generalizado, están limitados por un límite matemático. Las incrustaciones densas no pueden capturar todas las combinaciones de relevancia posibles una vez que los tamaños del corpus exceden los límites vinculados a la dimensionalidad de incrustación. Esta limitación se demuestra concretamente mediante el punto de referencia límite, con recuperación@100 que cae por debajo del 20% en el límite completo (50,000 documentos) e incluso los mejores modelos que maximizan aproximadamente el 54% de recuperación@2 en el límite pequeño (46 documentos). Las técnicas clásicas como BM25, o arquitecturas más nuevas, como retrievers y codificadores transversales de múltiples vectores, siguen siendo esenciales para construir motores de recuperación confiables a escala.