Se lanzó un nuevo modelo de código abierto llamado DeepSeek-OCR, que altera el paradigma tradicional de los modelos grandes. El modelo, que fue de código abierto ayer por la tarde, ha experimentado un ascenso meteórico en la comunidad de IA, ganando más de 4.000 estrellas en GitHub de la noche a la mañana. El objetivo principal de DeepSeek-OCR es un enfoque visual novedoso para el manejo de texto, que promete resolver uno de los mayores desafíos de la IA: la eficiencia en contextos prolongados.
Cómo DeepSeek-OCR cambia el juego
El nuevo modelo DeepSeek-OCR no es una herramienta más de lectura de texto. Su poder radica en su capacidad para comprimir información. Según sus creadores, el modelo puede tomar un artículo de 1000 palabras y comprimirlo en sólo 100 tokens visuales. Esto representa una asombrosa relación de compresión diez veces mayor con una precisión del 97%. Esta eficiencia es notable; una sola GPU NVIDIA A100 puede procesar 200.000 páginas de datos por día utilizando el método DeepSeek-OCR. Este nuevo enfoque de procesamiento podría indicar un cambio significativo en los métodos de entrada utilizados para modelos grandes. La rápida tracción de DeepSeek-OCR se vio amplificada por respaldos de alto perfil. Andrej Karpathy, cofundador de OpenAI y exdirector de Autopilot en Tesla, compartió su entusiasmo por el artículo. Llamó a DeepSeek-OCR un «buen modelo de OCR» y destacó su «parte más interesante»: el concepto de una IA con visión por computadora «disfrazada de una persona con lenguaje natural». https://twitter.com/karpathy/status/1980397031542989305 Karpathy cree que este método visual primero es una entrada superior para modelos de lenguaje grandes. Propuso que los LLM deberían utilizar imágenes como su entrada principal, e incluso cuando procesen texto sin formato, primero deberían convertirlo en una imagen. En su opinión, esto conduciría a una compresión de la información mucho mayor y a un flujo de información más generalizado. Karpathy también enfatizó que el enfoque DeepSeek-OCR podría resolver problemas con los tradicionales «segmentadores de palabras» o tokenizadores. Sostuvo que los segmentadores de palabras son «feos e independientes», introducen problemas de codificación de bytes y Unicode, e incluso pueden aumentar los riesgos de seguridad. Considera que el OCR es sólo una de muchas tareas de texto visual, y sugiere que las tareas de texto a texto podrían convertirse en tareas de texto visual, pero no al revés. Xie Saining, profesor asistente de la Universidad de Nueva York, se hizo eco de este sentimiento y estuvo de acuerdo con las opiniones de Karpathy sobre la integración de la visión por computadora y el procesamiento del lenguaje natural.
Cómo acceder a DeepSeek-OCR
El modelo DeepSeek-OCR está disponible como proyecto de código abierto en GitHub y abrazando la cara bajo el nombre deepseek-ai/DeepSeek-OCR
. El modelo, que tiene 3 mil millones de parámetros, está disponible para descargar y usar con Hugging Face transformers
biblioteca. Los creadores han proporcionado ejemplos de código para inferencia en las GPU de NVIDIA y el repositorio también incluye orientación para el procesamiento de PDF y la aceleración de modelos mediante vLLM.