Muchos pensarían que el auge de la IA encendió inmediatamente una gran demanda de datos web públicos. Después de todo, esos modelos están capacitados en datos, y mucho de eso está en Internet. Tiene algo de verdad, pero no es toda la historia.
Cuando herramientas como ChatGPT comenzaron a implementar una tras otra, los modelos de IA en los que se basaban ya estaban entrenados. Los datos ya fueron adquiridos de varias fuentes y se utilizaron para crear las herramientas que se introducen a los consumidores. Por supuesto, estas herramientas siempre estaban mejorando con la ayuda de datos adicionales. Sin embargo, gran parte de estos datos se recopilaron a través de interacciones con los usuarios o los desarrolladores de estas herramientas a través de sus métodos internos. Al principio, esto fue suficiente.
Las cosas comenzaron a cambiar cuando estas soluciones recibieron el poder de los motores de búsqueda para acceder a los datos en tiempo real. La necesidad de datos web se disparó. Incluso eso fue solo el calentamiento en comparación con la demanda de datos web que se aceleran en este momento.
Un puente sobre la brecha de conocimiento
Progreso rápido en la era de la IA. Pero si piensa en cuándo se lanzó las primeras herramientas de IA conversacionales, es posible que recuerde que tenían una debilidad notable en comparación con los motores de búsqueda tradicionales: un límite de conocimiento.
Solo podían saber qué sucedió hasta la fecha en que fueron lanzados o actualizados por última vez. Por lo tanto, había una brecha entre la realidad en la que vivías y esa última actualización. Herramientas como CHATGPT le falló cuando quería explorar eventos recientes o obtener información actualizada y relevante.
Eso cambió con el avance de los motores de búsqueda con IA. Para proporcionar resultados de búsqueda generativos relevantes y confiables, estas herramientas deben tener acceso a datos en línea en tiempo real. Se necesitaba un puente entre los modelos e Internet, sobre el cual la información podría viajar instantáneamente.
Muchas piezas, como grandes redes proxy, API de raspado y otras herramientas para una integración perfecta y acceso abierto a sitios web, se combinan para crear la infraestructura de recopilación de datos web, ese puente necesario.
Y ese es solo el comienzo. El Impacto de la búsqueda generativa Sobre cómo navegamos por Internet seguramente será el mejor desde que Google Search llegó en 1998. A medida que presenciamos su desarrollo, las empresas, desde motores de búsqueda clásicos establecidos hasta nuevas empresas emergentes y hambrientas, están corriendo para forjar su espacio en el futuro de la búsqueda. Esa carrera depende en gran medida de qué tan confiable sea el puente en el que corran.
Ai se vuelve multimodal
Los modelos AI con los que estamos más familiarizados operan en un espacio limitado. Los chatbots pueden leer y responder a las indicaciones basadas en texto. Incluso las herramientas más avanzadas que pueden generar imágenes basadas en indicaciones del lenguaje natural tienen límites bastante estrictos.
Un siguiente paso natural en la evolución de ai, IA multimodal Utiliza múltiples tipos de datos para proporcionar resultados más versátiles, perspicaces y bien basados en bienes. La capacitación de IA multimodal requiere grandes volúmenes de video, audio, texto, habla y otros tipos de datos. Estos modelos también permitirán la generación de videos basada en IA de siguiente nivel, lo que resulta en una mayor calidad y consistencia interna de imágenes generadas.
A medida que la competencia se intensifica con nuevos jugadores como Veterano Surgiendo repentina y aparentemente de la nada, la pregunta es qué compañías están adelante en el desarrollo de herramientas multimodales a puerta cerrada. Cualquiera que sean, esas compañías necesitan capacidades de raspado de datos, que no tienen precedentes incluso en la era de los grandes datos.
Para crear herramientas multimodales efectivas, especialmente generadores de video, los desarrolladores deben raspar muchos datos de video. Scraping Videos no es como raspar el HTML de las páginas web basadas en texto. El tamaño y la complejidad de la tarea son completamente diferentes. En primer lugar, los conjuntos de datos de video son miles de veces más grandes que los conjuntos de datos HTML. En segundo lugar, debe obtener las imágenes, el sonido, las transcripciones, todos los aspectos de un video, para que su herramienta sea competitiva en el mercado explosivo.
Por lo tanto, las empresas necesitan un flujo constante de datos que sea enorme y diverso. Además de la inmensidad, la infraestructura requerida debe poseer capacidades avanzadas de procesamiento de datos para manejar este flujo sin errores. Algunas compañías pueden optar por conjuntos o soluciones de datos preparados para evitar incluso los más mínimos retrasos que pueden ser muy costosos en el mercado de ritmo rápido.
Multimodal se encuentra multilingüe
La demanda de IA multilingüe confiable es enorme. Puede hacer la vida mucho más fácil eliminando las barreras del idioma en situaciones cotidianas, así como racionalizar Operaciones comerciales internacionales. Mayoría modelos de gran idioma fueron entrenados para operar principalmente en inglés, y mientras mejoran, todavía queda un largo camino por recorrer.
Esta es otra área de competencia que podría ser especialmente atractiva para las nuevas empresas de IA que no pueden competir en los mercados dominantes de modelos de IA basados en inglés. Internet habla todos los idiomas y está buscando otra ola de extracción de datos por parte de los desarrolladores que las carreras para construir herramientas de priorización de idiomas multilingües o no ingleses.
Y como esta demanda ya considerable parejas con la demanda de generación de videos en otros idiomas, uno puede ver fácilmente por qué antes era solo un calentamiento para la IA. Mucho en el desarrollo de la IA se pospuso para más tarde, después de que se puedan dominar los conceptos básicos. Que más tarde ha llegado. Ahora, AI quiere crear cualquier cosa en cualquier medio y hablar todos los idiomas. Para lograr esto, aún se deben extraer muchos datos sin explotar.
Datos de hoja perenne
En resumen, incluso en la edad en que el raspado de datos web es crucial para dominar los paisajes tecnológicos del futuro, aún no se han raspado muchos datos. Aquellos con las herramientas para obtener esos datos primero se posicionarán para liderar la siguiente etapa del desarrollo de la IA.
Sin embargo, incluso después de que las herramientas multimodales de próxima generación estén capacitadas y liberadas, y la necesidad de conjuntos de datos de video para la capacitación disminuye, siempre habrá un tipo de datos en la alta demanda: datos en tiempo real. Las mejores herramientas de IA serán aquellas que puedan proporcionar información relevante y comprender el contexto actual.
Por lo tanto, lo que los desarrolladores de IA necesitan incluso más que grandes conjuntos de datos que eventualmente envejecerán es la integración con la web que permite un flujo constante de datos, recientemente generado cada segundo. Construir esa integración y hacerlo confiable es el desafío que definirá el futuro de los mercados de IA.