En la última Conferencia sobre IA, tuvimos la oportunidad de sentarnos con Roman Shaposhnik y Tanya Dadasheva, cofundadores de Ainekko/AIFoundry, y discutir con ellos un tema ambiguo sobre el valor de los datos para las empresas en los tiempos de la IA. Una de las preguntas clave con las que partimos fue: ¿la mayoría de las empresas utilizan los mismos modelos de IA de vanguardia? ¿La incorporación de sus datos es la única forma en que tienen la oportunidad de diferenciarse? ¿Son los datos realmente un foso para las empresas?
Román recuerda: “En 2009, cuando comenzó en la comunidad de big data, todo el mundo hablaba de cómo se transformarían las empresas aprovechando los datos. En ese momento, ni siquiera eran empresas digitales; la transformación digital aún no se había producido. Se trataba en su mayoría de empresas analógicas, pero ya estaban enfatizando el valor de los datos que recopilaban: datos sobre sus clientes, transacciones, cadenas de suministro y más. La gente comparaba los datos con el petróleo, algo con un valor inherente que debía extraerse para alcanzar su verdadero potencial..”
Sin embargo, el petróleo es una materia prima. Entonces, si comparamos los datos con el petróleo, sugiere que todos tienen acceso a los mismos datos, aunque en diferentes cantidades y más fáciles de recolectar para algunos. Esta comparación hace que los datos parezcan una mercancía, disponible para todos pero procesada de diferentes maneras.
Cuando los datos se encuentran en un almacén de datos empresarial en su forma cruda, es como una masa amorfa, un bien que todos tienen. Sin embargo, una vez que comienzas a refinarlo, es cuando entra en juego el valor real. No se trata solo de adquirir datos, sino de construir un proceso desde la extracción hasta el refinamiento de todo el valor a través del proceso.
“Curiosamente, esto me recuerda algo que me dijo una vez un ejecutivo de una corporación petrolera.” – comparte romano. “Ese ejecutivo describió el negocio no como una extracción de petróleo sino como una reconfiguración de moléculas de carbono. El petróleo, para ellos, era simplemente una fuente de carbono. Habían creado cadenas de suministro capaces de reconfigurar estas moléculas de carbono en productos adaptados a las demandas del mercado en diferentes lugares: plásticos, gasolina, cualquiera que fuera la necesidad. Imaginó refinerías definidas por software que podrían adaptar la producción en función de las necesidades del mercado en tiempo real. Este concepto me dejó atónito y creo que es paralelo a lo que estamos viendo en los datos ahora: llevar la computación a los datos, refinarlos para obtener lo que necesita, donde lo necesita.” – fue la idea de Roman.
En las empresas, cuando comienzas a recopilar datos, te das cuenta de que están fragmentados y en muchos lugares, a veces atrapados en mainframes o dispersos en sistemas como Salesforce. Incluso si logras recolectarlo, hay muchos silos y necesitamos un enfoque similar al fracking para extraer las partes valiosas. Así como el fracking extrae petróleo de lugares que antes eran inalcanzables, necesitamos métodos para obtener datos empresariales que de otro modo estarían bloqueados.
Muchos datos empresariales todavía residen en mainframes y sacarlos es un desafío. Aquí hay un dato curioso: con una alta probabilidad, si reserva un vuelo hoy, el backend aún llega a una computadora central. No se trata sólo de extraer esos datos una vez; necesitas acceso continuo a él. Muchas empresas están haciendo negocio ayudando a las empresas a obtener datos de sistemas antiguos, y herramientas como Apache Airflow están ayudando a optimizar estos procesos.
Pero incluso si los datos ya no están atrapados en los mainframes, todavía están fragmentados en sistemas como los servicios SaaS en la nube o los lagos de datos. Esto significa que las empresas no tienen todos sus datos en un solo lugar y ciertamente no son tan accesibles ni tan oportunos como necesitan. Podría pensar que empezar desde cero le daría una ventaja, pero incluso los sistemas más nuevos dependen de múltiples socios, y esos socios controlan partes de los datos que necesita.
Entonces, toda la noción de los datos como un foso resulta engañosa. Conceptualmente, las empresas son propietarias de sus datos, pero a menudo carecen de acceso real. Por ejemplo, una empresa que utiliza Salesforce es propietaria de los datos, pero Salesforce limita el control y el acceso reales a esos datos. La distinción entre poseer y tener datos es significativa.
“Las cosas se complican aún más cuando la IA comienza a involucrarse” – dice Tanya Dadasheva, otra cofundadora de AInekko y AIFoundry.org. “Una empresa puede poseer datos, pero eso no significa necesariamente que una empresa como Salesforce pueda usarlos para entrenar modelos. También existe el debate sobre si los datos anonimizados se pueden utilizar para la capacitación; legalmente, es un área gris. En general, cuanto más anónimos son los datos, menos valor tienen. En algún momento, obtener un permiso explícito se convierte en la única forma de avanzar.”.
Esta cuestión de propiedad se extiende más allá de las empresas; también afecta a los usuarios finales. Los usuarios a menudo aceptan compartir datos, pero es posible que no acepten que se utilicen para modelos de entrenamiento. Ha habido casos de ingeniería inversa de datos de modelos, lo que ha dado lugar a posibles violaciones de la privacidad.
En una etapa inicial de equilibrio entre los productores de datos, los consumidores de datos y las entidades que refinan los datos, desde el punto de vista legal y tecnológico, resulta extremadamente complejo determinar cómo funcionarán estas relaciones. Europa, por ejemplo, tiene normas de privacidad mucho más estrictas en comparación con Estados Unidos (https://artificialintelligenceact.eu/). En Estados Unidos, el sistema legal a menudo resuelve las cosas sobre la marcha, mientras que Europa prefiere establecer leyes por adelantado.
Tanya aborda la disponibilidad de datos aquí: “Todo esto se relaciona con el valor de los datos disponibles. Los modelos de lenguaje masivo que hemos creado se han vuelto impresionantes gracias a los datos públicos y semipúblicos. Sin embargo, gran parte del contenido más nuevo ahora está atrapado en “jardines amurallados” como WeChat, Telegram o Discord, donde es inaccesible para la capacitación: ¡una verdadera red oscura! Esto significa que los modelos pueden quedar obsoletos, incapaces de aprender de nuevos datos o comprender nuevas tendencias.
Al final, corremos el riesgo de crear modelos estancados en el pasado, sin forma de absorber nueva información o adaptarse a nuevos estilos de conversación. Todavía contendrán datos más antiguos y el comportamiento y la cultura de la nueva generación no estarán representados. Será como hablar con un abuelo: interesante, pero definitivamente de otra época.«
¿Pero quiénes son los usuarios internos de los datos en una empresa? Roman recuerda las tres épocas del concepto de utilización de datos dentro de las empresas: “Obviamente, se utiliza para muchas decisiones, por eso existe toda la parte de inteligencia empresarial. En realidad, todo empezó con la inteligencia empresarial. Las corporaciones tuvieron que hacer predicciones y señalar a los mercados bursátiles lo que esperan que suceda en el próximo trimestre o dentro de unos cuantos trimestres. Muchas de esas decisiones se han basado en datos durante mucho tiempo. Ese es el primer nivel de uso de datos: muy sencillo y orientado a los negocios.
El segundo nivel comenzó con la noción de empresas definidas digitalmente o transformación digital. Las empresas se dieron cuenta de que lo valioso es la forma en que interactúan con sus clientes, no necesariamente el producto real que venden en ese momento. La relación con el cliente es el valor en sí mismo. Querían que esa relación durara el mayor tiempo posible, a veces hasta el extremo de mantenerte pegado a la pantalla el mayor tiempo posible. Se trata de moldear el comportamiento del consumidor y obligarlo a hacer determinadas cosas. Eso sólo se puede hacer analizando muchas cosas diferentes sobre usted: su estatus social y económico, su identidad de género y otros puntos de datos que les permitan mantener esa relación durante el mayor tiempo posible.
Ahora llegamos al tercer nivel o tercera etapa de cómo las empresas pueden beneficiarse de los productos de datos. Todo el mundo habla de estos sistemas de agentes porque las empresas ahora quieren recibir ayuda no sólo de la fuerza laboral humana. Aunque parezca futurista, a menudo es tan simple como averiguar cuándo se supone que debe realizarse una reunión. Siempre hemos estado en situaciones en las que se necesitan cinco correos electrónicos diferentes y tres llamadas para descubrir cómo dos personas pueden reunirse para almorzar. Sería mucho más fácil si un agente electrónico pudiera negociar todo eso por nosotros y ayudarnos con eso. Éste es un ejemplo sencillo, pero las empresas tienen muchos otros. Ahora se trata de externalizar ciertos aspectos de la empresa en estos agentes. Eso sólo se puede hacer si se puede capacitar a un agente de IA en muchos tipos de patrones que la empresa ha utilizado en el pasado..”
Volviendo a quién recopila y quién posee y, eventualmente, se beneficia de los datos: el primer vistazo que Roman tuvo cuando trabajaba en Pivotal en algunos proyectos que involucraban aerolíneas y compañías que fabrican motores:
“Lo que no sabía en ese momento es que aparentemente no se compra el motor; alquilas el motor. Ese es el modelo de negocio. Y las empresas que producían los motores tenían todos estos datos: toda la telemetría que necesitaban para optimizar el motor. Pero entonces la aerolínea dijo: “Espera un minuto. Esos son exactamente los mismos datos que necesitamos para optimizar las rutas de vuelo. Y somos nosotros quienes recopilamos esos datos porque en realidad pilotamos el avión. Su motor permanece en tierra hasta que haya un piloto en la cabina que realmente vuele el avión. Entonces, ¿quién se beneficia de los datos? Ya estamos pagando demasiado a la gente de motores para que mantengan esos motores. ¿Ahora nos estás diciendo que te daremos los datos gratis? No, no, no”.
Todo este argumento es realmente convincente porque eso es exactamente lo que se repite ahora entre OpenAI y todas las grandes empresas. Las grandes empresas piensan que OpenAI es fantástico; pueden crear este chatbot en minutos; esto es genial. Pero, ¿pueden realmente enviar esos datos a OpenAI necesarios para realizar ajustes y todas esas otras cosas? Y en segundo lugar, supongamos que esas empresas incluso puedan hacerlo. Supongamos que lo que está bien es el tipo de datos, pero son sus datos, recopilados por esas empresas. Seguramente vale algo para OpenAI, entonces, ¿por qué no dejan caer la factura en el lado de la inferencia para las empresas que la recaudaron?
Y aquí entra en juego la pregunta principal del mundo de los datos actual: ¿Ocurre lo mismo con la IA?
De alguna manera lo es, pero con matices importantes. Si podemos tener un futuro en el que el «motor» central de un avión, el modelo, sea producido por estas empresas más grandes, y luego las empresas aprovechen sus datos para ajustar o aumentar estos modelos, entonces habrá una coexistencia muy armoniosa de algo realmente complejo y, además, algo más altamente especializado, tal vez menos complejo. Si eso sucede y tiene éxito desde el punto de vista tecnológico, entonces será mucho más fácil hablar a nivel económico y político sobre qué pertenece a quién y cómo dividimos los conjuntos de datos.
Como ejemplo, Roman cita su conversación con un experto que se gana la vida diseñando coches: “Dijo que hay básicamente dos tipos de diseñadores de automóviles: uno que diseña un automóvil para un motor y el otro que diseña un automóvil y luego lo compra para un motor. Si hoy produce un automóvil, es mucho más fácil conseguir el motor porque es la parte más compleja del automóvil. Sin embargo, definitivamente no define el producto. Pero aún así, la forma en que funciona la industria: es mucho más fácil decir, bueno, dadas algunas limitaciones, elijo un motor y luego diseño una línea completa de autos en torno a ese motor o al menos ese tipo de motor.«
Esto nos lleva al siguiente concepto: creemos que así será el mundo de los datos impulsados por la IA. Habrá un campo ‘Google’ y un ‘campo Meta’, y elegirás uno de esos modelos abiertos; todos serán lo suficientemente buenos. Y luego, todas las cosas que le interesan a usted como empresa se basan en términos de aplicar sus datos y su conocimiento sobre cómo ajustarlos y actualizar continuamente esos modelos desde diferentes ‘campos’. . En caso de que esto funcione tecnológica y económicamente, surgirá un mundo feliz.
Crédito de imagen destacada: NASA/desempaquetar