Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Las herramientas de investigación de IA podrían estar creando más problemas de los que resuelven

byEmre Çıtak
14 mayo 2025
in Research
Home Research

Un nuevo estudio tiene descubierto Un aumento alarmante en los trabajos de investigación formulados derivados de la Encuesta Nacional de Examen de Salud y Nutrición (NHANES), lo que sugiere que las herramientas de inteligencia artificial se utilizan mal para producir en masa la literatura científica estadísticamente débil y potencialmente engañosa. Los autores señalan un aumento en los análisis de un solo factor que ignoran la complejidad multifactorial, explotan los datos abiertos selectivamente y omiten las correcciones estadísticas robustas.

Entre 2014 y 2021solo se publicaron cuatro artículos de este tipo cada año. Pero solo en 2024, hasta el 9 de octubre, el conteo se había disparado hasta 190. Este crecimiento exponencial, combinado con un cambio en los orígenes de publicación y una dependencia de la automatización, indica que las tuberías asistidas por AI pueden acelerar la producción de manuscritos de baja calidad. En el centro del problema está el mal uso de NHANES, un conjunto de datos del gobierno de EE. UU. Respetado y listo para la AI originalmente desarrollado para evaluar las tendencias de salud pública en toda la población.

Desempacar el problema de Nhanes

NHANES proporciona un conjunto de datos excepcionalmente rico, que combina datos clínicos, conductuales y de laboratorio en miles de variables. Es accesible a través de API y ha estandarizado las bibliotecas de Python y R, lo que permite a los investigadores extraer y analizar los datos de manera eficiente. Esto lo convierte en una herramienta valiosa tanto para los investigadores de salud pública como para los desarrolladores de IA. Pero esta misma conveniencia también crea una vulnerabilidad: permite a los investigadores generar resultados rápidamente y con una supervisión mínima, lo que lleva a una explosión de la investigación formulada.

El nuevo estudio analizó 341 artículos basados ​​en NHANES publicados entre 2014 y 2024 que se basaban en correlaciones de una sola variable. Estos documentos, en promedio, aparecieron en revistas de impacto moderado (factor de impacto promedio de 3.6), y a menudo se centraron en afecciones como depresión, diabetes o enfermedad cardiovascular. En lugar de explorar la naturaleza multifactorial de estas condiciones, los estudios generalmente obtuvieron significación estadística de una única variable independiente, evitando la corrección de descubrimiento falso y con frecuencia dependiendo de la subconjuntos de datos inexplicables.

Una preocupación importante es que las condiciones de salud multifactoriales, como trastornos de salud mental, inflamación crónica o enfermedad cardiovascular, se analizaron utilizando métodos más adecuados para relaciones binarias simples. En efecto, estos estudios presentaron hallazgos que eliminaron los matices e ignoraron la realidad de que los resultados de salud rara vez son impulsados ​​por un solo factor.

La depresión se utilizó como estudio de caso, con 28 documentos individuales que reclaman asociaciones entre la condición y varias variables independientes. Sin embargo, solo 13 de estas asociaciones se mantuvieron estadísticamente significativas después de aplicar la corrección de la tasa de descubrimiento falso (FDR). Sin una corrección adecuada, estas publicaciones corren el riesgo de introducir un alto volumen de Errores tipo I en la literatura científica. En algunos casos, los investigadores parecían reciclar variables como predictores y resultados en los documentos, enterrando aún más las aguas.


Adele de Microsoft quiere darle a su IA un perfil cognitivo


Minería de datos selectivo y encarcelamiento

Otro problema descubierto por los autores fue el uso de subconjuntos de datos injustificados. Aunque NHANES proporciona una línea de tiempo amplia de datos de salud que datan de 1999, muchos investigadores eligieron ventanas de análisis estrechas sin revelar la lógica. Por ejemplo, algunos estudios utilizaron solo el 2003 a 2018 Ventana para analizar la diabetes y la inflamación, a pesar de la disponibilidad de datos más amplia. La práctica sugiere datos de datos o caceando, hipotetizando después de que se conocen los resultados, un enfoque metodológicamente defectuoso que socava la reproducibilidad y la transparencia.

La mediana del estudio analizó solo cuatro años de datos de NHANES, a pesar de que la base de datos ofrece más de dos décadas de información. Este muestreo selectivo permite a los autores aumentar la probabilidad de lograr resultados significativos sin tener en cuenta la complejidad del conjunto de datos completo, lo que facilita la producción y la publicación de manuscritos en alto volumen.

De los 341 documentos revisados, más del 50 por ciento se originó en solo tres familias de editores: fronteras, biomed central y springer. Más notablemente, el país de origen cambió dramáticamente. Antes de 2021, solo el 8 por ciento de los autores primarios tenían su sede en China. Entre 2021 y 2024, esto aumentó al 92 por ciento. Si bien esto podría reflejar prioridades de investigación cambiantes o incentivos políticos, la magnitud y el tiempo sugieren el uso coordinado de tuberías automatizadas posiblemente vinculadas a las operaciones de la fábrica de papel.

Los hallazgos plantean un serio desafío para la integridad de la literatura científica. Los estudios de una sola variable que no consideran interdependencias complejas tienen más probabilidades de ser engañosos. Cuando se repite a escala, dicha investigación inunda el ecosistema académico con documentos que cumplen con los umbrales de publicación pero ofrecen poca información nueva. Esto se ve agravado por una revisión de pares débil y la creciente presión sobre los investigadores para publicar con frecuencia y rápidamente.

Los autores advierten que estas prácticas, si no se controlan, podrían cambiar el equilibrio en algunos subcampos donde los documentos fabricados superan en número a los legítimos. El uso de IA para acelerar la generación de manuscritos solo amplifica este riesgo. A medida que los modelos generativos se vuelven más accesibles, permiten la conversión rápida de los resultados estadísticos en manuscritos de longitud completa, reduciendo el tiempo y la experiencia requeridas para publicar artículos científicos.

Recomendaciones para las partes interesadas:

Para mitigar los riesgos de la investigación de datos de datos habilitados para AI y la investigación producida en masa, los autores proponen varios pasos concretos:

  • Para los investigadores: Reconocer las limitaciones de los estudios de un solo factor e incorporar un análisis multifactorial cuando sea apropiado. Justifique claramente cualquier submeting de datos o cambios de hipótesis.
  • Para proveedores de datos: Introducir acceso auditable a través de claves API o ID de aplicación para desalentar la minería indiscriminada. Requiere que cualquier publicación que cita sus conjuntos de datos divulga el historial de extracción de datos completo.
  • Para los editores: Aumentar las tasas de rechazo de la escritorio para los documentos formulados. Emplear revisores estadísticos dedicados. Use plantillas para identificar manuscritos utilizando tuberías idénticas con solo swaps variables.
  • Para revisores de pares: Trate el uso de análisis de una sola variable para condiciones complejas como una bandera roja. Solicite aclaraciones cuando falta rigor estadístico o los subconjuntos de datos están mal justificados.
  • Para la comunidad científica más amplia: Participar en la revisión posterior a la publicación. Las plataformas como PubPeer deben usarse activamente para marcar prácticas cuestionables, incluso cuando los métodos estadísticos parecen superficialmente sólidos.

Crédito de imagen destacado

Tags: AI

Related Posts

¿Su socio generativo de IA súper útil es en secreto haciendo que su trabajo sea aburrido?

¿Su socio generativo de IA súper útil es en secreto haciendo que su trabajo sea aburrido?

14 mayo 2025
Adele de Microsoft quiere darle a su IA un perfil cognitivo

Adele de Microsoft quiere darle a su IA un perfil cognitivo

14 mayo 2025
El artículo de Apple Research presenta Matrix3D para la generación de contenido 3D

El artículo de Apple Research presenta Matrix3D para la generación de contenido 3D

14 mayo 2025
Investigación: El estándar de oro para la evaluación de Genai

Investigación: El estándar de oro para la evaluación de Genai

12 mayo 2025
AI finalmente resuelve el rompecabezas más duro de la biología

AI finalmente resuelve el rompecabezas más duro de la biología

6 mayo 2025
La obra maestra de Raphael puede no ser todo su

La obra maestra de Raphael puede no ser todo su

5 mayo 2025

Recent Posts

  • El impacto de las telas inteligentes en el rendimiento de la ropa táctica
  • Databricks apuesta grande en Postgres sin servidor con su adquisición de neón de $ 1 mil millones
  • Alphaevolve: Cómo la nueva IA de Google apunta a la verdad con la autocorrección
  • Tiktok está implementando textos alternativos generados por AI para una mejor acesibilidad
  • Trump obliga a Apple a repensar su estrategia de iPhone de la India

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.