Un nuevo estudio tiene descubierto Un aumento alarmante en los trabajos de investigación formulados derivados de la Encuesta Nacional de Examen de Salud y Nutrición (NHANES), lo que sugiere que las herramientas de inteligencia artificial se utilizan mal para producir en masa la literatura científica estadísticamente débil y potencialmente engañosa. Los autores señalan un aumento en los análisis de un solo factor que ignoran la complejidad multifactorial, explotan los datos abiertos selectivamente y omiten las correcciones estadísticas robustas.
Entre 2014 y 2021solo se publicaron cuatro artículos de este tipo cada año. Pero solo en 2024, hasta el 9 de octubre, el conteo se había disparado hasta 190. Este crecimiento exponencial, combinado con un cambio en los orígenes de publicación y una dependencia de la automatización, indica que las tuberías asistidas por AI pueden acelerar la producción de manuscritos de baja calidad. En el centro del problema está el mal uso de NHANES, un conjunto de datos del gobierno de EE. UU. Respetado y listo para la AI originalmente desarrollado para evaluar las tendencias de salud pública en toda la población.
Desempacar el problema de Nhanes
NHANES proporciona un conjunto de datos excepcionalmente rico, que combina datos clínicos, conductuales y de laboratorio en miles de variables. Es accesible a través de API y ha estandarizado las bibliotecas de Python y R, lo que permite a los investigadores extraer y analizar los datos de manera eficiente. Esto lo convierte en una herramienta valiosa tanto para los investigadores de salud pública como para los desarrolladores de IA. Pero esta misma conveniencia también crea una vulnerabilidad: permite a los investigadores generar resultados rápidamente y con una supervisión mínima, lo que lleva a una explosión de la investigación formulada.
El nuevo estudio analizó 341 artículos basados en NHANES publicados entre 2014 y 2024 que se basaban en correlaciones de una sola variable. Estos documentos, en promedio, aparecieron en revistas de impacto moderado (factor de impacto promedio de 3.6), y a menudo se centraron en afecciones como depresión, diabetes o enfermedad cardiovascular. En lugar de explorar la naturaleza multifactorial de estas condiciones, los estudios generalmente obtuvieron significación estadística de una única variable independiente, evitando la corrección de descubrimiento falso y con frecuencia dependiendo de la subconjuntos de datos inexplicables.
Una preocupación importante es que las condiciones de salud multifactoriales, como trastornos de salud mental, inflamación crónica o enfermedad cardiovascular, se analizaron utilizando métodos más adecuados para relaciones binarias simples. En efecto, estos estudios presentaron hallazgos que eliminaron los matices e ignoraron la realidad de que los resultados de salud rara vez son impulsados por un solo factor.
La depresión se utilizó como estudio de caso, con 28 documentos individuales que reclaman asociaciones entre la condición y varias variables independientes. Sin embargo, solo 13 de estas asociaciones se mantuvieron estadísticamente significativas después de aplicar la corrección de la tasa de descubrimiento falso (FDR). Sin una corrección adecuada, estas publicaciones corren el riesgo de introducir un alto volumen de Errores tipo I en la literatura científica. En algunos casos, los investigadores parecían reciclar variables como predictores y resultados en los documentos, enterrando aún más las aguas.
Adele de Microsoft quiere darle a su IA un perfil cognitivo
Minería de datos selectivo y encarcelamiento
Otro problema descubierto por los autores fue el uso de subconjuntos de datos injustificados. Aunque NHANES proporciona una línea de tiempo amplia de datos de salud que datan de 1999, muchos investigadores eligieron ventanas de análisis estrechas sin revelar la lógica. Por ejemplo, algunos estudios utilizaron solo el 2003 a 2018 Ventana para analizar la diabetes y la inflamación, a pesar de la disponibilidad de datos más amplia. La práctica sugiere datos de datos o caceando, hipotetizando después de que se conocen los resultados, un enfoque metodológicamente defectuoso que socava la reproducibilidad y la transparencia.
La mediana del estudio analizó solo cuatro años de datos de NHANES, a pesar de que la base de datos ofrece más de dos décadas de información. Este muestreo selectivo permite a los autores aumentar la probabilidad de lograr resultados significativos sin tener en cuenta la complejidad del conjunto de datos completo, lo que facilita la producción y la publicación de manuscritos en alto volumen.
Los hallazgos plantean un serio desafío para la integridad de la literatura científica. Los estudios de una sola variable que no consideran interdependencias complejas tienen más probabilidades de ser engañosos. Cuando se repite a escala, dicha investigación inunda el ecosistema académico con documentos que cumplen con los umbrales de publicación pero ofrecen poca información nueva. Esto se ve agravado por una revisión de pares débil y la creciente presión sobre los investigadores para publicar con frecuencia y rápidamente.
Los autores advierten que estas prácticas, si no se controlan, podrían cambiar el equilibrio en algunos subcampos donde los documentos fabricados superan en número a los legítimos. El uso de IA para acelerar la generación de manuscritos solo amplifica este riesgo. A medida que los modelos generativos se vuelven más accesibles, permiten la conversión rápida de los resultados estadísticos en manuscritos de longitud completa, reduciendo el tiempo y la experiencia requeridas para publicar artículos científicos.
Recomendaciones para las partes interesadas:
Para mitigar los riesgos de la investigación de datos de datos habilitados para AI y la investigación producida en masa, los autores proponen varios pasos concretos:
- Para los investigadores: Reconocer las limitaciones de los estudios de un solo factor e incorporar un análisis multifactorial cuando sea apropiado. Justifique claramente cualquier submeting de datos o cambios de hipótesis.
- Para proveedores de datos: Introducir acceso auditable a través de claves API o ID de aplicación para desalentar la minería indiscriminada. Requiere que cualquier publicación que cita sus conjuntos de datos divulga el historial de extracción de datos completo.
- Para los editores: Aumentar las tasas de rechazo de la escritorio para los documentos formulados. Emplear revisores estadísticos dedicados. Use plantillas para identificar manuscritos utilizando tuberías idénticas con solo swaps variables.
- Para revisores de pares: Trate el uso de análisis de una sola variable para condiciones complejas como una bandera roja. Solicite aclaraciones cuando falta rigor estadístico o los subconjuntos de datos están mal justificados.
- Para la comunidad científica más amplia: Participar en la revisión posterior a la publicación. Las plataformas como PubPeer deben usarse activamente para marcar prácticas cuestionables, incluso cuando los métodos estadísticos parecen superficialmente sólidos.