banner

Blog

Dec 03, 2023

Desarrollo de puntos de referencia sólidos para impulsar la innovación de IA en el cuidado de la salud

Nature Machine Intelligence volumen 4, páginas 916–921 (2022)Citar este artículo

5730 Accesos

2 citas

21 Altmetric

Detalles de métricas

Las tecnologías de aprendizaje automático han visto una mayor aplicación en el dominio de la atención médica. Los principales impulsores son conjuntos de datos de atención médica disponibles abiertamente y un interés general de la comunidad en usar sus poderes para el descubrimiento de conocimientos y los avances tecnológicos en este campo más conservador. Sin embargo, con este volumen adicional surge una variedad de preguntas e inquietudes: ¿los resultados obtenidos son significativos y las conclusiones precisas? ¿Cómo sabemos que hemos mejorado el estado del arte? ¿El problema clínico está bien definido y el modelo lo aborda? Reflexionamos sobre los aspectos clave en la tubería de extremo a extremo que creemos que sufren más en este espacio y sugerimos algunas buenas prácticas para evitar reproducir estos problemas.

Nuestro público objetivo es cualquier persona que realice experimentos de evaluación comparativa sobre el aprendizaje automático (ML) en el cuidado de la salud y envíe estos resultados a conferencias o revistas; y cualquiera que haga una reseña de estos lugares. Por benchmarking clínico nos referimos a seguir el proceso combinado.

La elección de un problema en el espacio sanitario.

Usar o crear conjuntos de datos complementarios.

Desarrollo de una suite de modelos de ML y su correspondiente infraestructura.

Evaluar estos modelos en un conjunto de criterios sobre qué tan bien resuelven el problema original.

El problema de encontrar un buen punto de referencia es mucho más frecuente en el dominio de la atención médica porque no hay suficiente alineación sobre lo que realmente constituye1. En un ciclo de investigación típico, cuando ML se aplica por primera vez a una nueva área médica, conduce a una publicación que mide el rendimiento del modelo y establece el estándar para ese problema. El conjunto de datos, la verdad sobre el terreno, las métricas o el código no siempre se examinan tanto como en el aprendizaje automático tradicional, ya que hay mucho interés en ver qué puede hacer la nueva tecnología en la práctica. Argumentaríamos que los documentos de evaluación comparativa deberían examinarse aún más, ya que la variabilidad en las definiciones, las configuraciones y la evaluación pueden generar una gran cantidad de tergiversaciones de los hallazgos, así como confusión para los recién llegados al campo sobre cómo comparar su trabajo.

En las siguientes cuatro secciones, cubrimos las áreas donde creemos que se encuentran la mayoría de las discrepancias entre dos publicaciones diferentes de evaluación comparativa: conjuntos de datos, herramientas y prácticas, formulación de problemas y resultados. En nuestra opinión, cualquier cambio de este tipo podría tener un impacto en la aplicación clínica general, ya que los avances serían mucho más fáciles de cuantificar. Inspirado en ref. 2, clasificamos nuestras sugerencias en tres categorías: necesarias, recomendadas y alentadas (Cuadro 1–4). Cada sección se basa en la anterior y se coloca dentro de un grupo determinado teniendo en cuenta una combinación de su impacto y dificultad de implementación. Incluso si algunos no están completamente de acuerdo con la categorización, esperamos iniciar una conversación sobre estos temas que verán cambios en el campo.

Hay trabajo existente en este espacio que busca definir estándares de informes (por ejemplo, STARD-AI3, TRIPOD-AI4) o especificar las mejores prácticas cuando se trata de desarrollo de modelos e informes de técnicas5. Ambas direcciones fomentan la inclusión de detalles adicionales en los trabajos finales para reducir la incertidumbre en lo que respecta a los métodos empleados. Creemos que nuestro trabajo se basa en estos trabajos y los amplía, analizando la canalización de extremo a extremo y abordando temas menos explorados, como herramientas e infraestructura.

Es difícil obtener conjuntos de datos de salud grandes, de alta calidad, diversos y bien documentados, ya que el intercambio de datos no es la norma en ML para la investigación de atención médica6. Primero, los conjuntos de datos de salud contienen información extremadamente sensible y, por lo tanto, están estrictamente regulados, con investigaciones recientes que buscan comprender la actitud de los pacientes hacia el intercambio de datos de salud7,8. Esta es la razón por la que estos conjuntos de datos generalmente se desidentifican antes de su publicación, un proceso que implica la eliminación del nombre del paciente, el número de identificación, la fecha y la ubicación de la recopilación de datos. Aun así, se ha demostrado recientemente que se pueden utilizar imágenes de resonancia magnética (IRM) anonimizadas o datos de tomografía computarizada para reconstruir el rostro de un paciente9, lo que plantea interrogantes sobre si los estándares actuales de desidentificación son suficientes para la divulgación segura de datos públicos. En segundo lugar, la recopilación, el mantenimiento y la conservación de dichos conjuntos de datos requieren un esfuerzo, tiempo y gastos considerables. Además, los conjuntos de datos se ven como una ventaja comercial competitiva, con casos en los que se forman empresas en torno al uso exclusivo de uno. Por lo tanto, tienden a tener un valor comercial sustancial, lo que hace que sea menos atractivo para los recolectores de datos compartir libremente su trabajo. Sin embargo, para ampliar el impacto de la publicación de investigaciones en conjuntos de datos no públicos y fomentar la reproducibilidad, los curadores de datos podrían establecer una infraestructura que permita a la comunidad desarrollar modelos mediante el uso de técnicas de aprendizaje automático que preservan la privacidad, como el aprendizaje federado10,11,12. En este escenario, el responsable del tratamiento define sus propios procesos de gobierno, las políticas de privacidad asociadas y las estrategias de gestión de acceso, tanto durante la fase de formación como de validación. Esto desbloquea la exploración de conjuntos de datos de salud por parte de investigadores externos al tiempo que conserva la privacidad de los datos, lo que acelera el progreso. Sin embargo, reconocemos que hay una curva de aprendizaje empinada para configurar esto, y es difícil confiar en tales sistemas dado que estos métodos son relativamente nuevos. Entonces, podría ser preferible, al principio, que los curadores de datos trabajen con científicos de datos externos examinados. Otro campo prometedor para retener el valor empresarial es el seguimiento cuando se utiliza un miembro de un conjunto de datos para entrenar un modelo. Ejemplos de esto incluyen trabajos recientes sobre 'marcas de agua' en un conjunto de datos dado para facilitar la identificación de modelos entrenados en él13, o técnicas como la inferencia de membresía14. Advertimos que este campo aún no está establecido, por lo que se debe tener cuidado si se sigue esta ruta.

La baja disponibilidad de conjuntos de datos de salud pública a menudo obliga a la comunidad a concentrarse en uno o dos que sean accesibles, por lo que se enfoca demasiado en unas pocas aplicaciones. Por ejemplo, los conjuntos de datos de registros de salud electrónicos de uso popular, como la serie MIMIC-X15,16,17, contienen principalmente datos de unidades de cuidados intensivos, que se registran con frecuencia pero representan solo una fracción de la población de pacientes ingresados ​​en hospitales. Además, MIMIC-X está seleccionado desde un solo sitio y, por lo tanto, es menos probable que produzca modelos ML justos e inclusivos. Como tal, los modelos desarrollados en estos conjuntos de datos pueden no necesariamente generalizarse a otras salas o encontrar aplicaciones en todo el hospital. Se necesita una caracterización exhaustiva de los datos para que los investigadores y desarrolladores externos evalúen la calidad de los datos y decidan si las metodologías propuestas en el documento se pueden expandir a su caso de uso. Esto también puede ayudar a identificar sesgos demográficos no deseados (por ejemplo, distribución sesgada por edad, género, nivel socioeconómico). Esta caracterización de datos se puede lograr a través de un desglose de las diversas características dentro del conjunto de datos (informalmente denominados datos de la Tabla 118); ofrecemos más sugerencias sobre cómo lograr esto en la sección 'Necesario' del Cuadro 1.

Otro ejemplo es que en 2020-2021 varios artículos entrenaron modelos en conjuntos de datos que contenían radiografías de tórax para el modelado de COVID-19, donde las imágenes de pacientes pediátricos representaban el grupo de control. Sin embargo, es probable que dichos modelos tengan un rendimiento superior, ya que solo detectan niños frente a adultos y están inherentemente sesgados19. La mera disponibilidad de este conjunto de datos durante los primeros días de la pandemia de COVID-19 hizo que la comunidad sobreindexara sin considerar detenidamente si era apropiado para su pregunta de investigación o no. Estos casos podrían evitarse si los conjuntos de datos estuvieran acompañados de un artefacto de transparencia (por ejemplo, Healthsheet20) junto con el documento. El cuestionario Healthsheet, por ejemplo, contiene preguntas específicas sobre diferentes aspectos de un conjunto de datos, como el proceso de recopilación, la composición, la distribución, la limpieza y los casos de uso recomendados. Dichos artefactos mejoran enormemente la transparencia y la responsabilidad de los conjuntos de datos y los curadores de datos, y sacan a la superficie los desequilibrios técnicos (por ejemplo, protocolo de adquisición inadecuado, fabricante de equipos), que pueden afectar negativamente las predicciones del modelo. Somos conscientes de que la creación de un artefacto adicional junto con su manuscrito lleva mucho tiempo, dado que los investigadores a menudo trabajan con plazos ajustados. Para administrar la carga de trabajo, los investigadores pueden optar por compartir dichos artefactos después de la presentación.

Necesario

Proporcione una descripción detallada de la procedencia, la demografía y el contenido del conjunto de datos (por ejemplo, los datos de la Tabla 1).

Aplicar e incluir análisis de datos exploratorios numéricos (por ejemplo, media, varianza, mín., máx. y matrices de correlación) y/o gráficos (por ejemplo, diagrama de dispersión, histograma, mapa de calor y reducción de dimensionalidad) en el trabajo final.

Incluya detalles de cómo se verificó la calidad del conjunto de datos describiendo las características que faltan, los datos desequilibrados, las instancias duplicadas, el sesgo de muestreo y otros problemas específicos del conjunto de datos.

Recomendado

Libere un artefacto de transparencia mediante el uso de plantillas de cuestionarios estandarizados (por ejemplo, Healthsheet20) junto con el papel.

Recomendado (solo conjuntos de datos privados)

Utilice una infraestructura robusta desarrollada por organizaciones sin fines de lucro como Openmined21 para alojar y administrar conjuntos de datos de salud.

Uno de los aspectos más ocultos y menos comentados de la investigación de ML es la infraestructura. Usamos el término infraestructura para referirnos al diseño de un sistema, junto con el código subyacente que lo forma, incluido el entorno en el que se ejecuta y las bibliotecas de software que se utilizan. Si bien a menudo se considera poco glamoroso, es absolutamente necesario y puede hacer o deshacer la calidad y la reproducibilidad del resultado.

Si bien el papel de las buenas prácticas de codificación y diseño de sistemas se ha explorado previamente para configuraciones de producción o implementación21, aún faltan descripciones detalladas de las bibliotecas o canalizaciones utilizadas para una publicación. Esto es especialmente importante en el ámbito de la atención médica, ya que los medios noticiosos recogen rápidamente cualquier hallazgo impactante y lo difunden como verdad sobre el terreno, o lo utilizan otros investigadores como base para futuras exploraciones. Mirando a través de la base de datos de retractación de artículos recientes de ML en el cuidado de la salud que contenían errores, podemos encontrar ejemplos preocupantes como "un excelente predictor de la enfermedad de Parkinson" que, según los autores, "tiene el potencial de revolucionar el diagnóstico de la EP y su manejo". Tras una inspección posterior, se encontró que presentaba errores en los datos, errores en los métodos, errores en los resultados y errores en los análisis. Todos estos podrían detectarse antes en el proceso de revisión si una sección detallada de "infraestructura utilizada" diera señales de alerta. Nos gustaría animar a los autores a describir su implementación y diseño del sistema con más profundidad. Agregar un diagrama detallado de su tubería de modelado o incluir descripciones rigurosas de los módulos de procesamiento de datos, como las herramientas de mapeo que podrían haberse desarrollado, son algunos ejemplos de lo que esperaríamos ver. Esta es una propuesta liviana y debería ser bastante simple de adoptar, con solo una pequeña sobrecarga para los autores.

Para hacer cumplir esto de manera más amplia, nos gustaría alentar a las conferencias a agregar '¿Cómo se verificó esta implementación?' sección de envíos. Se requerirá que los autores describan qué pasos han tomado para asegurar la corrección de su trabajo. Cuando corresponda, las revisiones de código son una excelente manera de verificar la cordura de cualquier trabajo y, aunque no son infalibles, pueden ayudar a detectar problemas antes de que sea demasiado tarde. Además, queremos abogar por agregar pruebas unitarias y verificar la cobertura del código. Además del beneficio inmediato de validar el comportamiento esperado, es mucho más rápido comprender un fragmento de código observando cómo se usa en la práctica, y las pruebas ofrecen una idea de esto. Si bien nuestras recomendaciones se basan en gran medida en la codificación, reconocemos que ciertas técnicas reutilizan las implementaciones existentes. También se cubrirían formas alternativas de prueba, como verificar que la interpretación coincida con la obra original. Si bien la adición de esta sección presenta una sobrecarga tanto para los revisores como para los autores, contribuye al objetivo general de reproducibilidad y propaga las buenas prácticas en toda la comunidad.

Aun así, se necesita tiempo y recursos para investigar la precisión de los hallazgos informados una vez que se han hecho públicos y, a menudo, esto implica reconstruir toda la configuración del periódico desde cero. Para hacer esto más fácil, las conferencias y revistas han comenzado a incluir una sección sobre disponibilidad de código, alentando a los investigadores a abrir su trabajo. Este es un gran paso adelante y, aunque todavía no se ha adoptado ampliamente, la comunidad investigadora acepta la importancia de la publicación del código. Como ejemplo, la conferencia Machine Learning for Health (ML4H) recopila estadísticas sobre cuántos envíos tendrán su código liberado. En el año 2020, solo el 66% de las presentaciones informaron que lo harían. Este número aumentó en 2021 al 73%.

Creemos que, además de esto, las conferencias deberían pedir una sección adicional llamada 'Entorno experimental', que no debería contar para el límite de páginas. Esto sería un superconjunto de la casilla de verificación 'Disponibilidad de código', que requiere que los autores también enumeren todas las bibliotecas disponibles públicamente utilizadas y su versión. Creemos que esto es importante ya que la familiaridad con las herramientas utilizadas es un factor importante para la confiabilidad. Entendemos que esto podría ser una tarea engorrosa al principio, especialmente a medida que los proyectos crecen y podrían usarse decenas, si no cientos, de bibliotecas, pero sin ella no hay una verdadera reproducibilidad.

Sobre todo, el código abierto sigue siendo la forma más transparente para que la comunidad verifique los resultados. Esto se potencia si se libera junto con un script para ejecutar el código, y datos reales o sintéticos según las posibilidades. En el caso de los datos sintéticos, también nos remitimos a la sección de conjuntos de datos para obtener más recomendaciones.

Necesario

Agregue una sección de implementación en el documento principal o en el apéndice.

Agregue un '¿Cómo se verificó esta implementación?' sección de envíos.

Recomendado

Agregue una sección de 'Entorno experimental' en los trabajos finales, que no debe contar para el límite de páginas.

Motivado

Proporcione enlaces al código fuente abierto y formas de ejecutarlo.

Nos centramos en los problemas clínicos que se han planteado como problemas de predicción supervisada, ya que constituyen la mayor parte de la literatura de ML para la atención sanitaria.

El paso más importante para el aprendizaje supervisado en el cuidado de la salud es decidir qué etiquetas clínicas predecir. El error o el sesgo en el etiquetado es común en ML y puede conducir a modelos inferiores. Se estimó que los conjuntos de prueba de conjuntos de datos populares contienen al menos un 3,3 % de errores de etiqueta en promedio22. La corrección de estas etiquetas permite que los modelos de menor capacidad superen a los modelos de última generación comúnmente informados.

La anotación adecuada de instancias en conjuntos de datos de atención médica generalmente depende del conocimiento experto de los profesionales médicos. Las etiquetas generalmente las definen completamente los médicos o se generan de forma semiautónoma utilizando métodos basados ​​en reglas que incorporan orientación clínica. Los ejemplos de los primeros incluyen la clasificación de la piel a partir de imágenes dermatológicas23, la detección de lesiones mamarias en mamografías24, la recomendación de derivación en tomografía de coherencia óptica25, la segmentación de ganglios linfáticos en resonancia magnética multiparamétrica26 y la detección de convulsiones utilizando datos de EEG27. Las etiquetas guiadas por expertos generalmente implican el desarrollo de un conjunto de reglas para identificar ciertas condiciones y usar el conjunto de reglas para anotar el conjunto de datos completo. Los ejemplos incluyen la predicción de eventos adversos o intervenciones en datos de registros de salud electrónicos, como lesión renal aguda28, ventilación mecánica29, órdenes de medicación30 y terapia de reemplazo renal continua31. En ambos casos, las etiquetas reflejarían fielmente el flujo de trabajo de un médico, siendo el objetivo del etiquetado documentar el proceso en el que los profesionales médicos toman decisiones. Por lo tanto, recomendamos encarecidamente el uso o la mejora de las etiquetas existentes, como las de Phenotype KnowledgeBase32.

Para las etiquetas definidas por expertos, es imperativo que se incluya en el documento una descripción detallada del proceso de etiquetado utilizado. Tenga en cuenta que incluso cuando las etiquetas están completamente definidas por expertos, puede haber variabilidad entre los profesionales de la salud en la anotación de una instancia. Los investigadores deben informar si un solo médico/experto o un comité de expertos etiquetó las instancias y, si este último, informar el acuerdo entre evaluadores. Para demostrar minuciosidad, los autores deben informar el tiempo promedio que tomó anotar cada instancia. Los investigadores también pueden proporcionar un punto de referencia al compartir el desempeño a nivel humano. Tenga en cuenta que estas sugerencias no son exhaustivas y se incluyen para guiar a los investigadores. Este informe captará la subjetividad en el etiquetado entre los evaluadores y proporcionará una idea de la solidez y confiabilidad del proceso de etiquetado. También establece una barra sobre cómo los estudios posteriores deben abordar el etiquetado para otras tareas definidas en este conjunto de datos.

En el caso de etiquetas basadas en reglas o guiadas por expertos, se requiere un proceso sólido para validarlas, ya que a menudo contienen anomalías en instancias individuales y/o sufren fugas de etiquetas. Sugerimos realizar un análisis de la distribución de cada etiqueta, incluidos los datos demográficos de los pacientes para las cohortes correspondientes a cada clase de etiqueta, los recuentos de etiquetas por sujeto o instancia y las estadísticas de distribución (media, mediana, percentiles, varianza). Además, para etiquetas continuas en datos temporales, también se debe informar la distribución del tiempo de inicio de la etiqueta y la distribución de la duración de la etiqueta. Estos deben cotejarse con médicos expertos para detectar cualquier anomalía en la distribución de la etiqueta.

También sugerimos que los investigadores investiguen si existe alguna posible fuga de etiquetas en la formulación de su problema. Esto generalmente conduce a un alto rendimiento falso y requiere conocimiento del dominio para identificarlo y resolverlo. La fuga de etiquetas puede ocurrir por varias razones cuando los datos del conjunto de validación o de prueba se han filtrado al conjunto de entrenamiento. Este problema se puede resolver con relativa facilidad comprobando si existen las mismas instancias en varias divisiones y si hay una duplicación de instancias, y asegurándose de que el conjunto de pruebas ciegas permanezca bloqueado hasta que se calculen los resultados finales para su inclusión en el documento. La fuga de etiquetas también puede ocurrir cuando ciertas características operativas o de observación revelan indeseablemente el estado de una etiqueta. Los investigadores deben realizar análisis de importancia de características para inspeccionar relaciones sospechosas33. Si se identifican, tales características deben revisarse con los médicos para identificar si son realmente indicativas indeseables de la verdad básica.

Idealmente, esto se combinaría en un marco de calidad de etiquetas de varias etapas que consiste en una inspección manual de características, estadísticas de etiquetas y revisiones de casos. Un enfoque metódico permite a los investigadores garantizar la coherencia durante todo el proceso. Este enfoque, aunque requiere mucho tiempo, si es de código abierto puede ser adaptado por la comunidad en otras tareas en el mismo conjunto de datos, o incluso en conjuntos de datos de otros dominios, lo que reduce la carga de trabajo a largo plazo.

Etiquetas definidas por expertos

Necesario

Agregue una descripción detallada del proceso de etiquetado utilizado en el documento.

Etiquetas guiadas por expertos

Necesario

Agregue una sección de 'Análisis de etiquetas' en el documento principal.

Investigue la 'fuga de etiquetas' en los datos e incluya los hallazgos en el apéndice o información complementaria.

Recomendado

Implemente un marco de calidad de etiquetas de varias etapas que consista en una inspección manual de características, estadísticas de etiquetas y revisiones de casos.

Investigar y comparar los resultados del modelo se convierte en un paso decisivo, ya que el objetivo final de gran parte de la investigación en el cuidado de la salud es ayudar a la práctica clínica de alguna manera. Para que esto suceda, necesitamos confianza en que el modelo no causará ningún daño, ya sea empeorando el estado actual o introduciendo nuevos problemas. Además, cuanto más alejado de la práctica clínica esté un método propuesto, más pruebas necesitamos de que realmente funciona.

Un campo en crecimiento ha estado analizando la evaluación de la equidad y la solidez del aprendizaje automático en el cuidado de la salud, y varios trabajos han abogado por que se incluyan más métricas de equidad en los informes modelo. Una forma de hacerlo sería mediante el uso de herramientas de evaluación de modelos como TensorFlow Model Analysis. Además de agregar una capa de consistencia cuando se trata de análisis, estas herramientas tienen el beneficio adicional de proporcionar API (interfaces de programación de aplicaciones) para mediciones de equidad. Al usar y reportar estos resultados, puede convertirse en una práctica común mirar más allá del rendimiento completo del conjunto de pruebas. Informar de manera integral un amplio conjunto de métricas permitirá cuestionar y comprender diferentes aspectos del modelo. Por ejemplo, observar el desequilibrio de clase y mostrar métricas basadas en la desviación de la etiqueta es fundamental (por ejemplo, informar el área bajo la curva de precisión-recuperación junto con el área bajo la característica operativa del receptor), además de incluir métricas clínicamente relevantes como sensibilidad y especificidad34.

Cuando se trata de equidad y solidez, hay algunos problemas clave que siguen surgiendo: (1) el rendimiento en los subgrupos difiere; (2) los modelos de desempeño similar se comportan de manera diferente en formas inesperadas cuando hay un cambio de la distribución de entrenamiento. Trabajos recientes han demostrado que las técnicas generales de mitigación desarrolladas para algunos problemas de equidad no se traducen tan bien cuando se trata de aplicaciones de atención médica35. Junto con ref. 36, muestra una serie de pruebas de estrés que se realizaron durante la investigación del modelo, que argumentamos que deberían realizarse como parte de la rutina habitual de evaluación comparativa para sacar a la superficie estos problemas antes de que sea demasiado tarde. Recientemente se descubrió que un popular estudio de evaluación comparativa sobre MIMIC-III1 muestra problemas en lo que respecta a la equidad y la generalización37. Por lo tanto, queremos enfatizar la importancia de que la comunidad se familiarice más con el desempeño del modelo en diferentes contextos e incluya pruebas de estrés. Las mejoras futuras podrían no solo enfocarse en el rendimiento del modelo base en el conjunto de entrenamiento, sino también ver qué técnica es la más resistente cuando se enfrenta a contextos del mundo real.

Además de mirar métricas y tablas, las visualizaciones también pueden ayudar a investigar el rendimiento del modelo. Algunas sugerencias serían atlas de activación38, mapas de calor de atención39, grand tour40, gradientes integrados41 o vectores de activación de conceptos42. Estos pueden ayudar a identificar lo que el modelo está aprendiendo y ayudar a probar estas técnicas en diferentes contextos, proporcionando datos valiosos para futuras investigaciones. Queremos reconocer que, en los campos de la explicabilidad y la interpretabilidad del modelo, los resultados pueden malinterpretarse43,44 e instamos a los investigadores a familiarizarse con las diversas técnicas y sus modos de falla para evitar el mal uso.

Finalmente, somos conscientes de que siempre queda más trabajo por hacer al finalizar un trabajo de investigación. La mayoría de las veces, hay experimentos persistentes que los autores querían realizar, pero no pudieron debido a diversas limitaciones. Si bien algunos se enumeran en las secciones de limitaciones, generalmente se refieren a la continuación de los experimentos ya mencionados. Creemos que pedirles a los autores que escriban más experimentos precisos que se omitieron puede ayudar a expandir ese trabajo y también a difundir el conocimiento de las pruebas clave.

Necesario

Incluya medidas de equidad, puntajes de calibración y métricas dependientes de la etiqueta durante la evaluación del modelo.

Incluya comparaciones con modelos de referencia y ajuste la compensación de sesgo-varianza con respecto a la complejidad del modelo.

Recomendado

Realice un análisis de fallas: identifique las instancias en las que falla el modelo e investigue sus puntos en común. Recomendamos métodos como el marco de la 'auditoría algorítmica médica' para el análisis estructurado de fallas45.

Motivado

Incluya descripciones detalladas de los experimentos que deben realizarse, pero que no se realizaron.

Agregue visualizaciones de modelos a la investigación resultante.

Si bien se han desarrollado modelos innovadores de ML para el cuidado de la salud, muy pocos de ellos encuentran una aplicación en el mundo real46,45. Encuestas recientes sobre herramientas clínicas basadas en ML han demostrado que los modelos bien validados, que logran un buen rendimiento en la etapa de desarrollo, pueden no mostrar ningún beneficio clínico para los pacientes en comparación con la atención de rutina47.

Reconocemos que la implementación de ML en el cuidado de la salud para los investigadores es difícil, ya que las barreras para la implementación incluyen regulación, incentivos, falta de apreciación y preocupaciones de generalización, por nombrar algunos. Además, los estudios de validación prospectivos requieren tiempo y dinero, lo que puede ser un gran desafío. Bajo estas circunstancias, los artículos que hacen un esfuerzo adicional47,48 y muestran algún tipo de estudios de validación deben ser distinguidos positivamente.

Los artículos que estudian la efectividad clínica de las herramientas de ML deben ser rigurosos al informar sobre varios aspectos del estudio, incluidos, entre otros, el entorno del estudio, los criterios de inclusión, la interacción humano-algoritmo y sus efectos posteriores, los métodos para el aprendizaje continuo y, lo que es más importante, una comparación con práctica clínica existente. Para mejorar la calidad de los informes, recomendamos que los autores sigan pautas validadas, como las listas de verificación publicadas por los grupos directivos CONSORT-AI y SPIRIT-AI45,49.

Si bien los documentos de evaluación comparativa actuales se centran más en crear un punto de referencia de ciencia de datos ascendente para la investigación clínica en el cuidado de la salud, creemos firmemente que el futuro de la investigación aplicada en el cuidado de la salud verá mucho más énfasis en el aspecto de implementación clínica, a medida que el campo pasa de la teoría a la práctica. y la variedad de desafíos asociados con ella se exploran con mayor profundidad50,51.

Harutyunyan, H., Khachatrian, H., Kale, DC, Ver Steeg, G. y Galstyan, A. Aprendizaje multitarea y evaluación comparativa con datos de series temporales clínicas. ciencia Datos 6, 96 (2019).

Artículo Google Académico

Heil, B. et al. Estándares de reproducibilidad para el aprendizaje automático en las ciencias de la vida. Nat. Métodos 18, 1132–1135 (2021).

Viknesh, S. et al. Desarrollo de pautas de informes específicas para estudios de precisión diagnóstica que evalúan intervenciones de IA: el Grupo Directivo STARD-AI. Nat. Medicina. 26, 807–808 (2020).

Collins, GS et al. Protocolo para el desarrollo de una guía de informes (TRIPOD-AI) y una herramienta de riesgo de sesgo (PROBAST-AI) para estudios de modelos de predicción de diagnóstico y pronóstico basados ​​en inteligencia artificial. Abierto BMJ 11, e048008 (2021).

Kakarmath, S. et al. Mejores prácticas para autores de manuscritos de inteligencia artificial relacionados con la atención médica. npj Dígito. Medicina. 3, 134 (2020).

Hulsen, T. Compartir es cuidar: iniciativas de intercambio de datos en el cuidado de la salud. En t. J. Medio Ambiente. Res. Salud Pública 17, 3046 (2020).

Artículo Google Académico

Atkin, C. et al. Percepciones del uso de datos anónimos y conocimiento de la exclusión voluntaria de datos del NHS entre pacientes, cuidadores y personal de atención médica. Res. Involucrar Comprometerse 7, 40 (2021).

Chico, V., Hunn, A. y Taylor, M. Opiniones públicas sobre el intercambio de datos anónimos a nivel de paciente donde existe un beneficio público y privado mixto (Univ. Melbourne, 2019).

Schwarz, CG et al. Identificación de participantes anónimos de investigación de resonancia magnética con software de reconocimiento facial. Nuevo ingl. J.Med. 381, 1684–1686 (2019).

Rieke, N. et al. El futuro de la salud digital con el aprendizaje federado. npj Dígito. Medicina. 3, 119 (2020).

Kaissis, G. et al. Privacidad de extremo a extremo que preserva el aprendizaje profundo en imágenes médicas multiinstitucionales. Nat. Mach. Intel. 3, 473–484 (2021).

Ngong, I. Mantenimiento de la privacidad en datos médicos con privacidad diferencial. Blog de OpenMined https://blog.openmined.org/maintaining-privacy-in-medical-data-with- differential-privacy/ (2020).

Sablayrolles, A., Douze, M., Schmid, C. y Jegou, H. Datos radiactivos: rastreo a través del entrenamiento. proc. Mach. Resolución de aprendizaje 119, 8326–8335 (2020).

Sablayrolles, A., Douze, M., Schmid, C., Ollivier, Y. & Jegou, H. White-box vs black-box: estrategias óptimas de Bayes para la inferencia de membresía. proc. Mach. Resolución de aprendizaje 97, 5558–5567 (2019).

Johnson, A. et al. MIMIC-IV (versión 1.0) PhysioNet https://doi.org/10.13026/s6n6-xd98 (2021).

Johnson, AEW et al. MIMIC-III, una base de datos de cuidados críticos de libre acceso. ciencia Datos 3, 160035 (2016).

Lee, J. et al. Base de datos MIMIC-II de acceso abierto para la investigación en cuidados intensivos. Conf. proc. Ing. IEEE Medicina. Biol. Soc. 2011, 8315–8318 (2011).

Hayes-Larson, E., Kezios, K., Mooney, S. y Lovasi, G. ¿Quién está en este estudio, de todos modos? Pautas para una tabla útil 1. J. Clin. Epidemiol. 114, 125–132 (2019).

Roberts, M. et al. Errores comunes y recomendaciones para usar el aprendizaje automático para detectar y pronosticar COVID-19 usando radiografías de tórax y tomografías computarizadas. Nat. Mach. Intel. 3, 199–217 (2021).

Rostamzadeh, N. et al. Healthsheet: desarrollo de un artefacto de transparencia para conjuntos de datos de salud. En 2022 Conferencia ACM sobre equidad, responsabilidad y transparencia 1943–1961 (Asociación de Maquinaria de Computación, 2022).

Sculley, D. et al. Deuda técnica oculta en sistemas de aprendizaje automático. Adv. Información neuronal Proceso. sist. 28, 2503–2511 (2015).

Northcutt, C., Athalye, A. y Mueller, J. Los errores de etiqueta generalizados en los conjuntos de prueba desestabilizan los puntos de referencia del aprendizaje automático. En 35th Conference on Neural Information Processing Systems (NeurIPS 2021) Track on Datasets and Benchmarks 1 (2021).

Esteva, A. et al. Clasificación a nivel dermatólogo del cáncer de piel con redes neuronales profundas. Naturaleza 542, 115–118 (2017).

Kooi, T. et al. Aprendizaje profundo a gran escala para la detección asistida por computadora de lesiones mamográficas. Medicina. Anal de imagen. 35, 303–312 (2017).

De Fauw, J. et al. Aprendizaje profundo clínicamente aplicable para el diagnóstico y derivación en enfermedades de la retina. Nat. Medicina. 24, 1342–1350 (2018).

Zhao, X. et al. Detección y segmentación totalmente automatizadas basadas en aprendizaje profundo de ganglios linfáticos en resonancia magnética multiparamétrica para el cáncer de recto: un estudio multicéntrico. eBioMedicine 56, 102780 (2020).

Roy, S. et al. Evaluación de sistemas de inteligencia artificial para ayudar a los neurólogos con anotaciones rápidas y precisas de datos de electroencefalografía del cuero cabelludo. eBioMedicine 66, 103275 (2021).

Tomašev, N. et al. Un enfoque clínicamente aplicable a la predicción continua de la futura lesión renal aguda. Naturaleza 572, 116–119 (2019).

Wang, S. et al. MIMIC-Extract: una canalización de extracción, preprocesamiento y representación de datos para MIMIC-III. En Proc. Conferencia ACM sobre salud, inferencia y aprendizaje 222–235 (Asociación de Maquinaria de Computación, 2020).

Áspero, K. et al. Predicción de pedidos de medicamentos para pacientes hospitalizados a partir de datos de registros de salud electrónicos. clin. Farmacol. El r. 108, 145–154 (2020).

Roy, S. et al. Predicción multitarea de disfunción de órganos en la unidad de cuidados intensivos utilizando enrutamiento de subred secuencial. Mermelada. Medicina. Informar. Asoc. 28, 1936-1946 (2021).

Kirby, JC et al. PheKB: un catálogo y flujo de trabajo para crear algoritmos de fenotipo electrónico para la transportabilidad. Mermelada. Medicina. Informar. Asoc. 23, 1046–1052 (2016).

Kaufman, S., Rosset, S., Perlich, C. y Stitelman, O. Fugas en la minería de datos: formulación, detección y evitación. ACM Trans. Saber Descubrir Datos 6, 15 (2012).

Hicks, SA et al. Sobre métricas de evaluación para aplicaciones médicas de inteligencia artificial. ciencia Rep. 12, 12 (2022).

Schrouff, J. et al. Mantener la equidad en los turnos de distribución: ¿tenemos soluciones viables para aplicaciones del mundo real? Preimpresión en arXiv https://arxiv.org/abs/2202.01034 (2022).

D'Amour, A. et al. La subespecificación presenta desafíos para la credibilidad en el aprendizaje automático moderno. Revista de investigación de aprendizaje automático 23, 1–61 (2022).

Röösli, E., Bozkurt, S. & Hernandez-Boussard, T. Mirando dentro de una caja negra, la equidad y la generalización de un modelo de evaluación comparativa MIMIC-III. ciencia Datos 9, 24 (2022).

Carter, S., Armstrong, Z., Schubert, L., Johnson, I. y Olah, C. Exploración de redes neuronales con atlas de activación. Destilar https://distill.pub/2019/activation-atlas/ (2019).

Rocktäschel, T., Grefenstette, E., Hermann, KM, Kočiský, T. & Blunsom, P. Razonamiento sobre vinculación con atención neural. Preimpresión en arXiv https://arxiv.org/abs/1509.06664 (2016).

Li, M., Zhao, Z. & Scheidegger, C. Visualización de redes neuronales con el gran recorrido. Destilar https://distill.pub/2020/grand-tour/ (2020).

Sundararajan, M., Taly, A. & Yan, Q. Atribución axiomática para redes profundas. Actas de la 34.ª Conferencia Internacional sobre Aprendizaje Automático, PMLR https://doi.org/10.48550/arXiv.1703.01365 (2017).

Mincu, D. et al. Explicaciones de modelos basados ​​en conceptos para registros de salud electrónicos. En Proc. Conferencia sobre Salud, Inferencia y Aprendizaje 36–46 (Association for Computing Machinery, 2021).

Adebayo, J. et al. Comprobaciones de cordura para mapas de prominencia. En Actas de la 32.ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural (2018).

Arun, N. et al. Evaluación de la confiabilidad de los mapas de prominencia para localizar anomalías en imágenes médicas. Radiol. Artefacto Intel. 3, e200267 (2021).

Liu, X. et al. Se necesitan pautas de informes para los ensayos clínicos que evalúan las intervenciones de inteligencia artificial. Nat. Medicina. 25, 1467–1468 (2019).

Lu, C. et al. ¿Implementación de aprendizaje automático clínico? Considera lo siguiente…. Preimpresión en arXiv https://arxiv.org/abs/2109.06919 (2021).

Zhou, Q., Chen, ZH, Cao, YH y Peng, S. Impacto clínico y calidad de los ensayos controlados aleatorios que involucran intervenciones que evalúan herramientas de predicción de inteligencia artificial: una revisión sistemática. npj Dígito. Medicina. 4, 12 (2021).

Biswal, S. et al. SLEEPNET: sistema automatizado de estadificación del sueño mediante aprendizaje profundo. Preimpresión en arXiv https://arxiv.org/abs/1707.08262 (2017).

Liu, X. et al. Directrices de informes para informes de ensayos clínicos para intervenciones que involucran inteligencia artificial: la extensión CONSORT-AI. Nat. Medicina. 26, 1364–1374 (2020).

Ryffel, T. et al. Un marco genérico para la privacidad que preserva el aprendizaje profundo. Preimpresión en arXiv https://arxiv.org/abs/1811.04017 (2018).

Liu, X., Glocker, B., McCradden, MM, Ghassemi, M., Denniston, AK y Oakden-Rayner, L. La auditoría algorítmica médica. Dígito de lanceta. Salud 4, e384–e397 (2022).

Artículo Google Académico

Descargar referencias

Agradecemos a los médicos que ofrecieron su ayuda y opiniones al revisar este artículo: L. Hartsell y M. Seneviratne. También agradecemos a nuestros colegas y colaboradores, N. Tomasev, K. Heller, J. Schrouff, N. Rostamzadeh, C. Ghate, L. Proleev, L. Hartsel, N. Broestl, G. Flores y S. Pfohl, por su ayuda y apoyo en la revisión y prueba beta de nuestras opiniones.

Investigación de Google, Londres, Reino Unido

Diana mincu y subhrajit roy

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

Correspondencia a Diana Mincu o Subhrajit Roy.

Ambos autores son empleados de Google UK.

Nature Machine Intelligence agradece a los revisores anónimos por su contribución a la revisión por pares de este trabajo.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Springer Nature o su licenciante (p. ej., una sociedad u otro socio) posee los derechos exclusivos de este artículo en virtud de un acuerdo de publicación con los autores u otros titulares de derechos; el autoarchivo del autor de la versión manuscrita aceptada de este artículo se rige únicamente por los términos de dicho acuerdo de publicación y la ley aplicable.

Reimpresiones y permisos

Mincu, D., Roy, S. Desarrollo de puntos de referencia sólidos para impulsar la innovación de IA en el cuidado de la salud. Nat Mach Intell 4, 916–921 (2022). https://doi.org/10.1038/s42256-022-00559-4

Descargar cita

Recibido: 01 junio 2022

Aceptado: 07 de octubre de 2022

Publicado: 15 noviembre 2022

Fecha de emisión: noviembre de 2022

DOI: https://doi.org/10.1038/s42256-022-00559-4

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

COMPARTIR