Utilidad de MemTrax y el modelado de aprendizaje automático en la clasificación del deterioro cognitivo leve

Artículo de investigación

Autores: Bergeron, Michael F. | Landset, Sara | Zhou, Xianbo | Ding, Tao | Khoshgoftaar, Taghi M. | Zhao, Feng | Du, Bo | Chen, Xinjie | Wang, Xuan | Zhong, Lianmei | Liu, Xiaolei| Ashford, J.Wesson

DOI: 10.3233/JAD-191340

Diario: Diario de Enfermedad de Alzheimer, vol. 77, no. 4, pp. 1545-1558, 2020

Resumen

Antecedentes:

La incidencia y la prevalencia generalizadas de La enfermedad de Alzheimer y el deterioro cognitivo leve (MCI, por sus siglas en inglés) ha dado lugar a un llamado urgente a la investigación para validar la detección y evaluación cognitivas tempranas.

Objetivo:

El objetivo principal de nuestra investigación fue determinar si las métricas de rendimiento seleccionadas de MemTrax y las características demográficas y de perfil de salud relevantes pueden utilizarse de manera efectiva en modelos predictivos desarrollados con aprendizaje automático para clasificar la salud cognitiva (normal versus MCI), como lo indicaría el Evaluación cognitiva de Montreal (MoCA).

Métodos:

Realizamos un estudio transversal en 259 pacientes adultos de neurología, clínica de la memoria y medicina interna reclutados de dos hospitales en china. Cada paciente recibió el MoCA en chino y se autoadministró el reconocimiento continuo MemTrax en línea episódico prueba de memoria en línea En el mismo día. Los modelos de clasificación predictiva se construyeron utilizando aprendizaje automático con validación cruzada de 10 veces, y el rendimiento del modelo se midió utilizando el área bajo la curva característica operativa del receptor (AUC). Los modelos se construyeron utilizando dos métricas de rendimiento de MemTrax (porcentaje correcto, tiempo de respuesta), junto con las ocho características comunes de historial personal y demográfico.

Resultados:

Al comparar a los alumnos a través de combinaciones seleccionadas de puntajes y umbrales del MoCA, Naïve Bayes fue generalmente el alumno con mejor desempeño con un rendimiento de clasificación general de 0.9093. Además, entre los tres mejores alumnos, el rendimiento general de la clasificación basada en MemTrax fue superior al utilizar solo las cuatro funciones mejor clasificadas (0.9119) en comparación con el uso de las 10 funciones comunes (0.8999).

Conclusión:

El rendimiento de MemTrax se puede utilizar de manera efectiva en un modelo predictivo de clasificación de aprendizaje automático aplicación de cribado para detectar el deterioro cognitivo en etapa temprana.

INTRODUCCIÓN

La reconocida (aunque infradiagnosticada) incidencia y prevalencia generalizadas y la escalada paralela médica, social y pública salud los costos y la carga de la enfermedad de Alzheimer (EA) y el deterioro cognitivo leve (DCL) son cada vez más exigentes para todas las partes interesadas [1, 2]. Este angustioso y floreciente escenario ha motivado un llamado urgente a la investigación para validar detección precoz instrumentos de detección y evaluación cognitiva para una utilidad práctica regular en entornos clínicos y personales para pacientes mayores en diversas regiones y poblaciones [3]. Estos instrumentos también deben permitir la traducción fluida de los resultados informativos en registros de salud electrónicos. Los beneficios se obtendrán informando a los pacientes y ayudando a los médicos a reconocer cambios significativos antes y, por lo tanto, permitir una estratificación, implementación y seguimiento más rápidos y oportunos de un tratamiento y atención al paciente individualizados y más rentables para aquellos que comienzan a experimentar deterioro cognitivo [3, 4].

La herramienta computarizada MemTrax (https://memtrax.com) es una evaluación de reconocimiento continuo simple y breve que se puede autoadministrar en línea para medir el rendimiento de la memoria episódica cronometrada desafiante donde el usuario responde a imágenes repetidas y no a una presentación inicial [5, 6]. Las investigaciones recientes y las implicaciones prácticas resultantes están comenzando a demostrar progresiva y colectivamente la eficacia clínica de MemTrax en la detección temprana de EA y DCL [5–7]. Sin embargo, la comparación directa de la utilidad clínica con la existente salud cognitiva Se garantiza la evaluación y los estándares convencionales para informar la perspectiva profesional y corroborar la utilidad de MemTrax en la detección temprana y el apoyo al diagnóstico. van der Hoek et al. [8] comparó las métricas de rendimiento de MemTrax seleccionadas (velocidad de reacción y porcentaje correcto) con el estado cognitivo determinado por el Montreal Evaluación cognitiva (MoCA). Sin embargo, este estudio se limitó a asociar estas métricas de rendimiento con la caracterización del estado cognitivo (según lo determinado por MoCA) y definir los rangos relativos y los valores de corte. En consecuencia, para ampliar esta investigación y mejorar el rendimiento y la eficacia de la clasificación, nuestra principal pregunta de investigación fue:

  • ¿Pueden las métricas de desempeño de MemTrax seleccionadas de un individuo y los datos demográficos y de salud relevantes perfiles características se pueden utilizar de manera efectiva en un modelo predictivo desarrollado con aprendizaje automático para clasificar la salud cognitiva de forma dicotómica (normal versus MCI), como lo indicaría la puntuación MoCA de uno?

Secundariamente a esto, queríamos saber:

  • Incluyendo las mismas características, ¿se puede aplicar de manera efectiva un modelo de aprendizaje automático basado en el desempeño de MemTrax a un paciente para predecir la gravedad (leve versus severa) dentro de categorías seleccionadas de deterioro cognitivo como lo determinaría un diagnóstico clínico independiente?

El advenimiento y la aplicación práctica en evolución de la inteligencia artificial y el aprendizaje automático en el cribado/detección ya han demostrado claras ventajas prácticas, con modelos predictivos que guían de manera efectiva a los médicos en la evaluación desafiante de la salud cognitiva/cerebral y el manejo del paciente. En nuestro estudio, elegimos un enfoque similar en el modelado de clasificación de MCI y la discriminación de la gravedad del deterioro cognitivo, según lo confirmado por el diagnóstico clínico de tres conjuntos de datos que representan pacientes hospitalizados y ambulatorios voluntarios seleccionados de dos hospitales en China. Mediante el uso de modelos predictivos de aprendizaje automático, identificamos a los alumnos con mejor rendimiento de las diversas combinaciones de conjunto de datos/alumno y clasificamos las funciones para guiarnos en la definición de las aplicaciones de modelo clínicamente más prácticas.

Nuestras hipótesis fueron que se puede utilizar un modelo validado basado en MemTrax para clasificar la salud cognitiva de forma dicotómica (normal o DCL) según el criterio de umbral de puntaje agregado de MoCA, y que se puede emplear de manera efectiva un modelo predictivo de MemTrax similar para discriminar la gravedad en categorías seleccionadas de clínicamente diagnosticado deterioro cognitivo. Demostrar los resultados anticipados sería fundamental para respaldar la eficacia de MemTrax como una pantalla de detección temprana para el deterioro cognitivo y la clasificación del deterioro cognitivo. Una comparación favorable con un supuesto estándar de la industria complementado con una utilidad mucho más fácil y rápida influiría para ayudar a los médicos a adoptar esta herramienta simple, confiable y accesible como una pantalla inicial para detectar deficiencias cognitivas en etapas tempranas (incluidas las prodrómicas). Tal enfoque y utilidad podrían, por lo tanto, impulsar una atención e intervención del paciente más oportuna y mejor estratificada. Estos conocimientos con visión de futuro y métricas y modelos mejorados también podrían ser útiles para mitigar o detener la progresión de la demencia, incluida la EA y las demencias relacionadas con la EA (ADRD).

MATERIALES Y MÉTODOS

Población de estudio

Entre enero de 2018 y agosto de 2019, se completó una investigación transversal en pacientes reclutados de dos hospitales en China. La administración de MemTrax [5] a personas mayores de 21 años y la recopilación y el análisis de esos datos fueron revisados ​​y aprobados y administrados de acuerdo con los estándares éticos de la Personas Comité de Protección de Sujetos de la Universidad de Stanford. MemTrax y todas las demás pruebas para este estudio general se realizaron de acuerdo con la declaración de Helsinki de 1975 y fueron aprobadas por la Junta de Revisión Institucional del Primer Hospital Afiliado de la Universidad Médica de Kunming en Kunming, Yunnan, China. A cada usuario se le proporcionó un consentimiento informado formulario para leer/revisar y luego voluntariamente aceptar participar.

Los participantes fueron reclutados del grupo de pacientes ambulatorios en la clínica de neurología del Hospital Yanhua (subconjunto de datos YH) y el clínica de memoria en el Primer Hospital Afiliado de Kunming Medical University (subconjunto de datos XL) en Beijing, China. Los participantes también fueron reclutados de pacientes hospitalizados de neurología (subconjunto de datos XL) y medicina interna (subconjunto de datos KM) en el Primer Hospital Afiliado de la Universidad Médica de Kunming. Los criterios de inclusión incluyeron 1) hombres y mujeres de al menos 21 años, 2) capacidad para hablar chino (mandarín) y 3) capacidad para comprender instrucciones verbales y escritas. Los criterios de exclusión fueron deficiencias visuales y motoras que impedían a los participantes completar el Prueba MemTrax, así como la incapacidad para comprender las instrucciones específicas de la prueba.

Versión china de MemTrax

La Se tradujo la plataforma de prueba MemTrax al chino (URL: https://www.memtrax.com.cn) y adaptado para ser utilizado a través de WeChat (Shenzhen Tencent Computer Systems Co. LTD., Shenzhen, Guangdong, China) para la autoadministración. Los datos se almacenaron en un servidor en la nube (Ali Cloud) ubicado en China y autorizado por Alibaba (Alibaba Technology Co. Ltd., Hangzhou, Zhejiang, China) por SJN Biomed LTD (Kunming, Yunnan, China). Los detalles específicos sobre MemTrax y los criterios de validez de la prueba utilizados aquí se han descrito anteriormente [6]. La prueba se proporcionó sin costo alguno para los pacientes.

Procedimientos de estudio

Para los pacientes hospitalizados y ambulatorios, un cuestionario general en papel para recopilar información demográfica y personal como edad, sexo, años de educación, ocupación, que viven solas o con la familia, y el historial médico fue administrado por un miembro del equipo de estudio. Después de completar el cuestionario, se administraron las pruebas MoCA [12] y MemTrax (MoCA primero) con no más de 20 minutos entre las pruebas. El porcentaje correcto de MemTrax (MTx-% C), el tiempo medio de respuesta (MTx-RT) y la fecha y hora de la prueba fueron registrados en papel por un miembro del equipo de estudio para cada participante examinado. El investigador que administró las pruebas cargó el cuestionario completado y los resultados del MoCA en una hoja de cálculo de Excel y un colega los verificó antes de guardar los archivos de Excel para los análisis.

Prueba MemTrax

La prueba en línea MemTrax incluyó 50 imágenes (25 únicas y 25 repeticiones; 5 conjuntos de 5 imágenes de escenas u objetos comunes) mostradas en un orden pseudoaleatorio específico. El participante (según las instrucciones) tocaría el botón Iniciar en la pantalla para comenzar la prueba y comenzar a ver la serie de imágenes y nuevamente tocaría la imagen en la pantalla lo más rápido posible cada vez que apareciera una imagen repetida. Cada imagen apareció durante 3 s o hasta que se tocó la imagen en la pantalla, lo que provocó la presentación inmediata de la siguiente imagen. Usando el reloj interno del dispositivo local, MTx-RT para cada imagen se determinó por el tiempo transcurrido desde la presentación de la imagen hasta que el participante tocó la pantalla en respuesta a la indicación del reconocimiento de la imagen como una que ya se había mostrado. durante el examen. Se registró MTx-RT para cada imagen, con un registro completo de 3 s que indica que no hubo respuesta. Se calculó MTx-%C para indicar el porcentaje de imágenes repetidas e iniciales a las que el usuario respondió correctamente (verdadero positivo + verdadero negativo dividido por 50). Los detalles adicionales de la administración e implementación de MemTrax, la reducción de datos, los datos no válidos o "sin respuesta" y los análisis de datos primarios se describen en otra parte [6].

La prueba MemTrax se explicó en detalle y se proporcionó una prueba de práctica (con imágenes únicas distintas de las utilizadas en la prueba para registrar los resultados) a los participantes en el entorno hospitalario. Los participantes en los subconjuntos de datos YH y KM realizaron la prueba MemTrax en un teléfono inteligente que se cargó con la aplicación en WeChat; mientras que un número limitado de pacientes del subconjunto de datos XL usaba un iPad y el resto usaba un teléfono inteligente. Todos los participantes tomaron la prueba MemTrax con un investigador del estudio observando discretamente.

Evaluación cognitiva de Montreal

La versión de Beijing del MoCA chino (MoCA-BC) [13] fue administrada y calificada por investigadores capacitados de acuerdo con las instrucciones oficiales de la prueba. Convenientemente, el MoCA-BC ha demostrado ser un confiable prueba cognitiva cribado en todos los niveles educativos en adultos mayores chinos [14]. Cada prueba tardó entre 10 y 30 minutos en administrarse según las capacidades cognitivas de los participantes respectivos.

Modelado de clasificación MoCA

Hubo un total de 29 funciones utilizables, incluidas dos MemTrax métricas de rendimiento de prueba y 27 funciones relacionadas con la demografía y la salud información de cada participante. La puntuación de la prueba agregada MoCA de cada paciente se utilizó como cribado cognitivo “benchmark” para entrenar nuestros modelos predictivos. En consecuencia, debido a que se usó MoCA para crear la etiqueta de clase, no pudimos usar el puntaje agregado (o cualquiera de los puntajes del subconjunto MoCA) como una característica independiente. Realizamos experimentos preliminares en los que modelamos (clasificando la salud cognitiva definida por MoCA) los tres subconjuntos de datos originales de hospitales/clínicas individualmente y luego los combinamos usando todas las características. Sin embargo, no se recopilaron todos los mismos elementos de datos en cada una de las cuatro clínicas que representan los tres subconjuntos de datos; por lo tanto, muchas de nuestras características en el conjunto de datos combinado (al usar todas las características) tenían una alta incidencia de valores faltantes. Luego construimos modelos con el conjunto de datos combinado utilizando solo características comunes que dieron como resultado un mejor rendimiento de clasificación. Esto probablemente se debió a una combinación de tener más instancias con las que trabajar al combinar los tres subconjuntos de datos de pacientes y ninguna función con una prevalencia indebida de valores faltantes (solo una función en el conjunto de datos combinado, el tipo de trabajo, tenía valores faltantes, lo que afecta solo tres instancias de pacientes), porque solo se incluyeron las características comunes registradas en los tres sitios. En particular, no teníamos un criterio de rechazo específico para cada característica que finalmente no se incluyó en el conjunto de datos combinado. Sin embargo, en nuestro modelo preliminar de conjuntos de datos combinados, primero usamos todas las características de cada uno de los tres subconjuntos de datos de pacientes separados. Esto resultó ampliamente en un rendimiento del modelo que fue considerablemente más bajo que el modelado preliminar inicial en cada subconjunto de datos individual. Además, mientras que el rendimiento de clasificación de los modelos creados con todas las funciones fue alentador, en todos los alumnos y esquemas de clasificación, el rendimiento mejoró para el doble de modelos cuando se usaron solo funciones comunes. De hecho, entre los que terminaron siendo nuestros mejores alumnos, todos menos un modelo mejoraron al eliminar características no comunes.

El conjunto de datos agregado final (YH, XL y KM combinados) incluía 259 instancias, cada una de las cuales representaba a un participante único que realizó las pruebas MemTrax y MoCA. Había 10 características independientes compartidas: Métricas de rendimiento de MemTrax: MTx-% C y MTx-RT medio; información demográfica y de historial médico: edad, sexo, años de educación, tipo de trabajo (cuello azul/cuello blanco), apoyo social (si el examinado vive solo o con la familia), y respuestas sí/no en cuanto a si el usuario tenía un antecedentes de diabetes, hiperlipidemia o lesión cerebral traumática. Dos métricas adicionales, puntaje agregado MoCA y puntaje agregado MoCA ajustado por años de educación [12], se usaron por separado para desarrollar etiquetas de clasificación dependientes, creando así dos esquemas de modelado distintos para aplicar a nuestro conjunto de datos combinado. Para cada versión (ajustada y no ajustada) de la puntuación MoCA, los datos se modelaron nuevamente por separado para la clasificación binaria utilizando dos umbrales de criterio diferentes: el recomendado inicialmente [12] y un valor alternativo utilizado y promovido por otros [8, 15]. En el esquema de clasificación de umbral alternativo, se consideró que un paciente tenía una salud cognitiva normal si obtuvo una puntuación ≥23 en la prueba MoCA y que tenía deterioro cognitivo leve si la puntuación era de 22 o menos; mientras que, en el formato de clasificación recomendado inicialmente, el paciente tenía que obtener una puntuación de 26 o más en el MoCA para ser etiquetado como de salud cognitiva normal.

Datos filtrados para el modelado de clasificación MoCA

Examinamos más a fondo la clasificación de MoCA utilizando cuatro técnicas de clasificación de características de uso común: chi-cuadrado, relación de ganancia, ganancia de información e incertidumbre simétrica. Para una perspectiva provisional, aplicamos los clasificadores a todo el conjunto de datos combinados utilizando cada uno de nuestros cuatro esquemas de modelado. Todos los clasificados coincidieron en las mismas características principales, es decir, edad, número de años de educación y ambas métricas de rendimiento de MemTrax (MTx-% C, media MTx-RT). Luego reconstruimos los modelos usando cada técnica de selección de características para entrenar los modelos solo en las cuatro características principales (ver Selección de características abajo).

Las ocho variaciones finales resultantes de los esquemas de modelado de clasificación de puntuación MoCA se presentan en la Tabla 1.

tabla 1

Resumen de las variaciones del esquema de modelado utilizadas para la clasificación MoCA (Normal Salud cognitiva versus DCL)

Esquema de modeladoSalud cognitiva normal (clase negativa)MCI (clase positiva)
Ajustado-23 Sin filtrar/FiltradoN/AN/A
Ajustado-26 Sin filtrar/FiltradoN/AN/A
Sin ajustar-23 Sin filtrar/FiltradoN/AN/A
Sin ajustar-26 Sin filtrar/FiltradoN/AN/A

El número respectivo y el porcentaje del total de pacientes en cada clase se diferencian por el ajuste de la puntuación para la educación (ajustada o no ajustada) y el umbral de clasificación (23 o 26), según se aplica a ambos conjuntos de funciones (sin filtrar y filtrada).

Modelado de evaluación clínica basado en MemTrax

De nuestros tres subconjuntos de datos originales (YH, XL, KM), solo los pacientes del subconjunto de datos XL fueron diagnosticados clínicamente de forma independiente por deterioro cognitivo (es decir, sus puntajes MoCA respectivos no se usaron para establecer una clasificación de normal versus deteriorado). Específicamente, los pacientes XL fueron diagnosticados con prueba de la enfermedad de alzheimer (EA) o demencia vascular (VaD). Dentro de cada una de estas categorías de diagnóstico primario, había una designación adicional para MCI. Los diagnósticos de deterioro cognitivo leve, demencia, trastorno neurocognitivo vascular y trastorno neurocognitivo debido a la EA se basaron en criterios diagnósticos específicos y distintivos descritos en el Manual diagnóstico y estadístico de los trastornos mentales: DSM-5 [16]. Teniendo en cuenta estos diagnósticos refinados, se aplicaron por separado dos esquemas de modelado de clasificación al subconjunto de datos XL para distinguir el nivel de gravedad (grado de deterioro) para cada categoría de diagnóstico principal. Los datos utilizados en cada uno de estos esquemas de modelado de diagnóstico (AD y VaD) incluyeron información demográfica y del historial del paciente, así como el rendimiento de MemTrax (MTx-% C, media MTx-RT). Cada diagnóstico se calificó como leve si se designó MCI; de lo contrario, se consideró grave. Inicialmente consideramos incluir la puntuación MoCA en los modelos de diagnóstico (leve versus grave); pero determinamos que anularía el propósito de nuestro esquema de modelado predictivo secundario. Aquí, los alumnos serían capacitados utilizando otras características del paciente disponibles para el proveedor y las métricas de rendimiento de la prueba MemTrax más simple (en lugar del MoCA) contra el "estándar de oro" de referencia, el diagnóstico clínico independiente. Hubo 69 instancias en el conjunto de datos de diagnóstico de AD y 76 instancias de VaD (Tabla 2). En ambos conjuntos de datos, había 12 características independientes. Además de las 10 características incluidas en la clasificación de la puntuación MoCA, el historial del paciente también incluía información sobre antecedentes de hipertensión y accidente cerebrovascular.

tabla 2

Resumen de las variaciones del esquema de modelado utilizadas para la clasificación de la gravedad del diagnóstico (leve frente a grave)

Esquema de modeladoLeve (clase negativa)Grave (clase positiva)
DA-MCI frente a EAN/AN/A
MCI-VaD frente a VaDN/AN/A

El número respectivo y el porcentaje del total de pacientes en cada clase se diferencian por categoría de diagnóstico primario (AD o VaD).

Estadística

La comparación de las características de los participantes y otras características numéricas entre subconjuntos de datos para cada estrategia de clasificación del modelo (para predecir la salud cognitiva y la gravedad del diagnóstico de MoCA) se realizó utilizando el lenguaje de programación Python (versión 2.7.1) [17]. Las diferencias de rendimiento del modelo se determinaron inicialmente mediante un ANOVA de uno o dos factores (según corresponda) con un intervalo de confianza del 95 % y la prueba de diferencia significativa honesta (HSD) de Tukey para comparar las medias de rendimiento. Este examen de las diferencias entre el rendimiento de los modelos se realizó mediante una combinación de Python y R (versión 3.5.1) [18]. Empleamos este enfoque (aunque posiblemente menos que óptimo) solo como una ayuda heurística en este Etapa temprana para las comparaciones de rendimiento del modelo inicial en la anticipación de la aplicación clínica potencial. Luego utilizamos la prueba bayesiana de rango con signo utilizando una distribución posterior para determinar la probabilidad de diferencias en el rendimiento del modelo [19]. Para estos análisis, utilizamos el intervalo –0.01, 0.01, lo que significa que si dos grupos tenían una diferencia de rendimiento inferior a 0.01, se consideraban iguales (dentro de la región de equivalencia práctica), o eran diferentes (uno mejor que uno). el otro). Para realizar la comparación bayesiana de clasificadores y calcular estas probabilidades, utilizamos la biblioteca baycomp (versión 1.0.2) para Python 3.6.4.

Modelado predictivo

Construimos modelos predictivos utilizando las diez variaciones totales de nuestros esquemas de modelado para predecir (clasificar) el resultado de la prueba MoCA de cada paciente o la gravedad del diagnóstico clínico. Todos los alumnos se aplicaron y los modelos se construyeron utilizando la plataforma de software de código abierto Weka [20]. Para nuestro análisis preliminar, empleamos 10 algoritmos de aprendizaje de uso común: 5 vecinos más cercanos, dos versiones del árbol de decisión C4.5, regresión logística, perceptrón multicapa, Naïve Bayes, dos versiones de Random Forest, Radial Basis Function Network y Support Vector Máquina. Los atributos clave y los contrastes de estos algoritmos se han descrito en otra parte [21] (consulte el Apéndice respectivo). Estos fueron elegidos porque representan una variedad de diferentes tipos de estudiantes y porque hemos demostrado éxito usándolos en análisis previos sobre datos similares. La configuración de hiperparámetros se eligió de nuestra investigación anterior, lo que indica que son sólidos en una variedad de datos diferentes [22]. Con base en los resultados de nuestro análisis preliminar usando el mismo conjunto de datos combinado con características comunes que se usaron posteriormente en el análisis completo, identificamos a tres estudiantes que proporcionaron un desempeño consistentemente sólido en todas las clasificaciones: Regresión logística, Naïve Bayes y Support Vector Machine.

Métrica de rendimiento del modelo y validación cruzada

Para todos los modelos predictivos (incluidos los análisis preliminares), cada modelo se construyó utilizando una validación cruzada de 10 veces, y el rendimiento del modelo se midió utilizando el área bajo la curva característica operativa del receptor (AUC). La validación cruzada comenzó con la división aleatoria de cada uno de los 10 conjuntos de datos del esquema de modelado en 10 segmentos iguales (pliegues), utilizando nueve de estos segmentos respectivos para entrenar el modelo y el segmento restante para la prueba. Este procedimiento se repitió 10 veces, utilizando un segmento diferente como conjunto de prueba en cada iteración. Luego, los resultados se combinaron para calcular el resultado/rendimiento del modelo final. Para cada combinación de alumno/conjunto de datos, todo este proceso se repitió 10 veces y los datos se dividieron de manera diferente cada vez. Este último paso redujo el sesgo, aseguró la replicabilidad y ayudó a determinar el rendimiento general del modelo. En total (para los esquemas de clasificación de la gravedad del diagnóstico y la puntuación MoCA combinados), se construyeron 6,600 modelos. Esto incluyó 1,800 modelos sin filtrar (6 esquemas de modelado aplicados al conjunto de datos × 3 estudiantes × 10 ejecuciones × 10 pliegues = 1,800 modelos) y 4,800 modelos filtrados (4 esquemas de modelado aplicados al conjunto de datos × 3 estudiantes × 4 técnicas de selección de características × 10 ejecuciones × 10 pliegues = 4,800 modelos).

Selección de características

Para los modelos filtrados, la selección de características (utilizando los cuatro métodos de clasificación de características) se realizó dentro de la validación cruzada. Para cada uno de los 10 pliegues, dado que un 10 % diferente del conjunto de datos eran los datos de prueba, solo se usaron las cuatro características principales seleccionadas para cada conjunto de datos de entrenamiento (es decir, los otros nueve pliegues, o el 90 % restante del conjunto de datos completo). para construir los modelos. No pudimos confirmar qué cuatro funciones se usaron en cada modelo, ya que esa información no se almacena ni está disponible en la plataforma de modelado que utilizamos (Weka). Sin embargo, dada la consistencia en nuestra selección inicial de características principales cuando se aplicaron los rankings a todo el conjunto de datos combinados y la subsiguiente similitud en el desempeño del modelo, estas mismas características (edad, años de educación, MTx-% C y MTx-RT medio ) son probablemente los cuatro principales utilizados de forma concomitante con la selección de características dentro del proceso de validación cruzada.

RESULTADOS

Las características numéricas de los participantes (incluidas las puntuaciones de MoCA y las métricas de rendimiento de MemTrax) de los respectivos conjuntos de datos para cada estrategia de clasificación modelo para predecir la salud cognitiva indicada por MoCA (normal frente a DCL) y la gravedad del diagnóstico (leve frente a grave) se muestran en la Tabla 3.

tabla 3

Características de los participantes, puntajes de MoCA y rendimiento de MemTrax para cada estrategia de clasificación de modelos

Estrategia de clasificaciónEdadEducaciónMoCA ajustadoMoCA sin ajustarMTx-%CMTx-RT
Categoría MoCA61.9 años (13.1)9.6 años (4.6)19.2 (6.5)18.4 (6.7)74.8% (15.0)1.4 s (0.3)
Gravedad del diagnóstico65.6 años (12.1)8.6 años (4.4)16.7 (6.2)15.8 (6.3)68.3% (13.8)1.5 s (0.3)

Los valores que se muestran (media, SD) diferenciados por estrategias de clasificación de modelos son representativos del conjunto de datos combinado utilizado para predecir la salud cognitiva indicada por MoCA (DCL frente a normal) y el subconjunto de datos XL solo utilizado para predecir la gravedad del diagnóstico (leve frente a grave).

Para cada combinación de puntaje MoCA (ajustado/no ajustado) y umbral (26/23), hubo una diferencia estadística (p = 0.000) en cada comparación por pares (salud cognitiva normal versus MCI) para edad, educación y rendimiento de MemTrax (MTx-% C y MTx-RT). Cada subconjunto de datos de pacientes en la clase MCI respectiva para cada combinación tenía en promedio entre 9 y 15 años más, informó aproximadamente cinco años menos de educación y tuvo un rendimiento de MemTrax menos favorable para ambas métricas.

Los resultados de rendimiento del modelo predictivo para las clasificaciones de puntuación de MoCA utilizando los tres mejores alumnos, Regresión logística, Naïve Bayes y Máquina de vectores de soporte, se muestran en la Tabla 4. Estos tres se eligieron en función del rendimiento absoluto del alumno más consistentemente alto en todos los diversos modelos. aplicado a los conjuntos de datos para todos los esquemas de modelado. Para el conjunto de datos y el modelado sin filtrar, cada uno de los valores de datos en la Tabla 4 indica el rendimiento del modelo basado en la media respectiva de AUC derivada de los 100 modelos (10 ejecuciones × 10 pliegues) creados para cada combinación de esquema de modelado/aprendiz, con el valor más alto respectivo estudiante de rendimiento indicado en negrita. Mientras que para el modelado de conjuntos de datos filtrados, los resultados informados en la Tabla 4 reflejan el rendimiento promedio general del modelo de 400 modelos para cada alumno que usa cada uno de los métodos de clasificación de características (4 métodos de clasificación de características × 10 ejecuciones × 10 pliegues).

tabla 4

Resultados dicotómicos del rendimiento de la clasificación de la puntuación MoCA (AUC; 0.0–1.0) para cada uno de los tres alumnos con mejor rendimiento para todos los esquemas de modelado respectivos

Conjunto de funciones utilizadoPuntaje MoCAUmbral de corteRegresión logísticaBayes ingenuoMáquinas de vectores soporte
Sin filtrar (10 funciones)Equilibrado230.88620.89130.8695
260.89710.92210.9161
No ajustado230.91030.90850.8995
260.88340.91530.8994
Filtrado (4 funciones)Equilibrado230.89290.89540.8948
260.91880.92470.9201
No ajustado230.91350.91340.9122
260.91590.92360.9177

Utilizando variaciones del conjunto de funciones, la puntuación MoCA y el umbral de corte de la puntuación MoCA, el rendimiento más alto para cada esquema de modelado se muestra en (no necesariamente estadísticamente diferente a todos los demás no en para el modelo respectivo).

Al comparar a los alumnos en todas las combinaciones de versiones y umbrales de puntaje MoCA (ajustado/no ajustado y 23/26, respectivamente) en el conjunto de datos sin filtrar combinado (es decir, usando las 10 características comunes), Naïve Bayes fue generalmente el alumno con mejor desempeño con un desempeño de clasificación de 0.9093. Teniendo en cuenta los tres primeros alumnos, las pruebas de rango con signo correlacionadas bayesianas indicaron que la probabilidad (Pr) de Naïve Bayes superando a Logistic Regression fue del 99.9 %. Además, entre Naïve Bayes y Support Vector Machine, una probabilidad del 21.0 % de equivalencia práctica en el rendimiento del alumno (por lo tanto, una probabilidad del 79.0 % de que Naïve Bayes supere a Support Vector Machine), junto con la probabilidad del 0.0 % de que Support Vector Machine se desempeñe mejor, de forma medible. refuerza la ventaja de rendimiento de Naïve Bayes. Una comparación adicional de la versión de puntaje MoCA en todos los estudiantes/umbrales sugirió una ligera ventaja en el rendimiento al usar puntajes MoCA no ajustados versus ajustados (0.9027 versus 0.8971, respectivamente); Pr (sin ajustar > ajustado) = 0.988). De manera similar, una comparación del umbral de corte entre todos los alumnos y las versiones de puntuación del MoCA indicó una pequeña ventaja en el rendimiento de la clasificación utilizando 26 como umbral de clasificación frente a 23 (0.9056 frente a 0.8942, respectivamente; Pr (26 > 23) = 0.999). Por último, al examinar el rendimiento de la clasificación para los modelos que utilizan solo los resultados filtrados (es decir, solo las cuatro características mejor clasificadas), Naïve Bayes (0.9143) fue numéricamente el alumno con mejor rendimiento en todas las versiones/umbrales de puntuación del MoCA. Sin embargo, en todas las técnicas de clasificación de características combinadas, todos los alumnos con mejor desempeño se desempeñaron de manera similar. Las pruebas bayesianas de rango con signo mostraron un 100 % de probabilidad de equivalencia práctica entre cada par de alumnos filtrados. Al igual que con los datos sin filtrar (usando las 10 características comunes), nuevamente hubo una ventaja de rendimiento para la versión no ajustada de la puntuación MoCA (Pr (no ajustado > ajustado) = 1.000), así como una clara ventaja similar para el umbral de clasificación de 26 (Pr (26 > 23) = 1.000). En particular, el rendimiento promedio de cada uno de los tres mejores alumnos en todas las versiones/umbrales de puntuación del MoCA utilizando solo las cuatro características mejor clasificadas superó el rendimiento promedio de cualquier alumno en los datos sin filtrar. No es sorprendente que el rendimiento de clasificación de los modelos filtrados (usando las cuatro características mejor clasificadas) en general fuera superior (0.9119) al de los modelos sin filtrar (0.8999), independientemente de los modelos del método de clasificación de características que se compararon con esos modelos respectivos usando las 10 características comunes. caracteristicas. Para cada método de selección de características, hubo un 100 % de probabilidad de una ventaja de rendimiento sobre los modelos sin filtrar.

Con los pacientes considerados para la clasificación de gravedad del diagnóstico de EA, las diferencias entre grupos (DCL-EA versus EA) para la edad (p = 0.004), educación (p = 0.028), puntuación MoCA ajustada/no ajustada (p = 0.000), y MTx-% C (p = 0.008) fueron estadísticamente significativas; mientras que para MTx-RT no lo fue (p = 0.097). Con aquellos pacientes considerados para la clasificación de gravedad del diagnóstico VaD, las diferencias entre grupos (MCI-VaD versus VaD) para la puntuación MoCA ajustada/no ajustada (p = 0.007) y MTx-% C (p = 0.026) y MTx-RT (p = 0.001) fueron estadísticamente significativas; mientras que para la edad (p = 0.511) y educación (p = 0.157) no hubo diferencias significativas entre grupos.

Los resultados del rendimiento del modelado predictivo para las clasificaciones de gravedad del diagnóstico utilizando los tres alumnos seleccionados previamente, Regresión logística, Naïve Bayes y Máquina de vectores de soporte, se muestran en la Tabla 5. Mientras que los alumnos examinados adicionales demostraron rendimientos ligeramente más fuertes individualmente con una de las dos categorías de diagnóstico clínico , los tres alumnos que habíamos identificado como los más favorables en nuestro modelo anterior ofrecieron el rendimiento más consistente con ambos nuevos esquemas de modelado. Al comparar a los alumnos en cada una de las categorías de diagnóstico primario (AD y VaD), no hubo una diferencia consistente en el rendimiento de la clasificación entre los alumnos para MCI-VaD versus VaD, aunque Support Vector Machine generalmente se desempeñó de manera más prominente. De manera similar, no hubo diferencias significativas entre los alumnos para la clasificación MCI-AD versus AD, aunque Naïve Bayes (NB) tuvo una ligera ventaja de rendimiento sobre Logistic Regression (LR) y solo una pluralidad insignificante sobre Support Vector Machine, con probabilidades de 61.4% y 41.7% respectivamente. En ambos conjuntos de datos, hubo una ventaja de rendimiento general para Support Vector Machine (SVM), con Pr (MVS > LR) = 0.819 y Pr (MVS > NB) = 0.934. Nuestro rendimiento de clasificación general entre todos los estudiantes en la predicción de la gravedad del diagnóstico en el subconjunto de datos XL fue mejor en la categoría de diagnóstico de VaD versus AD (Pr (VAD > AD) = 0.998).

tabla 5

Resultados de rendimiento de clasificación de gravedad de diagnóstico clínico dicotómico (AUC; 0.0–1.0) para cada uno de los tres alumnos con mejor rendimiento para ambos esquemas de modelado respectivos

Esquema de modeladoRegresión logísticaBayes ingenuoMáquinas de vectores soporte
DA-MCI frente a EA0.74650.78100.7443
MCI-VaD frente a VaD0.80330.80440.8338

El rendimiento más alto para cada esquema de modelado se muestra en (no necesariamente estadísticamente diferente a otros que no están en ).

DISCUSIÓN

La detección temprana de cambios en la salud cognitiva tiene importantes utilidad práctica en la gestión de la salud personal y la salud pública por igual. De hecho, también es una alta prioridad en entornos clínicos para pacientes de todo el mundo. El objetivo compartido es alertar a los pacientes, cuidadores y proveedores y promover un tratamiento y una atención longitudinal apropiados y rentables más tempranos para aquellos que comienzan a experimentar deterioro cognitivo. Al fusionar nuestros tres subconjuntos de datos de hospital/clínica(s), identificamos tres estudiantes distintivamente preferibles (con un destacado notable: Naïve Bayes) para construir modelos predictivos utilizando Métricas de rendimiento de MemTrax que podrían clasificar de manera confiable el estado de salud cognitiva dicotómicamente (salud cognitiva normal o MCI) como lo indicaría una puntuación agregada de MoCA. En particular, el rendimiento general de la clasificación para los tres alumnos mejoró cuando nuestros modelos utilizaron solo las cuatro funciones mejor clasificadas que abarcaban principalmente estas métricas de rendimiento de MemTrax. Además, revelamos el potencial comprobado para utilizar las mismas métricas de rendimiento de los alumnos y MemTrax en un esquema de modelado de clasificación de soporte de diagnóstico para distinguir la gravedad de dos categorías de diagnóstico de demencia: AD y VaD.

Pruebas de memoria es fundamental para la detección temprana de la DA [23, 24]. Por lo tanto, es oportuno que MemTrax sea una herramienta en línea aceptable, atractiva y fácil de implementar. prueba de detección de memoria episódica en la población general [6]. La precisión del reconocimiento y los tiempos de respuesta de esta tarea de desempeño continuo son particularmente reveladores para identificar el deterioro temprano y en evolución y los consiguientes déficits en los procesos neuroplásticos relacionados con el aprendizaje, la memoria y la cognición. Es decir, los modelos aquí que se basan en gran medida en las métricas de rendimiento de MemTrax son sensibles y es más probable que revelen fácilmente y con un costo mínimo déficits neuropatológicos biológicos durante la etapa asintomática de transición mucho antes de una pérdida funcional más sustancial [25]. Ashford et al. examinó de cerca los patrones y comportamientos de la precisión de la memoria de reconocimiento y el tiempo de respuesta en los usuarios en línea que participaron por su cuenta con MemTrax [6]. Teniendo en cuenta que estas distribuciones son críticas en el modelado óptimo y el desarrollo de aplicaciones válidas y efectivas para el cuidado del paciente, definir perfiles de tiempo de respuesta y reconocimiento aplicables clínicamente es esencial para establecer una referencia fundamental valiosa para la utilidad clínica y de investigación. El valor práctico de MemTrax en el cribado de la EA para el deterioro cognitivo en etapa temprana y el apoyo de diagnóstico diferencial debe examinarse más de cerca en el contexto de un entorno clínico donde se puedan considerar las comorbilidades y las capacidades cognitivas, sensoriales y motoras que afectan el rendimiento de la prueba. Y para informar la perspectiva profesional y fomentar la utilidad clínica práctica, primero es imperativo demostrar la comparación con una prueba de evaluación de la salud cognitiva establecida, aunque esta última puede verse limitada por la engorrosa logística de las pruebas, los impedimentos educativos y lingüísticos y las influencias culturales [26]. . En este sentido, la comparación favorable de MemTrax en eficacia clínica con MoCA, que comúnmente se considera un estándar de la industria, es significativa, especialmente al sopesar la mayor facilidad de uso y la aceptación del paciente de MemTrax.

La exploración anterior que compara MemTrax con MoCA destaca la justificación y la evidencia preliminar que justifica nuestra investigación de modelado [8]. Sin embargo, esta comparación anterior simplemente asoció las dos métricas de rendimiento clave de MemTrax que examinamos con el estado cognitivo determinado por MoCA y definió los respectivos rangos y valores de corte. Profundizamos en la evaluación de la utilidad clínica de MemTrax mediante la exploración de un enfoque basado en modelos predictivos que proporcionaría una consideración más individualizada de otros parámetros específicos del paciente potencialmente relevantes. A diferencia de otros, no encontramos una ventaja en el rendimiento del modelo usando una corrección educativa (ajuste) en la puntuación del MoCA o variando el umbral de la puntuación agregada del MoCA que discrimina la salud cognitiva de los 26 a 23 recomendados originalmente [12, 15]. De hecho, la ventaja de rendimiento de la clasificación favoreció el uso de la puntuación MoCA no ajustada y el umbral más alto.

Puntos clave en la práctica clínica

El aprendizaje automático a menudo se utiliza mejor y es más efectivo en el modelado predictivo cuando los datos son extensos y multidimensionales, es decir, cuando hay numerosas observaciones y una amplia gama concomitante de atributos de alto valor (que contribuyen). Sin embargo, con estos datos actuales, los modelos filtrados con solo cuatro funciones seleccionadas se desempeñaron mejor que aquellos que utilizan las 10 funciones comunes. Esto sugiere que nuestro conjunto de datos hospitalarios agregados no tenía las características clínicamente más apropiadas (de alto valor) para clasificar de manera óptima a los pacientes de esta manera. Sin embargo, el énfasis en la clasificación de características en las métricas de rendimiento clave de MemTrax (MTx-% C y MTx-RT) respalda firmemente la creación de modelos de detección de déficit cognitivo en etapa temprana en torno a esta prueba que es simple, fácil de administrar, de bajo costo y adecuadamente reveladora con respecto a rendimiento de la memoria, al menos ahora como una pantalla inicial para una clasificación binaria del estado de salud cognitiva. Dada la presión cada vez mayor sobre los proveedores y los sistemas de atención médica, los procesos de detección de pacientes y las aplicaciones clínicas deben desarrollarse adecuadamente con énfasis en la recopilación, el seguimiento y el modelado de las características de los pacientes y las métricas de prueba que son más útiles, ventajosas y de probada eficacia en el diagnóstico. y apoyo al manejo de pacientes.

Dado que las dos métricas clave de MemTrax son fundamentales para la clasificación de MCI, nuestro alumno de mejor rendimiento (Naïve Bayes) tuvo un rendimiento predictivo muy alto en la mayoría de los modelos (AUC superior a 0.90) con una proporción de verdaderos positivos a falsos positivos cercana o algo superior a 4 : 1. Una aplicación clínica traslacional que utilice a este alumno capturaría (clasificaría correctamente) a la mayoría de las personas con déficit cognitivo, al tiempo que minimizaría el costo asociado con clasificar erróneamente a alguien con salud cognitiva normal como con déficit cognitivo (falso positivo) o faltando esa clasificación en aquellos que sí tienen un déficit cognitivo (falso negativo). Cualquiera de estos escenarios de clasificación errónea podría imponer una carga psicosocial indebida al paciente y a los cuidadores.

Mientras que en los análisis preliminares y completos usamos a los diez alumnos en cada esquema de modelado, enfocamos nuestros resultados en los tres clasificadores que mostraron el desempeño fuerte más consistente. Esto también fue para resaltar, en base a estos datos, los alumnos que anticipadamente se desempeñarían de manera confiable a un alto nivel en una aplicación clínica práctica para determinar la clasificación del estado cognitivo. Además, debido a que este estudio pretendía ser una investigación introductoria sobre la utilidad del aprendizaje automático en la detección cognitiva y estos desafíos clínicos oportunos, tomamos la decisión de mantener las técnicas de aprendizaje simples y generalizadas, con un ajuste mínimo de los parámetros. Apreciamos que este enfoque puede haber limitado el potencial de capacidades predictivas específicas del paciente definidas de manera más estrecha. Del mismo modo, mientras que el entrenamiento de los modelos usando solo las funciones principales (enfoque filtrado) nos brinda más información sobre estos datos (específicos de las deficiencias en los datos recopilados y resaltando el valor de optimizar el tiempo y los recursos clínicos valiosos), reconocemos que es prematuro limitar el alcance de los modelos y, por lo tanto, todos (y otras características) deben considerarse con investigaciones futuras hasta que tengamos un perfil más definitivo de las características prioritarias que serían aplicables a la población en general. Por lo tanto, también reconocemos plenamente que se necesitarían datos más inclusivos y ampliamente representativos y la optimización de estos y otros modelos antes de integrarlos en una aplicación clínica efectiva, especialmente para adaptarse a las comorbilidades que afectan el rendimiento cognitivo que deberían considerarse en una evaluación clínica adicional.

La utilidad de MemTrax se edificó aún más mediante el modelado de la gravedad de la enfermedad en función de un diagnóstico clínico separado. No se observó un mejor rendimiento general de la clasificación en la predicción de la gravedad de la demencia vascular (en comparación con la EA). sorprendente dadas las características del perfil del paciente en los modelos específicos de salud vascular y riesgo de accidente cerebrovascular, es decir, hipertensión, hiperlipidemia, diabetes y (por supuesto) antecedentes de accidente cerebrovascular. Aunque hubiera sido más deseable y apropiado realizar la misma evaluación clínica en pacientes emparejados con salud cognitiva normal para capacitar a los estudiantes con estos datos más inclusivos. Esto está especialmente justificado, ya que MemTrax está diseñado para usarse principalmente para la detección en etapa temprana de un déficit cognitivo y el seguimiento posterior del cambio individual. También es plausible que la distribución más deseable de los datos en el conjunto de datos VaD contribuyera en parte al rendimiento del modelado comparativamente mejor. El conjunto de datos de VaD estaba bien equilibrado entre las dos clases, mientras que el conjunto de datos de AD con muchos menos pacientes con DCL no lo estaba. Particularmente en conjuntos de datos pequeños, incluso unas pocas instancias adicionales pueden marcar una diferencia medible. Ambas perspectivas son argumentos razonables que subyacen a las diferencias en el rendimiento del modelado de la gravedad de la enfermedad. Sin embargo, es prematuro atribuir proporcionalmente el rendimiento mejorado a las características numéricas del conjunto de datos o las características inherentes específicas de la presentación clínica en consideración. No obstante, esta novela demostró la utilidad de un modelo de clasificación predictiva MemTrax en el papel de soporte de diagnóstico clínico que proporciona una perspectiva valiosa y afirma la búsqueda de un examen adicional con pacientes en todo el continuo de DCL.

La implementación y utilidad demostrada de MemTrax y estos modelos en China, donde el idioma y la cultura son drásticamente diferentes de otras regiones de utilidad establecida (p. ej., Francia, Países Bajos y Estados Unidos) [7, 8, 27], subraya aún más el potencial para la aceptación global generalizada y el valor clínico de una plataforma basada en MemTrax. Este es un ejemplo demostrable en la lucha por la armonización de datos y el desarrollo de normas internacionales prácticas y recursos de modelado para la detección cognitiva que están estandarizados y se adaptan fácilmente para su uso en todo el mundo.

Próximos pasos en el modelado y la aplicación del deterioro cognitivo

De hecho, la disfunción cognitiva en la EA ocurre en un continuo, no en etapas o pasos discretos [28, 29]. Sin embargo, en esta fase inicial, nuestro objetivo era primero establecer nuestra capacidad para construir un modelo que incorpore MemTrax que pueda distinguir fundamentalmente lo "normal" de lo "no normal". Datos empíricos más inclusivos (por ejemplo, imágenes cerebrales, características genéticas, biomarcadores, comorbilidades y marcadores funcionales de enfermedades complejas). actividades que requieren control) [30] a través de diversas regiones globales, poblaciones y grupos de edad para entrenar y desarrollar modelos de aprendizaje automático más sofisticados (incluido el conjunto adecuadamente ponderado) admitirá un mayor grado de clasificación mejorada, es decir, la capacidad de categorizar grupos de pacientes con DCL en subconjuntos más pequeños y definitivos a lo largo del continuo de deterioro cognitivo. Además, los diagnósticos clínicos concomitantes para individuos en poblaciones de pacientes regionalmente diversas son esenciales para entrenar efectivamente estos modelos más inclusivos y predeciblemente robustos. Esto facilitará un manejo de casos estratificado más específico para aquellos con antecedentes, influencias y perfiles cognitivos característicos definidos de manera más estrecha y, por lo tanto, optimizará el apoyo a las decisiones clínicas y la atención al paciente.

Gran parte de la investigación clínica relevante hasta la fecha se ha dirigido a pacientes con al menos demencia leve; y, en la práctica, con demasiada frecuencia la intervención del paciente solo se intenta en etapas avanzadas. Sin embargo, debido a que el deterioro cognitivo comienza mucho antes de que se cumplan los criterios clínicos para la demencia, una detección temprana basada en MemTrax aplicada de manera efectiva podría fomentar la educación adecuada de las personas sobre la enfermedad y sus avances y promover intervenciones más tempranas y oportunas. Por lo tanto, la detección temprana podría respaldar compromisos adecuados que van desde el ejercicio, la dieta, el apoyo emocional y una mejor socialización hasta la intervención farmacológica y reforzar los cambios en el comportamiento y la percepción relacionados con el paciente que, por sí solos o en conjunto, podrían mitigar o potencialmente detener la progresión de la demencia [31, 32] . Además, con eficacia detección temprana, las personas y sus familias pueden verse motivadas a considerar ensayos clínicos u obtener asesoramiento y otros servicios sociales de apoyo para ayudar a aclarar las expectativas e intenciones y manejar las tareas diarias. La validación adicional y la utilidad práctica generalizada de estas formas podrían ser fundamentales para mitigar o detener la progresión de MCI, AD y ADRD para muchas personas.

De hecho, el extremo inferior del rango de edad de los pacientes en nuestro estudio no representa la población de preocupación tradicional con DA. No obstante, la edad promedio para cada grupo utilizada en los esquemas de modelos de clasificación basados ​​en el puntaje/umbral de MoCA y la gravedad del diagnóstico (Tabla 3) subraya que una clara mayoría (más del 80%) tiene al menos 50 años. Esta distribución es, por lo tanto, muy apropiada para la generalización, lo que respalda la utilidad de estos modelos en la población que caracteriza a aquellos típicamente afectados por inicio temprano y enfermedad neurocognitiva floreciente debido a AD y VaD. Además, la evidencia y la perspectiva recientes enfatizan los factores reconocidos (p. ej., hipertensión, obesidad, diabetes y tabaquismo) que contribuyen potencialmente a una mayor puntuaciones de riesgo vascular en adultos y en la mediana edad y la consiguiente lesión cerebral vascular sutil que se desarrolla de manera insidiosa con efectos evidentes incluso en jóvenes adultos [33–35]. En consecuencia, la oportunidad de cribado inicial más óptima para detectar escenificar los déficits cognitivos e iniciar estrategias efectivas de prevención e intervención para abordar con éxito la demencia surgirá del examen de los factores contribuyentes y los indicadores antecedentes en todo el espectro de edad, incluida la edad adulta temprana y posiblemente incluso la infancia (observando la relevancia de los factores genéticos como la apolipoproteína E de la gestación temprana).

En la práctica, los diagnósticos clínicos válidos y los procedimientos costosos para imágenes avanzadas, perfiles genéticos y la medición de biomarcadores prometedores no siempre están disponibles ni son factibles para muchos proveedores. Por lo tanto, en muchos casos, la clasificación inicial del estado de salud cognitiva general puede tener que derivarse de modelos que utilizan otras métricas simples proporcionadas por el paciente (p. problemas de memoria, medicamentos actuales y limitaciones de la actividad rutinaria) y características demográficas comunes [7]. Registros como la Universidad de California Brain Health Registry (https://www.brainhealthregistry.org/) [27] y otros con una mayor amplitud inherente de síntomas autoinformados, medidas cualitativas (p. ej., sueño y cognición diaria), medicamentos, estado de salud e historial, y una demografía más detallada será fundamental para desarrollar y validar la aplicación práctica de estos modelos más primitivos en la clínica. Además, una prueba como MemTrax, que ha demostrado su utilidad para evaluar la función de la memoria, de hecho puede proporcionar una estimación sustancialmente mejor de la patología de la EA que los marcadores biológicos. Dado que la característica central de la patología de la EA es la interrupción de la neuroplasticidad y una pérdida abrumadoramente compleja de sinapsis, que se manifiesta como episódica disfunción de la memoria, una medida que evalúa la memoria episódica puede, de hecho, proporcionan una mejor estimación de la carga patológica de la EA que los marcadores biológicos en el paciente vivo [36].

Con todos los modelos predictivos, ya sea que se complementen con datos complejos e inclusivos de tecnología de punta y conocimientos clínicos refinados en múltiples dominios o que se limiten a información más básica y fácilmente disponible característica de los perfiles de pacientes existentes, la ventaja reconocida de la inteligencia artificial y el aprendizaje automático es que los modelos resultantes pueden sintetizar y "aprender" de manera inductiva a partir de nuevos datos y perspectivas relevantes proporcionados por la utilización continua de la aplicación. Después de la transferencia de tecnología práctica, a medida que los modelos aquí (y por desarrollar) se apliquen y se enriquezcan con más casos y datos pertinentes (incluidos pacientes con comorbilidades que podrían presentarse con el consiguiente deterioro cognitivo), el rendimiento de la predicción y la clasificación de la salud cognitiva serán más sólidos. resultando en una utilidad de apoyo a la decisión clínica más eficaz. Esta evolución se realizará de manera más completa y práctica con la incorporación de MemTrax en plataformas personalizadas (dirigidas a las capacidades disponibles) que los proveedores de atención médica podrían utilizar en tiempo real en la clínica.

Un imperativo para la validación y la utilidad del modelo MemTrax para el apoyo diagnóstico y la atención al paciente son datos longitudinales significativos muy buscados. Mediante la observación y el registro de los cambios concomitantes (si los hay) en el estado clínico en un rango adecuado desde normal hasta DCL en etapa temprana, los modelos para una evaluación y clasificación continuas adecuadas pueden entrenarse y modificarse a medida que los pacientes envejecen y reciben tratamiento. Es decir, la utilidad repetida puede ayudar con el seguimiento longitudinal de los cambios cognitivos leves, la eficacia de la intervención y el mantenimiento de una atención estratificada informada. Este enfoque se alinea más estrechamente con la práctica clínica y la gestión de pacientes y casos.

Limitaciones

Apreciamos el desafío y el valor de recopilar datos clínicos limpios en un entorno clínico/hospitalario controlado. No obstante, habría fortalecido nuestro modelo si nuestros conjuntos de datos incluyeran más pacientes con características comunes. Además, específicamente para nuestro modelo de diagnóstico, hubiera sido más deseable y apropiado tener la misma evaluación clínica realizada en pacientes emparejados con salud cognitiva normal para capacitar a los estudiantes. Y como lo subraya el mayor rendimiento de clasificación utilizando el conjunto de datos filtrados (solo las cuatro características mejor clasificadas), más general y las medidas/indicadores de salud cognitiva probablemente habrían mejorado rendimiento del modelado con un mayor número de características comunes a todos los pacientes.

Ciertos participantes podrían haber estado experimentando concomitantemente otras enfermedades que podrían haber provocado deficiencias cognitivas transitorias o crónicas. Aparte del subconjunto de datos XL en el que los pacientes se clasificaron de forma diagnóstica con EA o VaD, los datos de comorbilidad no se recopilaron/informaron en el grupo de pacientes YH, y la comorbilidad notificada predominante en el subconjunto de datos KM fue la diabetes. Sin embargo, es discutible que la inclusión de pacientes en nuestros esquemas de modelado con comorbilidades que podrían provocar o exacerbar un nivel de deficiencia cognitiva y un menor rendimiento de MemTrax en consecuencia sería más representativo de la población de pacientes objetivo del mundo real para este examen cognitivo temprano más generalizado. y enfoque de modelado. En el futuro, el diagnóstico preciso de las comorbilidades que pueden afectar el rendimiento cognitivo es ampliamente beneficioso para optimizar los modelos y las aplicaciones resultantes de atención al paciente.

Por último, los pacientes del subconjunto de datos YH y KM usaron un teléfono inteligente para realizar la prueba MemTrax, mientras que un número limitado de pacientes del subconjunto de datos XL usaron un iPad y el resto usó un teléfono inteligente. Esto podría haber introducido una diferencia menor relacionada con el dispositivo en el rendimiento de MemTrax para el modelado de clasificación MoCA. Sin embargo, las diferencias (si las hay) en MTx-RT, por ejemplo, entre dispositivos probablemente serían insignificantes, especialmente si cada participante recibe una prueba de "práctica" justo antes del rendimiento de la prueba registrada. Sin embargo, la utilidad de estos dos dispositivos portátiles potencialmente compromete la comparación directa y/o la integración con otros resultados de MemTrax donde los usuarios respondieron a las imágenes repetidas tocando la barra espaciadora en el teclado de una computadora.

Puntos clave de la utilidad de modelado predictivo MemTrax

  • • Nuestros modelos predictivos de alto rendimiento que abarcan métricas de rendimiento seleccionadas de MemTrax podrían clasificar de manera confiable el estado de salud cognitiva (salud cognitiva normal o MCI) como lo indicaría la prueba MoCA ampliamente reconocida.
  • • Estos resultados respaldan la integración de las métricas de rendimiento de MemTrax seleccionadas en una aplicación de detección de modelo predictivo de clasificación para el deterioro cognitivo en etapa temprana.
  • • Nuestro modelo de clasificación también reveló el potencial para utilizar el rendimiento de MemTrax en aplicaciones para distinguir la gravedad del diagnóstico de demencia.

Estos nuevos hallazgos establecen evidencia definitiva que respalda la utilidad del aprendizaje automático en la construcción de modelos de clasificación sólidos mejorados basados ​​en MemTrax para el apoyo de diagnóstico en el manejo efectivo de casos clínicos y la atención de pacientes para personas que experimentan deterioro cognitivo.

AGRADECIMIENTOS

Reconocemos el trabajo de J. Wesson Ashford, Curtis B. Ashford y sus colegas por desarrollar y validar la tarea y la herramienta de reconocimiento continuo en línea (MemTrax) utilizada aquí y estamos agradecidos a los numerosos pacientes con demencia que contribuyeron a la investigación fundamental fundamental . También agradecemos a Xianbo Zhou y sus colegas de SJN Biomed LTD, sus colegas y colaboradores en los hospitales/clínicas, especialmente a los Dres. M. Luo y M. Zhong, quienes ayudaron con el reclutamiento de participantes, la programación de pruebas y la recopilación, el registro y la gestión inicial de los datos, y los participantes voluntarios que donaron su valioso tiempo y se comprometieron a realizar las pruebas y proporcionar los datos valiosos para que los evalúemos en este estudio. Este estudio fue apoyado en parte por el MD Scientific Research Programa de la Universidad Médica de Kunming (Subvención n.º 2017BS028 a XL) y el Programa de Investigación del Departamento de Ciencia y Tecnología de Yunnan (Subvención n.º 2019FE001 (-222) a XL).

J. Wesson Ashford ha presentado una solicitud de patente para el uso del paradigma de reconocimiento continuo específico descrito en este documento para general prueba de memoria.

MemTrax, LLC es una empresa propiedad de Curtis Ashford, y esta empresa administra la prueba de memoria sistema descrito en este trabajo.

Divulgaciones de los autores disponibles en línea (https://www.j-alz.com/manuscript-disclosures/19-1340r2).

prueba de memoria prueba de demencia prueba de pérdida de memoria prueba de pérdida de memoria a corto plazo prueba de ram la dieta de la mente variedad de libros prueba cognitiva en línea
Curtis Ashford – Coordinador de Investigación Cognitiva

Referencias

[ 1 ] Asociación de Alzheimer (2016) Datos sobre la enfermedad de Alzheimer de 2016 y figuras Alzheimers Dement 12, 459–509.
[2] Gresenz CR , Mitchell JM , Marrone J , Federoff HJ (2019) Efecto de la etapa temprana La enfermedad de Alzheimer sobre los resultados financieros de los hogares. Economía de la salud 29, 18–29.
[ 3 ] Foster NL , Bondi MW , Das R , Foss M , Hershey LA , Koh S , Logan R , Poole C , Shega JW , Sood A , Thothala N , Wicklund M , Yu M , Bennett A , Wang D (2019) Mejora de la calidad en neurologia: Conjunto de medición de la calidad del deterioro cognitivo leve. Neurología 93, 705–713.
[4] Tong T , Thokala P , McMillan B , Ghosh R , Brazier J (2017) Rentabilidad del uso Pruebas de cribado cognitivo para la detección de demencia y deterioro cognitivo leve en atención primaria. Int J Geriatr Psiquiatría 32, 1392–1400.
[5] Ashford JW, Gere E, Bayley PJ (2011) Memoria de medición en entornos de grupos grandes utilizando una prueba de reconocimiento continuo. J Alzheimers Dis 27, 885–895.
[ 6 ] Ashford JW , Tarpin-Bernard F , Ashford CB , Ashford MT (2019) Una tarea computarizada de reconocimiento continuo para la medición de la memoria episódica. J Alzheimers Dis 69, 385–399.
[ 7 ] Bergeron MF, Landset S, Tarpin-Bernard F, Ashford CB, Khoshgoftaar TM, Ashford JW (2019) Rendimiento de la memoria episódica en el modelado de aprendizaje automático para predecir la clasificación del estado de salud cognitiva. J Alzheimers Dis 70, 277–286.
[8] van der Hoek MD , Nieuwenhuizen A , Keijer J , Ashford JW (2019) El Prueba MemTrax en comparación con la estimación de la evaluación cognitiva de Montreal del deterioro cognitivo leve. J Alzheimers Dis 67, 1045–1054.
[ 9 ] Falcone M , Yadav N , Poellabauer C , Flynn P (2013) Uso de sonidos vocálicos aislados para la clasificación de lesiones cerebrales traumáticas leves. En 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, págs. 7577–7581.
[ 10 ] Dabek F, Caban JJ (2015) Aprovechamiento de grandes datos para modelar la probabilidad de desarrollar condiciones psicológicas después de una conmoción cerebral. Procedia Comput Sci 53, 265–273.
[ 11 ] Climent MT , Pardo J , Muñoz-Almaraz FJ , Guerrero MD , Moreno L (2018) Árbol de decisión para la detección temprana del deterioro cognitivo por farmacéuticos comunitarios. Frente Pharmacol 9, 1232.
[ 12 ] Nasreddine ZS , Phillips NA , Bedirian V , Charbonneau S , Whitehead V , Collin I , Cummings JL , Chertkow H (2005) The Montreal Cognitive Assessment, MoCA: Una breve herramienta de detección para el deterioro cognitivo leve. J Am Geriatr Soc 53, 695–699.
[ 13 ] Yu J , Li J , Huang X (2012) La versión de Beijing de la evaluación cognitiva de Montreal como una herramienta de detección breve para el deterioro cognitivo leve: un estudio basado en la comunidad. BMC Psiquiatría 12, 156.
[ 14 ] Chen KL , Xu Y , Chu AQ , Ding D , Liang XN , Nasreddine ZS , Dong Q , Hong Z , Zhao QH , Guo QH (2016) Validación de la versión china de la evaluación cognitiva básica de Montreal para la detección del deterioro cognitivo leve. J Am Geriatr Soc 64, e285–e290.
[ 15 ] Carson N , Leach L , Murphy KJ (2018) Un nuevo examen de las puntuaciones de corte de la Evaluación Cognitiva de Montreal (MoCA). Int J Geriatr Psiquiatría 33, 379–388.
[ 16 ] Asociación Estadounidense de Psiquiatría (2013) Grupo de trabajo Manual diagnóstico y estadístico de trastornos mentales: DSM-5™, American Psychiatric Publishing, Inc., Washington, DC.
[ 17 ] Pitón. Python Software Foundation, http://www.python.org, consultado el 15 de noviembre de 2019.
[ 18 ] R Core Group, R: un lenguaje y un entorno para la computación estadística R Foundation for Statistical Computing, Viena, Austria. https://www.R-project.org/, 2018, consultado el 15 de noviembre de 2019.
[ 19 ] Benavoli A , Corani G , Demšar J , Zaffalon M (2017) Es hora de cambiar: un tutorial para comparar clasificadores múltiples a través del análisis bayesiano. J Mach Learn Res 18, 1–36.
[ 20 ] Frank E , Hall MA , Witten IH (2016) El banco de trabajo WEKA. En Minería de datos: herramientas y técnicas prácticas de aprendizaje automático, Frank E, Hall MA, Witten IH, Pal CJ, eds. Morgan Kaufmann https://www.cs.waikato.ac.nz/ml/weka/Witten_et_al_2016_appendix.pdf
[ 21 ] Bergeron MF , Landset S , Maugans TA , Williams VB , Collins CL , Wasserman EB , Khoshgoftaar TM (2019) Aprendizaje automático en el modelado de resolución de síntomas de conmoción cerebral en deportes de secundaria. Med Sci Sports Ejercicio 51, 1362–1371.
[ 22 ] Van Hulse J, Khoshgoftaar TM, Napolitano A (2007) Perspectivas experimentales sobre el aprendizaje a partir de datos desequilibrados. En Actas de la 24ª Conferencia Internacional sobre Aprendizaje Automático, Corvalis, Oregón, EE. UU., págs. 935-942.
[ 23 ] Ashford JW , Kolm P , Colliver JA , Bekian C , Hsu LN (1989) Evaluación del paciente con Alzheimer y el estado minimental: Análisis de la curva característica del ítem.P. J Gerontol 44, 139–146.
[24] Ashford JW, Jarvik L (1985) La enfermedad de Alzheimer: ¿La plasticidad neuronal predispone a la degeneración neurofibrilar axonal? N Engl J Med 313, 388–389.
[25] Jack CR Jr , Therneau TM , Weigand SD , ​​Wiste HJ , Knopman DS , Vemuri P , Lowe VJ , Mielke MM , Roberts RO , Machulda MM , Graff-Radford J , Jones DT , Schwarz CG , Gunter JL , Senjem ML , Rocca WA , Petersen RC (2019) Prevalencia de entidades del espectro de Alzheimer definidas biológicamente frente a clínicamente utilizando el Instituto Nacional sobre el Envejecimiento-Alzheimer Investigación de la Asociación estructura. JAMA Neurol 76, 1174–1183.
[26] Zhou X , Ashford JW (2019) Avances en instrumentos de detección para La enfermedad de Alzheimer. Envejecimiento Med 2, 88–93.
[27] Weiner MW , Nosheny R , Camacho M , Truran-Sacrey D , Mackin RS , Flenniken D , Ulbricht A , Insel P , Finley S , Fockler J , Veitch D (2018) El Brain Health Registro: una plataforma basada en Internet para el reclutamiento, la evaluación y el seguimiento longitudinal de participantes para estudios de neurociencia. Alzheimers Dement 14, 1063–1076.
[28] Ashford JW, Schmitt FA (2001) Modeling the time-course of Demencia de Alzheimer. Representante de Psiquiatría de Curr 3, 20-28.
[ 29 ] Li X , Wang X , Su L , Hu X , Han Y (2019) Estudio longitudinal chino sobre el deterioro cognitivo (SILCODE): Protocolo para un estudio observacional longitudinal chino para desarrollar modelos de predicción de riesgo de conversión a deterioro cognitivo leve en personas con deterioro cognitivo subjetivo rechazar. BMJ Abierto 9, e028188.
[30] Tarnanas I , Tsolaki A , Wiederhold M , Wiederhold B , Tsolaki M (2015) Variabilidad de progresión de biomarcadores de cinco años para Demencia de la enfermedad de Alzheimer predicción: ¿Puede un marcador de actividades instrumentales complejas de la vida diaria llenar los vacíos? Demencia de Alzheimer (Amst) 1, 521–532.
[31] McGurran H , Glenn JM , Madero EN , Bott NT (2019) Prevención y tratamiento de la enfermedad de Alzheimer: Mecanismos biológicos del ejercicio. J Alzheimers Dis 69, 311–338.
[32] Mendiola-Precoma J , Berumen LC , Padilla K , García-Alcocer G (2016) Terapias para prevención y tratamiento de la enfermedad de Alzheimer. Biomed Res Int 2016, 2589276.
[ 33 ] Lane CA , Barnes J , Nicholas JM , Sudre CH , Cash DM , Malone IB , Parker TD , Keshavan A , Buchanan SM , Keuss SE , James SN , Lu K , Murray-Smith H , Wong A , Gordon E , Coath W , Modat M , Thomas D , Richards M , Fox NC , Schott JM (2020) Asociaciones entre el riesgo vascular en la edad adulta y la patología cerebral en la vejez: evidencia de una cohorte de nacimiento británica. JAMA Neurol 77, 175–183.
[ 34 ] Seshadri S (2020) Prevención de la demencia-pensamiento más allá de la edad y cajas amiloides. JAMA Neurol 77, 160–161.
[ 35 ] Maillard P , Seshadri S , Beiser A , Himali JJ , Au R , Fletcher E , Carmichael O , Wolf PA , DeCarli C (2012) Efectos de la presión arterial sistólica en la integridad de la materia blanca en adultos jóvenes en el Framingham Heart Study: A cross -estudio seccional. Lancet Neurol 11, 1039–1047.
[36] Fink HA, Linskens EJ, Silverman PC, McCarten JR, Hemmy LS, Ouellette JM, Greer NL, Wilt TJ, Butler M (2020) Precisión de las pruebas de biomarcadores para neuropatológicamente definidos Enfermedad de Alzheimer en adultos mayores con demencia. Ann Intern Med 172, 669–677.

Afiliaciones: [a] SIVOTEC Analytics, Boca Raton, FL, EE. UU. | [b] Departamento de Ingeniería Informática y Eléctrica y Ciencias de la Computación, Florida Atlantic University, Boca Raton, FL, EE. UU. | [c] SJN Biomed LTD, Kunming, Yunnan, China | [d] Centro de Investigación sobre el alzhéimer, Instituto de Investigación Clínica de Washington, Washington, DC, EE. UU. | [e] Departamento de Medicina de Rehabilitación, El Primer Hospital Afiliado de la Universidad Médica de Kunming, Kunming, Yunnan, China | [f] Departamento de Neurología, Hospital Popular de Dehong, Dehong, Yunnan, China | [g] Departamento de Neurología, Primer Hospital Afiliado de la Universidad Médica de Kunming, Distrito de Wuhua, Kunming, Provincia de Yunnan, China | [h] Centro de estudios sobre lesiones y enfermedades relacionadas con la guerra, VA Palo Alto Atención médica System, Palo Alto, CA, EE. UU. | [i] Departamento de Psiquiatría y Ciencias del Comportamiento, Facultad de Medicina de la Universidad de Stanford, Palo Alto, CA, EE. UU.

Correspondencia: [*] Correspondencia a: Michael F. Bergeron, PhD, FACSM, SIVOTEC Analytics, Boca Raton Innovation Campus, 4800 T-Rex Avenue, Suite 315, Boca Raton, FL 33431, USA. Correo electrónico: mbergeron@sivotecanalytics.com.; Xiaolei Liu, MD, Departamento de Neurología, Primer Hospital Afiliado de la Universidad Médica de Kunming, 295 Xichang Road, Distrito de Wuhua, Kunming, Provincia de Yunnan 650032, China. Correo electrónico: ring@vip.163.com.

Palabras clave: Envejecimiento, La enfermedad de Alzheimer, demencia, tamizaje masivo