Użyteczność modelowania MemTrax i uczenia maszynowego w klasyfikacji łagodnych zaburzeń poznawczych

artykuł naukowy

Autorzy: Bergeron, Michael F. | Landset, Sara | Zhou, Xianbo | Ding, Tao | Khoshgoftaar, Taghi M. | Zhao, Feng | Du, Bo | Chen, Xinjie | Wang, Xuan | Zhong, Lianmei | Liu, Xiaolei| Ashford, J. Wesson

DOI: 10.3233/JAD-191340

Dziennik: Dziennik z Choroba Alzheimera, vol. 77, nie. 4, str. 1545-1558, 2020

Abstrakcyjny

Tło:

The widespread incidence and prevalence of Chorobę Alzheimera and mild cognitive impairment (MCI) has prompted an urgent call for research to validate early detection cognitive screening and assessment.

Cel:

Naszym głównym celem badawczym było ustalenie, czy wybrane metryki wydajności MemTrax oraz odpowiednie cechy demograficzne i profil zdrowia mogą być skutecznie wykorzystane w modelach predykcyjnych opracowanych z wykorzystaniem uczenia maszynowego do klasyfikacji zdrowia poznawczego (normalne w porównaniu z MCI), jak wskazuje Montrealna ocena poznawcza (MoCA).

metody:

Przeprowadziliśmy badanie przekrojowe na 259 dorosłych pacjentach z neurologii, kliniki pamięci i chorób wewnętrznych zrekrutowanych z dwóch osób szpitale w Chinach. Każdy pacjent otrzymał chińskojęzyczny MoCA i sam zaaplikował sobie epizodyczny odcinek online MemTrax test pamięci online tego samego dnia. Modele klasyfikacji predykcyjnej zostały zbudowane przy użyciu uczenia maszynowego z 10-krotną walidacją krzyżową, a wydajność modelu została zmierzona za pomocą krzywej obszaru pod krzywą charakterystyki operacyjnej odbiornika (AUC). Modele zostały zbudowane przy użyciu dwóch metryk wydajności MemTrax (procent poprawności, czas odpowiedzi) wraz z ośmioma typowymi cechami demograficznymi i osobistymi.

wyniki:

Porównując uczniów w wybranych kombinacjach wyników i progów MoCA, Naïve Bayes był ogólnie najskuteczniejszym uczniem z ogólną wydajnością klasyfikacji 0.9093. Co więcej, wśród trzech najlepszych uczniów, ogólna wydajność klasyfikacji opartej na MemTrax była lepsza przy użyciu tylko czterech najwyżej sklasyfikowanych cech (0.9119) w porównaniu z zastosowaniem wszystkich 10 wspólnych funkcji (0.8999).

Wnioski:

MemTrax performance can be effectively utilized in a machine learning classification predictive model screening application for detecting early stage cognitive impairment.

WPROWADZENIE

The recognized (albeit underdiagnosed) wide-spread incidence and prevalence and parallel escalating medical, social, and public zdrowia costs and burden of Alzheimer’s disease (AD) and mild cognitive impairment (MCI) are increasingly straining for all stakeholders [1, 2]. This distressing and bourgeoning scenario has prompted an urgent call for research to validate wczesne wykrywanie cognitive screening and assessment instruments for regular practical utility in personal and clinical settings for older patients across diverse regions and populations [3]. These instruments must also provide for seamless translation of informative results into electronic health records. The benefits will be realized by informing patients and assisting physicians in recognizing significant changes earlier and thus enable more prompt and timely stratification, implementation, and tracking of appropriate individualized and more cost-effective treatment and patient care for those beginning to experience spadek funkcji poznawczych [3, 4].

Skomputeryzowane narzędzie MemTrax (https://memtrax.com) is a simple and brief continuous recognition assessment that can be self-administered online to measure challenging timed episodic memory performance where the user responds to repeated images and not to an initial presentation [5, 6]. Recent research and resulting practical implications are beginning to progressively and collectively demonstrate the clinical efficacy of MemTrax in early AD and MCI screening [5–7]. However, direct comparison of clinical utility to existing zdrowie poznawcze assessment and conventional standards is warranted to inform professional perspective and corroborate MemTrax utility in early detection and diagnostic support. van der Hoek et al. [8] compared selected MemTrax performance metrics (reaction speed and percent correct) to cognitive status as determined by the Montreal Ocena poznawcza (MoCA). Jednak badanie to ograniczało się do powiązania tych wskaźników wydajności z charakterystyką stanu poznawczego (określonego przez MoCA) oraz zdefiniowania względnych zakresów i wartości odcięcia. W związku z tym, aby rozszerzyć to badanie i poprawić wydajność i skuteczność klasyfikacji, nasze główne pytanie badawcze brzmiało:

  • Can an individual’s selected MemTrax performance metrics and relevant demographics and health profil characteristics be effectively utilized in a predictive model developed with machine learning to classify cognitive health dichotomously (normal versus MCI), as would be indicated by one’s MoCA score?

Oprócz tego chcieliśmy wiedzieć:

  • Uwzględniając te same funkcje, czy model uczenia maszynowego MemTrax oparty na wydajności można skutecznie zastosować u pacjenta w celu przewidzenia nasilenia (łagodnego lub ciężkiego) w wybranych kategoriach zaburzeń poznawczych, które zostałyby określone przez niezależną diagnozę kliniczną?

Pojawienie się i rozwijające się praktyczne zastosowanie sztucznej inteligencji i uczenia maszynowego w badaniach przesiewowych/wykrywaniu wykazało już wyraźne korzyści praktyczne, a modelowanie predykcyjne skutecznie prowadzi klinicystów w trudnej ocenie zdrowia poznawczego/mózgu i zarządzania pacjentem. W naszym badaniu wybraliśmy podobne podejście w modelowaniu klasyfikacji MCI i dyskryminacji nasilenia zaburzeń poznawczych, co zostało potwierdzone diagnozą kliniczną z trzech zestawów danych reprezentujących wybranych pacjentów hospitalizowanych i ambulatoryjnych z dwóch szpitali w Chinach. Korzystając z modelowania predykcyjnego uczenia maszynowego, zidentyfikowaliśmy najlepszych uczniów z różnych kombinacji zestawów danych/uczących się i uszeregowaliśmy funkcje, które pomogą nam w zdefiniowaniu najbardziej praktycznych klinicznie zastosowań modeli.

Nasze hipotezy były takie, że zwalidowany model oparty na MemTrax może być wykorzystany do dychotomicznej klasyfikacji zdrowia poznawczego (normalny lub MCI) w oparciu o kryterium progu wyniku zagregowanego wyniku MoCA, oraz że podobny model predykcyjny MemTrax może być skutecznie zastosowany do rozróżniania nasilenia w wybranych kategoriach zdiagnozowane klinicznie zaburzenia poznawcze. Wykazanie oczekiwanych wyników miałoby zasadnicze znaczenie we wspieraniu skuteczności MemTrax jako ekranu wczesnego wykrywania pogorszenia funkcji poznawczych i klasyfikacji zaburzeń poznawczych. Korzystne porównanie z rzekomym standardem branżowym, uzupełnione o znacznie większą łatwość i szybkość użycia, miałoby wpływ na pomoc klinicystom w przyjęciu tego prostego, niezawodnego i dostępnego narzędzia jako wstępnego badania przesiewowego w wykrywaniu wczesnych (w tym prodromalnych) deficytów poznawczych. Takie podejście i użyteczność mogą zatem skłonić do bardziej terminowej i lepiej usystematyzowanej opieki nad pacjentem i interwencji. Te wybiegające w przyszłość spostrzeżenia oraz ulepszone metryki i modele mogą być również pomocne w łagodzeniu lub powstrzymywaniu postępu demencji, w tym AD i demencji związanych z AD (ADRD).

MATERIAŁY I METODY

Badana populacja

Between January 2018 and August 2019, cross-sectional research was completed on patients recruited from two hospitals in China. The administration of MemTrax [5] to individuals aged 21 years and over and the collection and analysis of those data were reviewed and approved by and administered in accord with the ethical standards of the Człowiek Subject Protection Committee of Stanford University. MemTrax and all other testing for this overall study were performed according to the Helsinki declaration of 1975 and approved by the Institutional Review Board of the First Affiliated Hospital of Kunming Medical University in Kunming, Yunnan, China. Each user was provided an świadoma zgoda form to read/review and then voluntarily agree to participate.

Participants were recruited from the pool of outpatients in the neurology clinic at the Yanhua Hospital (YH sub-dataset) and the memory clinic at the First Affiliated Hospital of Kunming Medical University (XL sub-dataset) in Beijing, China. Participants were also recruited from neurology (XL sub-dataset) and internal medicine (KM sub-dataset) inpatients at the First Affiliated Hospital of Kunming Medical University. Inclusion criteria included 1) men and women at least 21 years old, 2) ability to speak Chinese (Mandarin), and 3) ability to understand verbal and written directions. Exclusion criteria were vision and motor impairments preventing participants from completing the Test MemTrax, as well the inability to understand the specific test instructions.

Chińska wersja MemTrax

Internet MemTrax test platform was translated into Chinese (URL: https://www.memtrax.com.cn) and further adapted to be utilized through WeChat (Shenzhen Tencent Computer Systems Co. LTD., Shenzhen, Guangdong, China) for self-administration. Data were stored on a cloud server (Ali Cloud) located in China and licensed from Alibaba (Alibaba Technology Co. Ltd., Hangzhou, Zhejiang, China) by SJN Biomed LTD (Kunming, Yunnan, China). Specific details on MemTrax and test validity criteria used here have been described previously [6]. The test was provided at no charge to the patients.

Procedury badania

For the inpatients and outpatients, a general paper questionnaire for collecting demographic and personal information such as age, sex, years of education, occupation, życia w pojedynkę or with family, and medical history was administered by a member of the study team. Following completion of the questionnaire, the MoCA [12] and MemTrax tests were administered (MoCA first) with no more than 20 minutes between tests. MemTrax percent correct (MTx-% C), mean response time (MTx-RT), and date and time of the testing were recorded on paper by a member of the study team for each participant tested. The completed questionnaire and the results of the MoCA were uploaded into an Excel spreadsheet by the researcher who administered the tests and verified by a colleague before the Excel files were saved for analyses.

Test MemTrax

Test online MemTrax obejmował 50 obrazów (25 unikalnych i 25 powtórzeń; 5 zestawów po 5 obrazów typowych scen lub obiektów) pokazanych w określonej pseudolosowej kolejności. Uczestnik (zgodnie z instrukcjami) dotykał przycisku Start na ekranie, aby rozpocząć test i rozpocząć przeglądanie serii obrazów, a następnie ponownie dotknąć obrazu na ekranie tak szybko, jak to możliwe, gdy pojawi się powtarzający się obraz. Każdy obraz pojawiał się przez 3 s lub do momentu dotknięcia obrazu na ekranie, co spowodowało natychmiastową prezentację kolejnego obrazu. Wykorzystując wewnętrzny zegar urządzenia lokalnego, MTx-RT dla każdego obrazu określano na podstawie czasu, jaki upłynął od prezentacji obrazu do momentu dotknięcia ekranu przez uczestnika w odpowiedzi na wskazanie rozpoznania obrazu jako już pokazanego podczas testu. MTx-RT rejestrowano dla każdego obrazu, przy czym rejestrowano pełne 3 s, co wskazuje na brak odpowiedzi. MTx-% C obliczono, aby wskazać procent powtórzonych i początkowych obrazów, na które użytkownik zareagował poprawnie (prawdziwie dodatni + prawdziwy ujemny podzielony przez 50). Dodatkowe szczegóły dotyczące administrowania i wdrażania MemTrax, redukcji danych, danych nieważnych lub „braku odpowiedzi” oraz analizy danych pierwotnych są opisane w innym miejscu [6].

Test MemTrax został szczegółowo wyjaśniony, a uczestnikom w warunkach szpitalnych udostępniono test praktyczny (z unikalnymi obrazami innymi niż te, które wykorzystano w teście do rejestrowania wyników). Uczestnicy podzbiorów danych YH i KM wykonali test MemTrax na smartfonie załadowanym aplikacją na WeChat; podczas gdy ograniczona liczba pacjentów z podzbioru danych XL używała iPada, a pozostali używali smartfona. Wszyscy uczestnicy wzięli udział w teście MemTrax z badaczem, który dyskretnie obserwował.

Montrealska ocena poznawcza

The Beijing version of the Chinese MoCA (MoCA-BC) [13] was administered and scored by trained researchers according to the official test instructions. Suitably, the MoCA-BC has been shown to be a reliable test for cognitive screening across all education levels in Chinese elderly adults [14]. Each test took about 10 to 30 minutes to administer based on the respective participant’s cognitive abilities.

Modelowanie klasyfikacji MoCA

There was a total of 29 usable features, including two MemTrax test performance metrics and 27 features related to demographic and health information for each participant. Each patient’s MoCA aggregate test score was used as the przesiewowe badania poznawcze „benchmark” do trenowania naszych modeli predykcyjnych. W związku z tym, ponieważ MoCA zostało użyte do stworzenia etykiety klasy, nie mogliśmy użyć wyniku zagregowanego (ani żadnego z wyników podzbioru MoCA) jako niezależnej funkcji. Przeprowadziliśmy wstępne eksperymenty, w których indywidualnie modelowaliśmy (klasyfikując zdrowie poznawcze zdefiniowane przez MoCA) oryginalne trzy podzbiory danych szpitala/kliniki, a następnie połączyliśmy je przy użyciu wszystkich cech. Jednak wszystkie te same elementy danych nie zostały zebrane w każdej z czterech klinik reprezentujących trzy podzbiory danych; w związku z tym wiele naszych funkcji w połączonym zbiorze danych (przy użyciu wszystkich funkcji) miało wysoką częstość występowania brakujących wartości. Następnie zbudowaliśmy modele z połączonym zestawem danych, używając tylko wspólnych funkcji, co zaowocowało lepszą wydajnością klasyfikacji. Zostało to prawdopodobnie wyjaśnione kombinacją posiadania większej liczby instancji do pracy poprzez połączenie trzech podzbiorów danych pacjenta i braku cech z nadmierną częstością brakujących wartości (tylko jedna cecha w połączonym zbiorze danych, rodzaj pracy, miała jakiekolwiek brakujące wartości, co wpływa na tylko trzy przypadki pacjentów), ponieważ uwzględniono tylko wspólne cechy zarejestrowane we wszystkich trzech ośrodkach. Warto zauważyć, że nie mieliśmy konkretnego kryterium odrzucenia dla każdej funkcji, która ostatecznie nie została uwzględniona w połączonym zbiorze danych. Jednak w naszym wstępnym modelowaniu połączonych zestawów danych najpierw użyliśmy wszystkich funkcji z każdego z trzech oddzielnych podzbiorów danych pacjenta. To szeroko zaowocowało wydajnością modelu, która była wymiernie niższa niż początkowe wstępne modelowanie na każdym indywidualnym podzbiorze danych. Co więcej, podczas gdy skuteczność klasyfikacji modeli zbudowanych przy użyciu wszystkich cech była zachęcająca, w przypadku wszystkich uczniów i schematów klasyfikacji, wydajność poprawiła się w przypadku dwukrotnie większej liczby modeli przy użyciu tylko wspólnych cech. W rzeczywistości wśród tego, co ostatecznie stało się naszymi najlepszymi uczniami, wszystkie modele oprócz jednego poprawiły się po wyeliminowaniu nietypowych funkcji.

Ostateczny zagregowany zestaw danych (łącznie YH, XL i KM) obejmował 259 instancji, z których każda reprezentuje unikalnego uczestnika, który wziął zarówno testy MemTrax, jak i MoCA. Istniało 10 wspólnych niezależnych cech: Miary wydajności MemTrax: MTx-% C i średnia MTx-RT; informacje demograficzne i z historii choroby: wiek, płeć, lata wykształcenia, rodzaj pracy (robotniczy/urzędniczy), wsparcie społeczne (czy osoba badana mieszka sama, czy z rodziną) oraz odpowiedzi tak/nie, czy osoba badana miała historia cukrzycy, hiperlipidemii lub urazowego uszkodzenia mózgu. Dwie dodatkowe metryki, zagregowany wynik MoCA i zagregowany wynik MoCA skorygowany o lata edukacji [12], zostały użyte oddzielnie do opracowania zależnych etykiet klasyfikacji, tworząc w ten sposób dwa odrębne schematy modelowania do zastosowania w naszym połączonym zbiorze danych. Dla każdej wersji (skorygowanej i nieskorygowanej) wyniku MoCA dane ponownie modelowano oddzielnie pod kątem klasyfikacji binarnej przy użyciu dwóch różnych progów kryterialnych – początkowo zalecanego [12] oraz alternatywnej wartości wykorzystywanej i promowanej przez innych [8, 15]. W alternatywnym schemacie klasyfikacji progowej pacjent był uważany za zdrowy poznawczy, jeśli uzyskał ≥23 punktów w teście MoCA i MCI, jeśli wynik wynosił 22 lub mniej; podczas gdy w początkowym zalecanym formacie klasyfikacji pacjent musiał uzyskać wynik 26 lub lepszy w MoCA, aby zostać oznaczonym jako mający normalne zdrowie poznawcze.

Przefiltrowane dane do modelowania klasyfikacji MoCA

Następnie zbadaliśmy klasyfikację MoCA przy użyciu czterech powszechnie stosowanych technik rankingu cech: Chi-Squared, Gain Ratio, Information Gain i Symetrical Uncertainty. W perspektywie tymczasowej zastosowaliśmy rankingi do całego połączonego zestawu danych przy użyciu każdego z naszych czterech schematów modelowania. Wszyscy oceniający byli zgodni co do tych samych najważniejszych cech, tj. wieku, liczby lat edukacji i obu wskaźników wydajności MemTrax (MTx-% C, średnia MTx-RT). Następnie przebudowaliśmy modele przy użyciu każdej techniki wyboru funkcji, aby wytrenować modele tylko na czterech najważniejszych funkcjach (patrz Wybór funkcji poniżej).

Otrzymane końcowe osiem odmian schematów modelowania klasyfikacji punktowej MoCA przedstawiono w tabeli 1.

Tabela 1

Podsumowanie wariantów schematu modelowania stosowanego do klasyfikacji MoCA (Normal Zdrowie poznawcze w porównaniu z MCI)

Schemat modelowaniaNormalne zdrowie poznawcze (klasa ujemna)MCI (klasa pozytywna)
Skorygowane-23 Niefiltrowane/Przefiltrowane101 (% 39.0)158 (% 61.0)
Skorygowane-26 Niefiltrowane/Przefiltrowane49 (% 18.9)210 (% 81.1)
Niedopasowane-23 Niefiltrowane/filtrowane92 (% 35.5)167 (% 64.5)
Niedopasowane-26 Niefiltrowane/filtrowane42 (% 16.2)217 (% 83.8)

Odpowiednią liczbę i odsetek wszystkich pacjentów w każdej klasie różnicuje się przez dostosowanie wyniku dla wykształcenia (skorygowany lub nieskorygowany) i progu klasyfikacji (23 lub 26), zastosowanego do obu zestawów cech (niefiltrowany i niefiltrowany).

Modelowanie oceny klinicznej oparte na MemTrax

Z naszych trzech oryginalnych podzbiorów danych (YH, XL, KM), tylko pacjenci z podzbiorami danych XL zostali niezależnie zdiagnozowani klinicznie pod kątem upośledzenia funkcji poznawczych (tj. ich odpowiednie wyniki MoCA nie zostały użyte w ustaleniu klasyfikacji normalnych względem upośledzonych). W szczególności u pacjentów z XL zdiagnozowano: Test na chorobę Alzheimera (AD) lub otępienie naczyniowe (VaD). W każdej z tych podstawowych kategorii diagnostycznych istniało dalsze oznaczenie MCI. Rozpoznanie MCI, otępienia, naczyniowego zaburzenia neuropoznawczego i zaburzenia neuropoznawczego spowodowanego AD opierało się na specyficznych i charakterystycznych kryteriach diagnostycznych przedstawionych w Diagnostic and Statistical Manual of Mental Disorders: DSM-5 [16]. Biorąc pod uwagę te udoskonalone diagnozy, dwa schematy modelowania klasyfikacji zastosowano oddzielnie do podzbioru danych XL, aby odróżnić poziom ciężkości (stopień upośledzenia) dla każdej podstawowej kategorii diagnozy. Dane wykorzystane w każdym z tych schematów modelowania diagnostycznego (AD i VaD) obejmowały informacje demograficzne i historię pacjenta, a także wydajność MemTrax (MTx-% C, średnia MTx-RT). Każda diagnoza została oznaczona jako łagodna, jeśli oznaczono ją jako MCI; w przeciwnym razie uznano to za poważne. Początkowo rozważaliśmy włączenie wyniku MoCA do modeli diagnozy (łagodne kontra ciężkie); ale ustaliliśmy, że byłoby to sprzeczne z celem naszego drugorzędnego schematu modelowania predykcyjnego. Tutaj uczący się byliby przeszkoleni przy użyciu innych charakterystyk pacjenta łatwo dostępnych dla dostawcy i wskaźników wydajności prostszego testu MemTrax (zamiast MoCA) w odniesieniu do referencyjnego „złotego standardu”, niezależnej diagnozy klinicznej. W zbiorze danych diagnostycznych AD było 69 przypadków i 76 przypadków VaD (Tabela 2). W obu zestawach danych było 12 niezależnych cech. Oprócz 10 cech zawartych w klasyfikacji punktowej MoCA, historia pacjenta zawierała również informacje dotyczące historii nadciśnienia tętniczego i udaru mózgu.

Tabela 2

Podsumowanie wariantów schematu modelowania stosowanego do klasyfikacji ciężkości diagnozy (łagodne kontra ciężkie)

Schemat modelowaniaŁagodny (klasa negatywna)Ciężkie (klasa pozytywna)
MCI-AD kontra AD12 (% 17.4)57 (% 82.6)
MCI-VaD kontra VaD38 (% 50.0)38 (% 50.0)

Odpowiednią liczbę i procent wszystkich pacjentów w każdej klasie różnicuje się według podstawowej kategorii rozpoznania (AD lub VaD).

Statistics

Comparison of participant characteristics and other numerical features between sub-datasets for each model classification strategy (to predict MoCA cognitive health and diagnosis severity) was performed using Python programming language (version 2.7.1) [17]. The model performance differences were initially determined using a single- or two-factor (as appropriate) ANOVA with a 95% confidence interval and the Tukey honest significant difference (HSD) test to compare the performance means. This examination of differences between model performances was performed using a combination of Python and R (version 3.5.1) [18]. We employed this (albeit, arguably less than optimal) approach only as a heuristic aid at this wczesna faza for initial model performance comparisons in anticipating potential clinical application. We then utilized the Bayesian signed-rank test using a posterior distribution to determine the probability of model performance differences [19]. For these analyses, we used the interval –0.01, 0.01, signifying that if two groups had a performance difference of less than 0.01, they were considered the same (within the region of practical equivalence), or otherwise they were different (one better than the other). To perform the Bayesian comparison of classifiers and calculate these probabilities, we used the baycomp library (version 1.0.2) for Python 3.6.4.

Modelowanie predykcyjne

Zbudowaliśmy modele predykcyjne przy użyciu dziesięciu wszystkich wariantów naszych schematów modelowania w celu przewidzenia (klasyfikowania) wyniku testu MoCA każdego pacjenta lub ciężkości diagnozy klinicznej. Zastosowano wszystkich uczniów, a modele zostały zbudowane przy użyciu platformy oprogramowania open source Weka [20]. Do naszej wstępnej analizy wykorzystaliśmy 10 powszechnie używanych algorytmów uczenia: 5-Nearest Neighbors, dwie wersje drzewa decyzyjnego C4.5, regresja logistyczna, perceptron wielowarstwowy, naiwne Bayesa, dwie wersje losowego lasu, sieć funkcji radialnych i wektor wsparcia Maszyna. Kluczowe atrybuty i kontrasty tych algorytmów zostały opisane w innym miejscu [21] (patrz odpowiedni Załącznik). Zostały one wybrane, ponieważ reprezentują różne typy uczniów i ponieważ wykazaliśmy sukces, używając ich w poprzednich analizach podobnych danych. Ustawienia hiperparametrów zostały wybrane z naszych wcześniejszych badań, wskazując, że są odporne na wiele różnych danych [22]. W oparciu o wyniki naszej wstępnej analizy przy użyciu tego samego połączonego zestawu danych o wspólnych cechach, które zostały następnie użyte w pełnej analizie, zidentyfikowaliśmy trzech uczniów, którzy zapewniali niezmiennie wysoką wydajność we wszystkich klasyfikacjach: regresja logistyczna, naiwne Bayesa i maszyna wektorów nośnych.

Walidacja krzyżowa i metryka wydajności modelu

W przypadku wszystkich modeli predykcyjnych (w tym wstępnych analiz) każdy model został zbudowany przy użyciu 10-krotnej walidacji krzyżowej, a wydajność modelu została zmierzona za pomocą krzywej obszaru pod krzywą charakterystyki operacyjnej odbiornika (AUC). Walidacja krzyżowa rozpoczęła się od losowego podzielenia każdego z 10 zestawów danych schematu modelowania na 10 równych segmentów (fałd), przy użyciu dziewięciu z tych odpowiednich segmentów do trenowania modelu i pozostałego segmentu do testowania. Procedurę tę powtórzono 10 razy, używając innego segmentu jako zestawu testowego w każdej iteracji. Wyniki zostały następnie połączone, aby obliczyć wynik/wydajność końcowego modelu. Dla każdej kombinacji uczeń/zestaw danych cały ten proces został powtórzony 10 razy, przy czym za każdym razem dane były dzielone inaczej. Ten ostatni krok zmniejszył błąd systematyczny, zapewnił powtarzalność i pomógł w określeniu ogólnej wydajności modelu. W sumie (dla połączonych schematów klasyfikacji MoCA i ciężkości diagnozy) zbudowano 6,600 modeli. Obejmowało to 1,800 niefiltrowanych modeli (6 schematów modelowania zastosowanych do zbioru danych×3 uczniów×10 przebiegów×10 razy = 1,800 modeli) i 4,800 modeli filtrowanych (4 schematy modelowania zastosowane do zbioru danych×3 uczniów×4 techniki wyboru cech×10 przebiegów× 10 fałd = 4,800 modeli).

Wybór funkcji

W przypadku przefiltrowanych modeli selekcję cech (przy użyciu czterech metod rankingu cech) przeprowadzono w ramach walidacji krzyżowej. Dla każdego z 10 złożeń, ponieważ różne 10% zbioru danych stanowiły dane testowe, użyto tylko czterech najlepszych wybranych cech dla każdego uczącego zbioru danych (tj. pozostałych dziewięciu zgięć lub pozostałych 90% całego zbioru danych) budować modele. Nie byliśmy w stanie potwierdzić, które cztery funkcje były używane w każdym modelu, ponieważ te informacje nie są przechowywane ani udostępniane w używanej przez nas platformie modelowania (Weka). Jednakże, biorąc pod uwagę spójność naszego początkowego wyboru najważniejszych cech, gdy rankingi zastosowano do całego połączonego zestawu danych i późniejsze podobieństwo wyników modelowania, te same cechy (wiek, lata edukacji, MTx-% C i średnia MTx-RT ) są prawdopodobnie najbardziej rozpowszechnionymi czterema najczęściej używanymi równolegle z wyborem cech w procesie walidacji krzyżowej.

WYNIKI

Charakterystyki liczbowe uczestników (w tym wyniki MoCA i metryki wydajności MemTrax) odpowiednich zestawów danych dla każdej strategii klasyfikacji modelu w celu przewidzenia stanu poznawczego wskazanego przez MoCA (normalny vs. MCI) i ciężkości diagnozy (łagodnego vs. ciężkiego) przedstawiono w Tabeli 3.

Tabela 3

Charakterystyka uczestników, wyniki MoCA i wydajność MemTrax dla każdej strategii klasyfikacji modelu

Strategia klasyfikacjiWiekEdukacjaDostosowane do MoCAMoCA nieskorygowaneMTx-% CMTx-RT
Kategoria MoCA61.9 lat (13.1)9.6 lat (4.6)19.2 (6.5)18.4 (6.7)74.8% (15.0)1.4 s (0.3)
Ciężkość diagnozy65.6 lat (12.1)8.6 lat (4.4)16.7 (6.2)15.8 (6.3)68.3% (13.8)1.5 s (0.3)

Przedstawione wartości (średnia, SD) zróżnicowane przez strategie klasyfikacji modelowania są reprezentatywne dla połączonego zbioru danych stosowanego do przewidywania zdrowia poznawczego wskazanego przez MoCA (MCI w porównaniu z normalnym) i podzbioru danych XL wykorzystywanego tylko do przewidywania ciężkości diagnozy (łagodne lub ciężkie).

Dla każdej kombinacji wyniku MoCA (skorygowanego/nieskorygowanego) i progu (26/23) wystąpiła różnica statystyczna (p = 0.000) w każdym porównaniu parami (normalne zdrowie poznawcze w porównaniu z MCI) dla wieku, wykształcenia i wydajności MemTrax (MTx-% C i MTx-RT). Każdy podzbiór danych pacjenta w odpowiedniej klasie MCI dla każdej kombinacji był średnio o około 9 do 15 lat starszy, zgłosił około pięć lat edukacji mniej i miał mniej korzystne działanie MemTrax dla obu wskaźników.

Wyniki modelowania predykcyjnego dla klasyfikacji wyników MoCA przy użyciu trzech najlepszych uczniów, regresji logistycznej, naiwnych Bayesów i maszyny wektorów wsparcia, przedstawiono w tabeli 4. Te trzy zostały wybrane na podstawie najbardziej konsekwentnie wysokich bezwzględnych wyników uczniów we wszystkich różnych modelach stosowane do zbiorów danych dla wszystkich schematów modelowania. W przypadku niefiltrowanego zbioru danych i modelowania każda z wartości danych w Tabeli 4 wskazuje wydajność modelu w oparciu o odpowiednią średnią AUC uzyskaną ze 100 modeli (10 przebiegów × 10 razy) zbudowanych dla każdej kombinacji uczącego się/schematu modelowania, z odpowiednią najwyższą uczący się wykonujący wskazany pogrubioną czcionką. Podczas gdy w przypadku modelowania przefiltrowanego zestawu danych wyniki przedstawione w tabeli 4 odzwierciedlają ogólną średnią wydajność modelu z 400 modeli dla każdego ucznia przy użyciu każdej z metod rankingu cech (4 metody rankingu cech × 10 przebiegów × 10 razy).

Tabela 4

Dychotomiczne wyniki klasyfikacji wyników MoCA (AUC; 0.0–1.0) dla każdego z trzech najlepszych uczniów we wszystkich odpowiednich schematach modelowania

Używany zestaw funkcjiWynik MoCAPróg odcięciaRegresja logistycznaNaiwny BayesMaszyna wektorów nośnych
Niefiltrowane (10 funkcji)Skorygowana230.88620.89130.8695
260.89710.92210.9161
Niedostosowany230.91030.90850.8995
260.88340.91530.8994
Filtrowane (4 funkcje)Skorygowana230.89290.89540.8948
260.91880.92470.9201
Niedostosowany230.91350.91340.9122
260.91590.92360.9177

Wykorzystując wariacje zestawu cech, wyniku MoCA i progu odcięcia wyniku MoCA, najwyższa wydajność dla każdego schematu modelowania jest pokazana w (niekoniecznie statystycznie różni się od wszystkich innych nie w dla odpowiedniego modelu).

Porównując uczniów we wszystkich kombinacjach wersji i progów wyniku MoCA (odpowiednio skorygowanego/nieskorygowanego i 23/26) w połączonym, niefiltrowanym zbiorze danych (tj. przy użyciu 10 wspólnych cech), Naïve Bayes był ogólnie najlepszym uczniem z ogólną wydajność klasyfikacyjna 0.9093. Biorąc pod uwagę trzech najlepszych uczniów, skorelowane bayesowskie testy rangowania znaków wykazały, że prawdopodobieństwo (Pr) testu Naïve Bayes, który przewyższał regresję logistyczną, wyniósł 99.9%. Co więcej, pomiędzy Naïve Bayes a maszyną wektorów nośnych, 21.0% prawdopodobieństwa praktycznej równoważności wyników ucznia (a zatem 79.0% prawdopodobieństwa, że ​​Naïve Bayes przewyższa maszynę wektorów nośnych), w połączeniu z 0.0% prawdopodobieństwem lepszej, wymiernie działającej maszyny wektorów nośnych wzmacnia przewagę wydajności dla Naïve Bayes. Dalsze porównanie wersji wyniku MoCA wśród wszystkich uczniów/progów sugerowało niewielką przewagę wydajności przy użyciu nieskorygowanych wyników MoCA w porównaniu z skorygowanymi (odpowiednio 0.9027 w porównaniu z 0.8971); Pr (nieskorygowany > skorygowany) = 0.988). Podobnie porównanie progu odcięcia dla wszystkich uczniów i wersji wyniku MoCA wykazało niewielką przewagę wydajności klasyfikacji przy użyciu 26 jako progu klasyfikacji w porównaniu z 23 (odpowiednio 0.9056 w porównaniu z 0.8942); Pr (26 > 23) = 0.999). Wreszcie, badając wydajność klasyfikacji dla modeli wykorzystujących tylko przefiltrowane wyniki (tj. tylko cztery najwyżej ocenione cechy), Naïve Bayes (0.9143) był liczbowo najlepiej uczącym się we wszystkich wersjach/progach wyniku MoCA. Jednak we wszystkich połączonych technikach rankingowania cech wszyscy najlepsi uczniowie osiągali podobne wyniki. Bayesowskie testy rangowanych znaków wykazały 100% prawdopodobieństwo praktycznej równoważności między każdą parą przefiltrowanych uczniów. Podobnie jak w przypadku danych niefiltrowanych (przy użyciu wszystkich 10 wspólnych funkcji), ponownie odnotowano przewagę wydajności w przypadku nieskorygowanej wersji wyniku MoCA (Pr (nieskorygowana > skorygowana) = 1.000), a także podobnie wyraźna przewaga dla progu klasyfikacji 26 (Pr (26 > 23) = 1.000). Warto zauważyć, że średnia wydajność każdego z trzech najlepszych uczniów we wszystkich wersjach/progach wyniku MoCA przy użyciu tylko czterech najwyżej sklasyfikowanych funkcji przekroczyła średnią wydajność dowolnego ucznia na niefiltrowanych danych. Nic dziwnego, że ogólna wydajność klasyfikacji przefiltrowanych modeli (przy użyciu czterech najwyżej ocenionych cech) była lepsza (0.9119) w porównaniu z modelami niefiltrowanymi (0.8999), niezależnie od modeli metody rankingu cech, które zostały porównane z odpowiednimi modelami wykorzystującymi wszystkie 10 powszechnych cechy. Dla każdej metody wyboru cech istniało 100% prawdopodobieństwo przewagi wydajności nad modelami niefiltrowanymi.

W przypadku pacjentów uwzględnionych w klasyfikacji ciężkości rozpoznania AD, różnice międzygrupowe (MCI-AD vs AD) pod względem wieku (p = 0.004), wykształcenie (p = 0.028), skorygowany/nieskorygowany wynik MoCA (p = 0.000) i MTx-% C (p = 0.008) były istotne statystycznie; podczas gdy dla MTx-RT nie było (p = 0.097). W przypadku tych pacjentów, których uwzględniono w klasyfikacji ciężkości diagnozy VaD, różnice międzygrupowe (MCI-VaD versus VaD) dla skorygowanego/nieskorygowanego wyniku MoCA (p = 0.007) i MTx-% C (p = 0.026) i MTx-RT (p = 0.001) były istotne statystycznie; natomiast dla wieku (p = 0.511) i wykształcenie (p = 0.157) nie było istotnych różnic między grupami.

Wyniki wydajności modelowania predykcyjnego dla klasyfikacji nasilenia diagnozy przy użyciu trzech wcześniej wybranych uczniów, regresji logistycznej, naiwnych Bayesów i maszyny wektorów wsparcia, przedstawiono w tabeli 5. Podczas gdy dodatkowe przebadane osoby uczące się wykazały nieco lepsze wyniki indywidualnie w jednej z dwóch kategorii diagnozy klinicznej , trzech uczniów, których uznaliśmy za najbardziej korzystnych w naszym poprzednim modelowaniu, zaoferowało najbardziej spójne wyniki w obu nowych schematach modelowania. Porównując uczniów w każdej z głównych kategorii diagnozy (AD i VaD), nie było spójnej różnicy w wydajności klasyfikacji między uczącymi się dla MCI-VaD i VaD, chociaż maszyna wektora nośnego generalnie radziła sobie lepiej. Podobnie nie było znaczących różnic między uczącymi się w klasyfikacji MCI-AD a AD, chociaż Naïve Bayes (NB) miał niewielką przewagę wydajności nad regresją logistyczną (LR) i tylko znikomą mnogość nad maszyną wektorów nośnych, z prawdopodobieństwem 61.4% i 41.7% odpowiednio. W obu zestawach danych wystąpiła ogólna przewaga wydajności dla Support Vector Machine (SVM), przy czym Pr (SVM > LR) = 0.819 i Pr (SVM > NB) = 0.934. Nasza ogólna skuteczność klasyfikacji wśród wszystkich uczniów w przewidywaniu ciężkości diagnozy w podzbiorze danych XL była lepsza w kategorii diagnozy VaD w porównaniu z AD (Pr (VAD > AD) = 0.998).

Tabela 5

Dychotomiczne wyniki klasyfikacji nasilenia diagnozy klinicznej (AUC; 0.0–1.0) dla każdego z trzech najlepszych uczniów w obu odpowiednich schematach modelowania

Schemat modelowaniaRegresja logistycznaNaiwny BayesMaszyna wektorów nośnych
MCI-AD kontra AD0.74650.78100.7443
MCI-VaD kontra VaD0.80330.80440.8338

Najwyższa wydajność dla każdego schematu modelowania jest pokazana w (niekoniecznie statystycznie różni się od innych nie w ).

DYSKUSJA

Early detection of changes in cognitive health has important practical utility in personal health management and public health alike. Indeed, it is also very much a high priority in clinical settings for patients worldwide. The shared goal is to alert patients, caregivers, and providers and prompt earlier appropriate and cost-effective treatment and longitudinal care for those beginning to experience cognitive decline. Merging our three hospital/clinic(s) data subsets, we identified three distinctively preferable learners (with one notable standout –Naïve Bayes) to build predictive models utilizing MemTrax performance metrics that could reliably classify cognitive health status dichotomously (normal cognitive health or MCI) as would be indicated by a MoCA aggregate score. Notably, overall classification performance for all three learners improved when our models utilized only the top-ranked four features which principally encompassed these MemTrax performance metrics. Moreover, we revealed the substantiated potential for utilizing the same learners and MemTrax performance metrics in a diagnostic support classification modeling scheme to distinguish severity of two categories of dementia diagnosis: AD and VaD.

Testowanie pamięci is central to early detection of AD [23, 24]. Thus, it is opportune that MemTrax is an acceptable, engaging, and easy-to-implement online screening test for episodic memory in the general population [6]. Recognition accuracy and response times from this continuous performance task are particularly revealing in identifying early and evolving deterioration and consequent deficits in the neuroplastic processes related to learning, memory, and cognition. That is, the models here that are based largely on MemTrax performance metrics are sensitive to and are more likely to readily and with minimal cost reveal biological neuropathologic deficits during the transitional asymptomatic stage well prior to more substantial functional loss [25]. Ashford et al. closely examined the patterns and behaviors of recognition memory accuracy and response time in online users who participated on their own with MemTrax [6]. Respecting that these distributions are critical in optimal modeling and developing valid and effective patient care applications, defining clinically applicable recognition and response time profiles is essential in establishing a valuable foundational reference for clinical and research utility. The practical value of MemTrax in AD screening for early stage cognitive impairment and differential diagnostic support needs to then be more closely examined in the context of a clinical setting where comorbidities and cognitive, sensory, and motor capabilities affecting test performance can be considered. And to inform professional perspective and encourage practical clinical utility, it is first imperative to demonstrate comparison to an established cognitive health assessment test, even though the latter may be recognizably constrained by cumbersome testing logistics, education and language deterrents, and cultural influences [26]. In this regard, the favorable comparison of MemTrax in clinical efficacy to MoCA that is commonly purported as an industry standard is significant, especially when weighing the greater ease of utility and patient acceptance of MemTrax.

Poprzednie badanie porównujące MemTrax z MoCA podkreśla uzasadnienie i wstępne dowody uzasadniające nasze badanie modelowania [8]. Jednak to wcześniejsze porównanie jedynie powiązało dwie kluczowe metryki wydajności MemTrax, które zbadaliśmy, ze statusem poznawczym określonym przez MoCA i zdefiniowano odpowiednie zakresy i wartości odcięcia. Pogłębiliśmy ocenę użyteczności klinicznej MemTrax, badając podejście oparte na modelowaniu predykcyjnym, które zapewniłoby bardziej zindywidualizowane uwzględnienie innych potencjalnie istotnych parametrów specyficznych dla pacjenta. W przeciwieństwie do innych, nie stwierdziliśmy przewagi w osiąganiu modeli przy użyciu korekty edukacyjnej (dostosowania) do wyniku MoCA lub różnicowania progu zbiorczego wyniku MoCA dyskryminującego zdrowie poznawcze z pierwotnie zalecanych 26 do 23 [12, 15]. W rzeczywistości przewaga wyników w klasyfikacji faworyzowała stosowanie nieskorygowanego wyniku MoCA i wyższego progu.

Kluczowe punkty w praktyce klinicznej

Uczenie maszynowe jest często najlepiej wykorzystywane i najskuteczniejsze w modelowaniu predykcyjnym, gdy dane są obszerne i wielowymiarowe, to znaczy, gdy istnieje wiele obserwacji i towarzysząca im szeroka gama atrybutów o wysokiej wartości (wnoszących wkład). Jednak przy tych aktualnych danych filtrowane modele z tylko czterema wybranymi funkcjami działały lepiej niż modele wykorzystujące wszystkie 10 wspólnych funkcji. Sugeruje to, że nasz zagregowany zbiór danych szpitalnych nie miał najbardziej odpowiednich klinicznie (wysokiej wartości) cech do optymalnej klasyfikacji pacjentów w ten sposób. Niemniej jednak nacisk rankingu funkcji na kluczowe wskaźniki wydajności MemTrax — MTx-% C i MTx-RT — zdecydowanie wspiera budowanie modeli przesiewowych deficytów poznawczych na wczesnym etapie wokół tego testu, który jest prosty, łatwy w administrowaniu, tani i trafnie ujawniający wydajność pamięci, przynajmniej teraz jako wstępny ekran do binarnej klasyfikacji stanu zdrowia poznawczego. Biorąc pod uwagę coraz większe obciążenie świadczeniodawców i systemów opieki zdrowotnej, procesy badań przesiewowych pacjentów i zastosowania kliniczne powinny być odpowiednio rozwijane z naciskiem na gromadzenie, śledzenie i modelowanie tych cech pacjentów i metryk badań, które są najbardziej przydatne, korzystne i okazały się skuteczne w diagnostyce oraz wsparcie zarządzania pacjentami.

Ponieważ dwie kluczowe metryki MemTrax są kluczowe dla klasyfikacji MCI, nasz najskuteczniejszy uczeń (Naïve Bayes) miał bardzo wysoką skuteczność predykcyjną w większości modeli (AUC powyżej 0.90) ze stosunkiem prawdziwie dodatnich do fałszywie dodatnich bliskim lub nieco przekraczającym 4 : 1. Translacyjna aplikacja kliniczna wykorzystująca tego ucznia mogłaby w ten sposób uchwycić (poprawnie sklasyfikować) zdecydowanie większość osób z deficytem poznawczym, minimalizując jednocześnie koszty związane z błędnym zaklasyfikowaniem osoby o normalnym zdrowiu poznawczym jako osoby z deficytem poznawczym (fałszywie pozytywne) lub brak tej klasyfikacji u tych, którzy mają deficyt poznawczy (fałszywie negatywny). Każdy z tych scenariuszy błędnej klasyfikacji może nałożyć nadmierne obciążenie psychospołeczne na pacjenta i opiekunów.

Podczas gdy we wstępnych i pełnych analizach wykorzystaliśmy wszystkich dziesięciu uczniów w każdym schemacie modelowania, skoncentrowaliśmy nasze wyniki na trzech klasyfikatorach wykazujących najbardziej spójne, dobre wyniki. Miało to również na celu podkreślenie, na podstawie tych danych, uczniów, którzy zgodnie z przewidywaniami będą osiągać niezawodne wyniki na wysokim poziomie w praktycznym zastosowaniu klinicznym w określaniu klasyfikacji statusu poznawczego. Co więcej, ponieważ badanie to miało być wstępnym badaniem przydatności uczenia maszynowego w badaniach przesiewowych poznawczych i tych aktualnych wyzwaniach klinicznych, podjęliśmy decyzję o utrzymaniu prostych i uogólnionych technik uczenia się przy minimalnym dostrajaniu parametrów. Zdajemy sobie sprawę, że takie podejście mogło ograniczać potencjał węższych, specyficznych dla pacjenta zdolności predykcyjnych. Podobnie, podczas gdy trenowanie modeli przy użyciu tylko najważniejszych funkcji (podejście filtrowane) informuje nas dalej o tych danych (specyficznych dla niedociągnięć w zebranych danych i podkreślając wartość w optymalizacji cennego czasu klinicznego i zasobów), uznajemy, że zawężenie jest przedwczesne. zakres modeli, a zatem wszystkie (i inne cechy) powinny być brane pod uwagę w przyszłych badaniach, dopóki nie uzyskamy bardziej definitywnego profilu cech priorytetowych, które będą miały zastosowanie do szerokiej populacji. Dlatego też w pełni zdajemy sobie sprawę, że bardziej inkluzywne i szeroko reprezentatywne dane oraz optymalizacja tych i innych modeli byłaby konieczna przed włączeniem ich do skutecznego zastosowania klinicznego, szczególnie w celu uwzględnienia chorób współistniejących wpływających na sprawność poznawczą, które należałoby uwzględnić w dalszej ocenie klinicznej.

Utility of MemTrax was further edified by the modeling of disease severity based on separate clinical diagnosis. A better overall classification performance in predicting severity of VaD (compared to AD) was not surprising given the patient profile features in the models specific to vascular health and stroke risk, i.e., hypertension, hyperlipidemia, diabetes, and (of course) stroke history. Though it would have been more desirable and fitting to have the same clinical assessment conducted on matched patients with normal cognitive health to train the learners with these more inclusive data. This is especially warranted, as MemTrax is intended to be used primarily for early stage detection of a cognitive deficit and subsequent tracking of individual change. It is also plausible that the more desirable distribution of data in the VaD dataset contributed in part to the comparatively better modeling performance. The VaD dataset was well-balanced between the two classes, whereas the AD dataset with far fewer MCI patients was not. Particularly in small datasets, even a few additional instances can make a measurable difference. Both perspectives are reasonable arguments underlying the differences in disease severity modeling performance. However, proportionately attributing improved performance to dataset numerical characteristics or the inherent features specific to the clinical presentation under consideration is premature. Nonetheless, this novel demonstrated utility of a MemTrax predictive classification model in the role of clinical diagnostic support provides valuable perspective and affirms pursuit for additional examination with patients across the continuum of MCI.

Wdrożenie i wykazana użyteczność MemTrax i tych modeli w Chinach, gdzie język i kultura drastycznie różnią się od innych regionów o ustalonej użyteczności (np. Francja, Holandia i Stany Zjednoczone) [7, 8, 27], dodatkowo podkreśla potencjał za powszechną globalną akceptację i wartość kliniczną platformy opartej na MemTrax. Jest to wyraźny przykład w dążeniu do harmonizacji danych i opracowywania praktycznych międzynarodowych norm i zasobów modelowania dla poznawczych badań przesiewowych, które są standaryzowane i łatwo przystosowane do użytku na całym świecie.

Kolejne kroki w modelowaniu i zastosowaniu spadku funkcji poznawczych

Cognitive dysfunction in AD indeed occurs on a continuum, not in discrete stages or steps [28, 29]. However, at this early phase, our goal was to first establish our ability to build a model incorporating MemTrax that can fundamentally distinguish “normal” from “not normal”. More inclusive empirical data (e.g., brain imaging, genetic features, biomarkers, comorbidities, and functional markers of complex activities requiring cognitive control) [30] across varied global regions, populations, and age groups to train and develop more sophisticated (including aptly weighted ensemble) machine learning models will support a greater degree of enhanced classification, that is, the capacity to categorize groups of patients with MCI into smaller and more definitive subsets along the cognitive decline continuum. Moreover, concomitant clinical diagnoses for individuals across regionally diverse patient populations are essential to effectively train these more inclusive and predictably robust models. This will facilitate more specific stratified case management for those with similar backgrounds, influences, and more narrowly defined characteristic cognitive profiles and thus optimize clinical decision support and patient care.

Much of the relevant clinical research to-date has addressed patients with at least mild dementia; and, in practice, too often patient intervention is only attempted at advanced stages. However, because cognitive decline begins well before clinical criteria for dementia are met, an effectively applied MemTrax-based early screen could encourage appropriate education of individuals about the disease and its progressions and prompt earlier and more timely interventions. Thus, early detection could support suitable involvements ranging from exercise, diet, emotional support, and improved socialization to pharmacological intervention and reinforce patient-related changes in behavior and perception that singly or in aggregate could mitigate or potentially stop dementia progression [31, 32]. Moreover, with effective early screening, individuals and their families may be prompted to consider clinical trials or get counseling and other social services support to help clarify expectations and intentions and manage daily tasks. Further validation and widespread practical utility in these ways could be instrumental in mitigating or stopping the progression of MCI, AD, and ADRD for many individuals.

Indeed, the low end of the patient age range in our study does not represent the population of traditional concern with AD. Nonetheless, the average age for each group utilized in the classification modeling schemes based on the MoCA score/threshold and diagnosis severity (Table 3) underscores a clear majority (over 80%) being at least 50 years old. This distribution is thus very appropriate for generalization, supporting the utility of these models in the population characterizing those typically affected by wczesny początek and burgeoning neurocognitive illness due to AD and VaD. Also, recent evidence and perspective stress those recognized factors (e.g., hypertension, obesity, diabetes, and smoking) potentially contributing to higher early adult and midlife vascular risk scores and consequent subtle vascular brain injury that develops insidiously with evident effects even in young adults [33–35]. Accordingly, the most optimal initial screening opportunity for detecting early stage cognitive deficits and initiating effective prevention and intervention strategies in successfully addressing dementia will emerge from examining contributing factors and antecedent indicators across the age spectrum, including early adulthood and potentially even childhood (noting the relevance of genetic factors such as apolipoprotein E from early gestation).

In practice, valid clinical diagnoses and costly procedures for advanced imaging, genetic profiling, and measuring promising biomarkers are not always readily available or even feasible for many providers. Thus, in many instances, initial overall cognitive health status classification may have to be derived from models using other simple metrics provided by the patient (e.g., self-reported problemy z pamięcią, current medications, and routine activity limitations) and common demographic features [7]. Registries such as the University of California Zdrowie mózg Registry (https://www.brainhealthregistry.org/) [27] and others with an inherent greater breadth of self-reported symptoms, qualitative measures (e.g., sleep and every day cognition), medications, health status, and history, and more detailed demographics will be instrumental in developing and validating the practical application of these more primitive models in the clinic. Further, a test such as MemTrax, which has demonstrated utility in assessing memory function, may in fact provide a substantially better estimate of AD pathology than biological markers. Given that the core feature of AD pathology is disruption of neuroplasticity and an overwhelmingly complex loss of synapses, which is manifest as episodic memory dysfunction, a measure which assesses episodic memory may in fact provide a better estimate of AD pathological burden than biological markers in the living patient [36].

W przypadku wszystkich modeli predykcyjnych — uzupełnionych złożonymi i kompleksowymi danymi pochodzącymi z najnowocześniejszych technologii i wyrafinowanymi spostrzeżeniami klinicznymi w wielu dziedzinach lub ograniczonymi do bardziej podstawowych i łatwo dostępnych informacji charakterystycznych dla istniejących profili pacjentów — uznana zaleta sztucznej inteligencji a uczenie maszynowe polega na tym, że powstałe modele mogą syntetyzować i indukcyjnie „uczyć się” na podstawie odpowiednich nowych danych i perspektywy zapewnianych przez bieżące wykorzystanie aplikacji. Po praktycznym transferze technologii, ponieważ modele tutaj (i które mają zostać opracowane) są stosowane i wzbogacane o większą liczbę przypadków i istotnych danych (w tym pacjentów z chorobami współistniejącymi, które mogą objawiać się następującym pogorszeniem funkcji poznawczych), wydajność przewidywania i klasyfikacja zdrowia poznawczego będą bardziej solidne, co skutkuje bardziej efektywnym narzędziem wspomagania decyzji klinicznych. Ta ewolucja zostanie w pełni i praktycznie zrealizowana dzięki wbudowaniu MemTrax w niestandardowe (ukierunkowane na dostępne możliwości) platformy, z których świadczeniodawcy mogą korzystać w klinice w czasie rzeczywistym.

Niezbędne do walidacji i użyteczności modelu MemTrax dla wsparcia diagnostycznego i opieki nad pacjentem są bardzo poszukiwane znaczące dane podłużne. Obserwując i rejestrując współistniejące zmiany (jeśli występują) w stanie klinicznym w odpowiednim zakresie od normalnego do wczesnego MCI, modele odpowiedniej ciągłej oceny i klasyfikacji mogą być trenowane i modyfikowane wraz z wiekiem pacjentów i ich leczeniem. Oznacza to, że powtarzana użyteczność może pomóc w długotrwałym śledzeniu łagodnych zmian poznawczych, skuteczności interwencji i utrzymywaniu świadomej opieki wielopoziomowej. Podejście to jest ściślej powiązane z praktyką kliniczną oraz postępowaniem z pacjentem i przypadkiem.

Ograniczenia

We appreciate the challenge and value in collecting clean clinical data in a controlled clinic/hospital setting. Nonetheless, it would have strengthened our modeling if our datasets included more patients with common features. Moreover, specific to our diagnosis modeling, it would have been more desirable and fitting to have the same clinical assessment conducted on matched patients with normal cognitive health to train the learners. And as underscored by the higher classification performance using the filtered dataset (only the top-ranked four features), more general and cognitive health measures/indicators would likely have improved modeling performance with a greater number of common features across all patients.

Niektórzy uczestnicy mogli jednocześnie doświadczać innych chorób, które mogły wywołać przejściowe lub przewlekłe braki poznawcze. Poza podzbiorem danych XL, w którym pacjentów sklasyfikowano diagnostycznie jako cierpiących na AD lub VaD, dane dotyczące chorób współistniejących nie były zbierane/raportowane w puli pacjentów z YH, a dominującym zgłaszanym schorzeniem współistniejącym zdecydowanie w podzbiorze KM była cukrzyca. Można jednak argumentować, że uwzględnienie w naszych schematach modelowania pacjentów z chorobami współistniejącymi, które mogłyby wywołać lub zaostrzyć poziom upośledzenia funkcji poznawczych, a w konsekwencji słabszą wydajność MemTrax, byłoby bardziej reprezentatywne dla rzeczywistej populacji docelowej pacjentów dla tego bardziej uogólnionego wczesnego badania funkcji poznawczych i modelowania. Idąc dalej, dokładna diagnoza chorób współistniejących potencjalnie wpływających na sprawność poznawczą jest bardzo korzystna dla optymalizacji modeli i wynikających z nich zastosowań opieki nad pacjentem.

Wreszcie, pacjenci z podzbiorem danych YH i KM używali smartfona do wykonania testu MemTrax, podczas gdy ograniczona liczba pacjentów podzbioru danych XL korzystała z iPada, a pozostali korzystali ze smartfona. Mogło to wprowadzić niewielką różnicę związaną z urządzeniem w wydajności MemTrax dla modelowania klasyfikacji MoCA. Jednak różnice (jeśli występują) w MTx-RT, na przykład, między urządzeniami byłyby prawdopodobnie nieistotne, zwłaszcza gdy każdy uczestnik otrzymałby test „praktyczny” tuż przed zarejestrowanym wykonaniem testu. Niemniej jednak użyteczność tych dwóch urządzeń przenośnych potencjalnie zagraża bezpośredniemu porównaniu i/lub integracji z innymi wynikami MemTrax, w których użytkownicy reagowali na powtarzające się zdjęcia, dotykając spacji na klawiaturze komputera.

Kluczowe punkty dotyczące narzędzia do predykcyjnego modelowania MemTrax

  • • Nasze najskuteczniejsze modele predykcyjne obejmujące wybrane metryki wydajności MemTrax mogą wiarygodnie klasyfikować stan zdrowia poznawczego (normalne zdrowie poznawcze lub MCI), na co wskazuje powszechnie uznany test MoCA.
  • • Wyniki te wspierają integrację wybranych metryk wydajności MemTrax z aplikacją do klasyfikacji predykcyjnej modelu przesiewowego pod kątem wczesnego stadium upośledzenia funkcji poznawczych.
  • • Nasze modelowanie klasyfikacji ujawniło również możliwość wykorzystania wydajności MemTrax w aplikacjach do rozróżniania ciężkości diagnozy demencji.

Te nowe odkrycia dostarczają ostatecznych dowodów potwierdzających użyteczność uczenia maszynowego w budowaniu ulepszonych, solidnych modeli klasyfikacji opartych na MemTrax dla wsparcia diagnostycznego w skutecznym zarządzaniu przypadkami klinicznymi i opiece nad pacjentami z zaburzeniami poznawczymi.

PODZIĘKOWANIA

We recognize the work of J. Wesson Ashford, Curtis B. Ashford, and colleagues for developing and validating the online continuous recognition task and tool (MemTrax) utilized here and we are grateful to the numerous patients with dementia who contributed to the critical foundational research. We also thank Xianbo Zhou and his colleagues at SJN Biomed LTD, his colleagues and collaborators at the hospitals/clinics sites, especially Drs. M. Luo and M. Zhong, who helped with recruitment of participants, scheduling tests, and collecting, recording, and front-end managing the data, and the volunteer participants who donated their valuable time and made the commitment to taking the tests and providing the valued data for us to evaluate in this study. This study was supported in part by the MD Scientific Research Program of Kunming Medical University (Grant no. 2017BS028 to X.L.) and the Research Program of Yunnan Science and Technology Department (Grant no. 2019FE001 (-222) to X.L).

J. Wesson Ashford has filed a patent application for the use of the specific continuous recognition paradigm described in this paper for general testing of memory.

MemTrax, LLC is a company owned by Curtis Ashford, and this company is managing the testowanie pamięci system described in this paper.

Ujawnienia autorów dostępne w Internecie (https://www.j-alz.com/manuscript-disclosures/19-1340r2).

test pamięci test na demencję test utraty pamięci test utraty pamięci krótkotrwałej test barana dieta umysłu różnorodność książek test poznawczy online
Curtis Ashford – koordynator badań poznawczych

LITERATURA

[1] Alzheimer’s Association (2016) 2016 Alzheimer’s disease facts and figures. Alzheimers Dement 12, 459–509.
[2] Gresenz CR , Mitchell JM , Marrone J , Federoff HJ (2019) Effect of early-stage Chorobę Alzheimera on household financial outcomes. Health Econ 29, 18–29.
[3] Foster NL , Bondi MW , Das R , Foss M , Hershey LA , Koh S , Logan R , Poole C , Shega JW , Sood A , Thothala N , Wicklund M , Yu M , Bennett A , Wang D (2019) Poprawa jakości w neurologia: zestaw do pomiaru jakości łagodnych zaburzeń poznawczych. Neurologia 93, 705-713.
[4] Tong T , Thokala P , McMillan B , Ghosh R , Brazier J (2017) Cost effectiveness of using cognitive screening tests for detecting dementia and mild cognitive impairment in primary care. Int J Geriatr Psychiatry 32, 1392–1400.
[5] Ashford JW , Gere E , Bayley PJ (2011) Measuring memory in large group settings using a continuous recognition test. J Alzheimers Dis 27, 885–895.
[6] Ashford JW, Tarpin-Bernard F, Ashford CB, Ashford MT (2019) Skomputeryzowane zadanie ciągłego rozpoznawania do pomiaru pamięci epizodycznej. J Alzheimer Dis 69, 385-399.
[7] Bergeron MF, Landset S, Tarpin-Bernard F, Ashford CB, Khoshgoftaar TM, Ashford JW (2019) Wydajność pamięci epizodycznej w modelowaniu uczenia maszynowego do przewidywania klasyfikacji stanu zdrowia poznawczego. J Alzheimer Dis 70, 277-286.
[8] van der Hoek MD , Nieuwenhuizen A , Keijer J , Ashford JW (2019) The Test MemTrax compared to the montreal cognitive assessment estimation of mild cognitive impairment. J Alzheimers Dis 67, 1045–1054.
[9] Falcone M , Yadav N , Poellabauer C , Flynn P (2013) Używanie izolowanych dźwięków samogłosek do klasyfikacji łagodnego urazowego uszkodzenia mózgu. W 2013 roku Międzynarodowa Konferencja IEEE na temat Akustyki, Przetwarzania Mowy i Sygnałów, Vancouver, BC, s. 7577-7581.
[10] Dabek F , Caban JJ (2015) Wykorzystanie dużych zbiorów danych do modelowania prawdopodobieństwa wystąpienia warunków psychicznych po wstrząśnieniu mózgu. Procedia Comput Sci 53, 265-273.
[11] Climent MT, Pardo J, Munoz-Almaraz FJ, Guerrero MD, Moreno L (2018) Drzewo decyzyjne do wczesnego wykrywania zaburzeń poznawczych przez farmaceutów społecznych. Front Pharmacol 9, 1232.
[12] Nasreddine ZS , Phillips NA , Bedirian V , Charbonneau S , Whitehead V , Collin I , Cummings JL , Chertkow H (2005) Montreal Cognitive Assessment, MoCA: krótkie narzędzie przesiewowe dla łagodnych zaburzeń poznawczych. J Am Geriatr Soc 53, 695-699.
[13] Yu J , Li J , Huang X (2012) Pekińska wersja montrealskiej oceny poznawczej jako krótkie narzędzie przesiewowe dla łagodnych zaburzeń poznawczych: badanie społecznościowe. BMC Psychiatria 12, 156.
[14] Chen KL, Xu Y, Chu AQ, Ding D, Liang XN, Nasreddine ZS, Dong Q, Hong Z, Zhao QH, Guo QH (2016) Walidacja chińskiej wersji montrealskiej oceny poznawczej podstawowej do badania przesiewowego łagodnego upośledzenia funkcji poznawczych. J Am Geriatr Soc 64, e285–e290.
[15] Carson N , Leach L , Murphy KJ (2018) Ponowne badanie punktów odcięcia Montreal Cognitive Assessment (MoCA). Int J Geriatr Psychiatry 33, 379-388.
[16] Amerykańskie Towarzystwo Psychiatryczne (2013) Task Force Diagnostyka i podręcznik statystyczny zaburzeń psychicznych: DSM-5™, American Psychiatric Publishing, Inc., Waszyngton, DC.
[17] Pyton. Python Software Foundation, http://www.python.org, dostęp 15 listopada 2019 r.
[18] R Core Group, R: Język i środowisko do obliczeń statystycznych R Foundation for Statistical Computing, Wiedeń, Austria. https://www.R-project.org/, 2018, dostęp 15 listopada 2019.
[19] Benavoli A , Corani G , Demšar J , Zaffalon M (2017) Czas na zmianę: samouczek do porównywania wielu klasyfikatorów za pomocą analizy bayesowskiej. J Mach Learn Res 18, 1–36.
[20] Frank E , Hall MA , Witten IH (2016) Stół warsztatowy WEKA. W Eksploracja danych: praktyczne narzędzia i techniki uczenia maszynowego, Frank E, Hall MA, Witten IH, Pal CJ, wyd. Morgan Kaufmann https://www.cs.waikato.ac.nz/ml/weka/Witten_et_al_2016_appendix.pdf
[21] Bergeron MF , Landset S , Maugans TA , Williams VB , Collins CL , Wasserman EB , Khoshgoftaar TM (2019) Uczenie maszynowe w modelowaniu rozwiązywania objawów wstrząsu mózgu w liceum. Med Sci Sports Exerc 51, 1362-1371.
[22] Van Hulse J , Khoshgoftaar TM , Napolitano A (2007) Eksperymentalne perspektywy uczenia się na podstawie niezrównoważonych danych. W Materiały 24. Międzynarodowej Konferencji Uczenia Maszynowego, Corvalis, Oregon, USA, s. 935-942.
[23] Ashford JW, Kolm P, Colliver JA, Bekian C, Hsu LN (1989) Ocena pacjenta z chorobą Alzheimera i stan mini-mentalny: Analiza krzywej charakterystycznej przedmiotu. J Gerontol 44, 139-146.
[24] Ashford JW , Jarvik L (1985) Choroba Alzheimera: Does neuron plasticity predispose to axonal neurofibrillary degeneration? N Engl J Med 313, 388–389.
[25] Jack CR Jr , Therneau TM , Weigand SD , Wiste HJ , Knopman DS , Vemuri P , Lowe VJ , Mielke MM , Roberts RO , Machulda MM , Graff-Radford J , Jones DT , Schwarz CG , Gunter JL , Senjem ML , Rocca WA , Petersen RC (2019) Prevalence of biologically vs clinically defined Alzheimer spectrum entities using the National Institute on Aging-Alzheimer’s Association Research framework. JAMA Neurol 76, 1174–1183.
[26] Zhou X , Ashford JW (2019) Advances in screening instruments for Chorobę Alzheimera. Aging Med 2, 88–93.
[27] Weiner MW , Nosheny R , Camacho M , Truran-Sacrey D , Mackin RS , Flenniken D , Ulbricht A , Insel P , Finley S , Fockler J , Veitch D (2018) The Zdrowie mózg Rejestr: internetowa platforma do rekrutacji, oceny i długoterminowego monitorowania uczestników badań neurologicznych. Alzheimer Dement 14, 1063–1076.
[28] Ashford JW , Schmitt FA (2001) Modeling the time-course of demencja alzheimerowska. Curr Psychiatry Rep 3, 20–28.
[29] Li X , Wang X , Su L , Hu X , Han Y (2019) Sino Longitudinal Study on Cognitive Decline (SILCODE): Protokół chińskiego podłużnego badania obserwacyjnego w celu opracowania modeli przewidywania ryzyka konwersji do łagodnych zaburzeń poznawczych u osób z subiektywnymi funkcjami poznawczymi spadek. BMJ Otwarte 9, e028188.
[30] Tarnanas I , Tsolaki A , Wiederhold M , Wiederhold B , Tsolaki M (2015) Five-year biomarker progression variability for Alzheimer’s disease dementia prediction: Can a complex instrumental activities of daily living marker fill in the gaps? Alzheimers Dement (Amst) 1, 521–532.
[31] McGurran H , Glenn JM , Madero EN , Bott NT (2019) Prevention and treatment of Alzheimer’s disease: Biological mechanisms of exercise. J Alzheimers Dis 69, 311–338.
[32] Mendiola-Precoma J , Berumen LC , Padilla K , Garcia-Alcocer G (2016) Therapies for prevention and treatment of Alzheimer’s disease. Biomed Res Int 2016, 2589276.
[33] Lane CA , Barnes J , Nicholas JM , Sudre CH , Cash DM , Malone IB , Parker TD , Keshavan A , Buchanan SM , Keuss SE , James SN , Lu K , Murray-Smith H , Wong A , Gordon E , Coath W , Modat M , Thomas D , Richards M , Fox NC , Schott JM (2020) Powiązania między ryzykiem naczyniowym w wieku dorosłym a patologią mózgu w późnym życiu: dowody z brytyjskiej kohorty urodzeniowej. JAMA Neurol 77, 175–183.
[34] Seshadri S (2020) Zapobieganie myśleniu o demencji poza wiekiem i skrzynkami amyloidu. JAMA Neurol 77, 160-161.
[35] Maillard P, Seshadri S, Beiser A, Himali JJ, Au R, Fletcher E, Carmichael O, Wolf PA, DeCarli C (2012) Wpływ skurczowego ciśnienia krwi na integralność istoty białej u młodych dorosłych w badaniu Framingham Heart: krzyż - badanie przekrojowe. Lancet Neurol 11, 1039-1047.
[36] Fink HA , Linskens EJ , Silverman PC , McCarten JR , Hemmy LS , Ouellette JM , Greer NL , Wilt TJ , Butler M (2020) Accuracy of biomarker testing for neuropathologically defined Alzheimer disease in older adults with dementia. Ann Intern Med 172, 669–677.

Affiliations: [a] SIVOTEC Analytics, Boca Raton, FL, USA | [b] Department of Computer and Electrical Engineering and Computer Science, Florida Atlantic University, Boca Raton, FL, USA | [c] SJN Biomed LTD, Kunming, Yunnan, China | [d] Center for Badania nad chorobą Alzheimera, Washington Institute of Clinical Research, Washington, DC, USA | [e] Department of Rehabilitation Medicine, The First Affiliated Hospital of Kunming Medical University, Kunming, Yunnan, China | [f] Department of Neurology, Dehong People’s Hospital, Dehong, Yunnan, China | [g] Department of Neurology, the First Affiliated Hospital of Kunming Medical University, Wuhua District, Kunming, Yunnan Province, China | [h] War-Related Illness and Injury Study Center, VA Palo Alto Opieka zdrowotna System, Palo Alto, CA, USA | [i] Department of Psychiatry & Behavioral Sciences, Stanford University School of Medicine, Palo Alto, CA, USA

Korespondencja: [*] Korespondencja do: dr Michael F. Bergeron, FACSM, SIVOTEC Analytics, Boca Raton Innovation Campus, 4800 T-Rex Avenue, Suite 315, Boca Raton, FL 33431, USA. E-mail: mbergeron@sivotecanalytics.com.; Xiaolei Liu, MD, Wydział Neurologii, Pierwszy Afiliowany Szpital Uniwersytetu Medycznego w Kunming, 295 Xichang Road, dystrykt Wuhua, Kunming, prowincja Yunnan 650032, Chiny. E-mail: ring@vip.163.com.

Keywords: Aging, Chorobę Alzheimera, dementia, mass screening