首页 » PHP教程 » php评价量表技巧_机械进修助力开拓帕金森认知风险评分量表新技能get

php评价量表技巧_机械进修助力开拓帕金森认知风险评分量表新技能get

访客 2024-12-13 0

扫一扫用手机浏览

文章目录 [+]

“机器学习”这个词怎么近两年在哪哪哪都能见到,一会预测股市走向,一会预测机票价格,一会跟病理年夜夫PK识别癌症病理切片,一会去下围棋,一会去打电竞。
但总是不明白那到底是什么鬼,耳熟不能详。

但我还是强烈觉得到,它将来一定会对医学产生很大的影响,除了听说过的“某AI在某病的诊断上又超过了医学专家”之外,它的研究方法也会引入医学科研中,提高我们做科研的效率,并可能开拓出很多故意思的成果。

php评价量表技巧_机械进修助力开拓帕金森认知风险评分量表新技能get

这不,最近发在Lancet Neurology上的一篇文章,为帕金森病的认知损伤开拓一个大略易用的风险评分量表,即在已宣布过的风险成分中筛选出有较大影响力的几个,建立预测模型。
它便是在传统方法的根本上加入了一点机器学习的方法,没有太深太繁芜,恰好能带我们一窥其风采(入坑引导←_←)。

php评价量表技巧_机械进修助力开拓帕金森认知风险评分量表新技能get
(图片来自网络侵删)

科学假设

1.帕金森病中的认知损伤还没有有效的干预手段;

2.那是由于相应的临床研究中,还有没办法对认知功能进行有效的基线掌握和预测,导致临床研究的效率不高;

3.瞧瞧隔壁心血管科,人家有个Framingham风险评分,便是基于大略的性别、年事及其贰血汗管危险成分,来预测10年内心血管疾病发生率,炒鸡friendly。
我们帕金森也要搞一个。

结果解读

首先,研究者网络汇总了9个已揭橥研究的纵向行列步队数据(北美+欧洲),有的是人群不雅观察行列步队,有的是生物标志物研究行列步队,有的是临床试验行列步队。
它们原来的实验设计、纳排标准、和评价指标都不同。
研究者认为恰是以,由这些数据开拓出为的模型更具有普适性。

9个行列步队的患者数据经由一系列纳排标准的筛选后,又把剩下的分为两个库,一个是由6个行列步队组成的创造库(discovery population),用于建立模型;另一个是重复库(replication population),由3个行列步队组成,用于验证模型。

其次,建模所须要的风险成分(即自变量,Predictors),也是从既往文献宣布中整理出来的,共有9个,分别为:

大略单纯精神状态量表(MMSE);

蒙特利尔认知评估量表(MoCA);

国际帕金森病运动障碍协会改良统一帕金森病评分量表第II、第III部分(MDS-UPDRSII、MDS-UPDRS III);

帕金森病的发病年事;

受教诲年限;

性别;

烦闷状态;

β-葡糖脑苷脂酶(GBA)基因突变。

以上便是研究所须要的材料。
然后通过那9个行列步队的数据,对9个变量进一步筛选,找出哪些确实有影响力,哪些没有;有影响力的,影响力又有多大,这才能形成一个精细的评分模型。

全体研究的流程如Figure 1所示:

Figure1实验设计

第一步:建立模型

先在创造库中用Cox回归打算每个自变量的回归系数、风险比(HR)等统计量,剔除无效的自变量,于是MDS-UPDRSII评分先被刷掉了。

剩下的8个风险成分则进入一个多变量Cox模型,用后肃清法剔除无显著性的变量,于是又剔除了Hoehn-Yahr分级。

剩下的7个风险成分和它们的回归系数一起构成了认知风险评分系统,即发病年事、基线MMSE、受教诲年限、基线MDS UPDRS-III评分、性别、基线烦闷状态和GBA突变。

用这个评分系统来预测患者帕金森发病10年内是否会涌现整体认知功能损伤,有很高的准确率,AUC为0.86,在风险评分0.196的临界点上,特异性为0.72,敏感性0.87(Figure 2A)。

Figure 2A 创造库的认知风险评分ROC曲线

接下来,研究者提取评分处于最高四分位数和最低四分位数的患者数据,形成两个分组,绘制K-M曲线(Figure 2C)。
创造最高四分位数的患者,HR比最低四分位数者高。
处于最低四分位数的患者有95%能安稳度过10年而不发生认知损伤,而最高四分位数者只有34.9%能幸免。

Figure 2C 创造库中评分最高和最低四分位数的认知损伤K-M曲线

第二步:验证模型的预测效力

将刚才开拓出来的预测模型,放到新的样本(重复库)中,仿照预测其10年的整体认知损伤发生概率,绘制ROC曲线(Figure 2B)。
结果AUC为0.85,在0.196的临界点上,特异性0.74,敏感性0.73。

Figure 2B重复库的认知风险评分ROC曲线(纵坐标接Figure 2A)

四分位数分组情形相似,也绘制K-M曲线(Figure 2D)。
风险评分处于最低四分位数者,10年内有96.3%的患者幸免于整体认知损伤,评分处于最高四分位数者,只有27.4%幸免。

Figure 2D 重复库中评分最高和最低四分位数的认知损伤K-M曲线(纵坐标接Figure 2B)

再用来预测10年内帕金森病痴呆(PDD)的发生率,其AUC比预测整体认知损伤还要略高一些,达到0.88。
在0.196分的临界点上,敏感性0.86,特异性0.72。
最高四分位数的患者只有48.3%幸免于痴呆,最低四分位数有98.9%能幸免(Figure 3)。

Figure 3 在重复库中预测10年内PPD的发生率

第三步:考验模型的稳定性

传统的研究做到上面两步也就够了,可以宣告这个模型测试良好,接着拿去申请下一次研究的经费,测试实际运用啥的。
但本研究便是在这里异峰突起,加入了机器学习中用得较多的bootstrap方法。

对bootstrap大略理解便是,从整体中有放回地重复取样(resample)N次,一样平常N>1000,得到N个子集,每个子集样本量都一样。
然后用这些子集打算我们须要的统计量T(在本案例中,T就代表预测认知风险的评分模型,然后打算其AUC),这样我们就得到了N个T,然后通过打算T的均值、方差、分布等特色,去评估它的准确性和稳定性。

本研究中N=10000次。
每次新抽取的样本都分为演习集(training set)和测试集(test set),分别对应创造库和重复库。
重新在演习集中建立预测模型,重新在测试集中进行验证。

10000次迭代运算后,原模型中的发病年事、基线MMSE、受教诲年限这3个自变量,在每次迭代的新模型中都保留了;基线MDS-UPDRS III评分在98.30%的模型中留下,GBA突变有91.79%,烦闷状况90.61%,性别78.52%。
而原来被剔除的Hoehn-Yahr分级,则在34.86%的迭代中被加入了模型中(Figure 4A)。
可以看出,纳入原模型的7个自变量是稳定的,而Hoehn-Yahr分级则有点小颠簸,但仍可以忽略。

把这10000次演习集天生的新模型用到各自对应的测试集中进行预测,个中预测10年内发生整体认知损伤的均匀AUC为0.83,预测PDD的则达到0.87,这与之前的自变量筛选、预测性能测试的结果相同等。
Figure 4B即为10000次迭代中预测认知损伤和痴呆的AUC分布情形,显然是正态分布。

Figure 4 评分模型的稳定性

第四步:仿照运用

本研究的目的不便是为临床研究供应掌握基线的工具么,以是仿照一下临床试验的场景。
假设有一个为期3年的临床试验,研究某药物延缓或逆转PD认知功能损伤的疗效。

认知功能损伤的量化指标常日都是MMSE量表或MoCA量表,以是先看一下重复库中风险评分和这两个量表的关系,创造基线风险评分高者,后来的MMSE就降得越快,MoCA也有相似的模式。
这解释在临床试验中以CRS > 0.196为纳入标准,能成功富集高风险的受试者。

Figure 5A&B 风险评分分组与MMSE及MoCA变革轨迹的关系

接下来,一个临床研究好坏的评价指标之一是统计功效(power),要达到80%才算好。
那么为了达到80%的功效,要纳入多少样本才够呢?

我们知道统计功效跟效应量和样本量都是呈正干系,二者越高,统计功效越高。
如果以评分>0.196来掌握入组基线,组间差异的效应量就能提高。
于是在统计功效一定的情形下,就能减少所须要的样本量。

经由打算,用MoCA作为量化指标时,干预组和对照组各137人就可以达到80%的统计功效,而MMSE没有MoCA那么敏感,须要各组152人。
但如果不加掌握,则MoCA须要每组801人,MMSE须要每组802人,差了大约6倍。
以是运用该评分是不是大大节省了科研资源?

Figure 5C 高风险评分和普通受试者样本量与功效的关系

至此,实在该模型的预测效力、稳定性及运用前景都得到了很好的磋商,但作者又做了一些锦上添花的善后事情。

一是做了纵向的稳定性与效力检测,创造它在各种韶光框架下(不仅是10年,而是预测1年~11年的认知功能损伤)都很稳定,不过12年后就衰弱了,可能是由于很少有患者能允从完全的12年随访吧。

二是为不便检测GBA突变的医疗单位开拓了一个纯临床版本,只有剩下的6个参数。
这个版本同样在创造库和重复库中都有很好的准确性,AUC分别为0.86和0.83。
只不对头敌人比较起来,纯临床版本没那么好(p<0.0001)。

这个评分系统已经有了beta测试版网络打算器,仅限研究利用,而临床运用版还要经由前瞻性研究的测试,还要有神经心理学方面的支持。

http://www.scherzerlaboratory.org/tools/login.php

套路总结

这是我们传统的分子生物实验汪所理解的“不做实验”的一种,但实在并不轻松,事情量也挺大的。
为了差异于在实验室中拿加样枪和试管各种倒腾的研究方法,有时候会管这种叫“干实验”,我们熟习的那种叫“湿实验”。

本实验的9个行列步队,9个候选参数,都是从已揭橥的研究中挖来的。
将9个行列步队分为创造库和重复库,实在观点就有点像机器学习研究中所说的演习集和验证集。

再以创造库为底物,用统计学方法从9个参数中筛选出7个有效参数,建立预测模型。
像是体外实验中加试剂、反应、得到产物的过程。

然后把那个模型拿到重复库中去验证,像是体内实验的验证。

接着通过机器学习的方法,重复随机采样,建立演习集和测试集,进行10000次重复运算,验证模型的稳定性。
就得到了拿得脱手的产品。

末了虚拟一个运用处景,测试运用与不应用本产品的前后效果,结果有显著差异。
Perfect!

机器学习虽然在表面很火,但进入临床研究还比较新鲜。
一想到前不久说的准备公开临床研究数据的新规定,我以为它的火势很快就会蔓延过来,会有更多方法引进,由于到时候要拿到这类数据就方便多了,数据驱动型研究可以成为将来的一大方向。
不如趁咱们还年轻,储备点干系知识,往后引领潮流吧。

参考文献:

1. Prediction of cognition inParkinson's disease with a clinical–genetic score: a longitudinal analysis ofnine cohorts

2.Predicting outcome inclinically isolated syndrome using machine learning

3.【机器学习】Bootstrap详解 - 知乎专栏

投稿邮箱: tougao@helixlife.com.cn

互助微信:helixlife6

标签:

相关文章