了解医学检查和检查结果

作者:Brian F. Mandell, MD, PhD, Cleveland Clinic Lerner College of Medicine at Case Western Reserve University
已审核/已修订 5月 2021
看法 进行患者培训

检查结果可以帮助医生对有症状患者明确诊断(诊断试验),或发现无症状患者的隐匿性疾病(筛查)。如果根据临床表现适当地安排了测试,则任何结果都应有助于排除或排除可能的诊断。 如果检测无法区分疑似疾病患者和非疑似疾病患者,或者检测结果未正确整合到临床环境中,则检测结果可能会干扰临床决策过程。

实验室检查是不完美的,可能错误地把某些健康人鉴定为有病的人(假阳性)或是把某些患病的人鉴定为无病的人(假阴性)。 一个检查试验是否能够准确地诊断疾病取决于被检查者患有这个疾病的可能性大小(即验前概率)和检查本身的特征。

虽然诊断性检查对精准临床决策起到重要作用,有时候检验也会带来一些意料之外的结果。因此是否进行检查要慎重,希望检查的结果可以使病人的问题清晰起来,对他们的健康有益。 检查有时候也会带来一些不正确的信息(导致治疗被拖延或不必要的治疗)。另外实验室检查消耗资源,并且一些检查会带来副作用(例如肺活检可能导致气胸),或者又造成其他不必要的检查。

确定阳性检查结果

大部分的检查结果可以提供一个连续性的数字化的值(例如血糖、白细胞计数)。这种检查结果可以为临床提供有用的信息,但是临床医生常常仅根据已有的标准或截点来判断是阳性结果或阴性结果来诊断疾病(如疾病是否存在)。这些截点常常是基于统计或者理论分析来权衡假阳性(造成不必要的、昂贵的甚至有危险性的检查或治疗)及假阴性(造成可治疗疾病漏诊)结果的发生率。确定截点也可以依赖诊断疾病的金标准。

一般来说,这些定量检查结果(例如疑似细菌性肺炎患者的白细胞计数)遵循某种类型的分布曲线(不一定是一个正常的曲线,虽然通常被描绘成这样)。特定疾病患者的检查结果分布情况与未罹患该疾病的病人不同。一些病人的检查结果可能很高或很低,但大部分检查结果集中在平均值。相反,一些没有罹患该疾病的病人也有可能出现非常高或非常低的情况,但是多数集中在另一个平均值,与罹患该疾病的病人不同。对于大部分检查来说,罹患疾病患者检查结果分布曲线和未罹患该疾病的人有重叠,这样的结果如果在同一张图表中呈现会更容易阐明(见图检验结果分布)。一些病人高于或低于选择的截点并不能决定诊断。调整截点,可以定义更多的病人患有该疾病(增加检查的敏感性)同时也增加了疾病的假阳性率(特异性差),然而向另外一个方向调整截点,可以避免误诊但增加了假阴性。每个截点都与真阳性及假阳性结果的特定概率有关。

检查结果的分布

上半部分为罹患疾病病人,下半部分为未罹患病人。罹患疾病的病人部分,在结果分布曲线以下,截点线右侧(上方)反应检测的真阳性率(如检查敏感性);截点线的左侧(下方)反应检测的假阴性率。未罹患疾病病人部分,截点线右侧反应假阳性率;截点线左侧反应真阴性率(如检查特异性)。 对于2种重叠分布的曲线(患者和非患者),移动截点线影响检测的敏感性及特异性;移动截点线从1到2,减少了假阴性病例数(增加敏感性)但是也增加了假阳性病例数(降低了特异性)。

接受者操作特征曲线(ROC曲线)

绘制真阳性结果部分(真阳性病例数/病人总数)及假阳性结果部分(假阳性病例数/病人总数),产生一系列的截点,称为ROC曲线。ROC曲线图形化地描绘了调整截断值时对敏感性及特异性的权衡(见图典型受试者工作特征(ROC)曲线)。为了方便,真阳性率放在y轴,假阳性率放在x轴。ROC曲线下面积越大越能更好地区分患者是否罹患某个疾病。

ROC曲线方便通过改变截点比较检查结果。图342-3的例子中可见A检查在各方面都比B检查好。ROC曲线可以用于选择截点来最大化检查的效用。如果一个检查是用于确诊疾病的,那么截点应该选择更高特异性、相对低敏感性的。如果检查用于筛查疾病,那么截点应该选择相对高敏感性、低特异性的。

ROC曲线

检查本身的特征

一些临床变量只有两种情况(如存活/死亡,怀孕/未孕),这种变量为分类变量或二分类变量。 其他分类结果可能有很多离散值(如血型、Glasgow昏迷指数),定义为名词变量或等级变量。名词变量如血型,没有特定的顺序。等级变量如Glasgow昏迷指数有一定顺序的离散值。 其他临床变量,包括许多典型的诊断性检查,是连续性的,结果为一个数值(如白细胞计数、血糖水平)。 许多临床医生选择一定的截点使连续性变量变成二分类变量(如快速血糖检查>126mg/dL (7.0 mmol/L)诊断为糖尿病)其他一些连续性变量的诊断性检查在不同的截点或不同结果范围有诊断效力。

如果检查结果可以确定阳性、阴性,那么所有可能的预后都可以使用简单的2×2表格(见表假设检验结果的分布),2×2表格能很好地展示检查的特征,包括敏感性、特异性,阳性、阴性预测值,似然比都可以计算出来(见表1000名假定UTI患病率为30%的妇女队列中假设的白细胞酯酶检测结果分布)。

表格
表格

敏感性、特异性及预测值

敏感性、特异性通常反应检查本身的特征,与病人的人群特征没有关系。

  • 灵敏度 是疾病患者检测结果呈阳性的可能性(真阳性率)

因此,一个检查在10个病人发现8个阳性,那么敏感性为0.8(也可以写为80%)。敏感性反映了检查项目是否能很好地发现疾病,低敏感性的检查不能很好的发现患者,敏感性高的检查如果结果为阴性能有效的排除诊断。敏感性与假阴性互补(即,假阴性率+敏感性=100%)。

  • 特异性 是没有疾病的患者在没有疾病的患者中检测结果为阴性的可能性(真阴性率)

因此,一个测试在10个未罹患疾病的病人中9个为阴性,那么特异性为0.9(也可以写为90%)。特异性反映了检查是否能准确的诊断病人,特异性高的检查假阳性率低。特异性低的检查会造成很多病人的误诊。特异性与假阳性率互补。

预测值 描述在不知道他们是否患有疾病的给定患者群体中的测试行为。对于给定的测试,预测值取决于测试的患者人群中疾病的流行程度。

  • 阳性预测值(positive predictive value, PPV)指检查结果阳性并且确实罹患该疾病的比率

因此,如果10个阳性检查结果中9个为正确的(真阳性),PPV为90%。因为所有阳性检查结果包含其真阳性及假阳性数,因此PPV可以用于描述某个特定人群阳性检查结果中真阳性的可能性。

  • 阴性预测值(negative predictive value, NPV)指检查结果阴性并且确实没有罹患该疾病的比率

敏感性、特异性及预测值

NPV = 阴性预测值;PPV = 阳性预测值。

因此,如果10个阴性测试结果中有8个是正确的(真阴性),则NPV为80%。因为不是所有阴性检查结果都为真阴性,一些检查结果阴性的患者事实上患有该疾病。NPV可以用于描述某个特定人群阴性检查结果中真阴性的可能性。

临床计算器
临床计算器
临床计算器

似然比(LRs)

与特异性和敏感性不同,特异性和敏感性不能用于特定某个病人,临床医生可以运用LR将检查结果解释给某个特定病人,告诉其患病的验前概率(虽然常常是估计的)。

LR描述了当已知测试结果并回答问题时疾病的预测试概率的变化

  • 既然测试结果是已知的,那么测试后的概率与测试前的概率相比发生了多大的变化?

许多临床试验是二分类的;它们要么高于截止点(正),要么低于截止点(负),并且只有两种可能的结果。另外一些检查结果给予连续性数字结果或者给予一定的范围。真正的验后概率取决于LR(与检查本身的特征有关),以及估计疾病的验前概率。当化验结果仅有两种可能(阳性或阴性),敏感性及特异性可以用于计算阳性LR(LR+)或者阴性(LR-)。

  • LR+:表示罹患该疾病的病人(真阳性)的可能性比上检查结果阳性但没有罹患此种疾病的病人(假阳性)的可能性。

  • LR-:表示检查结果阴性但是罹患该疾病的病人(假阴性)的可能性比上检查结果阴性没有罹患该疾病的人(真阴性)的可能性。

当检查结果是连续性的数字或者有多个截点,ROC曲线可以用于计算LR,而不能使用敏感性及特异性,不再用LR+及LR-表示。

因为LR表示的是交互部分的比值而不是总体的比例,LR代表比数 (odds)而不是概率。对于一个既定的检查,LR在阴性和阳性结果方面不同。

举例,已知一个阳性检查结果,LR为2.0表示比数为2:1(真阳性:假阳性)。如果有3个阳性检查结果,2个检查结果为真阳性,1个检查结果为假阳性。真阳性及假阳性可以计算敏感性及特异性,因此LR+就是敏感性/(1特异性)。LR+越大,阳性检查结果提供的信息越多;LR+>10表示该检查结果是诊断该疾病非常强的证据。另外一方面,阳性检查结果LR+很高,验前概率趋向于100%。

对于阴性检查结果,LR-为0.25表示比数为1:4(假阴性:真阴性)。如果有5个阴性检查结果,1个结果为假阴性,4个为真阴性。LR-也可以记为(1敏感性)/特异性。LR-越小,阴性检查结果意义越大;LR<0.1是排除诊断该疾病强有力的证据。阴性检查结果LR-非常低,验前概率趋向于0%。

检查结果的LRs为1.0对验前概率没有任何影响。

LRs可以很方便的用于比较各项检查,在Bayesian分析中 用于解释实验结果。截点变化的时候敏感性及特异性发生改变,因此LRs也发生改变。 举例,急性阑尾炎病人如果白细胞计数截点选择很高(20,000/μL)具有较高特异性,可以有高LR+,但是LR-也随之变高;如果下调截点(10,000/μL)敏感性提高,LR-降低但是LR+也随之变低。

临床计算器

二分类检查

理想的二分检查是没有假阳性及假阴性结果;所有检查结果阳性的病人均患有该疾病(100%PPV),所有检查结果阴性的患者均没有罹患该疾病(100%NPV)。

事实上,所有的检查都有假阳性及假阴性结果,只是有些检查多些有些少些。举例来说明敏感性和特异性对检查结果的影响,假如对1000个妇女进行尿白细胞酯酶试纸检查,300(30%)人患有UTI(用尿培养等金标准确诊)(参见表1000名假定UTI患病率为30%的妇女队列中假设的白细胞酯酶检测结果分布)。结果显示该试纸检查的敏感性为71%,特异性为85%。

敏感性71%意味着300个UTI的妇女中仅有213人(71%)检测结果阳性。剩余的87人检测结果阴性。特异性85%说明700个未罹患UTI的妇女中595人检测结果阴性(85%)。剩余的105人检测结果阳性。因此在 213 + 115 = 318个阳性检测结果中,仅有213个是准确的(213/318=67%PPV);阳性检查结果说明UTI的可能性更大,但不能确诊。 在87 + 595 =682个阴性检查结果中595个是准确的(595/682=87%NPV),阴性结果说明UTI的可能性不大但是仍然有可能;13%检测结果阴性的患者事实上患有UTI。

表格
表格

但是,当疾病发生率(验前概率)不同时PPV和NPV不能用于解释相同检查的结果。注意疾病发生率改变到5%的影响(见表假设UTI患病率为5%的1000名女性队列中白细胞酯酶测试结果的分布)。那么所有阳性检查结果都是错误的,PPV仅为20%;检查结果阳性的患者事实上更可能没有罹患UTI。然而NPV变得很高(98%);阴性结果可以基本排除UTI。

表格
表格

需要注意的是,在这两个不同队列中,虽然PPV和NPV差别很大,但是LRs不会改变,因为LRs仅由检查本身的敏感性及特异性决定。

检查结果并不能确定诊断,但是能估计疾病存在与不存在的概率。验后概率随疾病的验前概率及检查的敏感性和特异性(也就是检查的LR)发生改变。

验前概率

验前概率不是一个精确的测量;是基于临床判断,患者的症状、体征多大程度上指向该疾病,患者病史中有哪些证据支持该诊断,以及这个疾病在该患者的人群中是否常见。许多临床评分系统用来估计验前概率;不同临床特征用于增加得分。这些实施例说明精确估计验前发病率的重要性,因为疾病在所特定人群的患病率显著影响检查的准确测试前流行估计的重要性。 如果可以使用的话,应采用经过验证的、已发布的患病率估算工具。例如,肺栓塞的验前概率有预测标准。分值越高说明概率越高。

连续试验

许多检测结果都是连续性的,可以提供更多有用的临床信息。医生常常选择一定的截点最大化检测的效用。例如,白细胞计数>15,000被认为阳性;<15,000为阴性。当连续性数字结果确定了截点以后,这个检查结果就类似二分检查。也可以选择多个截点。敏感性、特异性、PPV、NPV、LR+、LR-可以通过单个或多个截点来计算。表可疑阑尾炎患者改变白细胞计数截断值说明了改变白细胞计数截断值对疑诊阑尾炎患者的影响。

表格
表格

另外,对连续性数字结果分级也是很有用的。在这个病例中,结果没有被标注为阳性或阴性,因为有多种可能的结果,所以虽然LR可以在不同级别的结果确定,但是LR+或LR-就不再有显著区别。例如,表使用WBC分类来确定发热儿童菌血症的似然比显示的是发热儿童白细胞计数与菌血症的关系。因为LR是患有疾病的病人某个检测结果的概率除以这个检测结果但是未患有疾病的概率。对于每个白细胞计数结果组来说,LR为某个结果组菌血症概率除以没有菌血症的概率。

表格
表格

给连续性数字结果分组比仅仅设立单一的截点更有用。使用贝叶斯分析,表中的LR使用WBC计数组确定高热儿童细菌血症的似然比 可用于计算测试后的概率。

对于连续性检查结果,如果已知ROC曲线,中的算式就没有必要做了;LRs可以用ROC曲线某个点的斜率来表示。

Bayes定理

运用Bayes定理或Bayesian修订版,通过疾病的验前概率及检查的特征可以计算验后概率。在日常临床运用中,Bayesian方法分为以下几种形式:

  • 比数-似然比公式(Odds-likelihood formulation,算式或列线图)

  • 表格方法(Tabular approach)

比数-似然比算式

疾病验前概率用其比数表达,检查的LR可以代表比数,因此二者可以代表疾病验后概率比数(类似于两个概率相乘)

验前比数×LR=验后比数

临床上比较多用概率而不是比数,因此可以将比数转化为概率:

比数=概率/1概率

概率=比数/比数+1

参考表1000名假定UTI患病率为30%的妇女队列中假设的白细胞酯酶检测结果分布中UTI的案例,UTI的验前概率为0.3,该检查的LR+为4.73,LR-为0.34。验前概率为0.3,因此比数为0.3/(10.3)=0.43。因此,UTI的验后概率可以用检查结果阳性的病人来表示,等式为验前比数乘以LR+,4.73 × 0.43=2.03,验后概率等于2.03/(1+2.03)=0.67。根据Bayesian算式,阳性检查结果将验前概率从30%增加到67%。在中PPV的计算也得到相同的结果。

阴性检查结果计算方法与此类似;验后比数=0.34×0.43=0.15,概率为0.15/(1+0.15)=0.13。因此,阴性检查结果降低验前概率从30%到13%。在中NPV的计算也得到相同的结果。

许多医学计算公式在移动电子设备上都有,可以通过验前概率及LRs来计算验后概率。

临床计算器
临床计算器
临床计算器
临床计算器

比数-似然比列线图

运用列线图较算式更加方便,不需要在比数和概率间做转换,同时,也避免了2×2表格。

使用Fagan列线图,连线从验前概率到LR。验后概率就是连线和验后概率线相交的点。图中的样本线是使用表假设尿路感染患病率为30%的1000名女性队列中假设白细胞酯酶试验结果的分布中UTI试验的数据绘制的。连线A代表阳性检查结果,连线从验前概率0.3开始到LR+4.73,得到验后概率值为略微小于0.7,与算式中计算得到的0.67接近。连线B代表阴性检查结果,连线从验前概率0.3开始到LR-0.34,得到验后概率值为略微大于0.1,与算式中计算得到的13%接近。

虽然列线图较算式没有那么精确,但是验前概率本身常常就是一个估计值,精确的计算结果没有很大意义。

Fagan列线图

图中的样本线是使用表假设尿路感染患病率为30%的1000名女性队列中假设白细胞酯酶试验结果的分布中UTI试验的数据绘制的。连线A代表阳性检查结果,连线从验前概率0.3开始到LR+4.73,得到验后概率值为略微小于0.7,与算式中计算得到的0.67基本相同。连线B代表阴性检查结果,连线从验前概率0.3开始到LR-0.34,得到验后概率值为略微大于0.1,与算式中计算得到的13%基本相同。

LR+=阳性结果似然比;LR-=阴性结果似然比。

Adapted from Fagan TJ.Letter: Nomogram for Bayes theorem.New England Journal of Medicine 293:257, 1975.

表格方法

常常检查的LRs是未知的,但是已知敏感性及特异性,验前概率可以估计。在这种情况下,可以使用假设白细胞酯酶(LE)试验结果解释表中所示的2×2表格,并使用假设UTI患病率为30%的1000名妇女队列中假设白细胞酯酶试验结果分布表中的示例来完成贝叶斯方法。我们注意到阳性检查结果增加UTI的概率至67%,阴性检查结果降低概率至13%,与运用LRs计算结果一致。

表格
表格

序贯试验

在诊断评估过程中,临床医生常常进行序贯检查。如果知道序贯试验前的验前比数及每个检查的LR,那么验后比数可以按如下公式计算:

验前比数×LR1×LR2×LR3=验后比数

这个方法的局限性在于首先假设每个检查是完全独立的。

筛查试验

病人常常考虑是否需要筛查某个隐匿的疾病。 筛查项目成功的前提是早期发现疾病可以改善有临床意义的结局,并且筛查假阳性结果不会给病人带来的负担(如确诊检查的费用及其副作用、检查引发的焦虑、不必要的治疗)不能超过其好处。为了最小化这种可能的负担,临床医生应当选择一种适当的筛查方法。如果对于该疾病治疗或预防措施没什么效果,或者该疾病非常罕见(除非在个别人群中的发病率很高),那么就没有必要进行筛查。

理论上来说,对于筛查性试验诊断性试验,检查方法的敏感性及特异性都越高越好。 但是,敏感性和特异性都很高的检查方法常常是很复杂、价格昂贵,并且是侵袭性的(如冠状动脉造影),因此用于筛查大量无症状人群是不合适的。因此在选择筛查试验方法是需要权衡敏感性及特异性。

临床医生选择的检查是否敏感性及特异性最佳,依靠检查结果假阳性及假阴性的结局,还有疾病的验前概率。一个理想的筛查结果是,几乎所有阳性结果都是患病病人,阴性结果都排除疾病的健康人群。 例如,对于一个非常严重的疾病,目前已有有效的治疗措施(如冠状动脉疾病),临床医生更倾向于多一些假阳性而不是假阴性(低特异性、高敏感性)。虽然高敏感性对于筛查试验很重要,但是特异性在一些情况下也很重要。人群中发病率很高的疾病,其筛查试验的PPV增加;发病率降低,阳性结果的验后或事后概率降低。因此,在筛查高发病率人群的时候,高敏感性的检查比高特异性的检查更好,因为能更好地消除疾病(减少假阴性)。相反,对于治疗效果不佳、治疗风险高,发病率低或罕见疾病筛查,高特异性检查更合适。

多重筛查

随着可以采用的筛查性检查方法越来越多,临床医生需要考虑这些检查的意义。举例来说,病人住院或者第一次到新的医生就诊时常常需要进行8、12有时候甚至20项血液检查。虽然这些检查对筛查病人是否患有某些疾病有帮助,但是做大量的检查可能得到阴性的结果。例如,一个特异性为95%的检查将导致5%没有此病的患者发生假阳性的结果。如果有2个不同的筛查方法,用于筛查不同的隐藏性疾病,两个检查均呈阴性的可能性为95%×95%,或大约90%;未患这两种疾病的病人有10%的机会至少出现一次假阳性的结果。如果同时做3个针对不同疾病的筛查试验,3个检查均阴性的可能性为95%×95%×95%,或86%。相应地,至少14%的机会至少出现1次假阳性结果。如果做了12个针对12种不同疾病的检查,至少出现1次假阳性的可能达到了46%。因此,需要十分小心开展一系列的筛查检查,且需仔细解释结果。

检测阈值

只有对诊断、治疗有价值的实验室检查才需要做;否则病人花费的金钱和承担的风险就毫无价值。临床医生通过验前概率和验后概率估计一定的阈值来决定什么时候该做检查。超过一定的概率阈值,并且治疗的利大于弊(包括误诊病人的风险),那么可以进行治疗。这一点称为治疗阈值,其确定方法如 临床决策策略:概率估计和治疗阈值所述。 当验前概率超过治疗阈值的时候就不需要检查。如果验前概率低于治疗阈值那么检查是需要的,如果检测结果为阳性,那么验后概率就会超过治疗阈值。 出现这一情况的最低验前概率取决于测试特征(如,LR+),称为检测阈值。

理论上来说,如果一个针对严重疾病的最佳检查,LR+很低,治疗阈值很高,那么对于很低的验前概率(如10%或20%),即使是阳性的检查结果也不会使验后概率超过治疗阈值。

对于数值说明,考虑先前描述的可能急性心肌梗死(MI)的情况,其中风险和效益之间的平衡确定了25%的治疗阈值。当MI概率超过25%,溶栓治疗就需要实施。那么在溶栓治疗前,何时应该给病人行心超检查?假设心超诊断心肌梗死的敏感性为60%,特异性为70%;因此LR+为60/(10070)=2,LR-为(10060)/70=0.57。

可以运用数学公式(验前比数×LR=验后比数)或者使用更直观的Fagan列线图。在列线图中我们可以看到,连线连接验后概率线上治疗阈值(25%)到LR+(2.0),与验前概率线相交在大约0.14。很明显,当病人验前概率<14%时即使检测结果阳性,验后概率仍然不会超过治疗阈值。在这个病例中,心超检查没有必要,因为即使检查结果为阳性也不能决定治疗,因此验前概率14%是这个特定检查的检测阈值(见图测试和治疗阈值的描述)。其他检测方法LR+值不同,那么检测阈值也不同。

Fagan列线图用于判断是否需要检测

举例中,假设以为病人急性心肌梗死的治疗阈值(TT)为25%。当心肌梗死概率超过25%,应该进行溶栓治疗。临床医生可以运用Fagan列线图判断在溶栓治疗前是否需要行心超检查。假设超声心动图对新 MI 的假设灵敏度为 60%,特异性为 70%,这些百分比对应于阳性测试结果 (LR) 的似然比 (LR)+) 为 60/(100 70) = 2.连线连接验后概率线上治疗阈值(25%)到LR+(2.0)与验前概率线相交在大约0.14。很明显,当病人验前概率<14%时即使检测结果阳性,验后概率仍然不会超过治疗阈值。

Adapted from Fagan TJ.Letter: Nomogram for Bayes theorem.New England Journal of Medicine 293:257, 1975.

描述检测阈值及治疗阈值

水平线代表验后概率。

由于14%对于心肌梗死来说还是很大的风险,因此疾病概率低于检测阈值(如验前概率10%)也不意味着能够排除诊断,仅仅说明这个检查不能改变治疗方案,因此该检查不需要做。在这种情况下,临床医生应当进一步观察病人,寻找证据提高验前概率,使其超过检测阈值。在临床操作中,因为医生常常做多种检查,因此可以使用序贯试

在上面这个例子中,检查本身不会给病人带来风险。 那么如果检查本身有很大的风险(如心导管),检测阈值应当更高;可以定量计算但是非常复杂。因此,降低检查方法的敏感性及特异性,或者增加检查风险缩小疾病的概率范围是最好的策略。提高检查方法的分辨力,或降低风险,是扩大疾病概率范围的最好策略。

另外一种情况是,如果验前概率低于检测阈值(但是依然令人担忧),如果检测结果阴性,可以降低验后概率,帮助排除诊断。这时是否需要进行检查取决于主观判断是否一定要排除这个概率很低的疾病,尤其是当检查存在一定风险时。

quizzes_lightbulb_red
Test your KnowledgeTake a Quiz!
下载默沙东 诊疗手册应用程序!ANDROID iOS APPS in CHINA
下载默沙东 诊疗手册应用程序!ANDROID iOS APPS in CHINA
下载默沙东 诊疗手册应用程序!ANDROID iOS APPS in CHINA