医学科学

作者：Brian F. Mandell, MD, PhD, Cleveland Clinic Lerner College of Medicine at Case Western Reserve University

Reviewed ByMichael R. Wasserman, MD, California Association of Long Term Care Medicine

已审核/已修订 7月 2024

浏览专业版

几千年来，医生总是在治病救人。最早的医疗文献来源于古埃及，至今已逾3500年。甚至在更早的时候，巫医神汉就以草药和其它办法治疗伤病者。几种疗法（如用于单纯性骨折和轻微创伤的方法）是有效的。不过，直到最近，许多药物治疗无效，有些甚至有害。

200 年前，治疗各种疾病的常见疗法包括切开静脉放血一品脱或更多，以及让病人服用不同毒物催吐或导泻，“净化”病体—对于病者或伤者都有危险。大约 125 年前，除了提到某些有用但可能有毒性的药物（例如阿司匹林和洋地黄）外，默沙东诊疗手册还记载了用可卡因治疗酒精使用障碍，用砷和吸烟治疗哮喘，硫磺酸鼻喷雾剂可治疗感冒。医生认为自己在帮助患者。当然，希望以前医生了解现在的认识有失公正，但是，为什么医生曾经认为吸烟对哮喘有益？

有多种理由可解释为什么过去医生向患者推荐这类无效和有时有害的治疗，以及为什么病人会接受：

通常，没有有效的替代疗法。
医生和患者往往更倾向于采取某些措施而不是什么都不做。
求助于权威人物使患者得到慰藉。
医生常会提供急需的支持和保障。

然而，最重要的是，医生无法确定哪种治疗有效，因为药物和程序在过去并未经正式的结构化临床研究严格评估过。

治疗和康复：因果关系？

如果一个事件紧接着另一个事件发生，则人们自然认为前面事件是后面事件的原因（称为因果关联）。例如，一个人按动墙上一个无标示的按钮，附近电梯门打开，则此人自然推定此按钮控制该电梯。如此判断事件间关联的能力是人类智慧的一个关键部分，也是我们理解世界的主宰。不过，人们常会假定并不存在的因果关联。这就是运动员为什么一直穿着“幸运”短袜（此前赢得重大比赛时所穿），或学生坚持使用相同含义的“幸运”钢笔参加考试。

这种思考方式也是为什么一些无效疗法却被认为有效的原因。例如，如果一位发烧患者在放血一品脱或巫医诵念咒语后好转，那么人们很自然地认为这些措施本应为发烧中止的原因。对于一个极力寻求解脱者来说，病情好转是全部所需证据。不幸的是，早期医学中这些明显的因果关系很少是正确的，然而，人们对它的信仰却足以使那些无效疗法持续数世纪之久。怎么会这样呢？

有时病情会自然好转。 不像“患病”的无生命物体（如折断的斧子或撕裂的衬衫），除非修补，否则仍旧破损，如果机体自愈或疾病病程结束，患者常会自己恢复（或不用医生照顾）。感冒在一周内恢复，典型偏头痛持续一两天，食物中毒症状在12小时内缓解。一些患有严重疾病的病人甚至可不治而愈，如心脏病或肺炎等。慢性病症状（如哮喘或镰状细胞病）可自然缓解。所以，如果给予足够时间，许多疗法看起来就是有效的，其实只要给予自然恢复大约所需的时间，任何治疗似乎都会极其有效。

可能归咎于安慰剂效应。 通常对治疗效果的信念足以使人感觉好转。虽然信念不会使诸如骨折或糖尿病等基础疾病消失，但是通常人们因相信自己正在接受强有效的治疗而感觉病情好转。即使所服药物不含活性成分并且没有任何可能的益处，比如医学上称为安慰剂的糖丸，疼痛、恶心、虚弱和诸多其它症状也可能消失。起作用的是信念。安慰剂效应有时起反作用：在临床研究中，服用糖丸代替药物的人有时会出现与所测试药物相关的副作用（反安慰剂效应）。

自信满满的医生为一名对其充满信任与希望的患者所开治疗方案即使无效甚至有害也常会使患者症状明显改善。这称为安慰剂效应。所以，患者会出现治疗的真实效果（不单是以为有效），而该治疗对疾病本身并无明显的作用。目前的研究表明，对于某些疾病，安慰剂效应有其生物学基础，即使该效应不针对实际疾病。

为什么这很重要？ 有人说，治疗使人感觉好转，是唯一重要的事情。一种治疗是否真正有效即影响基本病变无关紧要。当症状即为问题时，那么这种论点可能是合理的，诸如疼痛或感冒这类常见疾病，往往可以自愈。在这种情况下，医生有时会开出对疾病影响很小的治疗方法，相反，由于安慰剂效应，它们至少可以部分缓解症状。然而，当出现任何危险或潜在性严重病变时，或治疗本身存在副作用时，医生必须处方具有实效的疗法，这至关重要。必须衡量治疗的潜在益处与其潜在危害。例如，对于患有危及生命的疾病，如癌症的患者，可能值得使用有许多副作用的药物。有些癌症药物可能对肾脏或心脏造成严重损害，但这些风险通常可接受，因为其他选择（不对癌症进行治疗的影响）可能比药物副作用更有害

医生如何尽力认知是什么起了作用

因为很久以前有些医生认识到患者能自行好转，他们自然就试图比较患同一疾病的不同个体在接受治疗和不接受治疗的情况下表现如何不同。然而，直到19世纪中叶，进行比较仍非常困难。那时对疾病了解甚少，以至于多名（2 名或以上）患者患上相同疾病时很难判断，即使他们有相似的症状。

使用同一个约定术语的医生常在谈论完全不同的疾病。例如，在18世纪和19世纪，“水肿”诊断指人的腿部肿胀。现在，我们知道水肿可由心衰、肾衰或严重肝病造成，这些疾病差异很大，并不能用同一种方法治疗。相似的情况还有，许多发烧和呕吐患者被诊断为“胆性热”。现在，我们知道，很多不同疾病（如伤寒、疟疾、阑尾炎和肝炎）都能引起发热和呕吐。

直到大约 20 世纪初，精确、科学的诊断普遍出现，医生才开始能够有效评估治疗。然而，他们仍须确定如何最好地评价一种治疗。为了做到这一点，医生和临床科学家制定了严格的方法，包括临床试验，以研究特定治疗对患特定疾病的更大患者群体的影响。这一过程成为临床研究的基础，而研究的目的在于更多地了解个人和人群中健康与疾病之间的复杂关系。

样本大小

首先，医生认识到必须观察更多人对治疗的反应。一两个病例好转或恶化也许是巧合。在众多患者身上获得好的结果则不太可能是巧合。接受治疗的病例数越多（样本量越大），观察到的获益或副作用越真实。对于罕见疾病，研究规模可能相对较小。对于寻求适度改善的常见疾病，临床试验可能招募成千上万的志愿者。

对照组

医生即使发现一种新疗法对一大群人疗效较好，也不能确定数量相同或更多的另一群人是否会自愈或通过不同疗法获得更好疗效。所以，通常，医生会将接受研究性治疗的小组（治疗组）和接受以下处理方法的小组（对照组）做结果对比

旧疗法
虚拟疗法（安慰剂，如糖丸）
不治疗

涉及对照组的研究称为对照研究。

时间框架

首先，医生用一种新疗法为患同样疾病的所有患者进行治疗，然后将治疗结果与相同或不同医生先前治疗的对照组患者相比较。先前治疗的患者称为历史对照组。例如，如果医生发现患者接受新方法治疗后，有 80% 的疟疾患者生存，而接受先前治疗的疟疾患者仅有 60% 能存活，则医生断定，新疗法更为有效。

与先前时间的结果做对比的一个限制是，在新旧治疗间总体医疗水平上的进步也可能是结局有改善的原因。例如，将 2021 年与 1971 年接受治疗的人的结果进行比较并不合适。例如，消化性溃疡病最初用牛奶和乳膏饮食或手术治疗，然后用抗酸药物治疗，最近则用抗生素治疗（以治疗胃中的幽门螺旋杆菌感染）。比较随时间推移而使用的不同治疗时，需要了解疾病过程的变化。

前瞻性研究有助于避免历史对照组涉及的问题。在前瞻性研究中，医生尝试将对照组和治疗组设在同一时间并随着治疗的开展对治疗结果进行观察。治疗组和对照组患者的相关特征应相似。例如，如果所研究的结局是由癌症或心脏病导致的死亡，每组人的年龄和其他因素应相似（如吸烟史或是否患有糖尿病），因为具有这些其他风险因素的人群更容易死亡。

苹果与苹果比较（相似组间比较）

然而，对于包括历史性研究在内的所有类型医学研究而言，最大的担忧是对比的患者的组间相似性问题。

在历史对照的第一个例子中，如果疟疾治疗组是由绝大多数病情轻的年轻人构成，而对照组则由老年重症患者组成，那么治疗组效果会更好，这仅因为该组患者年轻和相对健康。所以，一种新治疗显示出疗效较好的假象。

除了年龄和疾病严重程度外，也必须考虑如下其它诸多因素

所研究患者的总体健康状况（慢性病如糖尿病或肾衰患者比无此类病的患者预后差）
提供医疗保健的专科医生和专科医院（有些技术更熟练，设施条件更好）
研究组男性和女性比例（男女性对治疗反应可能不同）
研究是否包括多样化人群（治疗需要在具有不同特征的人群中安全且效果良好，例如不同种族、地理位置或社会经济地位），因为治疗在某些人群中可能更有效

医生尝试多种不同方法来确保所比较的各组尽可能相似，常用方法有以下 2 种：

病例对照研究：在尽可能多地考虑各种因素（年龄、性别、健康等）的基础上对接受新疗法的患者（研究对象）与不接受新疗法的患者（对照对象）进行精确配对，并使用统计技术帮助确保各组之间的可比性
随机试验：研究开始前，为每个研究组随机分配样本

病例对照研究看起来是合理的。例如，如果医生正在研究高血压新疗法，其治疗组有一位患者42岁并患有糖尿病，那么医生应尽力确保对照组安排一位年龄在40岁左右并有高血压和糖尿病的患者。但是，个体之间存在很大差异，甚至包括医生考虑不到的差异，有意地为研究中每一位患者都创建精确匹配几乎是不可能的。

随机试验采用完全不同的方法降低了组间差异影响研究结果的风险。确保组间匹配的最佳方式是借助于概率法则将患有相同疾病的个体随机（通常借助计算机程序）分配到不同组中。如果使用年龄、性别和其他疾病等已知变量来匹配各组，则各组更有可能具有可比性。然而，随机分配的一个独特的重要优势是，任何影响研究结果但未知（因此在各组之间无法匹配）的因素很可能随机分布在各参与者和组之间。每个组的规模越大，每组中受试者具有相似特征的几率越大。

前瞻性随机研究是确保治疗或试验的比较在对等组间进行的最好方式。

排除其它因素

一旦医生创建了对等的分组，就要努力确保组间唯一差别是研究疗法本身。这样，医生就能确定结果的任何差异都是产生于疗法差异，而不是诸如个体质量或后续护理频率等其它因素造成的。

安慰剂效应是另一重要因素。通常，与未接受治疗、接受旧疗法治疗或接受推测无效的疗法治疗的患者比较，知晓正在接受新的真实疗法治疗的患者有望感觉好转。另一方面，预期接受新试验性治疗的某些人会出现较多副作用。不论哪种情况，这些预期都会夸大所研究疗法的作用，或者认为它更有效，或者断定它存在更多其实并没有的并发症。

盲法也称为设盲，是一种用于减少安慰剂（反安慰剂）效应问题的技术。设盲有 2 种一般类型：单盲和双盲。

单盲是指研究对象不知晓是否正在接受新治疗。即他们对此信息处于“盲态”。通过给予对照组个体外观相同的物质（常为安慰剂，无药物效应）来实现盲法。在单盲研究中，研究人员知道治疗分配，但参与者不知道。
双盲是指研究参与者和研究人员均不知道哪些研究参与者接受新的治疗而哪些接受安慰剂治疗。鉴于医务人员可能会无意中让患者知晓其正在接受何种治疗，因此如果全部相关医务人员都对实施治疗不知情则会更好。双盲的另一理由是安慰剂效应甚至能影响医生，会使其下意识地认为接受治疗的个体的情况会优于未予治疗者，尽管双方的表现完全相同。双盲法过程中通常有一位人员（如药剂师）独立于研究，以便准备外观相同的制剂，并仅通过专门编码标记。数据编码仅在研究完成后开盲。

并非所有医学研究都可采用双盲法。例如，外科医生研究 2 种不同外科术式，显然知晓正在进行哪种手术（尽管接受手术患者不知情）。在这样的情况下，医生确信，评估治疗结果的人事先不知情，这样避免评价结果的人为偏倚。

但是，当一种严重疾病已存在有效治疗方法时，仅给予对照组安慰剂是不合伦理的。在这些情况下，仍然可以使用其他研究设计对治疗进行评估，如以下示例所示：

为确定一种新疗法是否增加标准疗法的有效性，研究可以使用标准疗法加新试验性疗法或安慰剂来比较结果。
为了比较一种已知有效的新疗法与标准疗法，研究可将使用新疗法的结果与使用标准疗法的结果进行比较。如果需要维持盲法，可将安慰剂添加到两个治疗组中。

在每种方法中，参加者看到的每种治疗的物质必须外观相同，如果是双盲研究，则研究人员看到的外观也相同。如果治疗组服用红色苦味的液体，则对照组也必须服用红色苦味液体。如果治疗组注射澄清溶液，则对照组应接受相似注射。

在将临床试验结果应用于现实世界实践时，重要的考虑因素是，参加临床试验的志愿者可能与接受治疗的诊室或医院患者不完全相同。此外，临床试验中提供的极度规范化的护理和观察可能与常规临床实践不同。

选择临床试验设计

临床试验的最佳类型包括上述所有要素，如

前瞻性，这意味着治疗组和对照组在开始研究之前入组，并随时间推移对其进行随访
随机分配，意味着试验中的受试者被随机分配到治疗组
安慰剂对照，即试验中的某些人接受安慰剂治疗（非活性治疗）
双盲意味着试验中的人员和开展试验的人员均不知道谁在接受治疗，谁在接受安慰剂

这种设计能够得出一种治疗效果的最清晰判定。不过，在某些情况下，这种试验设计不大可能。例如，对于非常罕见疾病，常常很难找到足够病例进行随机化试验。鉴于此，可能实施回顾性病例对照试验。

多样性

对于适用于现实世界的试验结果，试验参与者应代表患有所研究疾病的整个人群，包括适用的年龄、性别、种族、民族、社会经济地位和生活方式。将研究参与者限制在特定群体内，通常更容易进行更精确的比较。然而，结果最适用于整个人群的临床试验招募具有多样化的参与者。例如，在美国，少数种族和民族占其人口的近 40%。缺乏此类多样性的研究可能会遗漏一些重要因素。对于某些药物，一个人的种族和遗传背景可能会影响该药物的有效性。例如，G6PD 酶缺乏症在非洲、亚洲或地中海血统的男性中更常见，某些药物可触发 G6PD 缺乏症患者出现溶血性贫血。通过纳入来自不同背景的人，临床试验可以证明治疗对不同群体的人是否安全有效。然而，社会经济地位、文化水平、交通和与研究中心的毗邻程度等因素可能使招募足够多的人群变得困难。

Test your KnowledgeTake a Quiz!