临床试验设计中的一些陷阱随访的时间长短亦至关重要。例如,若某种制剂早期就有明显的效应,但时间较长时效疗未见增加,事件发生数渐多时早期的效应就逐渐消失,例如绝对的益处若为2.0%,指终点从8%降至6%,等于相对危险减少25%,若6个月后,绝对裨益维持在2.0%,而积累的事件率已增至16%及14%,相对危险减少,只12.5%。用于急性冠脉综合症的一些短作用制剂的益处一般出现于滴注时段,远期随访就会降低临床试验反映益处的性能因为治疗已不能影响事件的发生。 需要考虑的最后问题是观察的人群。一般认为最高危人群获益最大。因为他们最可能出现不良终点,所以一种做法是将选入标准限制在危险较高的病人,或至少将选入标准定得严格些,排除一些不肯定是本病的患者。与此相反,一些大规模的临床试验采用的一种做法是较松的选入标准,排除标准少,以利征集到大的样本。这后一做法不但简化了大样本的选入,还能使试验的结果能应用于正常的临床诊疗中。它的缺点是由于选入了一些不大受益的病人,所以会将一种治疗的明显益处缩至极少。但所观察到的治疗效果很可能与"真正"治疗中一样。
一项随机化临床试验的关键是尽量减少偏倚。已发表的一些研究资料,观察性研究可能占>90%。虽然有了先进的复杂统计学方法,这些观察性研究仍然存在着相当大量的偏倚。减少偏倚的关键在于比较对照但与治疗组的随机化临床试验。它平衡一项临床试验中的已知和未知变量。观察性研究统计时可以标化年龄、糖尿病等一些已知危险因子,但社会阶层(传统地未列为危险因子,但可能起重要作用)等未知变量,只能通过随机化的方法给予平衡。盲的分组治疗方法是消除来自研究者的偏倚的重要措施,医护人员了解分组情况,可能影响预后和终点的评估,死亡率等终点的评估虽不致受影响,但主观成份较大的终点,如顽固性心绞痛等的评估,很需要有盲的设计,如果要作亚组分析,应事先作好规定,以减少解释的偏倚。一般,解释应着重于证据的总体。
为什么需要大规模的临床试验?因为随着样本的增大,生物学变异性而致的随机误差就减至最小。中等程度的疗效就可以察出。这些小的绝对差异应用于常见的的严重情况,人群大众的保健就将有大影响,表1列出每年事件发生率为15%的百万人群每年可能避免的不良事件。
ARR=绝对危险减少RRR=相对危险减少NNT=需人治疗的例数(1/ARR)
*假设治疗年事件率为15%的100万人
大样本减少随机误差,可以反映出有临床意义的疗效,所以样本大小的计算,亦非小事,简单的计算如下:
本例中n=[90×10+95×5]×1/95-90]2×10.5=577.5
设定2P≤0.05,90%Power。试验为2arms
事件率很小的出入或疗效很小的出入都会大大影响样本大小的估计,要降低10%危险所需的样本要比降低30%危险大10倍,样本大小的判断虽常不够准确、较小的预试验或较小试验的荟萃分析可能有助于评估疗效。
10-15年来,证明治疗有效的标准或条件已日趋严谨,我们只有取信于大规模的、随机化临床试验。心血管病的临床试验始于ISIS协作组开展的大规模的简单临床试验(ISIS1collaborativegroup.Lancet1986;ii57)。这些临床试验的基础论点要求学者们认真设计,认真解释其结果。
开始临床试验前须回答的问题
一项大规模的临床试验需要投入巨大的精力和费用。试验前仔细认真的计划增加成功的把握。在构建一项临床试验的早期应考虑下述几个重要问题: (1)此问题、此疾病或此干预在人群大众健康方面是否有足够的重要意义。 (2)对此种疾病的病理生理和治疗机制的了解是否足以开展大规模的临床试验? (3)是否有足够的临床-前科研资料和临床预试验研究资料,清楚明示所开展的临床试验要验证的是什么假说?并已提供安全性及疗效的初步根据?
安全性和耐受性是个重要的问题,新制剂的剂量亦是个关键性而困难的问题。
文献中已反映一些早期的临床试验结果无效或副作用太大,是由于没有掌握有关剂量的足够信息。此问题可以通过较小的预试验和一些病理生理的研究来回答,例如,关于ISIS-3及GUSTO试验的预后不同,曾有过很长的讨论(两者均系比较链激酶和tPA用于AMI的结果)。tPA及同用的肝素的剂量不同可能影响试验的结果。GUSTO试验反映用tPA后获益较多。而先前已有报告反映它所用的剂量使梗死相关动脉的早期通畅率较高。Hirudin的两项早期的临床试验GUSTO11A和TIMI9a由于过多出血而停止,随后的一项试验用较小剂量,减少了危险,但未提示裨益是有显著性,最后在OASIS-2中定下了Hirudin的治疗方案,反映它确有明显益处而不增加危及生命的出血。PURSUIT中采用了新的方法,开始时将病人随机分入Eptifibatide的两个剂量组,并事先规定,若证明较大剂量组是安全的,则取消小剂量组、此方法既可靠而又能使研究者及时掌握情况。
考虑了疾病和干预之后,下一个重要问题是检查的终点是什么?何时随访为宜?大的心血管病临床试验可以用死亡、MI等作为标准终点,但较小的试验,终点的选择十分重要,选用什么作为替代终点?要检查的终点与更具临床意义的终点之间是否有病理生理连系?即使已选择了临床终点,也还可能有不同的标准。例如,MI常指病人至少有下述3种特征中的2种:①缺血性胸痛。②ECG的演进性改变。③血清心脏标志的是升高而随后降低。但检出心肌细胞坏死的敏感性增高时,上述定义可能改变。例如。PURSUIT试验中CK-MB水平升至参考范围之上时就认为是心肌梗死(NEJM1998;339:436)EPISTENT则在事先规定要评估的三种情况:小的无Q波、大的无Q波及Q波MI(LANCET1998;352:87)。采用更加严格的定义的优点是可以消除一些临床无重要性的酶升高的"杂音",更容易反映出治疗效果。缺点是出现的事件较少,需要试验的规模较大。此时还应考虑的不仅是终点的选择,还要考虑医学界如何看试验的结果。如果试验得出如所预料的结果,能否有足够的说服力让医生们采用此种治疗?若结果表明该治疗能够明显降低死亡之率,改变临床传统的可能性最大,但取得死亡率这样的降低一般需要十分大规模的临床试验。〖HTH〗用一个涵容较大的复合终点,例如总死亡数、MI或顽固性心绞痛可能以较少病人而反映出终点的明显减少。但用较"软"的较宽的终点,意义不大,因为有些医生认为疗效仅属边缘性。
床试验的审慎评价:几个关键问题 临床试验结束后,对已发表的结果的解释,要注意几个重要的问题:
所观察的人群与我所治疗的人群或一般日常临床工作中所处理的人群是否相贴切?如果所发表的资料中,列出试验的选入标准及基线特征,可以将之与日常诊疗中所见人群相比较。这就需要及时了解对自己的病人的预后和特征。该试验是否只从较多种病人中极局限地选入其中的一个亚组?他们是否一个较高危组?他们的处理是否与我们的日常临床诊疗近似?参与临床试验的医院与我所工作的医院的类型是否相同?能将得到的干预及同时给予的其他药物是否相同?这些因素会使临床试验的结果难以应用于日常的临床工作。如果病人的特征及处理的方针有所不同,就应考虑这些不同的影响及其给各个具体病人带的可能的益处和危险。大型、简单的临床试验的优点在于它选入各种型别的病人,采用各种治疗方针,它的设计近乎“临床实际”,医生能够认为试验所包括的病人与自己临床所见病人近似。
评估一项已发表的临床试验时,还应考虑其设计问题,已如上述。试验是否很好地随机化?根据预期的危险降低比例即近期试验10-20%,样本是否够大?若一项临床试验的结果反映治疗作用无统计学显著性,它就不为人知。但这种情况很可能是由于β误差,只是由于样本太小。最后,若一项设计良好的临床试验报告治疗效果有统计学的显著性,就要判断它(事前所设的诸点比较)的临床意义。
解释临床试验时的一个主要的陷阱是在一项临床试验结束后进行的亚组分析。除非它表明出大的统计学相互作用,即检验2组间的不均一性,达到统计学的显著性,否则解释应谨慎。从生物学角度能顺理成章,说得通,对亚组的结果亦是重要的支持,亚组分析中常用“量化的相互作用”,“性质上的相互作用”来报告作用的类型,前者指不同亚组病人观察到裨益大小不同,有量的区别,这些区别是常见的,如所预料的,常由于病人人群原有的彼此出入所致,后者指应答的方向不同,即一组呈有益结果,另一组呈有害结果,这种相互作用不常见,常出人意外。除非统计学的差异清楚和有好的假说,一般不宜置信。
亚组资料分析时,如果预先规定的比较结果未达到统计学的显著性,解释应小心。该试验的设计具有反映该试验所观察的总人群,针对该试验的总的问题的力度,是以此计算样本的,我们不应忘记,若比较足够,常可表现具有显著性的效应,所以强调不同亚组间的具有显著性的预后,极具吸引力。分析一项未随机化的治疗时,特别成问题,因为分入不同组的病人疾病的严重程度可能不同。无论这些亚组是事先规定抑或是事后分组,这种由于未按随机化分为亚组所带来的偏倚,存在着大问题。这种观察性的分析有助于提出假说,由日后的临床试验来验证。 |