醫療器械臨床試驗設計指導原則

04-13

這是國家食品藥品監督管理總局（CFDA）2018年01月發布的醫療器械臨床試驗設計指導原則，這個指導原則的重要性，，，我就不多說了...

本文轉載於：國家食品藥品監督管理總局

醫療器械臨床試驗是指在具備相應條件的臨床試驗機構中，對擬申請註冊的醫療器械在正常使用條件下的安全有效性進行確認的過程。臨床試驗是以受試人群（樣本）為觀察對象，觀察試驗器械在正常使用條件下作用於人體的效應或對人體疾病、健康狀態的評價能力，以推斷試驗器械在預期使用人群（總體）中的效應。由於醫療器械的固有特徵，其試驗設計有其自身特點。

本指導原則適用於產品組成、設計和性能已定型的醫療器械，包括治療類產品、診斷類產品，不包括體外診斷試劑。

本指導原則是供申請人和審查人員使用的技術指導文件，不涉及註冊審批等行政事項，亦不作為法規強制執行，如有能夠滿足法規要求的其他方法，也可以採用，但應提供詳細的研究資料和驗證資料。應在遵循相關法規的前提下使用本指導原則。

一、醫療器械臨床試驗目的

臨床試驗需設定明確、具體的試驗目的。申請人可綜合分析試驗器械特徵、非臨床研究情況、已在中國境內上市（下文簡稱已上市）同類產品的臨床數據等因素，設定臨床試驗目的。臨床試驗目的決定了臨床試驗各設計要素，包括主要評價指標、試驗設計類型、對照試驗的比較類型等，進而影響臨床試驗樣本量。不同情形下的臨床試驗目的舉例如下：

（一）當通過臨床試驗確認試驗器械在其預期用途下的安全有效性時，若更關注試驗器械的療效是否可滿足臨床使用的需要，其臨床試驗目的可設定為確認試驗器械的有效性是否優於/等效於/非劣於已上市同類產品，同時確認試驗器械的安全性。此時，臨床試驗的主要評價指標為有效性指標。

（二）當通過臨床試驗確認試驗器械在其預期用途下的安全有效性時，若更關注試驗器械的安全性是否可滿足臨床使用的需要，其臨床試驗目的可設定為確認試驗器械的安全性是否優於/等效於/非劣於已上市同類產品，同時確認試驗器械的有效性。此時，臨床試驗的主要評價指標為安全性指標，以乳房植入體為例，臨床試驗通常選擇併發症發生率（如包膜攣縮率、植入體破裂率）作為主要評價指標。

（三）對於已上市產品增加適應症的情形，臨床試驗目的可設定為確認試驗器械對新增適應症的安全有效性。例如，止血類產品在已批准適用範圍（如普通外科、婦產科）的基礎上，增加眼科、神經外科、泌尿外科使用的適應症。

（四）當已上市器械適用人群發生變化時，臨床試驗目的可設定為確認試驗器械對新增適用人群的安全有效性。例如膜式氧合器產品，在原批准適用範圍的基礎上新增體重≤10kg的適用人群；又如治療類呼吸機在已批准的適用於成人的基礎上新增適用於兒童的適用範圍。

（五）當已上市器械發生重大設計變更時，可根據變更涉及的範圍設定試驗目的。例如冠狀動脈藥物洗脫支架平台花紋設計發生改變時，臨床試驗目的可設定為確認變化部分對於產品安全有效性的影響。

（六）當已上市器械的使用環境或使用方法發生重大改變時，試驗目的可設定為確認產品在特定使用環境和使用方法下的安全有效性。例如：已上市的植入式心臟起搏器通常不能兼容核磁共振檢查，如申請兼容核磁共振檢查，其臨床試驗目的可設置為對兼容核磁共振檢查相關的安全有效性進行確認。

二、臨床試驗設計的基本類型和特點

（一）平行對照設計

隨機、雙盲、平行對照的臨床試驗設計可使臨床試驗影響因素在試驗組和對照組間的分布趨於均衡，保證研究者、評價者和受試者均不知曉分組信息，避免了選擇偏倚和評價偏倚，被認為可提供高等級的科學證據，通常被優先考慮。對於某些醫療器械，此種設計的可行性受到器械固有特徵的挑戰。

1.隨機化

隨機化是平行對照、配對設計、交叉設計等臨床試驗需要遵循的基本原則，指臨床試驗中每位受試者均有同等機會（如試驗組與對照組病例數為1:1）或其他約定的概率（如試驗組與對照組病例數為n:1）被分配到試驗組或對照組，不受研究者和/或受試者主觀意願的影響。隨機化是為了保障試驗組和對照組受試者在各種已知和未知的可能影響試驗結果的基線變數上具有可比性。

非隨機設計可能造成各種影響因素在組間分布不均衡，降低試驗結果的可信度。一方面，協變數分析可能難以完全校正已知因素對結果的影響；另一方面，未知因素對試驗結果產生的影響亦難以評價，因此，通常不推薦非隨機設計。如果申請人有充分的理由認為必須採用非隨機設計，需要詳述必須採用該設計的理由和控制選擇偏倚的具體措施。

2.盲法

如果分組信息被知曉，研究者可能在器械使用過程中選擇性關注試驗組，評價者在進行療效與安全性評價時可能產生傾向性，受試者可能受到主觀因素的影響。盲法是控制臨床試驗中因「知曉分組信息」而產生偏倚的重要措施之一，目的是達到臨床試驗中的各方人員對分組信息的不可知。根據設盲程度的不同，盲法可分為完整設盲、不完整設盲和不設盲。在完整設盲的臨床試驗中，受試者、研究者和評價者對分組信息均處於盲態。

在很多情形下，基於器械及相應治療方式的固有特徵，完整設盲是不可行的。當試驗器械與對照器械存在明顯不同時，難以對研究者設盲，例如膝關節假體，試驗產品和對照產品的外觀可能存在明顯不同，且植入物上有肉眼可見的製造商激游標記；又如血管內金屬支架，試驗產品和對照產品的具體結構、花紋不同。此時，建議盡量對受試者設盲，即受試者不知曉其被分入試驗組或對照組，並採用第三方盲法評價（如中心閱片室、中心實驗室、評價委員會等）和盲態數據審核。當試驗器械形態與對照器械存在明顯不同且主要評價指標來自影像學數據時，難以對研究者、評價者設盲，例如生物可吸收支架，當對照產品為金屬支架時，由於生物可吸收支架平台發生降解，評估晚期管腔丟失指標（該指標以影像學方式評價）時難以對評價者設盲。此時，建議盡量對受試者設盲，並採用盲態數據審核。上述由於器械的固有特徵而不對研究者設盲、不對研究者和評價者設盲的情形，均為不完整設盲的臨床試驗設計。

當試驗組治療方式（含器械）與對照組存在明顯差異時，難以對受試者、研究者、評價者設盲，只能採取不設盲的試驗設計，如介入治療和手術治療進行比較時、器械治療和藥物治療進行比較時。為最大程度地減少偏倚，可考慮採用以下方法：（1）在完成受試者篩選和入組前，受試者和研究者均不知曉分組信息（即分配隱藏）；（2）在倫理許可的前提下，受試者在完成治療前，不知曉分組信息；（3）採用盲態數據審核。

申請人需要對採用不完整設盲或者不設盲試驗設計的理由進行論述，詳述控制偏倚的具體措施（如採用可客觀判定的指標以避免評價偏倚，採用標準操作規範以減小實施偏倚等）。

3.對照

對照包括陽性對照和安慰對照（如假處理對照、假手術對照等）。陽性對照需採用在擬定的臨床試驗條件下療效肯定的已上市器械或公認的標準治療方法。

對於治療類產品，選擇陽性對照時，優先採用療效和安全性已得到臨床公認的已上市同類產品。如因合理理由不能採用已上市同類產品，可選用儘可能相似的產品作為陽性對照，其次可考慮標準治療方法。例如，人工頸椎間盤假體開展臨床試驗時，如因合理理由不能採用已上市同類產品，可選擇臨床廣泛使用的、對相應適應症的療效已得到證實並被公認的產品。又如，治療良性前列腺增生的設備在沒有同類產品上市的情形下，可採用良性前列腺增生症的標準治療方法（經尿道前列腺電汽化術）作為對照。標準治療方法包括多種情形，例如，對於部分臨床上尚無有效治療方法的疾病，其標準治療方法可為對症支持治療。在試驗器械尚無相同或相似的已上市產品或相應的標準治療方法時，若試驗器械的療效存在安慰效應，試驗設計需考慮安慰對照，此時，尚需綜合考慮倫理學因素。若已上市產品的療效尚未得到臨床公認，試驗設計可根據具體情形，考慮標準治療方法對照或安慰對照，申請人需充分論證對照的選取理由。例如用於緩解疼痛的物理治療類設備。

對於診斷器械，對照需採用診斷金標準方法或已上市同類產品。

（二）配對設計

對於治療類產品，常見的配對設計為同一受試對象的兩個對應部位同時接受試驗器械和對照治療，試驗器械和對照治療的分配需考慮隨機設計。配對設計主要適用於器械的局部效應評價，具有一定的局限性。例如，對於面部注射用交聯透明質酸鈉凝膠的臨床試驗，配對設計在保證受試者基線一致性上比平行對照設計具有優勢，但試驗中一旦發生系統性不良反應則難以確認其與試驗器械或對照器械的相關性，且需要排除面部左右側局部反應的互相影響。因此，申請人考慮進行配對設計時，需根據產品特徵，綜合考慮該設計類型的優勢和局限性，恰當進行選擇，並論述其合理性。

對於診斷器械，若試驗目的是評價試驗器械的診斷準確性，常見的配對設計為同一受試者/受試樣品同時採用試驗器械和診斷金標準方法或已上市同類器械來進行診斷。

（三）交叉設計

在交叉設計的臨床試驗中，每位受試者按照隨機分配的排列順序，先後不同階段分別接受兩種或兩種以上的治療/診斷。此類設計要求前一階段的治療/診斷對後一階段的另一種治療/診斷不產生殘留效應，後一階段開始前，受試者一般需回復到基線狀態，可考慮在兩個干預階段之間安排合理的洗脫期。

（四）單組設計

單組試驗的實質是將主要評價指標的試驗結果與已有臨床數據進行比較，以評價試驗器械的有效性/安全性。與平行對照試驗相比，單組試驗的固有偏倚是非同期對照偏倚，由於時間上的不同步，可能引起選擇偏倚、混雜偏倚、測量偏倚和評價偏倚等，應審慎選擇。在開展單組試驗時，需要對可能存在的偏倚進行全面分析和有效控制。

1.與目標值比較

與目標值比較的單組設計需事先指定主要評價指標有臨床意義的目標值，通過考察單組臨床試驗主要評價指標的結果是否在指定的目標值範圍內，從而評價試驗器械有效性/安全性。當試驗器械技術比較成熟且對其適用疾病有較為深刻的了解時，或者當設置對照在客觀上不可行時（例如試驗器械與現有治療方法的風險受益過於懸殊，設置對照在倫理上不可行；又如現有治療方法因客觀條件限制不具有可行性等），方可考慮採用單組目標值設計。考慮單組目標值設計時，還需關注試驗器械的適用人群、主要評價指標（如觀察方法、隨訪時間、判定標準等）是否可被充分定義且相對穩定。為盡量彌補單組目標值設計的固有缺陷，需儘可能採用相對客觀、可重複性強的評價指標作為主要評價指標，如死亡、失敗等；不建議選擇容易受主觀因素影響、可重複性差的指標作為主要評價指標，如疼痛評分等。

目標值是專業領域內公認的某類醫療器械的有效性/安全性評價指標所應達到的最低標準，包括客觀性能標準（Objective performance criteria，OPC）和性能目標（Performance goal，PG）兩種。目標值通常為二分類（如有效/無效）指標，也可為定量指標，包括靶值和單側置信區間界限（通常為97.5%單側置信區間界限）。目標值的構建通常需要全面收集具有一定質量水平及相當數量病例的臨床研究數據，並進行科學分析（如Meta分析）。對臨床試驗結果進行統計分析時，需計算主要評價指標的點估計值和單側置信區間界限值，並將其與目標值進行比較。

由於沒有設置對照組，單組目標值設計的臨床試驗無法確證試驗器械的優效、等效或非劣效，僅能確證試驗器械的有效性/安全性達到專業領域內公認的最低標準。

（1）與OPC比較

OPC是在既往臨床研究數據的基礎上分析得出，用於試驗器械主要評價指標的比較和評價，經確認的OPC目前尚不多見。OPC通常來源於權威醫學組織、相關標準化組織、醫療器械審評機構發布的文件。例如一次性使用膜式氧合器，其臨床試驗可採用單組目標值設計，當主要評價指標採用《一次性使用膜式氧合器註冊技術審查指導原則》中提及的複合指標「達標率」時，試驗產品達標率的目標值應至少為90%，預期達標率為95%。又如，根據《髖關節假體系統註冊技術審查指導原則》，對於常規設計的髖關節假體，當臨床試驗採用單組目標值設計，主要評價指標採用術後12個月Harris評分「優良率」時，試驗產品「優良率」的目標值應至少為85%，預期優良率為95%。隨著器械技術和臨床技能的提高，OPC可能發生改變，需要對臨床數據重新進行分析以確認。

（2）與PG比較

當有合理理由不能開展對照試驗而必須考慮開展單組目標值設計時，若沒有公開發表的OPC，可考慮構建PG。例如脫細胞角膜植片，適用於藥物治療無效需要進行板層角膜移植的感染性角膜炎患者。由於開展臨床試驗時市場上無同類產品，且與異體角膜移植對比存在角膜來源困難的問題，故採用PG單組設計進行臨床試驗，PG來源於異體角膜移植既往臨床研究數據，由相關權威的專業醫學組織認可。與OPC相比，採用PG的單組設計的臨床證據水平更低。PG的實現/未實現不能立即得出試驗成功/失敗的結論，如果發現異常試驗數據時，需要對試驗結果進行進一步探討和論證。

2.與歷史研究對照

與歷史研究對照的臨床試驗證據強度弱，可能存在選擇偏倚、混雜偏倚等問題，應審慎選擇。當採用某一歷史研究作為對照時，需獲取試驗組和對照組每例受試者的基線數據，論證兩組受試者的可比性，可採用傾向性評分來評估兩組之間的可比性，以控制選擇偏倚。由於試驗組和對照組不是同期開展，需要關注兩組間干預方式和評價方式的一致性，以控制測量偏倚和評價偏倚。

三、受試對象

根據試驗器械預期使用的目標人群，確定研究的總體。綜合考慮對總體人群的代表性、臨床試驗的倫理學要求、受試者安全性等因素，制定受試者的選擇標準，即入選和排除標準。入選標準主要考慮受試對象對總體人群的代表性，如適應症、疾病的分型、疾病的程度和階段、使用具體部位、受試者年齡範圍等因素。排除標準旨在儘可能規範受試者的同質性，將可能影響試驗結果的混雜因素（如影響療效評價的伴隨治療、伴隨疾病等）予以排除，以達到評估試驗器械效應的目的。

四、評價指標

評價指標反映器械作用於受試對象而產生的各種效應，根據試驗目的和器械的預期效應設定。在臨床試驗方案中應明確規定各評價指標的觀察目的、定義、觀察時間點、指標類型、測定方法、計算公式（如適用）、判定標準（適用於定性指標和等級指標）等，並明確規定主要評價指標和次要評價指標。指標類型通常包括定量指標（連續變數，如血糖值）、定性指標（如有效和無效）、等級指標（如優、良、中、差）等。對於診斷器械，臨床試驗評價指標通常包括定性檢測的診斷準確性（靈敏度、特異性、預期值、似然比、ROC曲線下面積等）或檢測一致性（陽性/陰性一致性、總一致性、KAPA值等），以及定量檢測回歸分析的斜率、截距和相關係數等。

（一）主要評價指標和次要評價指標

主要評價指標是與試驗目的有本質聯繫的、能確切反映器械療效或安全性的指標。主要評價指標應盡量選擇客觀性強、可量化、重複性高的指標，應是專業領域普遍認可的指標，通常來源於已發布的相關標準或技術指南、公開發表的權威論著或專家共識等。臨床試驗的樣本量基於主要評價指標的相應假設進行估算。臨床試驗的結論亦基於主要評價指標的統計分析結果做出。次要評價指標是與試驗目的相關的輔助性指標。在方案中需說明其在解釋結果時的作用及相對重要性。

一般情況下，主要評價指標僅為一個，用於評價產品的療效或安全性。當一個主要評價指標不足以反映試驗器械的療效或安全性時，可採用兩個或多個主要評價指標。以一次性使用腦積水分流器的臨床試驗為例，當參照《一次性使用腦積水分流器註冊技術審查指導原則》進行方案設計時，同時採用兩個主要評價指標，包括術後30天內顱內壓的達標率、首次植入分流器後1年時分流器存留率。對於第二個主要評價指標（1年存留率），試驗組與對照組間需進行組間比較，同時要求試驗組1年存留率不小於90%。因此，該臨床試驗的樣本量估算需同時考慮三重假設檢驗：（1）試驗組術後30天顱內壓達標率非劣效於對照組；（2）試驗組1年的存留率非劣效於對照組；（3）試驗器械1年的存留率達到目標值要求。上述三重假設檢驗都有統計學意義時，才可下推斷結論。由於此時沒有意圖或機會選擇最有利的某次假設檢驗結果，因此可設定每次檢驗的I類錯誤水平等於預先設定的α，無需進行多重性校正。對於同時採用多個主要評價指標的臨床試驗設計，當有可能選擇最有利的某次假設檢驗結果進行結論推斷時，樣本量估算需要考慮假設檢驗的多重性問題，以及對總Ⅰ類錯誤率的控制策略。

（二）複合指標

按預先確定的計算方法，將多個評價指標組合構成一個指標稱為複合指標。當單一觀察指標不足以作為主要評價指標時，可採用複合指標作為主要評價指標。以冠狀動脈藥物洗脫支架的臨床試驗為例，主要評價指標之一為靶病變失敗率。靶病變失敗定義為心臟死亡、靶血管心肌梗死以及靶病變血運重建三種臨床事件至少出現一種，即為複合指標。以血液透析濃縮物的臨床試驗為例，採用透析達標率作為主要評價指標，「達標」的定義為透析前後K+、Na+、Ca2+、Cl－、CO2CP（二氧化碳結合力）或HCO3－、pH值均達到預先設定的臨床指標數值。複合指標可將客觀測量指標和主觀評價指標進行結合，形成綜合評價指標。臨床上採用的量表（如生活質量量表、功能評分量表等）也為複合指標的一種形式。需在試驗方案中詳細說明複合指標中各組成指標的定義、測定方法、計算公式、判定標準、權重等。當採用量表作為複合指標時，儘可能採取專業領域普遍認可的量表。極少數需要採用自製量表的情形，申請人需提供自製量表效度、信度和反應度的研究資料，研究結果需證明自製量表的效度、信度和反應度可被接受。需考慮對複合指標中有臨床意義的單個指標進行單獨分析。

（三）替代指標

在直接評價臨床獲益不可行時，可採用替代指標進行間接觀察。是否可採用替代指標作為臨床試驗的主要評價指標取決於：①替代指標與臨床結果的生物學相關性；②替代指標對臨床結果判斷價值的流行病學證據；③從臨床試驗中獲得的有關試驗器械對替代指標的影響程度與試驗器械對臨床試驗結果的影響程度相一致的證據。

（四）主觀指標的第三方評價

部分評價指標由於沒有客觀評價方法而只能進行主觀評價，臨床試驗若必需選擇主觀評價指標作為主要評價指標，建議成立獨立的評價小組，由不參與臨床試驗的第三者/第三方進行指標評價，需在試驗方案中明確第三者/第三方評價的評價規範。

五、比較類型和檢驗假設

（一）比較類型

臨床試驗的比較類型包括優效性檢驗、等效性檢驗、非劣效性檢驗。採用安慰對照的臨床試驗，需進行優效性檢驗。採用療效/安全性公認的已上市器械或標準治療方法進行對照的臨床試驗，可根據試驗目的選擇優效性檢驗、等效性檢驗或非劣效性檢驗。

優效性檢驗的目的是確證試驗器械的療效/安全性優於對照器械/標準治療方法/安慰對照，且其差異大於預先設定的優效界值，即差異有臨床實際意義。由於試驗器械特徵、對照和主要評價指標等因素的不同，部分優效性檢驗沒有考慮優效性界值，申請人需論述不考慮優效性界值的理由。等效性檢驗的目的是確證試驗器械的療效/安全性與對照器械的差異不超過預先設定的等效區間，即差異在臨床可接受的範圍內。非劣效性檢驗的目的是確證試驗器械的療效/安全性如果低於對照器械，其差異小於預先設定的非劣效界值，即差異在臨床可接受範圍內。在優效性檢驗中，如果試驗設計合理且執行良好，試驗結果可直接確證試驗器械的療效/安全性。在等效性試驗和非劣效性試驗中，試驗器械的療效/安全性建立在對照器械預期療效/安全性的基礎上。

（二）界值

無論優效性試驗、等效性試驗或非劣效性試驗，要從臨床意義上確認試驗器械的療效/安全性，均需要在試驗設計階段制定界值並在方案中闡明。優效界值是指試驗器械與對照器械之間的差異具有臨床實際意義的最小值。等效或非劣效界值是指試驗器械與對照器械之間的差異不具有臨床實際意義的最大值。優效界值、非劣效界值均為預先制定的一個數值，等效界值需要預先制定優側、劣側兩個數值。

界值的制定主要考慮臨床實際意義，需要被臨床認可或接受。理論上，非劣效界值的確定可採用兩步法，一是通過Meta分析估計對照器械減去安慰效應後的絕對效應或對照器械的相對效應M1，二是結合臨床具體情況，在考慮保留對照器械效應的適當比例1-f後，確定非劣效界值M2（M2=f×M1）。f越小，試驗器械的效應越接近對照器械，一般情況下，f的取值在0～0.5之間。制定等效界值時，可用類似的方法確定下限和上限。

（三）檢驗假設

試驗方案需明確檢驗假設和假設檢驗方法，檢驗假設依據試驗目的確定，假設檢驗方法依據試驗設計類型和主要評價指標類型確定。附錄1提供了部分試驗設計和比較類型下的檢驗假設舉例，供參考。

六、樣本量估算

臨床試驗收集受試人群中的療效/安全性數據，用統計分析將基於主要評價指標的試驗結論推斷到與受試人群具有相同特徵的目標人群。為實現樣本（受試人群）代替總體（目標人群）的目的，臨床試驗需要一定的受試者數量（樣本量）。樣本量大小與主要評價指標的變異度呈正相關，與主要評價指標的組間差異呈負相關。

樣本量一般以臨床試驗的主要評價指標進行估算。需在臨床試驗方案中說明樣本量估算的相關要素及其確定依據、樣本量的具體計算方法。附錄2提供了樣本量估算公式的樣例，供參考。確定樣本量的相關要素一般包括臨床試驗的設計類型和比較類型、主要評價指標的類型和定義、主要評價指標有臨床實際意義的界值、主要評價指標的相關參數（如預期有效率、均值、標準差等）、Ⅰ類和Ⅱ類錯誤率以及預期的受試者脫落和方案違背的比例等。主要評價指標的相關參數根據已有臨床數據和小樣本可行性試驗（如有）的結果來估算，需要在臨床試驗方案中明確這些估計值的確定依據。一般情況下，Ⅰ類錯誤概率α設定為雙側0.05或單側0.025，Ⅱ類錯誤概率β設定為不大於0.2，預期受試者脫落和方案違背的比例不大於0.2，申請人可根據產品特徵和試驗設計的具體情形採用不同的取值，需充分論證其合理性。

七、臨床試驗設計需考慮的其他因素

由於器械的固有特徵可能影響其臨床試驗設計，在進行器械臨床試驗設計時，需對以下因素予以考慮：

（一）器械的工作原理

器械的工作原理和作用機理可能與產品性能/安全性評價方法、臨床試驗設計是否恰當相關。

（二）使用者技術水平和培訓

部分器械可能需要對使用者進行技能培訓後才能被安全有效地使用，例如手術複雜的植入器械。在臨床試驗設計時，需考慮使用器械所必需的技能，研究者技能應能反映產品上市後在預期用途下的器械使用者的技能範圍。

（三）學習曲線

部分器械使用方法新穎，存在一定的學習曲線。當臨床試驗過程中學習曲線明顯時，試驗方案中需考慮在學習曲線時間內收集的信息（例如明確定義哪些受試者是學習曲線時間段的一部分）以及在統計分析中報告這些結果。如果學習曲線陡峭，可能會影響產品說明書的相關內容和用戶培訓需求。

（四）人為因素

在器械設計開發過程中，對器械使用相關的人為因素的研究可能會指導器械的設計或使用說明書的制定，以使其更安全，更有效，或讓受試者或醫學專業人士更容易使用。

八、統計分析

（一）分析數據集的定義

意向性分析（Intention To Treat，簡稱ITT）原則是指主要分析應包括所有隨機化的受試者，基於所有隨機化受試者的分析集通常被稱為ITT分析集。理論上需要對所有隨機化受試者進行完整隨訪，但實際中很難實現。

臨床試驗常用的分析數據集包括全分析集（Full Analysis Set，FAS）、符合方案集（Per Protocol Set，PPS）和安全性數據集（Safety Set，SS）。需根據臨床試驗目的，遵循儘可能減少試驗偏倚和防止Ⅰ類錯誤增加的原則，在臨床試驗方案中對上述數據集進行明確定義，規定不同數據集在有效性評價和安全性評價中的地位。全分析集為儘可能接近於包括所有隨機化的受試者的分析集，通常應包括所有入組且使用過一次器械/接受過一次治療的受試者，只有在非常有限的情形下才可剔除受試者，包括違反了重要的入組標準、入組後無任何觀察數據的情形。符合方案集是全分析集的子集，包括已接受方案中規定的治療、可獲得主要評價指標的觀察數據、對試驗方案沒有重大違背的受試者。若從全分析集和符合方案集中剔除受試者，一是需符合方案中的定義，二是需充分闡明剔除理由，需在盲態審核時闡明剔除理由。安全性數據集通常應包括所有入組且使用過一次器械/接受過一次治療並進行過安全性評價的受試者。

需同時在全分析集、符合方案集中對試驗結果進行統計分析。當二者結論一致時，可以增強試驗結果的可信度。當二者結論不一致時，應對差異進行充分的討論和解釋。如果符合方案集中排除的受試者比例過大，或者因排除受試者導致試驗結論的根本性變化（由全分析集中的試驗失敗變為符合方案集中的試驗成功），將影響臨床試驗的可信度。

全分析集和符合方案集在優效性試驗和等效性或非劣效性試驗中所起作用不同。一般來說，在優效性試驗中，應採用全分析集作為主要分析集，因為它包含了依從性差的受試者而可能低估了療效，基於全分析集的分析結果是保守的。符合方案集顯示試驗器械按規定方案使用的效果，與上市後的療效比較，可能高估療效。在等效性或非劣效性試驗中，用全分析集所分析的結果並不一定保守。

（二）缺失值和離群值

缺失值（臨床試驗觀察指標的數據缺失）是臨床試驗結果偏倚的潛在來源，在臨床試驗方案的制定和執行過程中應採取充分的措施盡量減少數據缺失。對於缺失值的處理方法，特別是主要評價指標的缺失值，需根據具體情形，在方案中遵循保守原則規定恰當的處理方法，如末次觀察值結轉（Last Observation Carried Forward, LOCF）、基線觀察值結轉（Baseline Observation Carried Forward, BOCF）等。必要時，可考慮採用不同的缺失值處理方法進行敏感性分析。

不建議在統計分析中直接排除有缺失數據的受試者，因為該處理方式可能破壞入組的隨機性、破壞受試人群的代表性、降低研究的把握度、增加Ⅰ類錯誤率。

對於離群值的處理，需要同時從醫學和統計學兩方面考慮，尤其是醫學專業知識的判斷。離群值的處理應在盲態審核時進行，如果試驗方案中未預先規定處理方法，在實際資料分析時，需要進行敏感性分析，即比較包括和不包括離群值的兩種試驗結果，評估其對試驗結果的影響。

（三）統計分析方法

1.統計描述

人口學指標、基線數據一般需選擇合適的統計指標（如均數、標準差、中位數等）進行描述以比較組間的均衡性。

主要評價指標在進行統計推斷時，需同時進行統計描述。值得注意的是，組間差異無統計學意義不能得出兩組等效或非劣效的結論。

次要評價指標通常採用統計描述和差異檢驗進行統計分析。

2.假設檢驗和區間估計

在確定的檢驗水平（通常為雙側0.05）下，按照方案計算假設檢驗的檢驗統計量及其相應的P值，做出統計推斷，完成假設檢驗。對於非劣效性試驗，若P≤α，則無效假設被拒絕，可推斷試驗組非劣效於對照組。對於優效性試驗，若P≤α，則無效假設被拒絕，可推斷試驗組臨床優效於對照組。對於等效性試驗，若P1≤α和P2≤α同時成立，則兩個無效假設同時被拒絕，推斷試驗組與對照組等效。

亦可通過構建主要評價指標組間差異置信區間的方法達到假設檢驗的目的，將置信區間的上限和/或下限與事先制定的界值進行比較，以做出臨床試驗結論。按照方案中確定的方法計算主要評價指標組間差異的（1-α）置信區間，α通常選取雙側0.05。對於高優指標的非劣效性試驗，若置信區間下限大於-?（非劣效界值），可做出臨床非劣效結論。對於優效性試驗，若置信區間下限大於?（優效界值），可做出臨床優效結論。對於等效性試驗，若置信區間的下限和上限在（-?，?）（等效界值的劣側和優側）範圍內，可做出臨床等效結論。

對試驗結果進行統計推斷時，建議同時採用假設檢驗和區間估計方法。

3.基線分析

除試驗器械及相應治療方式外，主要評價指標常常受到受試者基線變數的影響，如疾病的分型和程度、主要評價指標的基線數據等。因此，在試驗方案中應識別可能對主要評價指標有重要影響的基線變數，在統計分析中將其作為協變數，採用恰當的方法（如協方差分析方法等），對試驗結果進行校正，以修正試驗組和對照組間由於協變數不均衡而對試驗結果產生的影響。協變數的確定依據以及相應的校正方法的選擇理由應在臨床試驗方案中予以說明。對於沒有在臨床試驗方案中規定的協變數，通常不進行校正，或僅將校正後的結果作為參考。

4.中心效應

在多個中心開展臨床試驗，可在較短時間內入選所需的病例數，且樣本更具有代表性，結果更具有推廣性，但對試驗結果的影響因素更為複雜。

在多個中心開展臨床試驗，需要組織制定標準操作規程，組織對參與臨床試驗的所有研究者進行臨床試驗方案和試驗用醫療器械使用和維護的培訓，以確保在臨床試驗方案執行、試驗器械使用方面的一致性。當主要評價指標易受主觀影響時，建議採取相關措施（如對研究者開展培訓後進行一致性評估，採用獨立評價中心，選擇背對背評價方式等）以保障評價標準的一致性。儘管採取了相關質量控制措施，在多中心臨床試驗中，仍可能出現因不同中心在受試者基線特徵、臨床實踐（如手術技術、評價經驗）等方面存在差異，導致不同中心間的效應不盡相同。當中心與處理組間可能存在交互作用時，需在臨床試驗方案中預先規定中心效應的分析策略。當中心數量較多且各中心病例數較少時，一般無需考慮中心效應。

在多個中心開展臨床試驗，各中心試驗組和對照組病例數的比例需與總樣本的比例基本相同。當中心數量較少時，建議按中心進行分層設計，使各中心試驗組與對照組病例數的比例基本相同。

九、臨床試驗的偏倚和隨機誤差

臨床試驗設計需考慮偏倚和隨機誤差。偏倚是偏離真值的系統誤差的簡稱，在試驗設計、試驗實施和數據分析過程中均可引入偏倚，偏倚可導致錯誤的試驗結論。臨床試驗設計時應盡量避免或減少偏倚。

統計量的隨機誤差受臨床試驗樣本量的影響。一方面，較大的樣本量可提供更多的數據，使器械性能/安全性評價的隨機誤差更小。另一方面，更大的樣本量可能引入更大的偏倚，導致無臨床意義的差異變得具有統計學意義。試驗設計應該旨在使試驗結果同時具有臨床和統計學意義。

因文章過長，附錄部分就不加了，有需要可參考CFDA網站查看：

總局關於發布醫療器械臨床試驗設計指導原則的通告（2018年第6號）?

www.sda.gov.cn