為什麼知乎對大樣本隨機雙盲實驗如此重視？

12-26

並沒有想給中醫洗地，我自己也是一定程度上的中醫黑。但是大家每次提到療效都要提出「大樣本隨機雙盲實驗」，對這個方法的推崇達到了無可復加的地步，甚至認為只有該方法可以檢驗一種治療方法的療效，讓我這個臨床試驗工作者嚇得瑟瑟發抖。要知道過了FDA的原研葯和仿製葯里無數藥品都是通過幾十個受試者的開放試驗獲得批准的，是什麼讓知乎如此推崇大樣本隨機雙盲試驗？
大樣本隨機雙盲對照試驗毫無疑問是目前最有效的檢驗療效和發現適應症的方法，但並不代表其他研究發現的結果不可信吧？很多人曲解了我的意思。

大樣本隨機雙盲實驗，實在無法對人進行有效控制的時候才需要的。
要想對兩個變數進行因果推斷，必須保證一個變數變的時候，其他變數完全不變。
如果能做到這一點，其實用不著大樣本，也用不著隨機實驗。比如很多物理化學實驗，已經可以對環境進行充分的控制。
問題是對人的控制很難。最理想的實驗，應該是同一個時間點的同一個人，分別施加兩次。例如檢驗一個葯有沒有效果，我們對同一個人用藥，然後觀察療效，然後讓時間倒流，回到用藥之前1秒鐘，這次不給他用藥，然後觀察效果，最後對比這兩種情況下的差別。這樣才能真正對葯的療效進行準確的識別。
也就是所謂的「反事實」。
然而這玩意只能出現在科幻小說里。

後來我們退而求其次，我們發現其實不用完全控制其他因素，只要用藥和不用藥的選擇，與其他因素無關，我們也能得到恰當的結果。因為只有健康的人才用藥會高估葯的結果，只有不健康的人才用藥會低估葯的結果，所以什麼健康程度人用藥，完全隨機，我們就能夠得到正確的結果。

這就是為啥要用隨機實驗。如果你能對實驗對象進行有效控制，你可以不用這玩意，如果你在理論上研究得無懈可擊，人體的一切就像你們家鐘錶一樣你都懂了，你可以像修鐘錶一樣，對症下藥，你也不用隨機實驗。然而現在的醫學做不到。

舉個例子，@飽醉豚認為糖甜不甜，不需要大樣本隨機實驗。這是因為吃糖前後，我們保證了「其他情況完全不變」——人體無法自己產生甜的物質。
這顯然和醫學是不同的，人體有自愈的可能性。
如果人的舌頭本來就能分泌糖，你怎麼能證明吃了糖的那一刻，不是舌頭分泌的糖讓你覺得甜呢？
當然，吃糖也有安慰劑效應，如《我愛我家》的一集，愚人節，賈圓圓用糖紙包著肥皂，騙她叔叔吃，她叔叔一開始吃著還覺得香，後來才發現不大對。
他還說：
「如果需要找很多人，有些說很甜，有些說只有一點點甜，有些說完全不甜，有些說苦的，最後問了幾千人才得出這個結論：糖是甜的。這樣的糖，有個鳥用。」
首先我們不先不說甜不甜是主觀判斷。事實上真的有可能，比如有人剛吃了一個更甜的糖，你給他吃這個，他說不甜，有的人說是甜，你在統計的時候給統計成了苦，諸如此類很多因素，都使得小樣本有很大的偏誤。
那麼即使真的是這樣，就沒用了嗎？
事實上，我們真正有價值的東西，當然是對每個人都有效，但是如果對一些人有效，只要成本可以接受，就不能推廣，就沒有意義了嗎？
平均來說，人們覺得糖好吃，成本又可以接受，那麼作為一個群體，糖就沒用了嗎？當然有用。

總體來說，這種大樣本隨機實驗，是我們沒有找到更好的因果識別方式才使用的東西。
@飽醉豚舉得例子很好：
「比如說你殺一個雞，並不需要雙盲，即使雞睜著眼看著你，你也知道殺哪只雞，一刀下去，雞就死了。

比如你喝酒，不管人家告訴你一杯啤酒的度數有多高，真被半杯啤酒喝高的人是極少的。

這些非常有效應的東西，都不需要雙盲研究。」

這些都能進行合適的控制，也有很強的效果。

但是這些東西都能通過常識獲得，但當我們人類真正走進那些複雜的，神秘的未知的時候，就無法通過常識獲得了。這時候我們怎麼辦？就只能這樣辦了。

舉個例子，我發明了一個毒藥，能把雞毒死，於是你毒一隻雞毒了好幾天，雞終於死了。
但是雞可能是自己餓死的。不是你毒死的。。。。

醫學上採用大樣本隨機實驗，是因為醫學的無能。但是醫學無能的時候，我們又想要儘可能治療或者改善疾病，從而我們需要儘可能準確的評估某些「無能」的醫學下的不那麼顯著的，沒那麼多效果的藥物和治療手段，大樣本隨機雙盲實驗就有必要存在了。

看知乎上的文字，使得孩子平均分提高了0.001分。你當然不看，因為看文章有時間成本，你可以做別的事情，那就可以提高0.1分了。
但如果成本完全可以負擔呢？如成本是0.這就相當於讓你無成本的選擇兩個世界，一個世界孩子是59.999分，另一個世界孩子是60分，你選哪個？
我選第二個。
如果有個研究可以無成本給我這次選擇的機會，我覺得這個研究是有價值的。
你們呢？

如果我說，我有一個方法，能夠無成本將中國人的收入平均提高原來的0.001。你們算算這是多少錢。。。。
你們覺得國家肯花多少錢，去驗證這個方法到底是真是假。

作為正在做臨床試驗分析和因果推斷(causal inference)的流行病學在讀博士生有必要對醫學人群研究中study designs的知識進行普及一下。首先我們需要知道一個基本知識，就是要做一個質量好而且最後能起到決策效應的study design，需要滿足internal validity和external validity。Internal validity就是我們要保證在這個研究人群(study population)中所得到的結果(causal results) 是有效的，這需要control for bias已得到真正的因果推斷結論。然後，我們對這個特定研究人群的結論可以直接有效地外推到更大範圍的目標人群（target population)，這樣我們就實現了external validity; external validity, 在另外角度上看，也就是研究結論的普遍性和外推性(generalizability)要好。但是在現實操作中，想同時實現這兩個條件其實是很困難的。

然後，就是上圖所述的hierarchy of study designs。拋開systematic review and meta-analysis先不說，RCT被認為是最好的study design。但是我和我導師一致認為目前的這個hierarchy of study designs絕對是有問題的。RCTs(randomized clinical trials)雙盲實驗雖然因為randomization解決了很多最基本的難題，尤其是混雜(confounding)，可是這最多也就實現了internal validity，也就是結果只在study population裡面是有效的。但是由於嚴格的inclusion/exclusion criteria, RCTs篩選之後得到的研究人群往往不能代表廣範圍的目標人群，以至於RCTs實驗結論的external validity/generalizability很難保證。更何況在RCTs試驗中的noncompliance 和 loss to follow-up都會直接影響RCT數據的因果推斷。

目前的hierarchy of study designs理論一個主要問題是忽視了external validity的重要性。我們是需要把我們的試驗結論推到更大範圍的目標人群的，並指導decision-making。只關注internal validity, 其實結果的實際價值並沒有像想像中那麼大。所以目前我們組，還有Harvard的Miguel Hernan組研究的其中一個課題就是重新分析大型知名RCTs的數據，解決上述RCTs可能出現的種種問題，而分析解決也有很大可能顛覆之前的試驗結論。

所以說隨機雙盲實驗到底是不是最好的，其實是有待商榷的。具體問題得具體分析。現實遠遠比理想狀態要複雜的多。

參考文獻：
1. Westreich D, Edwards JK, Cole SR. Causal Impact: Epidemiological Approaches for a Public Health of Consequence. American Journal Of Public Health. 2016; 106(6): 1011-1012

看了很多回答，大體上把這個題目的大樣本，隨機和雙盲都解釋得差不多了，只有 @海馬提到了其他臨床研究類型。

既然我們考慮的是研究對治療措施的療效及安全性的判斷，當然先要知道有哪些研究類型可以選擇。之前在我的專欄里也根據循證金字塔寫了各類研究設計及其相應的證據質量（截取自從研究設計和證據質量看循證金字塔 - Pharmacoepidemiology Pharmacoeconomics - 知乎專欄）

為什麼循證金字塔這麼安排？

循證金字塔從下往上看，排序可看成研究設計的上限的考察。針對同一研究問題，一層一層往上，因果關係越來越強。

體外實驗，動物實驗等間接提示干預措施在人體可能出現的作用。
專家意見則為這些信息以及臨床、研究經驗的綜合判斷。
病例報告則結合專家意見以及具體案例進行分析，更客觀反映干預措施的可能效應。
然而，病例報告中的效應可能只在個體出現，於是便有病例系列考察使用該干預措施的群體是否均有該效應。
然而，病例系列中的效應可能不是由干預措施引起的，所以就有病例對照研究依據「出現效應的人群」匹配出「無該效應的人群」，考察兩組使用干預措施的比例，判斷干預措施與效應是否存在相關性。
然而，病例對照研究的效應與干預之間的因果關係沒有時間相關性，於是便有隊列研究對干預的暴露組與非暴露組進行隨訪，考察兩組結局的發生比例，判斷效應是否由干預措施引起。
然而，隊列研究對暴露組與非暴露組的匹配可能存在未知的混淆因素影響結局的考察，於是便有隨機對照研究，隨機將受試者分組為實驗組與對照組，不管混雜因素如何，這兩組除了干預措施外其他因素都一致，假如兩組結局存在差別自然就是由干預措施所引起的。

這些研究從下到上，因果關係更強，利用的信息更多，所以循證金字塔從研究設計的上限來講，這麼排應該是沒有問題的。大體上，我總結成下圖：

上面的排序是根據各類型研究都做到極致後的排序，即所有類型的研究都是大樣本，沒有實驗缺陷的排序。

但我們面臨的研究或多或少都有那麼點缺陷，我覺得大體可以歸類為不精確性與偏倚。
（截取自從偏倚和不精確性看證據質量 - Pharmacoepidemiology Pharmacoeconomics - 知乎專欄）

偏倚指的是系統誤差(Systematic error)，不斷重複有偏倚的研究將得到唯一的估計值，但這個估計值是偏離真實值的。不精確性指的是隨機誤差(Random error)，不斷重複不精確的研究將得到不同的效應量估計值，這些值都可能偏離真實值。針對臨床研究，我們需要同時考慮偏倚和不精確性。

1. 當不考慮研究內偏倚及不精確性時，證據質量如上面的循證金字塔所示。
當然，臨床研究怎麼判斷治療措施的有效性？一般都是靠的點估計值加上它的95%置信區間。於是乎，循證金字塔反映到療效估計將如同下圖所示

2. 當只考慮不精確性而忽視偏倚時，臨床研究在療效估計的反映則有所不同。

對於RCT而言，隨著樣本量的增大，RCT得出的95%置信區間就會越小。理論上，只要RCT覆蓋了所有人群，那麼該RCT就能得出干預措施的精確估計值。

對於Cohort而言，由於Cohort自帶偏倚，做得再好的Cohort，也無法完全平衡或解決可能會影響效應量估計的已知或未知的混雜因素：如隊列中隨訪兩組人員的匹配不平衡，隨訪對象依從性不佳，結局數據提取困難等。混淆因素的存在使得隊列的結果並不能準確地反映效應量的真實值。所以，隨著Cohort樣本量增大，研究精確性增加，但其95%置信區間則可能縮小至一個錯誤的估計值：

隊列研究以外的觀察性研究則更不用說了，均自帶偏倚，即便樣本量達到精確的程度，也無法得出準確的估計值。

總體而言，當研究樣本量不足時，所有研究得出的估計值均不反映真實值。在極端情況下，甚至連它們的95%置信區間都沒包含真實值。

當研究樣本量達到一定的程度，能真實反映效應量的，只有RCT以及納入無差別RCT的Meta。其他觀察性研究以及相應Meta的結果都或多或少與真實值存在偏差。

3. 當只考慮偏倚，而忽視不精確性時

偏倚的RCT的結果如同自帶偏倚的觀察性研究，即便結果精確，但亦偏離真實值。
研究內部還出現偏倚的觀察性研究，結果則更偏離真實情況。

我覺得上面的解釋應該回答了為什麼「大樣本量」，「隨機」，「雙盲」的臨床試驗是重要的。臨床研究人員從臨床中發現問題，提出假設，並通過病例報告，病例系列，病例對照，隊列研究等一步一步更加強化因果地證實原假設。最後通過大型的隨機對照研究對假設定性，甚至對效應量進行定量。作為最後把關的一員，大樣本隨機對照研究當然重要。

所以對於題主的問題，對於一個療效無法確定的治療措施，我覺得大樣本RCT是必要的。

葯企銷售藥物給患者起治療作用以牟利，要求提供最佳的證據來證明銷售藥物的療效，一點都不過分吧。患者可以給錢葯企買葯治療，但這錢得花得明白。

現在大多數疾病都有相應的藥物或其他干預措施可以進行治療了，干預措施沒有提供最佳的臨床證據證明其療效，要你何用。目前，甚至都有評價仿製葯與原研葯療效相當的RCT在做了，而本來仿製葯只需要提供其他低成本的試驗結果就可以了（如生物利用度）。

不過，其實我也一直都挺反感知乎的很多回答的人滿口大樣本隨機雙盲臨床試驗。

隨機臨床試驗也是有缺陷的。例如成本高周期長，解決不過來日益增長的臨床問題；樣本量不可能太大，捕捉不了小概率的結局（如不良反應）；由於試驗嚴格控制，試驗環境與真實世界不同，研究結果未必與真實療效相同（例如試驗里大家都被喂著準時吃藥，我們真實環境中還挺經常說不吃就不吃了...)。

同時，一直強調隨機臨床試驗，感覺就像是忽視了其他類型研究的作用。雖然大樣本的RCT甚至可能可以定性，但是臨床有時只是需要判斷治療措施的性質就可以，是否有效，是否有害，不用具體到某個具體的效應量。其他低偏倚較精確的研究也是有用的。現在大多數循證指南都利用到GRADE。在GRADE證據質量評價的體系里，低質量的觀察性研究也還是可以作為高質量的證據為指南作推薦的。

總結：大樣本RCT對於干預措施療效的判斷還是金標準。對於日益增長的其他臨床問題，其他類型的研究同樣重要。

PS: 很多人提到了雙盲，但雙盲不一定必要，只要盲與不盲不影響受試者和試驗人員就好。例如大家都不知道A葯和B葯哪個好，所以不會產生哪個葯的療效更好的預期，也因此不會影響他們的行為。所以不一定要雙盲。而且有的試驗就是沒辦法做到雙盲。例如手術，患者是可以，但你要怎麼盲著醫生啊。

你是要針對大樣本還是要針對隨機和盲法？
1.樣本量是不是越大越好？
從安全性和有效性考慮，是。臨床試驗的目的，就是運用統計學的方法，將有限的觀察結果外推到人群，樣本量越大，一類錯誤和二類錯誤可以同時減小，沒什麼好質疑的。
但是從藥物研發角度來說，顯然不是。藥物研發不僅要考慮藥物的安全性和有效性更要考慮藥物的成本和時效性。樣本量過大，必然導致研發周期超長，藥品成本增高，而這一切都會體現在葯價上轉嫁給患者，以及國家財政。
這就涉及病例數的計算，參考「把握度」。
另外，小樣本試驗也可能發生在孤兒葯身上。本身病例數就非常少，要做大樣本試驗是不可能的，截至15年，FDA批准的孤兒葯大概有400多。

2.隨機雙盲試驗的必要性。
隨機和雙盲都是為了儘可能消減試驗中的混雜因素，減少誤差。其實這裡面還包含了另一個措施「對照」。有對照才有隨機和雙盲，單臂試驗是沒有隨機和雙盲的。傳統醫學裡並沒有對照，因此無法衡量藥物是不是僅僅起到安慰劑的作用。比如病毒感冒一般一周左右可以自愈。
我沒有查到FDA具體批准了多少，如果不進行隨機雙盲的試驗，應該都是單臂試驗了吧，剛進入到臨床這裡一年，有不清楚的地方歡迎指正。單臂試驗肯定無法進行隨機和雙盲了，但是單臂試驗並不是沒有對照組。單臂試驗的對照組來自於外部數據，這同樣是因為患病率低，無法有效收集足夠例數。並且，藥物的療效相當顯著才行。

總的來說，大樣本、隨機雙盲對照是考察藥物安全性和有效性很重要的方法，目前來說是最可靠的（有更好的不妨討論）。但是因為有的藥物不適合，所以沒有進行。據我所有，FDA批准了一些，但並沒有批准「無數」非此方法的藥物臨床試驗。

因為這正是實證精神啊。
因為目前藥物研發還做不到、只憑理論就能推導出療效和副作用。（以後也許能大致做到，不過你我皆看不到那一天）

假如說某個人吃某個「葯」，病好了（或者感覺有好轉），那是不是可以批准這個「葯」上市了呢？
不能吧？普通人都知道，至少得多找幾個人試試。
（補充：答題時忽略了隨機分組這一點，可以看看@如風如此的答案）

現在我們還知道有些病有自愈的可能。比如說喝十天白水，感冒也會好，是不是就能說白水能治感冒呢？顯然不能。
解決方法就是對照，一組人給藥片，一組人給糖片（打個比方），如果到時候，糖片組的病也好了，那說明這個葯其實沒有用，只是該病可以自愈而已。

還有安慰劑效應這會事兒，本來一個病人喝糖水是沒用的，但若來一個醫生（或者「大師」）告訴他這其實是能治你病的葯，結果該病人喝下去可能就會覺得（有時甚至是確實）病情有所改善。
為了消除這種效應的干擾，就只好讓所有病人不知道自己在服的是葯還是安慰劑（所謂單盲）；而醫生在判別病情是否改善時，也可能受到主觀因素影響，有意無意中將給葯組的分打的高一些，對安慰劑組的分打的低一些，為了盡量較少主觀因素的影響，就只好對當事的醫生也不告知哪些病人在服藥哪些在服安慰劑（就是所謂雙盲）。

所以你看，以上綜合起來，不就是「大樣本」、「對照」、「雙盲」嗎？而且每一項都有其相應的作用，不可缺少。

我們常說「不管黑貓白貓，能治好病就是好貓」，但由於偶然性、自愈性、以及安慰劑效應的存在，要判斷一個葯是不是真正有效，不是一件簡單的事情。
而大樣本的雙盲對照臨床試驗，可以說是目前解決這個問題最好的方法了，真正（數據沒有造假）通過了這個流程的藥物，我們才有較大把握說它真的有用，值得患者買來服用。

其他答主的回答都說已經解釋了很多，補充一下
1.這個方法是目前探討事件因果關係最「可信」的「辦法」之一。
2.大樣本是相對概念，樣本量下限的多少視研究內容不同而不同，但抽樣研究原則上肯定是樣本量越多越好。
3.隨機是關鍵，沒有隨機沒有一切（有點絕對），隨機的核心是保證對照組和被對照組具有「可比性」。隨機的精髓不僅是防止人為因素對結果的干擾，而是防止「所有能對試驗結果產生影響的已知和未知的因素」對結果的干擾，注意這裡有「未知因素」這個詞。舉個例子，一個試驗開始時我們已經知道血壓、血糖..等n個因素會對結局產生影響，我可以不用隨機的方法人為把患者分為兩組保證這n個因素在兩組間「平均分配」（具有可比性），這只是把已知因素分配成可比。若干年後，我們突然發現患者的「性取向（不在n之內）這個因素」會對結果產生影響，這時你發現當初那兩個組不可比了。而如果當初使用了隨機的分組方式，你會發現兩組依然可比。
3.雙盲不一定必需，有的試驗是無法盲的，比如有創的治療。
4.幾十例就獲批上市的藥物（特指NDA，國內的一類新葯）即使有肯定也是非常少，不可能很多。還有一種情況，在循證A級證據中的「全或無」情況出現，有可能幾十例就夠了，也不需要對照組，但這種葯太少了。

科學不是真理，但科學是我們目前能找到的接近真理最好的方法。而隨機、對照、盲法正是科學在這裡的體現！
——————————————————————

第一句話非原創，知道出處的請聯繫

不然西醫就跟中醫講故事一樣了，什麼「我有一個朋友，平時身體可棒了，結果某天突然就開始肚子痛，痛的滿地打滾，家裡人又是喂熱水又是熱敷的，一點好轉都沒有，結果鄰居告訴我他有個醫生朋友，醫術可好了，建議他們去看看，然後他們忍痛叫了計程車趕去醫院，見到了那位醫生，醫生很體貼的問了他哪裡不好，然後給他做了B超，開了鹽水，太神奇了，鹽水掛完果然不痛了！簡直是神醫！朋友對醫生千恩萬謝，過了幾天還送了一幅錦旗！」
這麼惡俗的故事我編編都有點想吐了。。。

首先，要證明一個藥物有沒有效，最合理的方式就是和已知無效的樣本作比較。

先說好理解的隨機雙盲。
為了避免人為對實驗結果的影響，所以隨機雙盲對測定一個藥物的有效性是非常重要。換句話說，你不能讓所有病危的病人吃安慰劑，和病情較輕的人服藥進行比較。

而大樣本則是為了統計學上的小概率干擾觀察到的結果。隨機選樣本的話，樣本小的話，是非常有可能把有能影響實驗結果共性的病人選到一組的。
當然，如果只是證明有效性，這個「大」並不一定要非常大，這個「樣本」也並不一定要是人。
對於明顯有效的藥物，想要非常有明顯統計學意義的結果，十來個樣本就能說明問題，一期臨床基本也就那麼多樣本。
在臨床試驗之前，還有動物實驗。動物實驗成本比臨床試驗小的多，在我們這個相對富饒的年代，你樣本不夠大都不好意思發表結果。

我不否定中藥材的有效性，說實話，所謂一物降一物，整個生態圈都是能造福人類醫療事業的大寶庫。但藥物是給人吃的，除了要證明有效性，還要證明藥物的安全性。後期的臨床試驗很大一方面就是要證明藥物的安全性，鑒定藥物的副作用。

畢竟許多中藥材是全人類共享的財富，很難給任何人帶來暴利，而臨床試驗燒的是錢。在醫療領域，人類還沒有富裕和閑到把各種共享的財富都徹底在人身上研究一遍。

但是從長遠上看，為了人類醫學的進步和發展，中藥的大樣本隨機雙盲同樣是必須的。用現代科學對中藥的研究正在如火如荼的進行，隨著時代的發展，那一套老的理論必定會逐漸退出歷史的舞台的。

--------------------------------------------------------------------------------------

而目前中藥可怕的之處，在於許多人的盲目崇拜以及安全性的未知，甚至認為中藥比西藥副作用小，抵制西藥。中藥這東西安全性的確是有問題的，而且劑量很難確定，特別是有些不常用稀罕藥材偏方，吃下去可能比化療還可怕。經常說的有時候病沒好吃出了腎衰，就是這個道理。

我不在意那些中醫的盲目崇拜者怎麼想，但是許多不良思想影響到了我身邊的親人。我希望他們想看中醫就去正規中醫院，而不是受到網上報紙上的那一套影響，更不希望他們被披著中醫皮的騙子們影響。畢竟許多老人家們一聽中藥腦子裡就是純天然副作用小，所以在網路上刁難一下中醫粉是完全值得的。

有的時候人們並不需要道理，要的是口號。

隨機對照很有必要，雙盲不一定。
還是具體表述一下。
非專業，所以說的不對的，歡迎指正。

題主所述隨機對照雙盲試驗是一種實驗設計方法，具體需要詳細展開如下：
隨機，指將受試者按照預期設定好的隨機方法隨機分組為預期好的試驗和對照等組，與隨機對應的還有自然登記等方法。
對照，指為了排除試驗中的安慰劑效應，在試驗設計中使用對照設計，設立對照組，通過試驗組與對照組的試驗結果比較驗證試驗設計。對照分為平行對照、交叉對照、自身對照等。
雙盲，指為防止試驗過程中，因人為因素和安慰劑效應影響實驗結果，通過手段使受試者、研究者、統計者等試驗參與方在實驗過程中不能獲知實驗數據對應組別，與雙盲對應的還有單盲、開放等實驗設計。單盲和開放設計經常性用於主要療效指標與次要療效指標為客觀指標，安慰劑效應不明顯的試驗。
有時候為達到雙盲目的還需要進行雙模擬設計。
III期臨床準確來說應該叫驗證性臨床，在已有前期安全性有效性試驗（常規包括耐受性、葯代動力學、劑量給藥方式給葯間隔等探索）基礎上，以臨床特徵性終點指標為基礎提出試驗設想，並進行驗證的前瞻性試驗。

常規來說，中藥臨床研究主要糾結判斷標準，用中醫判斷標準，評價指標不明確，用西醫判斷指標，體系相互排斥，且西醫普遍認為中藥安慰劑效應明顯，故要求隨即雙盲對照設計，但中醫講究辯證施治，肯定強調陽性設計，所以隨機對照，雙盲可以商榷（主要療效指標與次要療效指標為客觀指標設計）。

因為paradigm還是postpositivism，連constructionism都沒到呢

對這個方法的推崇達到了無可復加的地步，甚至認為只有該方法可以檢驗一種治療方法的療效，讓我這個臨床試驗工作者嚇得瑟瑟發抖。

我們質疑的是，絕大部分中成藥，中藥和中醫療法有條件，有能力進行這種金標準檢測卻不做。
如你所說，其他方法有其價值，但是說服力高低你自己應該清楚。尤其是僅記錄了成功病例的中醫病案，沒法說明任何問題。

講道理，如果不是因為人類發現了安慰劑效應和自愈效應，誰會吃飽了撐得搞什麼大樣本隨機雙盲嘛。
這玩意就是火眼金睛，所過之處妖魔鬼怪紛紛現形，任你裝扮成少婦老婦還是老頭，白骨森森原型畢現。
至於知乎為什麼推崇，可能是知乎上妖魔鬼怪太多，還喜歡裝扮的高大上的原因。

其實我的想法很簡單，FDA覺得啥樣的算「葯」能上市，我就認同它的標準。

絕大多數情況下，不就是三期臨床嘛。

當然也是有特例存在的，但什麼樣的「特例」才能夠在不通過三期臨床的情況下直接被批准上市？中藥能滿足那些條件不？

所以答案就很簡單了，中藥必須做臨床，而且還得通過了三期，才能拿給病人吃。否則就是謀財害命，這是毫無疑問的。

試驗的設計。只要說明問題就可以了，隨即雙盲大樣本是金標準，事實上人的研究總會有種種障礙，就算錢到位了，人力到位了，管理人員到位了，倫理委員會說這點樣本夠了，能用200個人說明的問題不準用2000個人當小白鼠。
這個的原因是當小白鼠總是有風險的，就算本人願意我們也要從倫理上減少小白鼠的數量。

Real world研究里，隨即雙盲對照更少了，金標準真的是一種很理想的情況。

再回到中醫，中醫也可以用合理的方式設計實驗，證明理論或者中藥。是不是復方，是不是需要重新定義腎肺心，都可以，能讓大家看懂，想明白就可以了。試驗不需要拘泥於什麼東西，言之有理就行。哪個試驗不是一開始定義一堆東西的。至於一人一方也不是問題，最近做的就是這種模式的研究，西藥也有每個人治療方案不同仍在一起比得。做試驗之前別忘記註冊哦！

中藥的缺點在於專利保護不利。我花錢，我證明我做的xx方有用，等公布療效的時候，所有人的xx方都有用了，那為啥要我出錢？需要保護我呀！
可能因為中藥太需要古來支持了，不是需要新來支持。

中藥也可以做真實世界研究，事後研究，還是一句話，能說明問題就行。

已經有一些中藥在衝刺fda3期了，外資也開始進入中藥領域，民眾對中醫沸騰的愛壓根不需要見效，看好。

因為對真實的迷信。

真實而有效的東西當然是最好的。

可是絕大多數有效的東西都不真實。

學術上的就不說了，說點現實的，有一次在行政科研樓親眼見過某地區醫院的醫生來某中央醫院想商量多中心聯合做個試驗，然後看了實驗設計，回答：你這個不是雙盲的，我們不做。

這是目前醫藥研發領域的 best practice
其他方法搞出來的葯，要麼沒效果，要麼吃死人

講道理，我覺得可能因為有些人只知道這一個名詞.......

因為中醫粉不允許用現代科學的理論解釋中醫的理論，於是不就只好用統計學的方法了。