巴甫洛夫的經典條件反射和斯金納的操作條件反射有什麼區別和聯繫?
行為主義理論中,關於條件反射有經典條件反射和操作條件反射,經典條件反射是巴甫洛夫在給狗吃食物前給予燈光,這樣反覆幾次之後,狗一看見燈光就會流口水。(無條件反射——狗在沒有燈光刺激之前流口水;外界刺激——燈光;條件反射——狗意識到燈光一出現便有食物,於是乎流口水)
斯金納的操作條件反射實驗中白鼠的無條件反射是什麼呢?(條件反射是個體通過模仿、學習,在無條件反射的基礎上形成的反射)
那麼經典條件反射和操作條件的聯繫和區別又是什麼呢?
題主非心理學專業,希望大家積極回答^_^,射射。
以下為答主待刊書稿的一個相關章節,既有乾貨又不乏八卦,還帶一點不知道是瞎說還是大實話的私貨。可能略有偏離問題原意。歡迎私信評論指正。
==
- Kanizsa 三角形與神經網路的模式識別
1976年,義大利心理學家 Gaetano Kanizsa 在《科學美國人》雜誌發表了一組視覺錯覺實驗素材[1]。此後幾乎所有的心理學導論教科書都引用了其中的基本範例(第一圖),稱之為「Kanizsa 三角形」。第二圖是原著中稍微複雜的一個變體。第三圖轉自moillusions.com
相信所有讀者都看到左圖有一個與背景同色的直邊三角形擋在前面。右圖顯示,即使是弧邊,也有同樣效果。實際上,你的視網膜在物理上只看到這兩個三角形包括六個角在內的若干局部。然而,這個視覺效果是如此強烈,以至於可以感受到前景的三角形邊緣內外像素亮度差別,似乎內部 (A處) 要更亮一些,同樣也是白色的背景像素點 (B處) 略暗一些。如果讀者用手機對著感受到的白色前景三角形邊緣線放大,讓所有黑色像素點跑到取景框外,拍下照片再看,可以確證其實內外像素點在物理上完全一樣。
讀者看到這幅圖的瞬間,在毫秒級的時間尺度立即識別前景的白色三角形,這個識別過程不涉及藉助語言符號的有意識推理。這個實驗並不需要作統計分析就已說服讀者,不過其中仍有一個常識的盲點值得闡明:假如熟悉模式識別問題的神經網路演算法[2],而且確信自己的腦神經系統演算法原理與之類似,這樣的讀者對於 Kanizsa 三角形的視覺感受不應有任何驚奇;反之,如果讀者將自己的腦解讀為符號系統的計算機,Kanizsa 三角形的視覺感受就成為一個需要解答的懸疑。
- 巴甫洛夫的狗與條件反射
巴甫洛夫的條件反射實驗最初是生理學層面的研究。巴甫洛夫本人是純粹的生理學家,1904年獲得諾貝爾生理與醫學獎,不是因為發現條件反射,而是因為對狗消化過程的研究。條件反射的發現與獲得諾獎確實有因果關係,只是因果方向要反過來——正因為他研究狗的消化得了諾貝爾獎,才有機會發現狗唾液分泌的條件反射。在獲得諾獎之後,他與他的研究團隊仍然經歷了多年的動亂坎坷,一戰、革命、內戰、…。在最困難的時候,實驗室種了胡蘿蔔和土豆接濟生活,研究團隊甚至被迫到城市社區偷狗。到巴甫洛夫實驗室吃狗糧對這些「被試」並不是什麼好事,至少要外科手術開上一刀,唾液腺接入導管測量口水的分泌。要測胃液的話,動的手術就更不人道,平均每條狗能在實驗中存活十天左右,其間收集的狗胃液不僅提供數據,還售作胃藥原料賺取研究經費[3]——整一個狗被試的奧斯維辛。
研究團隊偶然發現,新來的狗看到食物才流口水,沒幾天後,不用看到食物只要看到實驗員就流口水了。作為一個生理學實驗室,研究團隊本來只想搞清楚,怎麼讓狗在各種與食物完全無關的刺激下也能流口水(以及生產胃液)。1927年,巴甫洛夫的專著在歐美首次出版[4],「條件反射」這四個字的英文是 Conditioned Reflex。在實驗設計文獻中,「設置實驗條件」就是操控,這個詞很容易被誤讀為字面意思:操控實驗條件促成的生理反應,然而這個誤讀恰好是巴甫洛夫純生理學的研究團隊最初本意。當然,隨著研究出乎意料的進展,研究團隊的關注重點逐漸從「反射」轉到了「條件」。Conditioned 作為(被動時態或者完成時態的)動詞有了全新的內涵:「中性(音叉)刺激與無條件刺激(食物)二者聯結的習得」。中性刺激之後緊跟無條件刺激,或者兩者同時呈現(但不可以時序調轉)。實驗動物多次重複這種連貫整體處境,把其中的中性刺激識別為整體模式重要的局部。通常,狗完成十次左右的聯結刺激訓練,就能對單獨的音叉刺激產生流口水的生理反應。這種「聯結習得」被叫作(動名詞的)「經典條件作用 (Classical Conditioning)」,原先的中性刺激在聯結習得之後就能單獨引發生理反應,所以稱之為「被條件作用訓練好的」刺激 (Conditioned Stimulus),簡譯為「條件刺激」。這也就是「條件反射」的新內涵:單獨條件刺激引發的生理反應。簡體中文文獻經常把 Conditioning 這個動名詞本身不恰當地翻譯成「條件反射」,如果理解 Conditioning 的賓語已經不再是巴甫洛夫最初關注的「流口水的生理反應」,可能會避免這種誤譯。在經典條件作用模型中,這個動詞的意思就是「習得」,賓語是「中性刺激與無條件刺激的聯結」。
從神經網路模式識別的視角,狗的經典條件作用過程相當於 Kanizsa 三角形補上那些缺掉的邊線後對神經網路作完整圖形的識別訓練。訓練完成之後,單獨呈現條件刺激就相當於單獨呈現(缺掉邊線的)局部關鍵特徵,仍然可以喚起整體模式呈現的刺激結果(看到完整的前景三角形)[5]。聯結習得並不需要特別高級的腦結構,即使非常低等的動物比如蟑螂[6],也能勝任經典條件作用。
晚年的巴甫洛夫在斯大林時代學術聲望達到頂點。1926年,他領導的研究院已經被公認為全世界規模最大的心理學研究機構[7]。巴甫洛夫的研究工作一直持續到1936年去世前夕。他特別要求研究助手密切記錄他在臨終狀態的持續口述報告,作為人類臨終過程研究的第一手數據。巴甫洛夫傳記有這樣一句名言,其實是臨終現場助手代接電話時的答覆:「巴甫洛夫教授很忙,他正在死去。」[8]
- 斯金納的鴿子與操作條件作用
1927年,斯金納還是一位二十三歲的英語文學專業大學生。當時的文壇巨擘威爾斯讀到巴甫洛夫新譯為英文的專著[4],激動地寫了篇不惜溢美之詞的書評。雖然威爾斯也承認自己不懂生理學實驗,但是在書評中,他甚至自問自答了一個「巴甫洛夫和蕭伯納同時落水先救誰」的問題。斯金納後來寫到,威爾斯「讓蕭伯納淹死算了」的決定,促使他痛下決心放棄心愛的文藝,從此投身行為科學。兩年後,巴甫洛夫到訪哈佛為國際生理學年會作大會演講,斯金納專程跑去,搞到一張配有簽名的偶像照片。終其一生,這張珍貴的照片一直隨著斯金納換辦公室,最後掛在他去世前的家中書房[9]。
斯金納在實證研究「術」的層面很大程度繼承發展自桑代克的研究設計,在學術思想「道」的層面,最終超越巴甫洛夫,取而代之成為行為主義學術史(甚至整個二十世紀心理學史)影響最深遠的學者[10]。他曾經在一次媒體訪談中說漏嘴,留下一句特扎心的名言——
It is a mistake to suppose that the whole issue is how to free man. The issue is to improve the way in which he is controlled. (把人類的根本問題說成是如何獲得自由,這是個誤區。人類真正的問題在於如何被更好地控制。)
在美國社會,這似乎非常政治不正確。斯金納之所以相信控制而非自由,是因為發現包括人在內的各種動物都很容易通過強化、懲罰習得特定的複雜行為。比如下圖的視頻鏈接,一對鴿子竟然能通過簡單的投食強化學會「打乒乓球」。
【生活大爆炸tbbt】鴿子打乒乓球_趣味科普人文_科技_bilibili_嗶哩嗶哩bilibili.com視頻
在簡體中文、俄文公眾傳媒,巴甫洛夫知名度遠高於斯金納。只適用於巴甫洛夫學說的「條件反射」一詞,幾乎成為「經典條件作用」和「操作條件作用」共同的代名詞。這解釋了斯金納的「操作條件作用」為什麼經常被不恰當地中譯為「操作條件反射」。「反射」對應的英文 Reflex,顯然是指本能生理層面的、非隨意的反應。然而斯金納的操作 (Operant)幾乎就是 Reflexive 的反義詞,特指主動、隨意發起的行為。在谷歌學術搜索帶引號嚴格匹配的 Operant Conditioned Reflex,竟然還有103個結果,其中多數是母語中文、俄文的作者。如果在谷歌(而非「谷歌學術」)搜索,有2070個結果,相比之下 Operant Conditioning 是162萬個結果,大體服從通常英文錯誤表達和主流表達之間的比例。
初學者很難吃透斯金納的術語 Operant,因為這個詞存在兩層彼此緊張衝突的意象。第一層就是與 Reflexive(反射)相對的意思:斯金納的鴿子主動去啄球;巴甫洛夫的狗流口水不能說是主動的,它只是被呈現了一盤狗糧或者聽到音叉,流口水是反射性生理行為,所以巴甫洛夫的學說可以叫條件反射,斯金納的學說如果非要構造一個對應的名詞,也許適合叫強化操作,或者強化行為。
斯金納學術思想真正激進的地方在 Operant 的第二層意思。斯金納指出,鴿子並不是以意識驅動行為去啄球,是鴿子先做了這件事,它的行為反過來驅動了意識——假如鴿子確實有意識。所以斯金納避免用英語裡帶有「想法驅動行為」意象的 Initiative,也不用 Active。與這兩個詞對比,Operant 的主動性限制於客觀行為,避免牽涉主觀意識是否主動。如果將斯金納的學說與桑代克的「效果律」對比,這第二層意思會更明顯。斯金納學說強調,強化與懲罰的賓語是行為的頻率(成功啄球與失敗啄球的頻率),而不是行為的個體(鴿子),完全規避對個體主觀層面感受好壞的討論。強化與懲罰是因,行動頻率是果。桑代克與之相反,其學說涉及個體主觀層面的「滿意效果」與「困擾效果」。為了自別於實驗設計層面極其相似的桑代克「效果律」[11],斯金納特別用術語「強化 (Reinforce)」,不用更通俗易懂的「獎勵 (Reward)」。
「積極心理學」、「積極情感」中的「積極 (Positive)」更準確的翻譯是「正向」,與之對應,「消極(Negative)」更準確的翻譯是「負向」。在翻譯斯金納學說的時候,這一組形容詞搭配上「強化-懲罰」,非常容易產生誤讀,即使英文母語的研究者也常常搞錯。「負向強化」並不是懲罰。比如大鼠處在持續施加的噪音環境,如果做對了一個動作(連續壓槓桿兩次),噪音隨之暫停五秒鐘。這一種撤除刺激帶來的強化,文獻稱之「負向強化」。習得無助的研究就用到「負向強化」。持續電擊狗,如果狗掙扎反抗頭頂到開關,電擊暫停。反過來,也有「負向懲罰」。在管理學中,最常見的例子是扣獎金。員工每個月都有所謂的全勤獎,若出現遲到一次,當月的全勤獎就沒有了,解讀為獎勵刺激的撤消,就叫作「負向懲罰」。
最後,讀者可以自測一下,下圖視頻[12]中被試的行為是條件反射還是操作條件作用?
【智商150】喵星人乖乖打鈴要飯,智商不得了_動物圈_生活_bilibili_嗶哩嗶哩bilibili.com視頻視頻中,按鈴似乎使貓流口水。然而在斯金納的學說中,是投擲的貓糧強化了貓按鈴行為的發生頻率。這裡還藏著第三位被試:其實視頻中投擲貓糧的那隻手才是條件反射,他聽到了鈴聲就會投貓糧,這件事情越做越自動化,聽到本來中性的鈴聲刺激手臂肌肉就會生理反射投出貓糧。當然,這只是一個內涵大於嚴謹的段子。
- 兩類條件作用的同與異
心理學教科書比較強調兩類條件作用的區別,主流心理學教科書較少見到對兩類條件作用以神經網路模式識別作統一解讀[5]。不確定性在兩類條件作用的聯結習得過程起到非常不同的作用,這可能是兩類條件作用最鮮明的差別。在條件反射的習得過程,(中性刺激與無條件刺激)聯結呈現的絕對次數是最主要的因素,聯結的不確定性只會阻礙條件反射的習得。然而,在強化操作的習得中,強化物在操作行為之後的呈現模式起著更重要的作用,在同樣的平均呈現幾率或者平均時間間隔下,不確定性甚至有更好的效果。比如,平均每三次操作行為獲得一次強化,完全隨機1/3概率呈現的情形優於嚴格的每三次呈現一次,呈現滯後時間隨機變化的情形優於呈現滯後時間不變的情形。
兩類條件作用基本的差別是生理層面的被動反射和行為層面的主動操作,或可追溯演化歷史,比如求生存與求繁衍之間的差異。可能很多讀者還會想到六十年代著名的「爬行動物腦-古哺乳動物腦-新哺乳動物腦」三層學說[13] 。然而,即使低等如蟑螂、蜜蜂的昆蟲,不僅可以習得經典條件反射[6],甚至其觸鬚的特定主動行為頻次也可以被強化[14]。兩類條件作用更深一層的一致性表現在,都可以與已經習得的另一個經典條件反射作二階的聯結。經典條件作用文獻中的例子即二階條件作用 (Second-order Conditioning) ,指條件刺激(音叉發聲)習得之後,可以作為新一輪經典條件作用的無條件刺激。比如音叉發聲與籠子震動刺激同時呈現若干次,但沒有呈現食物,籠子震動仍可習得為二階的條件刺激。單獨震動籠子而不敲音叉,狗也會流口水。操作條件作用文獻中的例子即次級強化 (Secondary Reinforcement),指條件刺激(撫摸貓頭)習得之後,替代無條件刺激(投擲貓糧)作為新一輪操作條件作用的強化物。不少文獻也將次級強化物稱為「條件強化物 (Conditioned Reinforcer)」,意思是條件刺激用於強化。
兩類條件作用的一致性還表現在,二者都具有「生物準備性 (Biological Preparedness)」——不同的物種,更為敏感的感官刺激比不敏感的感官刺激更容易習得聯結。巴甫洛夫的狗習得音叉鳴聲與食物刺激的聯結,大約需要十次左右訓練,如果要習得某種氣味與食物刺激的聯結,只需要一次或者兩次。狗對嗅覺最敏感。鳥類與狗不同,如果訓練斯金納的鴿子和巴甫洛夫的狗習得藍色麝香食物與(引發嘔吐的)無條件刺激物聯結,結果鴿子習得藍色色彩的條件反射,未習得麝香氣味的條件反射;狗相反,習得麝香氣味的條件反射,未習得藍色色彩的條件反射。生物準備性的例子主要見於經典條件作用,但是強化物與懲罰物的刺激有同樣的原理。食物適合作幾乎所有動物被試的強化物,噪音就只適合部分動物作為懲罰物。不知讀者們是否了解深海的魚類對什麼刺激敏感?估計大家都想不到——居然是電場。Jared Diamond 在《昨日世界》中寫到一個有趣的例子:研究者發現他研究的魚每周末那一天總是特別興奮活躍,莫非魚也過周末?結果是他的助手習慣在那天對鏡梳發,鏡子鄰近魚缸,靜電導致電場變化。深海魚類通過電場的變化感知周邊生物的臨近,極個別物種比如電鰩甚至演化出釋放高壓電攻擊獵物的絕技。我們生活在聲與光的世界,它們生活在貌似更高科技的電場世界。
- 注釋
- Kanizsa, G. (1976). Subjective contours. Scientific American, 234(4), 48-52.
- 推薦初學神經網路模型的讀者參考 Smilkov, D. Carter, S. Tinker With a Neural Network in Your Browser [EB/OL]. http://playground.tensorflow.org/
- The New Yorker: Drool [EB/OL]. http://www.newyorker.com/magazine/2014/11/24/drool
- Pavlov, I. P. (1927). Conditioned Reflexes, GV Anrep. Trans. London: Oxford University Press.[PJS].
- 經典條件作用和操作條件作用的神經網路模式識別統一解釋見於 Michael Shermer的TED演講,似未見於主流的行為學教科書 [EB/OL]. https://www.ted.com/talks/michael_shermer_the_pattern_behind_self_deception
- Watanabe, H., Mizunami, M. (2006). Classical conditioning of activities of salivary neurones in the cockroach. Journal of Experimental Biology, 209(4), 766-779.
- 1926年,復旦大學心理系學院建成標誌性建築子彬院,「《申報》稱,大樓規模據世界第三位,僅次於蘇俄巴甫洛夫心理學院和美國普林斯頓心理學院。」 [EB/OL]. http://news.fudan.edu.cn/2004/0219/3830.html
- "Professor Pavlov is busy. He is dying." [EB/OL]. http://russiapedia.rt.com/prominent-russians/science-and-technology/ivan-pavlov/
- Catania, A. C., Laties, V. G. (1999). Pavlov and Skinner: Two lives in science. Journal of the Experimental Analysis of Behavior, 72(3), 455-461.
- Haggbloom, S. J., Warnick, R., Warnick, J. E., Jones, V. K., Yarbrough, G. L., Russell, T. M., ... Monte, E. (2002). The 100 most eminent psychologists of the 20th century. Review of General Psychology, 6(2), 139.
- Skinner, B. F. (1987). Whatever happened to psychology as the science of behavior? American psychologist, 42(8), 780.
- 來源視頻可訪問日文推特號 @b_ru_ru 「ねこナビ編集部」 [EB/OL]. https://twitter.com/b_ru_ru/status/847368727016259584
- 東華君@知乎:人類有三個大腦? ——有趣的Triune Brain假說。作者指出,雖然在該學說仍然是很好的科普近似模型,但已不再獲得主流神經科學界的支持 [EB/OL]. https://zhuanlan.zhihu.com/p/24839679
- Kisch, J., Erber, J. (1999). Operant conditioning of antennal movements in the honey bee. Behavioural Brain Research, 99(1), 93-102.
==
最後附帶一個教科書里問「區別」時的應試參考答案,比較無趣。難回答的是「聯繫」——它們都是時序事件的神經網路模式識別。習得聯結的訓練階段,前後事件整合呈現。習得之後,呈現事件組合的先發局部,喚起前後事件整合呈現的效果。事件可以是各種刺激(強化懲罰),也可以是操作行為。
操作條件反射涉及到四個情況:Positive Reinforcement;Positive Punishment;Negative Reinforcement和Negative Punishment。這裡要明確兩點:「positive」指的是「給予」而不是「好的」,而「negative」指的是「拿走」而不是「壞的」;如果某種行為出現的頻率增高,那你做的事情就是「reinforcement」,而如果某種行為出現的頻率減少,那你做的事情就是「punishment」。
*還有一種情況是刺激物對實驗體沒有效果,這時候刺激物被稱為「中性刺激物」,下文將不做考慮。
接下來本人將對這四種情況在生活中的應用分別進行簡要說明,方便大家理解之後的理論部分。本人將分別簡單介紹一下兩種條件反射。並在最後總結兩者的異同。
經典條件反射
經典條件反射是巴普洛夫通過用狗做實驗得出的。如下圖所示:
這種條件反射涉及到四個元素,分別是:經典條件刺激Unconditioned Stimulus (UCS);無條件反射Unconditioned Response (UCR);條件刺激Conditioned Stimulus (CS)和條件反射Conditioned Response (CR)。同時,經典條件反射大致包含三個步驟,本人將在每個步驟中舉例說明生活中的例子。
第一步:Unconditioned Reflex(無條件反射)
無條件反射是一種無需學習的、自動發生的行為。也就是說,這是一種「建立」在實驗體神經系統中的反射。通常來說,這種反射在特定條件下對實驗體具有生存價值。
Unconditioned Stimulus (UCS) → Unconditioned Response (UCR)
舉例:去牙醫診所拔牙,牙醫用電鑽鑽牙的時候感到疼痛難忍,使得自己想要逃離。
第二步:Conditioning
在這個步驟中會出現一個新的刺激物(被稱為Conditioned Stimulus,簡稱CS),CS會和UCS進行配對,使兩者產生關聯。通常來說(但不絕對),配對過程需要多次重複。
Conditioned Stimulus (CS) + Unconditioned Stimulus (UCS) → Unconditioned Response (UCR)
此時,我們仍將這種反射稱為UCR,因為這種反射仍舊是被UCS觸發的,沒有證據顯示CS可以獨立工作並觸發反射。
舉例:多次去牙醫診所拔牙,每次都會被電鑽弄得疼痛難忍,導致每次去看牙醫時都疼得想逃離診所。
*由於這時的CS還不能算作真正有效果的刺激物,因此有時候這裡的CS被稱為Neutral Stimulus(中性刺激,簡稱NS)。但為了和下文統一,這裡直接稱其為CS。
第三步:Conditioned Reflex(條件反射)
在上一個步驟中配對成功的條件下,CS單獨工作也可以產生反射,我們把這種反射稱為Conditioned Response (CR),因為這是習得的條件反射。Conditioned Reflex由CS和CR組成。條件反射仍舊是自動的,但區別於無條件發射,這是學習的結果。
Conditioned Stimulus (CS) → Conditioned Response (CR)
舉例:所有的牙病都治好了,想要去牙醫診所感謝一下醫生。但是剛一進入診所就有一種莫名其妙的、想要逃離的感覺。
看完了生活中的例子,我們再來看看巴普洛夫之犬實驗。
在巴普洛夫之犬的實驗中:
狗食是UCS,看到食物的唾液分泌是UCR,鈴鐺聲音是CS,聽到鈴響的唾液分泌是CR。
實驗過程大致如下:一開始,將一隻正常的狗綁在架子上,當它看到狗食(UCS)時會流口水(UCR)。同時,每次這個狗看到食物的時候,實驗人員讓鈴鐺發出聲音(CS),多次重複之後,鈴鐺的聲音(CS)和狗食(UCS)產生了關聯。最終,將狗食(UCS)移走,只讓狗聽到鈴鐺的聲音(CS),狗照樣流口水(CR),產生了條件反射。這是由條件刺激引發的條件反射,即S→R反射,S代表刺激(stimulation),R代表反應(reaction)。
*原題中對這個實驗的描述是「狗一看見燈光就會流口水」,而本人知道的版本是「聽到鈴鐺的聲音就會流口水」。請不要在意這些細節。
操作條件反射
操作條件反射由斯金納命名。實驗道具是一種叫做「斯金納箱」的實驗道具,如下圖所示:
操作條件反射涉及到四個情況:Positive Reinforcement;Positive Punishment;Negative Reinforcement和Negative Punishment。這裡要明確兩點:「positive」指的是「給予」而不是「好的」,而「negative」指的是「拿走」而不是「壞的」;如果某種行為出現的頻率增高,那你做的事情就是「reinforcement」,而如果某種行為出現的頻率減少,那你做的事情就是「punishment」。
*還有一種情況是刺激物對實驗體沒有效果,這時候刺激物被稱為「中性刺激物」,下文將不做考慮。
接下來本人將對這四種情況在生活中的應用分別進行簡要說明,方便大家理解之後的理論部分。
正強化(Positive Reinforcement)
給予實驗體期望的東西,以此來增加某種行為的出現頻率。
舉例:當兒子將自己的玩具收拾整齊時,父親給兒子糖果。如果兒子「將自己的玩具收拾整齊」這個行為的頻率增加的話,糖果就可以看作是一種「positive reinforcer」。
正懲罰(Positive Punishment)
給予實驗體不期望的東西,以此來減少某種行為的出現頻率。
舉例:母親對在大街上亂跑的兒子大吼大叫。如果兒子「在街上亂跑」這個行為的頻率減少的話,母親「給予大吼大叫」就可以看作是一種「positive punishment」。
負強化(Negative Reinforcement)
拿走或取消某種令人厭惡的刺激物,以此來增加某種行為的出現頻率。
舉例:母親停止對街上正常行走的兒子大吼大叫。如果兒子「在街上正常行走」這個行為的頻率增加的話,母親「停止大吼大叫」就可以看做是一種「negative reinforcement」。
負懲罰(Negative Punishment)
拿走或取消某種令人嚮往的刺激物,以此來減少某種行為的出現頻率。
舉例:當兒子把玩具弄得一團糟時,父親將兒子的玩具奪走。如果兒子「把玩具弄得一團糟」這個行為的頻率減少的話,父親「將玩具奪走」就可以看做是一種「negative punishment」。
介紹完操作性條件反射的實際生活應用,我們再回來看看斯金納的實驗。
在著名的斯金納箱實驗中:
斯金納首先在上圖的箱子中放入一隻白鼠(圖中的老鼠不是白鼠,但請不要在意這些細節)。儘可能排除其他刺激物後,在箱中設置操作桿一類的東西,小白鼠可以自由活動,通過觸碰操作桿,得到不同的結果。斯金納箱主要有如下四種形式(其實還有概率型獎勵、固定時間獎勵等其他形式,但題主問的是兩種條件反射之間的區別和關聯,故不表其他形式):
- 觸碰操作桿時總會有食物掉落下來。通過觀察可以研究出食物這個令小白鼠期望的刺激物是否能增加小白鼠觸碰操作桿的行為。如果小白鼠多次得到食物後確實增加了觸碰操作桿的行為,那麼結果就是positive reinforcement。
- 小白鼠觸碰操作桿時會被電擊,當小白鼠不觸碰操作桿時,電擊停止。通過觀察可以研究出電擊這個令小白鼠討厭的刺激物能否減少小白鼠觸碰操作桿的行為。如果小白鼠在多次重複後發現按操作桿會遭到電擊,並確實減少了觸碰操作桿的行為,那麼結果就是positive punishment。
- 一開始小白鼠被持續電擊,當小白鼠按下操作桿時,電擊停止。通過觀察可以研究出電擊這個令小白鼠討厭的刺激物能否增加小白鼠觸碰操作桿的行為。如果小白鼠在多次重複後發現按操作桿可以取消電擊,並確實增加了觸碰操作桿的行為,那麼結果就是negative reinforcement。
- 一開始小白鼠觸碰操作桿時會有食物出現,而後變成觸碰也不再掉落食物。通過觀察可以研究出移走食物這個令小白鼠期望的刺激物是否能減少小白鼠觸碰操作桿的行為。如果小白鼠得知食物已經被取消,觸碰操作桿食物不會再出現,並且減少了觸碰操作桿的行為,那麼結果就是negative punishment。
通過一系列實驗,斯金納總結出操作性條件反射,這種條件反射是先有某種反應,而後通過獎懲得到強化,即R→S反射,R代表反應(reaction),S代表刺激(stimulation)。
*時間有限,無法找到斯金納本人的實驗記錄,因此無法確定上述實驗是否是斯金納本人做的還是其他人發展出來的。但無論實驗員是何人,上述實驗都是斯金納箱的代表範例。
聯繫和區別
- 聯繫
- 兩者都是反應和刺激物之間的聯繫。巴普洛夫之犬是對食物和鈴鐺產生唾液反應;斯金納箱是小白鼠觸碰操作桿的行為由於刺激產生改變。
- 兩者都需要使用刺激對反應進行強化。巴普洛夫之犬是經過多次強化實驗後,狗對鈴鐺產生了唾液反應;斯金納箱是經過多次強化後,小白鼠的觸碰操作桿的頻率等有所變化。
- 區別
- 經典條件反射中,巴普洛夫的狗被固定在架子上,被動接受刺激;操作性條件反射中,斯金納箱中的動物可以自由活動,通過自己的行為和刺激物進行反應,建立條件反射。
- 經典條件反射中,UCS(例如狗食)十分明確;操作性條件反射中,UCS不明確,例如在斯金納的實驗中,操作桿並會不產生類似狗食那種直接刺激。
- 經典條件反射中,刺激物強化條件反射;操作性條件反射中,實驗體的行為導致刺激物的出現或消失。
- 總的來說,經典條件反射是先有刺激再有反應(S→R);操作性條件反射是先有某種反應再獲得不同的刺激(R→S)。
參考
操作制約經典條件反射巴甫洛夫·伊凡·彼德羅維奇斯金納箱:人類學習的秘密斯金納箱_百度百科操作性條件反射經典條件反射_百度百科經典條件反射理論與操作型條件反射理論異同台灣wiki對巴普洛夫的介紹Pavlov』s DogsOperant conditioningClassical conditioningReinforcement Theoryhttp://psychology.about.com/od/behavioralpsychology/a/classical-vs-operant-conditioning.htm
斯金納條件反射學習理論把重點放在外顯的行為之上,而不是放在需要、動機、需要的滿足等內部心理方面,強調環境條件和刺激,但並不否認人們具有需求、價值、信念;討論的重點是:先行的刺激一反應行為一行為的結果。此理論的核心是:如果一個人做出組織所希望的行為,那麼組織就與此相聯繫提供強化這種行為的因素;如果做出組織所不希望的行為,組織就應該給予懲罰,據此,就讓組織成員學習組織所希望的行為並促使組織成員矯正不符合組織要求的行為。此理論斷定,行為和誘因機制之間的時間間隔越短,以及誘因機制的價值越大,對行動的影響就越大。
巴甫洛夫的實驗研究指出,條件反射不是天生的,而是後天所獲得的一種個體反應,並且它是在一定的條件下對一定的刺激所發生的一定反應,所以稱它為條件反射。條件反射是大腦皮層的機能,是在大腦皮層中形成了一種暫時神經聯繫。條件反射是一種信號活動,它可以使每一個個體更好地適應其生活條件,達到 與周圍環境取得更加精確的平衡這樣一種可能。
巴甫洛夫指出「顯然,我們的一切培育、學習和訓練,一切可能的習慣都是很長系列的條件反射。」巴甫洛夫系統地研究了條件反射形成的基本規律和各種抑制(內抑制和外抑制)產生的規律。並以條件反射作為方法研究了高級神經活動過程的擴散和集中、相互誘導等運動規律和大腦皮層機能的系統性等,提出了著名的條件反射學說。
經典條件反射:例:鴿子→和平
形成過程:肉→流唾液(無條件反射)
肉+鈴聲→流唾液
鈴聲→流唾液(條件反射)
反應公式:S-R(被動性)
(即先有刺激,再有行為)
操作條件反射:例:工作做得好,獲得獎勵
形成過程:
偶爾壓槓桿→獲得食物
多次壓槓桿→獲得食物
規律:壓槓桿→獲得食物
反應公式:R-S(主動性)
(即先有行為,再有刺激)
自認為易於理解的區分方法
巴甫洛夫的經典條件反射,就是指事物本身對刺激就可以做出反應,但在刺激的同時為其添加另一種刺激形式,兩種刺激對食物此形成反射,以至於事物在接觸這兩種刺激中任意一種時,都能發生條件反射,成為經典條件反射。例如,狗本身對食物會產生反應,流口水(無條件反射)。每次拌食的時候,都會有勺子和碗碰撞的聲音(為另一種刺激),然後再給它食物。以後狗會對美食流口水,聽到碰撞的聲音也會流口水。
斯金納的操作條件反射,就是指外界對事物自身的進行要求和規定,事物為了得到外界認可,而做出的條件反射,成為操作條件反射。例如,狗在給他食物之前,要求他做某事,如把東西叼過來,或是兩腿站立,就會給他吃的,如果不執行,就沒有吃的。
經典條件反射有被動性,而操作條件反射具有主動性
第一次在知乎回答問題,這是我理解的經典條件反射和操作條件反射。歡迎各位大神提意見。怎麼說呢
區別在於(飆車黨出沒)…
巴甫洛夫:給你看片,你起反應,多來幾次,然後聽到前奏的你是不是血脈開始賁張
斯金納:偶然發現一個網址,點進去,嘖嘖嘖,不可描述,以後嘛,有需要就點網址,你懂的
斯金納認為有機體的行為分為兩類:反應性行為和操作性行為。反應性行為是指某種特定的、可觀察到的刺激所引起的行為。而操作性行為是指沒有任何能觀察到的刺激出現的情境下發生的有機體行為。反應性行為往往不是隨意的行為,有機體被動地對環境刺激做出反應,如果沒有先行的刺激就沒有後繼的反應,而操作性行為大多是隨機的或有目的的行為,代表著有機體對環境的的主動適應,由行為的結果所控制。在前面答案提到的實驗中也可以看到,反應性行為是先有刺激後出現行為,建立新的S-R聯結,而操作性行為是先有行為,後出現正強化或負強化,是由結果決定行為的。
以上是結合書上內容及自己的理解寫的,如果有表達錯誤或不清,那那部分就是我自己的原創。。。
餓貓實驗餓狗實驗和喂鼠實驗……果然老鼠是最聰明的……
喂老鼠的那個吃的,只是一種用來正強化的方法,凡是讓它高興的方法應該都可以正強化?這個和餓貓餓狗不一樣吧。
教育學某年研究生統考辨析題!
區別:
1行為反應類型不同:巴是應答性行為,斯是操作性行為
2刺激不同:巴是特定刺激引起特定反應,斯是非特定性(隨意性)刺激引起的反應。
3行為與強化先後順序:巴是刺激-行為-強化,斯是行為-強化
聯繫:二者均屬於行為主義
巴甫洛夫的經典反射是將某些刺激同無條件反射聯結,通過多次的重複動作而形成條件反射;斯金納的操作性條件作用是在基本反應的基礎上施於強化刺激(正面的或負面的),從而使這些反應出現更快或者基本不出現。
區別:
來源:邁爾斯《心理學》第七版(黃庭希等譯)人民郵電出版社 第283頁
簡單說,經典條件反射不涉及認知功能,主要依靠本能建立起信號和反應間的聯繫。而操作性條件反射使用的一套獎勵-懲罰制度,通過鼓勵某種行為,同時忽視或懲罰另一種行為來達到學習目的。
對於動物進行的實驗表明,使用操作性條件反射的需要的時間更長,因為需要動物自己去領悟獲得獎勵的條件。反過來經典條件反射相對耗時較短。無條件反射:是動物和人生而具有,不學而會的反射。如:巴甫洛夫的狗看見食物就流口水;斯金納的老鼠,餓急了就到處亂竄。
經典條件反射:巴甫洛夫的狗,看見食物(刺激物S)就流口水(反射R);那麼在每次放食物前先響鈴(刺激物S1),多次之後,狗聽到鈴聲就流口水。
模式為:S --&> R ==&> S1 --&> S --&> R ==&> S1 --&> R
操作條件反射: 斯金納的老鼠,餓急了就到處亂竄,偶爾按到槓桿(行為R),出現一粒糧食(刺激物S),反覆多次,老鼠就明白槓桿與糧食之間的關係,按壓槓桿的動作增加,得到的糧食也增多。
模式為:R --&> S ==&> R + --&> S +
經典條件反射和操作條件反射最大的區別在於:操作條件反射要先有一個行為。
條件反射包括延遲反射和痕迹反射,題主描述的是延遲反射,這一反射的建立是由於同時出現的東西,在大腦神經元同步放電的結果,無需意識參與,經過多次重複即可建立,建立原理為hebb原理。
後一實驗,是需要意識參與的學習過程,這一過程的複雜模型可以用於測量智商,就是根據現象抽象規律的能力。不同物種智商能力的差別即在可以對不同複雜度和數據量的環境進行建模。
雖然都可以建立條件反射,但是機理完全不同。
推薦閱讀:
※讀《夢的解析》有哪些注意事項?
※為什麼女孩愛做夢,是因為想像力豐富嗎?
※與人交流有障礙,聽別人說話有時會突然懵掉以至於聽不懂什麼意思,注意力缺陷,如何自救?