操作制約
究竟什麼是「操作制約」呢?其實操作制約的核心概念,指的就是「作一個行為,產生一個結果,再就結果決定以後是否會再重複這個行為。」如果這個說法感覺有點抽象,讓我們來舉個例子。如果一個六歲的孩子把自己的房間整理得很乾淨,不但得到了媽媽的稱讚,還得到了獎賞──一個他喜歡的玩具,那麼以後要他去整理房間,也許他就會比較樂意。反過來說,如果今天有一隻猴子,每當他想要拿起房間裡的香蕉吃就會被電,那麼試過幾次以後,牠可能就再也不會碰香蕉了。
一個行為的產生通常是因為有一個「刺激」,才帶出了後面的反應。就好像一個人會想整理房間的時候,可能是因為家人看不下去一直念,也有可能是因為自己總是找不到想找的東西,迫不得已而非得整理。
操作制約和古典制約的最大不同之處,就在於他的行為是由主體「主動」作出決定的結果,而不是一種不能控制的行為(帕夫洛夫的狗流口水)。操作制約的關鍵,在於它是由一個「行為」所相對應產生的「結果」。要有什麼樣的行動,全憑個人心意決定,而不是一種自發反應。因為操作制約學習所得到的結果會強化刺激和行為之間的連結,所以也常被稱為「刺激反應心理學」(Stimulus-Response Psychology)。
接下來,我們將介紹兩個操作制約相關的實驗。
一、桑代克迷籠中的貓實驗與學習三定律
愛德華‧桑代克(Edward Thorndike, 1874-1949)是一位美國的心理學家,他最重要的實驗是「迷籠中的貓」。在實驗中,一隻飢餓的貓被關在籠子裡,籠子外放著食物,只有按壓籠中的特定踏板門才會開。一開始的貓會亂抓亂咬亂碰想逃出籠子,在這些嘗試之中可能在無意間觸發機關,成功開門。多次實驗以後,貓的無效行為越來越少,出籠子的速度也越來越快。
桑代克根據迷籠中的貓嘗試錯誤(Trial-and-error)的學習方式,提出連結學習理論三定律:
練習律(Law of readiness) 練習的次數會影響個體和刺激之間連結的強弱。練習的次數越多次,個體和刺激之間的連結就會越強。如:教導狗撿球,愈多次的練習,狗狗對於主人的指令會更加熟悉,多次的練習會讓狗狗撿球的表現更好。
準備律(Law of readiness) 刺激與反應之間的連結和個體本身的身心狀態有關。若個體是在有準備好的狀態(有需求的狀態)裡獲得滿足,較能建立刺激和反應之間的連結,但若在此時移除刺激,個體可能會因得不到預期的刺激而失望。如:在狗狗餓的時候教導撿球,每次成功賞與食物,則狗狗學習的成效會比狗狗吃飽時更好,因為當下狗狗有了吃的需求,而這麼做牠可以滿足需求,牠是準備好的。
效果律(Law of effect) 反應後獲得的結果將會強化或弱化日後是否做出同樣反應的機會。即,若反應後獲得獎賞,日後比較有可能出現同樣反應,刺激和反應之間的連結會被增強;反之若反應後沒有任何效果,或甚至得到負面懲罰,則刺激和反應的連結就會被削弱。如:在狗餓的時候教導撿球,每次成功賞予食物,則狗學習的成效會很好,若狗表現得更好則加倍獎勵,則訓練狗的成效會非常好;反之,在這樣的情況下,當狗成功時不給予食物,反而嚴厲指責,則會使狗失望喪失學習動機。
二、史金納的新行為主義理論與其實驗(史金納箱)
史金納(B. F. Skinner, 1904-1990)是一位美國的心理學家,也是新行為主義理論的代表。史金納所發明的史金納箱是一個籠子,籠子裡設置一個桿子,再放入老鼠或鴿子。當老鼠在籠裡亂轉時,可能會剛好觸動桿子而掉下食物。
經過多次嘗試以後,老鼠學到只要觸動桿子就會有食物,即經由實驗而學會壓桿的動作。史金納箱是根據桑代克的迷籠而設計的,其中最重要的不同點在於桑代克的迷籠無法確定貓咪按下開關到底是為了想出去還是想吃魚,但史金納的箱子不但附有精密的電動裝置可以自動紀錄動物正確反應的次數與頻率,也特別設計觸動桿子只會掉食物不會出籠子,所以可以更精確的判斷反應所對應的刺激源是什麼。
Figure 1: 圖片參考自《Introductory Psychology Image Bank》,此圖說明史金納箱的設置情況
根據史金納箱的實驗結果,史金納歸結出新行為主義的重要核心:動物的學習行為是根據一個刺激而生的,而且這個行為可以是動物本身有意識的決定。史金納由此將動物的學習推演到人類的學習上。他認為人類的學習和行為也是像這樣操作制約影響的結果,人可以透過「增強」作用(也就是我們一般所稱的獎勵)來改變行為與反應,以下將針對「增強」做進一步說明。
三、操作制約的原則
操作制約指的是,個體對刺激產生反應(某一行為)後,有相對應的「結果」產生,而這個「結果」將影響個體日後再做出同樣反應(行為)的機率。而這個「結果」可以是獎勵或處罰。如果反應會導致「獎勵」的結果,則反應會被增強,該反應繼續發生的機率就會增加。反之,那些獲得「處罰」的反應就會漸漸減弱。
有了前段說明,我們可以更清楚地知道,結果是增強個體行為的重要元素,在面對某刺激時,可以增強個體產生特定反應的機率。因此,任何對個體有影響力的物品或事件都可以作為增強物。因增強物而增強反應(行為)的過程,稱為「強化」;增強物和反應之間的關聯,就是「回應時間差(response contingency)」
接下來,我們將更深入介紹增強的類型以及其影響。
(一)增強的四種分類
增強的方式可以被分為「正向」(positive)和「負向」(negative)兩種,而回應又可以被分為獎勵和懲罰兩種,因此一共四種不同的變化。接下來,我們會一一細分四種變化並各自舉例。
正(向)增強(positive reinforcement) 在期待的行為出現以後,給予行為者喜歡的獎賞。 如:「House制度」將六個年級隨機分為四組Oak、Cedar、Cypress、Sequoia,所有成員的榮譽卡成績會分別被統算在內,每次朝會結束前,大家都會很聚精會神地聽司儀公布本週累計得分最高者,因為該學期得分最高的家(House)可以在學期末被招待去電影院看電影。
負增強(negative reinforcement) 在期待的行為出現以後,挪去行為者不喜歡的事物。 如:若學生不喜歡寫作業,老師則以減少作業作為負向獎勵。
正向懲罰(positive punishment) 在問題行為出現時,給予行為者他不喜歡的處罰。 如:當父母想要讓小孩學會好好收玩具時小孩卻嬉鬧不聽,父母拿出「愛的小手」懲罰。不過此類懲罰只是讓被懲罰者知道甚麼不能做,卻不知道甚麼可以做,行為者並不會因此主動去做他該做的事情。
負向懲罰(negative punishment) 在問題行為出現時,挪去行為者喜歡的事物。 如:員工因為經常遲到,老闆為了使員工不再遲到,而訂定遲到3次則沒有紅利的規定,這種藉由移去行為者喜歡的事物以驅使行為者少做此類行為,即屬負向懲罰。
由於正/負向獎勵效果遠大於正/負向懲罰,許多老師都會運用獎勵的方法刺激學生學習,而學生也能因此在快樂中積極地學習。
需特別注意是,正向或負向獎勵都是在「提高」反應繼續發生的機率。不同的部分在於,正向獎勵是透過在反應後「呈現滿足個體的刺激」,而負向獎勵則是在反應後「撤除個體厭惡的刺激」,以提高反應發生的機率。
反之,正向或負向懲罰都是在「降低」反應繼續發生的機率。
(二)原級增強物與次級增強物
原級增強物(primary reinforcer)是能滿足生物性基本需求的事物,如水、食物、安全感等等,而次級增強物(secondary reinforcer)則是指不能滿足生理需求,但因為和其他的增強物有了連結而產生增強作用的事物,如錢、讚美、好成績、可以換獎品的集點貼紙等等。次級增強物又可分為社會增強物(social reinforcer)、活動增強物(activity reinforcer)和代幣增強物(token reinforcer)三類。
利用增強物,人的行為有可能因此被引導而改變。「行為改變術」(Behavioral Modification)正是透過增強物來改變特定行為的方法。舉以點數作為次級增強物的例子而言,如果某人做某些行為或不做某些問題行為時,就可以得到「點數」(token),累積一定數量之後可兌換增強物(如筆記本、多二十分鐘玩電腦等等),最直接的例子就是,學生按時交作業就可以得到點數,而集滿一定點數就可以換取禮物。
然而,對於受懲罰者而言,他可能會做出令人意想不到的新反應,以逃離或迴避懲罰的發生,這種反應稱為「迴避學習」(avoidance learning)。例如:如果學生沒交作業會因而受到懲罰,但他為了逃避這個懲罰,可能會產生令人意想不到的行為,如逃學。
四、獎勵與懲罰
接下來我們將探討該如何給予獎勵或懲罰。心理學家發現,延遲給予獎勵以及懲罰會使獎勵與懲罰的功效下降,且這個現象在其他動物之間更是明顯,因為動物並不像人對於自己的未來以及學習具有規劃能力;此外,獎勵與懲罰也需具有一致性,以防混亂。
進一步探討,心理學家還發現,若是一個人越能夠延遲自己獲得獎勵的時間,或是可以不領取獎勵而繼續學習,他通常具有更好的社會發展能力,例如:大學生甲在每次小考完之後就需要好好地放鬆看個電影才能繼續讀書,而大學生乙則是在期中考結束後才讓自己好好地放鬆去享受電影,在這個例子中,乙有高度可能在未來比甲有更好的社會發展能力,因為他能夠將看電影(獎勵)延後較長的時間才實現。
獎勵通常會增加行為出現的次數,而懲罰通常會減低行為出現的次數。如同前面提過的,懲罰和增強物有著共通的特點,即懲罰也必須對個體而言是個懲罰,這個結果才會有效。
獎勵與懲罰地給予需要注意以下三點:
獎勵與懲罰要快,最好是在行為發生後立刻施行,拖延會失去效力。 如:在幼稚園或是小學時期,如果學生答對問題就能馬上獲得貼紙,則課堂反應會越來越踴躍,學生學習的動機也會越來越強;反之,如果老師到下課後才給予貼紙獎勵,則學生的學習動機就會減弱很多。因此最成功的教學模式便是在學生答對後馬上給予獎賞,促進學生的學習欲望。透過運用操作制約,老師可以讓兒童明確了解「該做甚麼事」。
獎勵與懲罰要有一致性,必須在每次行為發生後執行,而且不能時輕時重。 如:教官在抓服儀不合格的學生時,有時記小過、有時記警告、有時口頭規勸,這樣會讓學生摸不清自己在違反校規時應受何種處罰,甚至會存有僥倖心態,認為自己可以幸運逃過懲罰,而不能有效防止服儀不合格的事情發生。
獎勵與懲罰要適度 如:此處指的即是比例原則,對小孩用「乖乖吃飯就可以拿1000零用金」的作法可能讓他價值觀偏差,過度稱讚也可能使被稱讚者過度自滿造成反效果;而適度懲罰指令人厭惡的程度,必須是讓人會覺得不舒服,但又不至於引發過高的焦慮感,否則就可能形成前述的逃避學習行為。
訓練寵物也常常適用操作制約,例如:貓本來不喜歡點耳藥,一開始都會很強烈的抗拒,但若每次點完耳藥後,再給牠愛吃的罐頭,漸漸的就不會抗拒了,因為牠學到了「點完耳藥就可以吃到喜歡的罐頭」,便會乖乖地給主人點藥;反之,如果沒有給獎勵,訓練就不容易成功,因為一定會喪失學習的動力。所以許多人如果想要教會小狗坐下,便對小狗說「坐下」,並把食物移到牠額頭前方,誇獎牠「好乖」並給牠食物,小狗自然而然學會坐下。利用一個簡單的「好乖」訊號,以「RR連結」讓小狗能迅速地「確定」自己做對了,進而達到學習的成效。
雖然懲罰能夠使人有所警惕,但是實驗發現,其所導致的問題也不少,因此附上在懲罰時必須格外留心的三點事項,供讀者參考: 1.儘管懲罰有助於減低問題行為出現的次數,但並不能讓執行問題行為的能力消 失,且也無法塑造正確的行為。 2.體罰其實反而有可能會增加被體罰者的攻擊性行為,因為被體罰者可能會因此學 會肢體上的攻擊是一個可以被接受的行為。 3.懲罰可能會導致被懲罰者害怕執行懲罰的人,而過度嚴重的懲罰也可能會導致被 懲罰者長期處於焦慮狀態,甚至可能得憂鬱症。
五、學習行為的特性
在前面部分,我們說明了如何藉由條件的操作使個體學習一些簡單而單一的行為。接下來,我們將說明一個複雜的行為是如何透過操作行為學習而來。但在此之前,先簡單介紹一些關於行為的特性,以方便讀者了解複雜行為的成因。
(一)類化與辨別
一般人會對於不同的刺激進行類化(generalization)與辨別(discrimination),類化是對於類似的行為進行連結,例如:一位母親教導她的小孩要用衛生紙來擤鼻涕,但是小孩可能會將任何軟軟的表面,例如衣袖,「類化」為可以用來擤鼻涕的東西,進而使用衣袖擤鼻涕。
而相反的則是區別,假如母親教導小孩不可以用衣袖擤鼻涕,甚至對他進行處罰,這時,小孩將會對衛生紙和衣袖進行「區別」,因而認知擤鼻涕應該使用衛生紙。
(二)消弱與自然恢復
消弱(extinction)意指若行為所導致的結果消失,即行為與結果的連結降低,則該行為會減弱甚至消失。例如:一開始,老鼠拉拉桿會出現食物,直到某天拉拉桿不再出現食物,老鼠拉拉桿的「行為」與得到食物的「結果」之間的連結降低,則老鼠拉拉桿的行為次數也會逐漸下降甚至消失。
日常生活中,我們可以發現許多孩童假哭的行為。這是因為在公共場所兒童大哭,可以引起父母關心,進而達到自己所想要的獎勵;相反地,若兒童哭鬧父母不理會,則其哭鬧次數和程度便會漸漸減少,這就是消弱。如果小孩子跌倒哭了,父母很心疼地趕快去扶他,這樣下次他跌倒的時候,他也會用哭的方式看著旁邊的人,因為他從經驗中學習到:跌倒時做這樣的行為可以得到他所想要的東西,但身邊若沒有其他人,小孩子卻會很快自己爬起來。
自然恢復(spontaneous recovery)則是指當行為與結果的連結消失之後,過了一段時間會再度重複行為,以期盼結果再度產生。如前述史金納箱的老鼠,在實驗者不給牠食物後,過了一段時間,老鼠還是會試著去拉拉桿,想看看這中間的連結是否已恢復,而能夠讓他得到食物。
六、學習複雜行為
在前兩個部分,我們說明了如何藉由一些條件的操作使個體學習一些簡單而單一的行為。現在,我們將說明一個複雜的行為是如何透過操作行為學習而來。
一個複雜行為的學習我們稱為行為的「塑造」(shaping)行為改變技術,最主要的方式是藉由許多簡單的學習,循序漸進而積累成我們所期望的複雜行為。這一步步的動作有其順序性,能夠使學習者漸漸接近學習目標。以下以水族館的海豚訓練跳躍的步驟,來說明行為的塑形:
1、訓練師先將一個浮標放在水面上,每當海豚碰到浮標就給牠一條魚當獎勵。
2、達成1後,訓練師將浮標提高,使其些微離開水面。當海豚碰到浮標時,一樣給一條魚當作獎勵。此時,海豚已經需要探出頭來碰到浮標。
3、達成2後,訓練師再提高浮標,使其更遠離水面。同樣地,當海豚碰到浮標就給獎勵。此時,海豚已經需要稍微地跳躍才能觸碰浮標而獲取獎勵。
4、逐漸提高高度,海豚最終將學會如何跳躍。
以上這種為了訓練海豚跳躍而藉由一個個接近學習目標的動作訓練,就稱為學習的塑形。
七、酬賞時制
在這裡,我們將探討如何增強已經學習到的知識或技能,我們稱這一系列設計好的獎勵機制為酬賞時制(reward schedule)。增強時制分為兩類,一為連續性的增強,另一為間歇式的增強。
(一)連續性的增強時制:
每做出一次正確的行為就給予獎勵,例如:老鼠每拉一次桿子就獲得食物。
(二)間歇性的增強時制:
間歇性的給予獎勵,又可細分成四種不同的類型。
固定時距(fixed interval,FI)
每次給予獎勵的時間間距固定。如:上班族領月薪、每當快到郵差送信或垃圾車收垃圾的時間,居民都會先出來觀望等待。
變動時距(variable interval;VI)
每次給予獎勵的時間間距不同。如:學校突然抽考、道路上的測速照相,因為無法預測,效果最差。
固定比率(fixed-ratio;FR)
每做固定次數的指定行為就給予獎勵。如:業績獎金或按件計酬薪資。
變動比率(variable-ratio;VR)
每次獎勵所需的指定行為次數不同。如:賭博和樂透。
綜合以上這幾種增強時制,心理學家發現變動比率是最有效的學習方式,因為學習者沒有辦法得知何時能夠獲得獎勵,所以會一直努力嘗試。賭博和樂透之所以令人沉迷,即在於無法預料在做幾次後會得到大筆獎金,因此效果最好。
八、操作制約的生物基礎
(一)多巴胺
多巴胺(dopamine)是除了是多巴、腎上腺素、正腎上腺素等的前導物質外 ,本身也是重要的神經傳導物質,但含有此物質的神經元不多,往往集合成小小的核區,其中中腦黑質(substantia nigra)與腹側蓋膜區(ventral tegmental area)皆位於中腦,前者投射到紋狀體(striatum),後者的軸突則散布在端腦與前額葉的各處。
多巴胺的功能很多,其中之一就是參與酬賞系統(reward system),能加強連結性學習中的行為改變,最早由1950年代McGill大學的J. Olds和P. Milner的實驗發現:將電極植入大鼠特定腦區後,允許牠在籠中自由活動,每當大鼠走到特定角落就予以電擊,多次的嘗試後,發現每次電擊該特定腦區時,大鼠就會待在那個角落不動;將實驗裝置改成大鼠主動按壓一個槓桿時才會被電擊,在多次重複後,發現每次電擊該特定腦區時,大鼠就會持續按壓槓桿直到因疲累而倒下。因為多巴胺在神經傳導裡會帶來愉悅感,而電擊的目的在於去刺激放出多巴胺的神經元,產生這種自我電刺激行為(electrical self-stimulation)。電極插入位就在從腹側蓋膜區穿越下視丘側面到多個前額葉腦區的路徑,因此可推斷多巴胺的釋放能做為行為的動機(motivation)。
多巴胺影響自主運動與基底核(basal ganglia)有關,分為兩種路徑:路徑為D1的go和D2的no go,D1會使你形成「做」的意圖;而D2則使你「不做」,我們日常生活中選擇做何種行為就是看你當下的D1還是D2神經元較為激活。
Figure 3: 圖參考自論文〈The role of dopamine in risk taking: a specific look at Parkinson’s disease and gambling〉
這也可以解釋為什麼吸毒容易上癮(addiction),因為這些藥物的作用機制,不是能促進多巴胺的分泌(如海洛因、尼古丁),就是能提高多巴胺目標細胞(前腦的依核)對多巴胺的反應(如古柯鹼)。
習得恐懼(learned fear)
因為害怕受傷而學會避免特定行為,目前相信與杏仁核(amygdala)中側底核(basolateral nucleus)的突觸改變相關。
習得無助(learned helplessness)
動物經歷一些無法逃避的驚嚇刺激後會產生的行為改變(是刺激的不可避免或無法控制性所造成,而非刺激本身),這些改變包括恐懼或焦慮行為的增加、戰鬥或逃跑反應的減少、被打亂的睡眠飲食規律,以及後來無法學會逃避可避開的刺激。這些現象跟人類的情緒疾病類似,因此被當作研究重度憂鬱症、創傷後壓力症候群等的動物模型。目前研究發現**背側縫核**(dorsal raphe nucleus, DRN)、**終紋床核**(bed nucleus of the stria terminalis, BNST)、杏仁核的**中側底核**(basolateral nucleus of the amygdala, BLA)與**中央核**(central nucleus of the amygdala, CeA)都跟習得無助的形成有關,雖然在不同行為的案例中,這些部位扮演的角色不盡相同,但主要都牽涉到能分泌血清素(serotonin)的DRN與杏仁核、BNST等情緒相關腦區間的互動。
(三)本能飄移
本能飄移(instinctive drift)是一種後天制約學習被先天本能行為阻礙的趨勢,最早於1961由布里蘭夫婦(Keller Breland and Marian Breland)發現。他們訓練浣熊將一枚硬幣放入容器以換取食物,雖然浣熊清洗手中物品的本能,讓牠們遲疑再三才鬆手,但當硬幣變成兩枚,浣熊就不可抗拒地開始反覆摩擦硬幣,先前的建立的制約行為被打亂,且隨著時間越來越不明顯。
同理,想訓練豬堆沙堡也是不可能的,因為喜歡往泥土裡面翻的本性,豬會很快地把堆好的沙堡毀掉。相反地,本能飄移也可以用以訓練符合動物天性的行為,例如讓浣熊洗衣服等。
九、操作制約的認知觀點
研究者認為在古典制約上的認知觀點也能類推到操作制約上來,個體透過操作制約學到的是反應與增強之間的關係。
Tolman與Gleitman在1949年的研究可以支持這樣的說法。第一階段,讓將老鼠放在T字型的迷宮中,左邊通道連到白色A箱,右邊通道連到灰色B箱,箱子皆擺有食物。老鼠爾後學會如何走到A箱或B箱拿食物,且對箱子沒有特別偏好。第二階段,研究者將A箱與B箱從迷宮中取下,並且將老鼠置於A箱,予以電擊,再置於B箱,仍有食物而無電擊。第三階段,將A、B箱放回迷宮中,並在兩箱之中都放上食物,呈現與一開始相同的情境。
結果發現老鼠都跑往B箱拿食物。這表示老鼠在第一階段就能認出何者為A箱,何者為B箱,使牠能辨認哪一個是曾有電擊的箱子,牠有能力綜合兩階段的經驗,也就表示他學到的是反應與增強之間的關係,並運用此關係來幫牠趨吉避凶。