多巴胺の究極學習模型

經過上一篇我寫的妙算(此處插入→$^1$)，大家應該都對多巴胺這個酷東西多了一點了解，多巴胺不是像嗑藥一樣放越多越爽。我們今天這篇 paper (→$^5$)是在經典的 Classical conditional learning (就是帕夫洛夫的那條狗) 還有 Operant learning (放一個按鈕，看你要不要按) 情境下，研究多巴胺的釋放與學習的關係，當然還有最後的究極模型。

前情提要

*如果你不知道 conditional learning 跟 operant learning 可以先去看看這篇文章 ✨→$^2$

首先繞不開的是經典的學習模型: Prediction error theory

Untitled

圖一

圖中是紀錄 dopamine neurons ouput 的情形。在沒有額外刺激的清況下，Reward造成 dopamine neuron反應上升 (上圖) 。再加入Conditioned Stimulus之後，根據 Prediction error theory，CS 會漸漸因為對Reward 的 Prediction error而學習，最終學習完成後CS會 take on the emotional property of reward，多巴胺高峰也從 Reward處轉移到CS (中圖) 。如果拿走了 Reward，本來預期會有 Reward 的時候會出現 Dopamine dip，產生新的 Prediction error (下圖) 。(原始 Paper → $^3$)

今天我要講的 paper 用了一個比這些傳統的 conditional learning, operant learning 要複雜的

Multidimensional cue outcome action task (MCOAT)，初步理解是把 Conditional learning 跟 operant learning 結合在一起，然後再 training 前後看小鼠大腦 Nucleus accumbens 中 Dopamine 釋放的情形。來看看第一個例子。

Untitled

圖二

首先這個場景中會有 Operant stimulus (OS) ，也就是會有一個裝置讓小鼠可以觸發，在一般狀態觸發裝置不會有任何反應，但當有 $S^{d,sucrose}$ 這個聲音響起時，觸發 OS 會發放 Sucrose，長此以往讓小鼠產生 Positive reinforcement。這個 $S^{d,sucrose}$音效其實就相當於 Conditional learning 中的 Conditional Stimulus，只是後面又搭配上了 Operant learning。

來看看結果。

圖三

此圖是在 training 完成後做的檢驗。

Active/Inactive 指的是 $S^{d,sucrose}$ 這個聲音有無響起。結果呈現有 $S^{d,sucrose}$ 的時候小鼠會有更多 Operant response，學習成功!

Untitled

圖四

此圖呈現的是在學習前後 Nucleus accumbens 中 Dopamine Response (使用的技術叫做 dLight1 → $^4$) 。

結果顯示對 $S^{d,sucrose}$ 的反應在學習完後上升，對 Head entry (接收 Sucrose) 卻在學習完後下降。這個結果就符合我們對 Predction error theory 的影響。$S^{d,sucrose}$ 會漸漸能夠完整地預估 Reward 的結果，原本釋放 Dopamine 的時機就不再釋放。

Untitled

負面刺激有不一樣的學習機制?

接下來的情況就不太一樣了。

Untitled

圖五

這個情況使用一個負面的刺激: 電擊。有$S^{d,shock}$ 的情況下，觸及 OS 裝置能夠結束電擊，這時會出現燈光，代表小鼠安全了 (安全訊號)。

來看看結果。

圖六

此圖是在 training 完成後做的檢驗。

Active/Inactive 指的是 $S^{d,shock}$ 這個聲音有無響起。跟第一個實驗一樣，小鼠有學習到$S^{d,shock}$ 出現代表對 OS 做反應會有躲避電擊的效果。

Untitled

圖七

此圖呈現的是在學習前後 Nucleus accumbens 中 Dopamine Response (使用的技術叫做 dLight1 → $^4$) 。

此處的結果就不能像前一個實驗用 Prediction error theory 解釋了。首先(左) $S^{d,shock}$ 在學習前後的 Dopamine 反應沒有顯著差異，再來(中)學習前後對電擊的 Dopamine 反應增加了! 最後(右)對安全訊號的反應在最開始的時候最高，學習完比較低，作者在這裡提出說人們本以為對安全訊號的 Dopamine 反應是把它當作一種逃離危險的 Reward，然而事實可能並非如此，因為在小鼠的大腦內還沒建立電擊與這個燈光 (安全訊號) 的聯繫之前，對這個燈光訊號的反應反而是比較高的。

Untitled

Dopamine Response 能反應刺激強度

Untitled

圖八

實驗測試了三種不同性質的刺激( 電擊、Sucrose、Quinine) 都會隨著刺激強度增加相對的Dopamine 反應。這點隨後會納入本作提出的新 model 當中。

關於強度還有另一個實驗。是一個單純的 conditional learning ，讓小鼠學會一個中性刺激跟電擊之間的關係。學習完之後增加一輪測試，次輪測試中有 80% 的刺激會伴隨著電擊，就跟學習時一樣。但有 20% 的刺激完後不會有電擊。讓小鼠意料之外。