◆人間の強化学習

・簡単に言うと、快楽、充実感、達成感などへの欲求が強化学習として機能している。

・こういった「ご褒美」を追い求め、目の前にニンジンをぶら下げられた馬の様に走り続けること。

・反対にトラウマや恥、恐怖、失望感、これらは避ける傾向。これも強化学習に拠って身についたものだ。

・最終的には収束し、「それはそういうもの」という状態に落ち着くそうだが、その落ち着いた先が健全かどうかとは話が別。実際ワーカホリックは倒れるまで働き、トラウマや恐怖症で苦しみ続ける人はいる。

・要するに、負担のかかる「当たり前」が本人の頭の中に出来上がる危険性がある。

◆人間の強化学習のメカニズム

・人間の頭の中に、「大脳基底核」と言う部分がある。現代でも役割がハッキリとは分かっていない。

　大脳基底核周辺部分が報酬予測誤差（期待や努力と比べて現実の結果が多かったか少なかったか）に対してドーパミンを放出すること、大脳基底核にドーパミンの受容体があることから行動選択、そして強化学習と関連しているのではないかと言われている。

・ドーパミンの仕事ぶりは色々あるが、「報酬系」として働くことが確認されている。何らかの欲求が満たされた時、「快楽」として働く神経系のことだ。これが学習に対して非常に大きな影響を与える。

・つまり何らかのアクションにより欲求が（想定以上に）満たされると、フィードバックとしてドーパミンが分泌され精神的な充足・充実を感じる、ということが脳内で起きている。

◆「動物」に備わった機能

・鳩を箱のなかに入れてスイッチを押させるという実験の話がある。スイッチを押す度に餌が出る。鳩はこれを学習し、餌が欲しければスイッチを押す様になる。

・ここからが面白いんだが、ちょっとスイッチに細工をして、押しても餌が出るかどうかランダムにする。鳩からしてみれば餌が出る時と出ない時の違いがわからない。そうすると、遡って「強く押した時に出た」とか「一周回ってから押したら出た」とか自分の行動と結びつけて「パターン」を見つけ出そうとする。

　だが現実には完全にランダムであり、パターンは存在しない。だが、例えば一周回ってから餌が出ることが多かった場合には鳩はそれをやり続ける。このようにあなたの「当たり前」もまた、無駄な物が紛れ込んでいるかもしれない。

・犬を飼った人ならわかるだろう、何か躾なり芸を仕込むなりする時、上手くできたらべた褒めしてると、犬は褒められたくてそれをやるようになる。芸を仕込む古典的な手法だ。

・人間の場合、主に周囲の反応をフィードバックとして強化学習を積み上げる。親に褒められたら子供は大抵その行為を繰り返すだろう。親の手伝いを子供が自主的にするのは、親が大変そうだからでも、優しい子供だからでもない。褒められたいからだということ。

・そのまま大人になって、人が困ってると知ると、嬉しそうに解決しようとする人間もいる。大抵邪魔になるが。

・強化学習は本能レベル。通常の意識よりもっと深いところにある。時には自分が何を学習し、何を身につけて来たのか自覚がない。仕草、口癖など。或いはもっと根本的に、世界観・人生観・自己イメージまでもがだ。

◆

　

◆

◆人間の強化学習の問題点

・強化学習の難点は、アクションに対しての報酬（または結果・評価）がアクションの直後だとも、正確だとも限らないこと。時間差があったり、理想的な行動に対して理不尽な結果となることもある。

　簡単な喩えで言うと、例えば１人の子供が他人に親切な行動を取ったとしよう。だが、相手はそっけない態度だった。強化学習で言えば望む結果ではなかったことから「失敗」だと判断する。つまりは「他人に親切にしても報われることはない」と学習するだろう。

だが、後から人づてに「あの人は君にとても感謝していたよ」とでも言われたらどうだろう。現実には自分の行動は自分にとって成功だったことになるのに、今まで正反対の学習をしていたことになる。

・行動に対しての「答え」がいつ判るのかと共に、解答者（上記の例で言えば親切にされた相手）のリアクションが、その本人にとって適切だったかどうか、本当に表現したい事だったのかも確実ではない。いくらかは「気にしない」と言う情報処理も必用になってくるだろう。

・つまり、一度のアクション＆フィードバックでは正しい方向での学習は見込めない。何度も経験し、平均値を得ることが必要となる。

・ここで認知バイアスという邪魔者の存在が出てくる。人間は「認識したいように事実を認識する」。時には何かを見えないふりをする。時には都合のいい解釈をする。そしてそれが続けば、その認識パターンで「固定」され、強化学習により「強化」される。

・全くの無能が自信満々のでしゃばりだったり、実力があって自信が全く無い人間がいる。なおかつ彼らは何を経験してもその姿勢を崩さないのはこれが原因だ。

・或いは嘘をついて難を逃れた時。或いは間違いをごまかしてゴリ押しした時。或いは自分の思い通りにならない相手の陰口を広めた時。その結果「上手くいった」と報酬系が働いたら。あなたはそれを繰り返す。「こんな時にはこれだ！」と言わんばかりに。

・こうなってくると、あんまり自分が感じた達成感や充実感を無条件で信じるのも怪しくなってくる。喜んじゃいけないような時に嬉しいと感じたら、言動には出さないように抑えるしか無い。そうしないと、恐らくその方向に進んでしまうだろう。

◆人格形成

・強化学習は「性格・人格」の形成に一枚噛んでいる。あなたが小学校の時のクラスメイトを思い出して欲しい。

この時点ですでに真面目なヤツ、偉そうな奴、すぐ泣く奴、とりあえず笑っとく奴、サボる奴、群れる奴、一人の方が好きな奴、人の邪魔して注意を向けようとする奴、色々いたはずだ。

強化学習は動けるようになったらもう始まっているのだろう。そして大抵そのまま大人になる。隠すようにはなるけれど。

◆「褒めて伸ばす」の落とし穴

・「褒めて伸ばす」というのもまぁ、強化学習を狙うという点で理にかなっている。ただし、「何を褒められたのか」という点で勘違いが発生することもある。例えばカンニングをしてテストで100点をとった子供。親が「テストで100点をとったこと」をべた褒めしたとしよう。

　この場合、「カンニングしてでもテストで100点を取ることは褒められる価値がある」と学習する。では「100点を取れるほどに今まで勉強を頑張ってきたこと」を褒めたらどうだろう。

少なくとも「何が評価されるべきなのか」は比較的正しく伝わるのではないか。親を騙してまで褒められたいのか、自力で褒められるに値するようになりたいと考えるのかは、本人次第だが。

これは「叱る」時にも同じことだ。思う存分怒鳴るだけじゃあ、何が悪かったか伝わりはしない。

・「褒めて伸ばす」を実践して成功するケースと、失敗するケースが有る。もう分かるだろう、相手が「何を褒められたのか」を取り違えるかどうかだ。

子供に好かれたいのか知らんが、やたらと子供をおだてる大人が居るが、百害あって一利なしだと思う。最悪、自己愛を自分の手で作る結果になるかも知れない。

・大人だって中身は子供の部分が多々ある。相手が誰であろうと、もしもあなたが人を褒めるのなら、「何に対して褒めているのか」を勘違いの余地が無いようにしたほうがいい。簡単に言うと「因果関係がわかりやすいように褒める・叱るべきだ」。

・要するに、自動的である強化学習は「善悪を考えず、個人の損得・感情」で身につくタイプの物だ。悪癖となりやすい。

・別に呪いじゃないから本人次第なんだが。バイアスのせいで大体自覚がない。そこさえクリアできれば。