ゼロからAI理論を再構築する

ー 文系エンジニアがAIの内部構造をゼロから理解する記録 ー

シリーズまとめ:線形回帰からLLMまで

このシリーズでは線形回帰から始めて、誤差逆伝播、CNN、RNN、Transformer、事前学習と進んできました。最終回は、ここまでの流れを振り返りつつ、2026年現在の状況について少し触れます。

ここまでの流れ

前半(第1〜6回)では、最小二乗法による予測から出発して、ニューロンの結合による非線形な境界線の学習、誤差逆伝播による勾配計算まで扱いました。機械が自分で重みを調整する仕組みの基本です。

中盤(第7〜11回)では、勾配消失問題とその対策を見ました。ReLU、バッチ正規化、Dropout、そしてLSTMのゲート機構。深いネットワークで学習を安定させるための工夫が続きます。

後半(第12〜15回)では、CNNの局所的な構造の利用から、Attention、Transformer、事前学習へと進みました。Self-Attentionで系列内の任意の位置間を直接参照できるようになり、RNNの逐次処理が不要になった。事前学習によってラベルなしデータでの大規模学習が可能になり、BERTとGPTが生まれました。

振り返ると、各ステップは前の段階の限界に対する対処でした。線形モデルでは表現力が足りないので多層にする、多層にすると勾配が消えるのでReLUやバッチ正規化を入れる、系列データの長期依存にはLSTMを使う、逐次処理が遅いのでAttentionに切り替える。派手な跳躍はなくて、問題と対策の繰り返しです。

2026年時点の話

現在のLLMでは、推論時にも計算量を使う手法が注目されています。モデルが即座に回答を出すのではなく、内部でChain-of-Thought(思考の連鎖)を実行して、自分の推論を検証してから出力する。Test-Time Computeと呼ばれる考え方です。数学やプログラミングのような論理的なタスクで、この手法による精度向上が報告されています。

また、LLMを使ってブラウザ操作やコード実行を自律的に行うAgentic AIと呼ばれる方向も出てきています。ただ、このあたりは変化が速くて、半年後にどうなっているかはわかりません。

まとめ

このシリーズで扱ってきたのは、結局のところ

\[ f(x) = \sigma(Wx + b) \]

この変換の積み重ねです。入力を線形変換して非線形関数を通す。これを何層も重ねて、勾配でパラメータを更新する。仕組みとしてはそれだけで、個々のパーツはどれも数式で書き下せます。

それがパラメータとデータを増やすだけで文章生成や対話をこなすようになった。数式を1つずつ追っているときは理解できている気がするのに、全体を見ると「なぜこれで動くのか」がよくわからない。16回書いてきて、この感覚は最後まで消えませんでした。


参考文献