Transformer とは何か

作成: 2025-05-25
更新: 2025-11-06

詳説 (『ChatGPT 探求』｢Transformer 脳｣)

使用記号

　1.　通説

　2.　"Training"

トークンは，ID が１から順につけられている。
ID がｎのトークンを T( n ) で現す。
トークンの数，即ち ID の最後を，NT (number of tokens) で表す。
ID が n のトークンには，ID がｎのベクトルが対応づけられている。
──以下，トークンベクトルと呼ぶ。
ID がｎのトークンベクトルを TV( n ) で現す。
トークンベクトルは，固定次元であり，これを D と表す。
いまの Transformer は，D が１万を超える。
トークンベクトルは，D次元数空間の点に見なせる──以下，トークン点と呼ぶ。

トークンベクトル集合体
　──TV (token vector)
重み行列・Attention機構・Nonlinearity の組み合わせ
　──W (weight)

Transformer の｢大数｣

　3.　トークンベクトルに意味は無い

　4.　｢テクストの軌道」

　5.　トークンをテクスト軌道に乗せる術

　　x_i^(ℓ) + 　　　├───────┐ 　　　│　　　　Self-Attention 　　　│　　　　　　　↓ 　　　│　　　　　　z_i^(ℓ) 　　　│　　　　　　　│← LayerNorm 　　　│←─ Residual ─┘ 　　　│ 　　　│ 　　　├───────┐ 　　　│　　　　　　FFN 　　　│　　　　　　　↓ 　　　│　　　　　　z'_i^(ℓ) 　　　│　　　　　　　│← LayerNorm 　　　│←─ Residual ─┘ 　　　↓ 　　x_i^(ℓ+1)

　6.　ChatGPT

　7.　応答テクストの生成

　8.　応答生成の解釈 : ｢テクスト軌道の惰性｣

　9.　Transformer 脳は，育ててできた

「	Transformer 脳は，つくったのではなく，育てたのである。鉢植えした植物が条件を整えれば勝手に育つように， Transformer 脳は勝手に育った。」

　10.　応答生成術：｢再帰」

入力テクストの要点を示する
応答としてこれから語ることの大枠を示す
大項目から小項目へ降り，＜解説＞のパラグラフを生成する
再帰的に大項目と小項目の間を移動する
まとめをする
今後の展開を提案する

　11.　HTML

　12.　＜悟り＞