Up 「テクストの軌道」 作成: 2025-06-26
更新: 2025-11-05


    学習が済んた Transformer 脳は,固定される。
    即ち,TV, W の値が固定される。

    この脳にとって,テクスト
       空 - の - 青 - と - 海 - の - 青
       青 - の - 空 - と - 青 - の - 海
    は,どちらもあり,である。
    この2つのテクストは,同じトークンで構成されている:
       "空","海","青","の","と"
    したがって,Transformer 脳のテクストは,D次元数空間の中のトークン点の位置で決まっているのではない。

    では,トークン点の位置の意味は何か?
    位置自体に意味は無い。
    ──「ことばには差異しかない」(ソシュール)
    言えることは:
     「 トークン点の位置 (パラメータ値) は,他のパラメータ値 (「重み」) と合わさって,テクスト生成能力を現す」


    Transformer の「教師あり学習」は,Tranformer のトークン生成がお手本テクストと同じになるように,パラメータを矯正する作業である。
    これを,「順伝播・逆伝播」で一周の行程の繰り返しで行う:
      順伝播:トークン点の位置の更新
      逆伝播:重みの更新

    「順伝播」行程は,Self-Attention と FFN がこれの内容になる。
    この2つは,トークン点の移動 (Residual) の計算であるが,タイプが異なる。

    移動計算は,正解がわかっていてこれに近づける計算のように見えるかも知れないが,そうではない。
    正解をつくりつつの試行錯誤である。──正解は結果論!
    しかし,試行錯誤とはいっても,この計算には方針があることになる。

    テクストを,「D次元数空間のトークン点をなめらかに渉って進む移動」に見立てよう。
    Self-Attention と FFN がやろうとしていることは,「テクストの軌道にトークン点を近づける」である。

    これに,逆伝播行程の内容である重み調節と合わせる。
    この「テクストの軌道にトークン点を乗せる」を,お手本テクストの最後のトークンまでやる。


    パラメータ更新は,いまのお手本テクストの軌道に乗せたものである。
    お手本テクストを変えられると,またパラメータの更新になる。
    そして更新値は,前のお手本テクストには合わないものになる。

    しかし,厖大な数のお手本テクストを使ってパラメータ更新作業を続けると,どのテクストにも合うパラメータ値に至る。
    これを「学習の飽和」と謂い,ここに "Training" の終了となるわけである。