※この商品はタブレットなど大きいディスプレイを備えた端末で読むことに適しています。また、文字だけを拡大することや、文字列のハイライト、検索、辞書の参照、引用などの機能が使用できません。
もう一つのLLM ―大規模言語モデルの一手法―
解析木を中間データとする機械翻訳方式は,原言語解析木発生,原言語解析木から目的言語解析木への言語変換,目的言語解析木から目的言語文発生という縦続する3つの処理から構成される.このうち原言語文解析木発生処理は,方式が原言語文を理解することに相当し,処理誤りの9割がこの処理で発生するといわれている.
本書の「文例を用いた文解析木発生方式」は,この原言語解析木発生動作を行うものであり,既存の機械翻訳方式KATEの解析木発生部分をベースとして,これに多数の文例文とその句構造解析結果である文例解析木の対を用いるための改良を加えた方式である.この方式は,大量の言語データを用いる点において大規模言語モデル(LLM)の一種といえる.
「文例を用いた文解析木発生方式」は,1つのデータ対の効果が大きいことにより,学習データの枯渇の影響を受けにくいという利点が得られる.本書の後半で通常のニューラルネットワークを用いた単語列間変換(seq2seq)方式との共同動作の構想を示している.同一入力に対して「文例を用いた文解析木発生方式」とニューラルネットワークを用いたseq2seq変換方式という動作機構の全く違う2つの方式の出力間の共通部分を得ることにより,信頼度の高いデータ対を獲得し,それを新しいデータ対として用いることにより,両方式に対してより信頼性の高いデータ対の自動取得が可能となることが期待される.
Ⅰ編 文解析木発生方式
序章 まえがき
1章 機械翻訳における文例を用いた文解析木発生方式の構成
2章 共通単語列の検出
3章 文例排他木の作成
4章 一時排他木木値算出
5章 上位被覆
6章 解析木発生
7章 禁止木非含有判定
8章 文解析木発生方式各部分の役割
9章 機械翻訳における文例を用いた文解析木発生方式の動作実験
10章 ニューラルネットワークを用いた単語列間変換との結合動作に関する構想
11章 ニューラルネットワーク単語列間変換による翻訳に対する1つの提案
12章 Ⅰ編のまとめ
Ⅱ編 文解析木発生方式のアルゴリズム
A. Ⅱ編の構成
B. 一時排他木木値ユニットを除く一時排他木発生モジュール
C. 一時排他木木値ユニット
D. 上位被覆モジュール
E. 最大木値木発生ユニット
F. 解析木発生モジュール
G. ニューラルネットワークを用いた単語列間変換との共同動作
H. ニューラルネットワーク単語列間変換による翻訳に関するアルゴリズム
大規模言語モデルへのアプローチ ―機械翻訳における文例を用いた文解析木発生方式―(1巻配信中)