AI は言語学習に対する科学者の理解を変え、生得の文法について疑問を投げかけています

Is living in a language-rich world enough to teach a child grammatical language? kate_sept2004/E+ via Getty Images
言語が豊富な世界に住むことは、子供に文法言語を教えるのに十分ですか?

[公開日] 2022 年 10 月 19 日午後 11 時 37 分 AEDT

[著作者] Morten H. Christiansen, Pablo Contreras Kallens

記事を音読します。

ほとんどの本や映画に見られる慎重に台本が作成された対話とは異なり、日常のやり取りの言語は、乱雑で不完全になりがちで、誤った開始、中断、および人々の会話でいっぱいです。友人同士の何気ない会話から、兄弟間の口論、役員室での正式な話し合いまで、本物の会話は混沌としています。言語体験の行き当たりばったりの性質を考えると、誰もが言語をともかく習得できるというのは奇跡的なことのように思えます。

このため、現代言語学の創始者であるノーム・チョムスキー (Noam Chomsky)を含む多くの言語科学者は、言語学習者には、日常言語の手に負えない性質を抑えるための一種の接着剤が必要であると考えています。そして、その接着剤は文法です。文法的な文を生成するための規則のシステムです。

子供たちは、言語経験の限界を克服するのを助けるために、脳に組み込まれた文法テンプレートを持っている必要があります。

たとえば、このテンプレートには、新しい部分を既存のフレーズに追加する方法を指示する「スーパールール」が含まれている場合があります。子供たちは、自分の母国語が英語のように動詞が目的語の前に来るもの(”I eat sushi” など)なのか、日本語のように動詞が目的語の後に来るもの(日本語では、同じ文は「私は寿司を食べます (“I sushi eat”)」と構造化されています)。

しかし、言語学習に関する新しい洞察は、思いがけない情報源、つまり人工知能からもたらされています。新種の大規模な AI 言語モデルは、膨大な量の言語入力にさらされた後、新聞記事コンピューターコードを書き、質問に正直に答えることができます。さらに驚くべきことに、それらはすべて文法の助けを借りずにそれを行います。

文法のない文法言語

AI 言語モデルの言葉の選択が時々奇妙無意味であったり、人種差別主義者、性差別主義者、その他の有害な偏見を含んでいたりしても、非常に明確なことが 1 つあります。それは、これらの AI 言語モデルの出力の圧倒的多数が文法的に正しいということです。それでも、それらに組み込まれた文法のテンプレートやルールはありません。言語の経験のみに依存しており、乱雑かもしれません。

おそらくこれらのモデルの中で最もよく知られている GPT-3 は、1,750 億のパラメーターを持つ巨大な深層学習ニューラル ネットワークです。インターネット、本、ウィキペディアからの何千億もの単語から前に出てきたものを考慮して、文の次の単語を予測するように訓練されました。予測が間違っていた場合は、自動学習アルゴリズムを使用してパラメーターが調整されました。

驚くべきことに、GPT-3 は、「最新の『ワイルドスピード』映画の要約は…」や「エミリー ディキンソンのスタイルで詩を書いてください」などのプロンプトに反応して、信頼できるテキストを生成できます。さらに、GPT-3 は SAT (Scholastic Assessment Tests, 学習基礎能力試験) レベルのアナロジー、読解問題、さらには簡単な算数の問題を解くこともできます。これらはすべて、次の単語を予測する方法を学習することから始まります。

An AI model and a human brain may generate the same language, but are they doing it the same way? Just_Super/E+ via Getty Images AIモデルと人間の脳は同じ言語を生成するかもしれませんが、同じようにしているのでしょうか?

AI モデルと人間の脳の比較

しかし、人間の言語との類似性はこれにとどまりません。 “Nature Neuroscience” に掲載された研究は、これらの人工深層学習ネットワークが人間の脳と同じ計算原理を使用しているように見えることを実証しました。神経科学者の Uri Hasson が率いる研究グループは、最初に、GPT-3 の「弟」である GPT-2 と人間が、ポッドキャスト「This American Life」から取った物語の次の単語をどれだけうまく予測できるかを比較しました。 AI はほぼ 50% の確率でまったく同じ単語を予測しました。

研究者は、話を聞いている間、ボランティアの脳活動を記録しました。彼らが観察した活性化パターンの最良の説明は、GPT-2 のような人々の脳は、予測を行う際に先行する 1 つまたは 2 つの単語を使用するだけでなく、最大 100 個の前の単語の蓄積されたコンテキストに依存していたということでした。全体として、著者らは次のように結論付けています。

考えられる懸念は、これらの新しい AI 言語モデルに多くの入力が与えられることです。GPT-3 は、人間の 20,000 年に相当する言語経験で訓練されました。しかし、まだ査読されていない予備研究では、GPT-2 は、わずか 1 億語でトレーニングされた場合でも、人間の次の単語の予測と脳の活性化をモデル化できることがわかりました。これは、平均的な子供が生後 10 年間に耳にする言語入力の量に十分収まります。

GPT-3 または GPT-2 が子供とまったく同じように言語を学習することを示唆しているわけではありません。実際、人間の言語使用にとって理解が基本であるのに対し、これらの AI モデルは、彼らが言っていることの多くを理解していないようです。それでも、これらのモデルが証明しているのは、学習者は、シリコンの学習者ではありますが、言語を学習するだけで、完全に優れた文法文を生成することができ、人間の脳の処理に似た方法でそれを行うことができるということです。

More back and forth yields more language learning. Westend61 via Getty Images
行き来が多いほど言語学習が進みます

言語学習の再考

生得の文法テンプレートなしでは言語の学習は不可能であると、何年もの間、多くの言語学者は、信じてきました。新しい AI モデルはそうではないことを証明しています。それらは、文法的な言語を生み出す能力は、言語の経験だけから学ぶことができることを示しています。同様に、私たちは子供たちが言語を学ぶために生得の文法を必要としないことを提案します。

「“Children should be seen, not heard” 子供は会話の場に参加することができるが、特に大人の周りにいる場合は話すべきではない。」という古いことわざがありますが、最新の AI 言語モデルは、これが真実と違うことを示唆しています。代わりに、子供たちは、言語スキルを伸ばすのに役立つように、可能な限り会話を行ったり来たりする必要があります。有能な言語ユーザーになるには、文法ではなく言語経験が重要です。

この記事は、クリエイティブコモンズライセンス(CCL)の下で The Conversation と各著作者からの承認に基づき再発行されています。日本語訳は archive4ones(Koichi Ikenoue) の文責で行われています。オリジナルの記事を読めます。original article.

タイトルとURLをコピーしました