エムダッシュが多すぎる?「delves」のような奇妙な単語?ChatGPTで書かれたテキストを見分けるのは、科学というより芸術に近い。

Language experts fare no better than everyday people. Aitor Diago/Moment via Getty Images:言語の専門家でさえ、一般の人々と何ら変わりません。

公開日:2025年7月30日午前8時30分(米国東部夏時間)
著者:Roger J. Kreuz

記事を音読します。

人々は今や、チャットボット (chatbots) を使ってコンピューターコードを書いたり、記事や書籍を要約したり、アドバイスを求めたりすることが日常的に行われています。しかし、これらのチャットボットは、最初から素早く文章を生成するためにも利用されており、中にはそれを自分の言葉として偽装するユーザーもいます。

これは当然のことながら、生徒の文章を評価する教師にとって頭痛の種となっています。また、Redditなどのフォーラムでアドバイスを求めたり、購入前に製品レビューを参照したりする人々にも問題を引き起こしています。

ここ数年、研究者たちは、人間の文章と人工知能が生成した文章を区別することが可能かどうかを探ってきました。しかし、両者を区別するための最良の戦略は、チャットボット自身から生まれるかもしれません。

人間とは思えないほど優れている?

最近のいくつかの研究は、テキストが人間によって生成されたのか、それともチャットボットによって生成されたのかを判断することがいかに難しいかを浮き彫りにしています。

例えば、2021年のオンライン調査で募集された研究参加者は、ストーリー、ニュース記事、レシピが人間によって生成されたものとChatGPTによって生成されたものを区別することができませんでした。

言語の専門家も同様です。2023年の研究では、主要な言語学ジャーナルの編集委員会メンバーが、どの論文の要約が人間によって書かれ、どれがChatGPTによって生成されたのかを判断できませんでした。また、2024年の研究では、英国の大学の採点官がChatGPTで作成された学部試験の94%を検出できなかったことがわかりました。

明らかに、人間はこの点においてあまり得意ではありません。

ポーカープレイヤーが何らかの方法 (ミス) で勝ちの手札を持っていることを示唆してしまうように、まれな単語や珍しい単語は著者に関する「手がかり: “tells”」となる可能性があると一般的に信じられています。

実際、研究者たちは、ここ数年間に科学誌に掲載された論文において、「delves」や「crucial」といった比較的珍しい単語劇的に増加していることを記録しています。これは、珍しい用語が生成AIが使用されている兆候となる可能性があることを示唆しています。また、一部の研究者が学術誌への投稿論文の一部をボットで執筆または編集していることも示唆しています。この行為が不正行為を反映しているかどうかは議論の余地があります。

別の研究では、研究者は被験者にチャットボットが生成したテキストに関連する特徴について質問しました。多くの参加者は、テキストを区切ったり、思考を区切ったりするために使用される長いダッシュであるエムダッシュ: em dashes *の過剰な使用を、コンピューター生成出力の特徴の1つとして挙げました。しかし、この研究においても、参加者のAI検出率は偶然によるものとわずかに異なる程度でした。(編集者注*)

これほど低いパフォーマンスにもかかわらず、なぜ多くの人がエムダッシュがチャットボットの明確な兆候だと信じているのでしょうか?おそらく、この形式の句読点は主に経験豊富なライターによって使用されているからでしょう。言い換えれば、「あまりにも素晴らしい」文章は人工的に生成されたものだと人々は信じているのかもしれません。

しかし、もし直感的に違いがわからないのであれば、人間によるものと人工的なものとを判別する他の方法があるのかもしれません。

文体測定学が救世主?

答えは、統計的手法を用いて著者の文体の違いを検出する文体測定学の分野 (the field of stylometry) に見つかるかもしれません。

私は認知科学者として、文体測定学の手法の歴史 (the history of stylometric techniques) に関する本を執筆しました。この本では、争いのある事例で著者を確定したり、匿名のテキストを誰が書いたのかを特定したりするための手法を研究者がどのように開発してきたかを解説しています。

著者を判別するためのツールの一つは、オーストラリアの学者ジョン・バロウズ (John Burrows) によって提案されました。彼はバロウズ・デルタ (Burrows’ Delta) と呼ばれるコンピューター技術を開発しました。これは、異なるテキストに出現する一般的な単語とまれな単語の相対的な頻度を調べるものです。

「the」「and」「to」といった単語の使い方で著者を特定できると考えるのは直感に反するように思えるかもしれませんが、この手法は驚くほど効果的です。

A stylometric technique called Burrow’s Delta was used to identify LaSalle Corbell Pickett as the author of love letters attributed to her deceased husband, Confederate Gen. George Pickett. Encyclopedia Virginia:バロウズ・デルタと呼ばれる計量文体技法を用いて、故人である南軍のジョージ・ピケット将軍に宛てられたとされるラブレターの著者がラサール・コーベル・ピケットであることが特定されました。

例えば、バロウズ・デルタは、L・フランク・ボーム (L. Frank Baum) の後継者であるルース・プラムリー・トンプソン (Ruth Plumly Thompson) が「オズの魔法使い」シリーズの論争を巻き起こした本の著者であることを立証するために用いられました。また、南軍のジョージ・ピケット将軍 (Confederate Gen. George Pickett) に帰属するとされていたラブレターが、実際には彼の未亡人であるラサール・コーベル・ピケット (LaSalle Corbell Pickett) の創作であることが判明するためにも用いられました。

バロウズのデルタや同様の手法の大きな欠点は、著者を確実に区別するためにはかなりの量のテキストが必要になることです。2016年の研究では、各著者から少なくとも1,000語が必要になる場合があることが示されています。したがって、比較的短い学生のエッセイでは、統計的手法が属性の魔法を働かせるのに十分な入力情報を提供しません。

より最近の研究では、人間やチャットボットが生成した大量のテキストでトレーニングされた、BERT言語モデル (BERT language models) と呼ばれるものが活用されています。モデルは各文章に共通するパターンを学習し、人間よりもはるかに高い識別能力を発揮します。最も優れたモデルでは80%から98%の精度を誇ります。

しかし、これらの機械学習モデルは「ブラックボックス: “black boxes” 」です。つまり、テキストのどの特徴がそれらの優れた能力の要因となっているのか、実際には分かっていません。研究者たちはこれらのモデルを理解する方法を積極的に模索していますが、現時点では、モデルが人間が自力で見つけることができるような具体的で信頼性の高いシグナルを検出しているかどうかは明らかではありません。

動く標的

ボット生成テキストを識別する上でのもう一つの課題は、モデル自体が絶えず変化していることです。時には大きな変化が起こることもあります。

例えば2025年初頭、ChatGPTが過度に卑屈 (overly obsequious) になり、ありふれたクエリが「すごい」や「素晴らしい」と判断されるようになったという懸念がユーザーから表明され始めました。OpenAIは、いくつかの変更をロールバックすることでこの問題に対処しました。

もちろん、人間の著者の文体も時間の経過とともに変化することがありますが、通常はより緩やかに変化します。

ある時、私はボットが自らの見解を述べるだろうかと考えました。ChatGPT-4oに尋ねました。「ある文章がChatGPTによって生成されたものかどうか、どうすれば見分けられますか?特徴的な語句の選択や句読点など、何か『特徴』は見られますか?」

ボットは、人間の文章と人間以外の文章を区別するのは「難しい場合がある」と認めました。それでも、豊富な例を挙げた10項目のリストを提供してくれました。

これらのリストには、「頻繁に」や「一般的に」といった言葉の隠蔽表現の使用、冗長性、リストへの過度の依存、そして「洗練された中立的な口調」が含まれていました。また、「予測可能な語彙」についても言及しており、「重要な」や「注目すべき」といった形容詞や、「含意」や「複雑さ」といった学術用語も含まれていました。しかし、チャットボットが生成するテキストに見られるこれらの特徴は一般的であると指摘しつつも、「どれもそれ自体では決定的なものではない」と結論付けています。

チャットボットは幻覚を起こしたり、事実誤認を起こしたりすることが知られています。

しかし、自分自身について話すとなると、驚くほど鋭敏な洞察力を発揮するようです。

この記事は、クリエイティブコモンズライセンス(CCL)の下で The Conversation と各著作者からの承認に基づき再発行されています。日本語訳は archive4ones(Koichi Ikenoue) の翻訳責任で行われており、The Conversationによる正式な翻訳ではありません。オリジナルの記事を読めます。original article.

(編集者注*)

エムダッシュ* em dashes

ダッシュ (記号): 短いenダッシュ「–」(Unicode U+2013、JIS X 0213 1-1-30、エンダッシュ) と長いemダッシュ「—」(Unicode U+2014、JIS X 0213 1-1-29、エムダッシュ) の二つがある。それぞれ、長さが欧文フォントのN、Mの幅に等しいことが、名前の由来である。ハイフン「‐」、マイナス「−」、長音符(音引き)「ー」と字形は似ているが、enダッシュとemダッシュの区別を含め、字形・使用法とも区別される。字形としては、ハイフンはenダッシュより短く、位置が低い。 wikipedia

タイトルとURLをコピーしました