AI がビジネス上の問題をすべて解決できると思いますか? Appleの新しい研究はそうではないことを示している
Apple は AI の機能における大きな亀裂を暴露したばかりです。 LLM が依然として複雑な推論を処理できない理由と、それが意思決定プロセスにとって何を意味するかをご覧ください。
工学部にいた頃、誤解を招く課題を得意としていた教授がいました。彼は、それが私たちの集中力をそらしてくれることを期待して、あるいは、それが私たちを不必要な研究というウサギの穴に送り込む気を散らすことを期待して、目の前のトピックとの関連性が疑わしい要素を含む質問をしました。
以下に彼が尋ねる質問の例を示します。彼の質問ははるかに難しく、エンジニアリングに焦点を当てていましたが、これから議論する研究に直接関連しているため、私はまさにこの質問を使用しました。
オリバーは金曜日に44個のキウイを摘み取りました。そして土曜日に58個のキウイを収穫します。日曜日には、金曜日の2倍の数のキウイを収穫したが、そのうちの5個は平均より少し少なかった。オリバーはキウイを何個持っていますか。
私の教授の目標は、私たちが当面のプロジェクトに関連するものを特定できるようにし、研究に伴う自然な気を散らすものをすべて無視したり脇に置いたりする方法を学ぶのを助けることでした。
これは、最初は非常に苦痛でしたが、最終的には非常に有益な、初年度のエンジニアにとっての一連のレッスンでした。
私がこの課題を思い出したのは、シニアディレクターのサミー・ベンジオ氏と高名な科学者のワンセル・トゥゼル氏率いる Apple AI および機械学習の研究者チームが今月発表した研究論文のおかげです。
彼らの論文「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」には、上に示した数学の問題が含まれていました。質問を見ると、「ただし、そのうちの 5 個は平均より少し少なかった」というフレーズは、キウイ全体の数に影響を与えることはありません。
研究者らは、OpenAI の GPT-40-mini、GPT-40、o1-mini、o1-preview などの大規模言語モデル (LLM) が、非常に高度なテキスト処理とは区別される推論を伴う種類の質問の餌食になることを発見しました。
さて、公平を期すために、ChatGPT GPT-4o に対してそのクエリを実行したところ、正しく応答されました。 Apple の結論が間違っているという意味ではなく、ChatGPT がこれを正しく処理したというだけです。
その一方で、ニュージーランドのオトロハンガの夜の森をよちよち歩き回る実際のキーウィ鳥の数について議論すれば、AI が同様に簡単に答えることができたであろうことは誰もが知っています。
したがって、Apple の研究の最終的な結論が、LLM には真の推論ができず、代わりにパターン マッチングに依存しているということになるのは当然です。
ある意味、これは私たちが知らないことを教えてくれる一種の結論です。それでも、Apple がこの問題に取り組んできたような優秀な研究者がこの問題を科学的に確認できるのは良いことです。それでは、科学の話に入ってみましょう。
ベンチマークデータセット
結局のところ、ChatGPT に憲法を海賊版の言葉に翻訳するよう依頼することは、たとえ楽しい時間を過ごす結果になったとしても、LLM をテストするための包括的な方法ではありません。
代わりに、研究者は、言語モデルが数学の問題をどの程度適切に評価するかを測定するために設計された、あまり面白くないが、より効果的な AI テスト フレームワークを開発しました。
2021 年、OpenAI は、LLM の推論を評価するために使用されるベンチマーク データセットである GSM8K を導入しました。この頭字語は、データセットに含まれる内容、つまり 8,000 の小学校の数学の問題を示しています。
このデータセットを AI に適用すると、研究者は AI がどの程度正確であるか、推論問題や基本的な数学を解決できるかどうかを判断するのに役立ちます。 GSM8K は、特に算術問題や文章問題で、LLM の数学的推論能力を評価するためのゴールドスタンダードとみなされます。
GSM8K はオープンソースであるため、段階的な推論を必要とするタスクをテストするために AI 分野 (OpenAI の内部と外部の両方) でも広く使用されています。これには明確な問題構造があるため、LLM の初期段階のテストを行う AI 研究者にとって信頼できるツールとなっています。
一方、Apple の研究者らは、このデータセットには根本的な欠陥があると考えています。彼らは、GSM8K のテスト結果は、特定の LLM の機能について過度に肯定的な見解を示している可能性があると主張しています。これは、テスト セットが、LLM のトレーニング セットで使用された可能性がある固定のよく知られた質問に基づいているためです。
上で引用した論文では、GSM8K の制限を克服する新しいデータセットである GSM-Symbolic が紹介されています。 GSM-Symbolic では、より多様で複雑な問題が発生し、LLM が保存されたトレーニング データを利用できなくなります。
この論文では、Google の Gemma2-9B などの一部のモデルが 2 つのベンチマーク データセットを使用すると著しく異なる結果を示したと述べています。 Gemma2-9B は OpenAI の GSM8K データセットの問題を正しく解決できましたが、Apple の GSM-Symbolic テスト セットを受けると精度が 15% 低下しました。
Apple の研究者らは、質問が複雑になるにつれて (彼らはこれを「条項の追加」と呼んでいます)、精度が低下することを発見しました。データが固定されていたため、このメトリックは GSM8K では表示されませんでした。 Apple によると、80 ~ 90% 台後半の精度を示したモデルは、文節の数が増えると 40% 台に低下する可能性があります。
Apple は、GSM8K にはデータ汚染のリスクがあり、モデルがデータセットの一部でトレーニングされた可能性があることを意味すると主張しています。 GSM8K データセットをホストする GitHub は、LLM のトレーニングに使用されています。
GitHub をトレーニング データに使用することは、私にとって決して良いアイデアとは思えませんでした。私は GitHub リポジトリに古いコードを持っており、それがどれほどバグがあるかをよく知っています。私は、これを生徒を訓練するためのサンプル コードとして使用したくありません。ましてや、良い答えを得るために私たちが頼りにしている AI に教えるためにそれを使用することはしたくありません。
いずれにしても、Apple の GSM-Symbolic はオープンソースではないようです。そのため、Apple の研究者らは、これが LLM をテストするためのより良いソリューションであると主張していますが、Apple で適切なグループに属し、6 色を使用しない限り、これにアクセスすることはできません。
それはどういう意味ですか?
私の心の一部は、Apple がこの論文を書いた動機について疑問に思っています。特に Apple が独自の Al 製品を発表しているので、これはある種の超オタクによる Open Al の競争比較叩きのようなものに見えるからです。
その一方で、Apple は Apple Intelligence 製品に ChatGPT を含めることを計画しているため、このような論文を作成する正当な理由として完全に競争上の劣悪さを理由にするのは適切ではないようです。したがって、動機はおそらく見た目どおり、学習モデルのパフォーマンスと精度の理解を向上させることへの純粋な学術的関心だったのではないかと思います。
この研究は、LLM は論理的推論よりもパターン マッチングの方が優れているという、私たちが最初からほぼ知っていたことを証明しています。彼らは、実際の推論ではなく、トレーニングと処理にパターン認識を使用します。世界の情報の多くがパターン認識だけで説得力を持って表現できるという事実は驚くべきことですが、それでも本当に推論できるコンピューターは得られません。
数学的推論にはむらがあります。 Apple の研究者が失敗したテストとして使用した例は、私のテスト中に合格しました。 Apple のチームが間違っているというわけではありませんが、AI には一貫性がなく、常に進化しているという前提があります。したがって、数学的結果を LLM に依存することは、必ずしも実用的なアプローチではありません。優れた数学が必要な場合は、昔ながらのアルゴリズムと従来のソフトウェア エンジニアリングのテストおよび検証方法を使用するか、少なくとも AI が提供する結果を再確認してください。
運用シナリオで LLM データへの依存を検討している人にとってのもう 1 つの懸念は、複雑さが増すにつれて精度が低下することです。このパターンは人間がデータをどのように扱うかを正確に反映していますが (データが複雑になるほど、頭痛の種が増えます)、LLM と私たちの違いは、実際の推論を実践していることです。
では、Apple の論文の研究結果はビジネスにどのような影響を与えるのでしょうか?それは次です。
ビジネスへの影響とリスク軽減
AI をバラ色の眼鏡を通して見ていなければ、その意味は明らかです。 AI は便利なツールですが、複雑な意思決定を処理するために AI に依存しないでください。 AI や LLM は有望な新テクノロジーだからと言って、AI や LLM にすべての責任を放棄するのは賢明ではありません。
AI を使用して企業データに基づいた洞察を得る方法を何度か紹介しましたが、私は常に、分析を徹底的に検討し、それが自分の内なる知識と一致するかどうかを確認することで、結果を七面鳥にテストしました。そして、最終的には- 自分自身の決断と決断を下す。 AI は興味深いサポート ツールでしたが、私自身のビジネスの意思決定には、私自身の経営経歴が鍵となりました。
AIは可能性に満ちています。たとえば、プログラミングを支援するためにそれらを使用しました。昨年は ChatGPT のおかげでプログラミング時間を 1 か月節約できたと思います。しかし、コードの設計やビジネス ロジック セクションの作成を AI に依存することはありませんでした。私がこれを使用したのは、単に、そうでなければ調べるのに時間を費やす必要があり、テストが簡単な非常に一般的な API へのインターフェイスを提供するためでした。
AI が対象分野の専門家に取って代わることを期待しないでください。 AI は人間の専門家の努力をサポートできますが、深い推論や批判的思考となると、AI は誤りを犯しやすいものです。こう考えてみてください。自分のビジネスに関する意思決定を大学の新入生や近所の子供に任せられないなら、AI も信用しないのと同じです。
私たちはAIが幻覚を見ることを知っています。私たちは、彼らが与えられたデータに基づいて完全に突飛な結論を導き出すことがあることを知っています。ビジネスでデータに依存して意思決定を行っている場合、AI が適切なデータを提供してくれると想定しないでください。
このことから、リスクを軽減する必要があります。つまり、AI への投資は慎重に行う必要があります。戦略的に優れている分野を探してください。
たとえば、私の日々の仕事では、背景を削除する Photoshop の写真編集機能や、YouTube を録画するときに部屋のどこにいてもカメラを向けてくれるジンバルで、AI が大きな利益をもたらしていることに気づきました。ビデオ。私は生成テキストや生成画像にも使用しますが、ミッションクリティカルなプロジェクトには決して使用しません。
人間による監視が実際に行われており、漏れがないことを確認するシステムが整っていることを必ず確認してください。特に重要な操作では、人間の知性を常にループに関与させる必要があります。
その警戒をチームにも広げてください。誰もが生成 AI の素晴らしさについて読んだり聞いたりしていますが、その限界については気づいていないかもしれません。 LLM のようなツールは単なるツールであることをチーム メンバー全員に理解してもらいます。自己満足の誘惑に抵抗してください。
Appleの研究結果
興味深いのは、Apple Intelligence にマーケティング上の誇大広告を投入してきた Apple が、そのテクノロジーの限界も示しているということです。ある意味、そのような透明性は心強いものです。
Apple は、写真処理能力を定期的に向上させるためのツールとして機械学習を使用してきました。しかし、これらのテクノロジーは多量の数学を使用しますが、独立した人間の推論を必要としません。
Apple は、同社のサプライチェーン上であっても、AI が得意な分野では今後も AI テクノロジーに多額の投資を行うことが予想されます。しかし私は、Apple の経営陣が意思決定を LLM に委ねるとは予想していません。
この調査は、プロジェクトの複雑さが増すにつれて LLM には顕著な制限があること、そして Apple が LLM の制限をテストすることに投資し、その結果をこれらの新しいテクノロジーへの依存度に織り込んでいることの両方を示しています。
根底にある意思決定についてほとんど透明性のない企業にとって、この論文は、Apple がこの 10 年間で最もホットな新技術の長所と限界を理解するために行っている詳細な調査についての説得力のある洞察を提供します。
どう思いますか? Apple は正しい結論に達しましたか? AIを意思決定に活用しようとしたことがありますか?現在、LLM を何に使用していますか?また、将来は何に使用したいと考えていますか?以下のコメント欄でお知らせください。
You can follow my day-to-day project updates on social media. Be sure to subscribe to my weekly update newsletter, and follow me on Twitter/X at @DavidGewirtz, on Facebook at Facebook.com/DavidGewirtz, on Instagram at Instagram.com/DavidGewirtz, and on YouTube at YouTube.com/DavidGewirtzTV.