ウェブサイト検索

「ガンダルフ」ゲームは AI をフィッシングする能力をテストします


あなたはこの AI のセキュリティを破ることができますか?

ChatGPT のような言語モデルは、秘密を保持することに必ずしも優れているわけではありません。迅速な注入、トリッキーな言葉遣い、または古き良きいじめを通じて、AI に個人情報を共有させ、独自のルールを破らせることができます。そして今、Gandalf と呼ばれるゲームを使用すると、これらの能力を本物の AI に対してテストできます。

Gandalf ゲームはシンプルで直感的です。ChatGPT を利用した「AI ウィザード」から秘密のパスワードを取得しようとします。最初はゲームは簡単です。しかし、各レベルを進むにつれて難易度は上がり、1 つのレベルで数時間立ち往生することもあります。

このゲームに勝つには賢くなる必要があります。単純なプロンプトで仕事が完了する場合もありますが、気が散るサブタスクを含む長くて複雑なプロンプトは非常に効果的です。また、かなり推測していることに気づくでしょう。最初の 7 つのレベルを完了すると、何も機能しないように見える非常に難しいボーナス レベルに直面します (私はそれを知っていますが、行き詰まっています)。

Gandalf は、大規模な言語モデル用のセキュリティ ツールを販売する会社、Lakera によって開発されました。 2023 年 4 月のハッカソン中に、Lakera の従業員は 2 つのチームに分かれました。 1 つは ChatGPT の保護を構築し、もう 1 つは AI を攻撃する方法を見つけました。このゲームはそのハッカソン中に作成された防御に基づいているため、AI セキュリティ (またはハッキング) に興味がある人にとっては良い参考になります。

しかし、なぜ言語モデルを「騙す」必要があるのでしょうか? ChatGPT やその他のツールが、Web ストア、企業のバックエンド、機密情報を含むその他のプラットフォームと統合される可能性は十分にあります。これらの大規模な言語モデルは、ハッカーが安全性の低い Web サイトに悪意のあるコードを挿入する方法と同様に、非常に特殊なプロンプトを通じて「ハッキング」されます。

とにかく、ガンダルフに挑戦して、各レベルをクリアできるかどうかを確認してください。このゲームにはレベルが非常に多く、頭脳だけを使って AI を出し抜くと非常に満足できるため、ヒントを調べないことをお勧めします。 Lakera はユーザー データを収集しませんが、セキュリティ製品を改善するためにユーザー入力を検討することに注意してください。