ウェブサイト検索

Bing Chat AI があなたの写真を理解できるようになりました


Bing Chat に GPT-4 の画像入力機能が追加されました。

Bing Chat、ChatGPT、およびその他の同様の生成 AI ツールは、テキスト コンテンツを理解して回答を提供することに主に焦点を当ててきました。ただし、画像を理解することは非常に役立ちます。これは、Microsoft が現在 Bing Chat AI に展開しているものです。

Microsoft は最近のブログ投稿で、Visual Search と呼ばれる Bing Chat の新機能を発表しました。 Visual Search を使用すると、画像をアップロードしたり、Web 上の既存の画像を選択したりできます。Bing はそれを理解して、そのコンテキストを応答に使用しようとします。 Microsoft のデモ ビデオ (下に埋め込まれています) では、誰かが Web フォームの手書きのモックアップをアップロードし、それを機能させるための HTML と CSS コードを生成するように Bing に依頼する様子が示されています。

Microsoft はブログ投稿で、「休暇で新しい都市に旅行して特定の建物の建築について尋ねる場合でも、自宅で冷蔵庫の中身をもとにランチのアイデアを考えている場合でも、画像をアップロードしてください」と説明しています。 Bing Chat を使用して、Web の知識を利用して回答を得ます。」

画像の内容を検出できるソフトウェアは新しいものではありません。 Google レンズは 2017 年以来、写真内の人物、動物、植物、ランドマーク、その他の物体を識別できるようになりました。より限定的な前身である Google ゴーグルの歴史は 2010 年に遡ります。マイクロソフトは GPT-4 の画像検出機能を使用しています。 ChatGPT のプレミアム バージョンで使用されているのと同じ言語モデル。ただし、ChatGPT では画像入力がまだ利用できないため、この機能が広く利用できるようになったのは今回が初めてです。

数枚の写真でビジュアル検索を試してみたところ、結果は印象的でした。 Bing に画像の説明を依頼すると、Google レンズから得られるよりもはるかに詳細な応答が得られます。たとえば、私の犬の写真をアップロードすると、「これは茶色のふわふわした敷物の上に座っている黒と黄褐色の犬の写真です。その犬は銀色のタグが付いた赤い首輪をしています。犬はカメラを見上げています。」耳を立てています。背景は白いソファと青と白の枕で構成されています。写真は高い角度から撮影されています。」画像が横向きにアップロードされたことも正しく解釈されました。

この機能を試すには、Microsoft Edge で Bing Chat を開き (Microsoft は依然として他のブラウザーではブロックしています)、テキスト フィールドのカメラのアウトライン アイコンをクリックします。

出典: マイクロソフト