人工知能 (AI) はすでにビデオのポストプロダクションを変革しています。現在では、キャプションから特殊効果、編集に至るまで、あらゆるものに対応する AI ツールがあります。短すぎるクリップを延長するために追加のフレームを生成することも可能です。ただし、これらの AI モデルはすべて、すでに作成されたビデオで動作します。次のフロンティアはライブビデオです。
Visual Reasoning AI は、PTZOptics と Moondream.ai のパートナーシップから生まれた新しいテクノロジーです。これにより、カメラとライブビデオのワークフローにリアルタイムでシーンの理解がもたらされます。これは無料のオープンソースであり、最新の Web ブラウザで実行できます。
しかし、それは正確には何で、どのように機能するのでしょうか?
視覚言語モデル
近年、大規模言語モデル (LLM) が AI の会話を支配しています。テキスト データでトレーニングされたこれらは、ますます馴染みのあるチャットボットや仮想アシスタントを強化します。しかし、LLM は単語しか理解できません。
Moondream のようなビジョン言語モデル (VLM) は異なります。 VLM は、ビデオ、画像、音声だけでなく、テキスト入力も理解できます。これは、Moondream が視覚情報と音声情報を解釈し、「見ている」ものに応じてテキストやその他の出力を生成できることを意味します。
Moondream は、シアトルに拠点を置く M87 Labs によって作成されたオープンソース VLM です。画像を理解し、物体を検出し、シーンを分析するために設計されています。オープンソースであるため、無料でローカルにインストールして実行できます。クラウドベースのアクセスも利用できますが、使用料がかかります。
ビジュアル推論 AI
Visual Reasoning AI は、ストリーミング、放送、ライブ制作などのプロフェッショナルなオーディオビジュアル ワークフローに実用的な自動化をもたらします。このテクノロジーの中心となるのは、カメラが捉えた内容についての自然言語による説明をリアルタイムで生成することです。
説明を超えて、平易な言葉で指定されたオブジェクトを見つけて強調表示したり、カメラの視野内のオブジェクトを数えたり追跡したりできます。おそらく最も注目すべき点は、シーンを分析して次に何が起こるかを予測し、ロボット カメラの移動、アラートの送信、ダッシュボードの更新などの自動応答をトリガーすることです。
その結果、幅広い制作シナリオにわたって構成できる柔軟なツールが得られます。
仕組み
画像提供:Visual Reasoning AI Visual Reasoning はクラウドベースのソリューションです。つまり、ソフトウェアをダウンロードまたはインストールしたり、特別なハードウェアを必要としたりする必要はありません。最新の Web ブラウザを介してデスクトップ コンピュータ、ラップトップ、タブレット、スマートフォンで動作し、Web カメラ、PTZ カメラ、スマートフォン カメラなどのあらゆるカメラと互換性があります。
Visual Reasoning Web サイトにログインした後、接続されたカメラをインターフェイスに追加できます。 Moondream VLM は一度に 1 つのビデオ フレームを処理するため、ライブ ビデオを分析するために、設定された間隔で複数のフレームをキャプチャします。これらの画像は Moondream.ai プラットフォームにアップロードされ、AI が時間の経過による変化を解釈します。
このフレームごとのアプローチには当然の制限が生じることに注意してください。 2 秒間隔のこのシステムは、適度なペースの環境 (会議、プレゼンテーション、礼拝など) に適していますが、ペースの速いスポーツなどの素早い動作についていくのが難しい場合があります。間隔設定により、オペレータは応答性と処理負荷のバランスを取ることができますが、リアルタイムの継続分析はこのシステムが現在提供しているものではありません。
AI は自然言語でシーンを記述し、人、物体、場所を識別できます。また、ビデオフィードに登場する人の数を経時的に追跡してカウントすることもできます。複数オブジェクト検出機能は、シーン内の特定のアイテムの周囲に境界ボックスを描画します。オペレーターは、「ドア」、「本」、「赤いシャツを着た男」などの簡単な英語で説明を入力するだけで、Visual Reasoning がアイテムの周囲に色付きのボックスをマッピングします。カスタマイズ可能なボックスの色を使用して、複数のオブジェクトを同時に識別できます。
視覚的推論とビデオ制作
Visual Reasoning Web サイトでは、プロの AV および放送用に 9 つの無料のオープンソース ツールを提供しています。 AI シーンの理解がライブ カメラの制御に適用されると何が可能になるかを示す最も説得力のあるデモです。
PTZ 自動追跡
画像提供:Visual Reasoning AI PTZ 自動トラッカーは、Visual Reasoning AI と PTZOptics カメラ制御を組み合わせて、インテリジェントな追跡システムを作成します。動き検出や固定ゾーンに依存するのではなく、被写体の自然言語による説明 (「青いジャケットを着たスピーカー」または「ボールを持った選手」) を受け入れ、それに応じてカメラをパン、チルト、ズームするように制御します。礼拝、会議のプレゼンテーション、小規模なスポーツ中継など、専任のカメラ オペレーターがいない制作の場合、このテクノロジーの可能性が最もすぐに明らかになるのはこの分野です。
マルチモーダル フュージョン
Multimodal Fusion は、おそらく 9 つのツールの中で最も野心的なものです。ビデオとオーディオを同時に分析し、Visual Reasoning にシーンのより完全な感覚的な画像を提供します。これは、プレゼンテーション設定では、システムが誰が話しているのかを検出し、自動的にカメラを切り替えることができることを意味します。音楽のライブ パフォーマンスでは、特定の楽器の音を識別し、その演奏者を追跡するように PTZ カメラを指示できます。この機能には、通常、熟練した人間のディレクターが一瞬の判断を下す必要があります。
Scoreboard Extractor は、ビデオ フィードからスコアボード情報を読み取り、デジタル化します。ジムのスコアボードやスタジアムのディスプレイに向けられたカメラがソースを提供し、AI が関連データを抽出します。現在サポートされているスポーツにはフットボール、サッカー、バスケットボール、バレーボールが含まれており、監視するデータを指定する機能があります。抽出された情報はブロードキャスト フィードにオーバーレイできます。
カラー アシスタント
カラー アシスタント ツールは、参照画像の色の特性を分析できます。その後、カメラ設定に一致するための推奨事項が表示されます。これは、異なるカメラ モデル間で一貫した色が必要なマルチカメラ プロダクションに最適です。カラー アシスタント ツールを使用して、特定の映画のような外観を実現することもできます。 AI モデルは、色温度、彩度、コントラスト、色調の特性を理解します。
ゾーンモニター
Zone Monitor では、ビデオ フィード内にカスタム リージョンを定義できます。その後、特定の物体や人がそれらのゾーンに出入りするとき、またはそのゾーンに留まるときを自動的に検出します。これは、野生動物の映画制作者にとって、リモート カメラを起動して特定の動物を追跡し、他の種を無視するのに役立つ可能性があります。
シーンの説明者
Scene Describer は、ビデオ フィード内で何が起こっているかについての自然言語説明を自動的に生成します。これは、コンテンツ分析やアクセシビリティ機能として役立つ可能性があります。
検出ボックス
検出ボックスは、ビデオ フィード内で選択したオブジェクトを識別し、その周囲に正確な境界ボックスを描画します。
スマートカウンター
Smart Counter は、Visual Reasoning AI を使用して、シーンに出入りする人、車両、または指定したオブジェクトを正確にカウントします。
シーンアナライザー
Scene Analyzer を使用すると、ビデオ内で何が起こっているかについて質問できます。 Visual Reasoning AI は即座に答えを返します。
視覚的推論の力
Visual Reasoning システムはモジュール式に設計されており、そのツールはさまざまな運用環境に合わせて構成および組み合わせることができます。同社の Web サイト上のデモンストレーションでは、取締役会の会議シナリオでこれを説明しています。参加者が部屋に入ると、AI が参加者をカウントして識別します。会議が始まると、Visual Reasoning が誰が発言しているかを判断し、それに応じてカメラのビューを切り替えます。また、ビデオ フィードがモニターに表示されるとそれを検出し、そのソースに切り替わります。
このシステムは、ライブ音楽などのよりダイナミックな環境にも拡張されます。ビデオと一緒に音声を監視することで、ボーカリストを検出し、カメラがボーカリストを追跡するように指示できます。楽器のソロ中に、サウンドを認識し、シーン内で対応する楽器と演奏者を識別し、PTZ カメラを移動してそれらをキャプチャします。ソロが終わると、ステージ全体のワイドショットに戻ります。
Visual Reasoning はビジョン言語モデルに基づいて構築されているため、従来のプログラミングを必要とするのではなく、自然言語の命令を受け入れます。これは、オペレーターがシステムに実行させたい内容をわかりやすい言葉で記述し、会議、礼拝所、ライブ劇場、スポーツ中継などのさまざまな状況に合わせてシステムを比較的迅速に再構成できることを意味します。イベント前に手順を準備し、本番中にシステムが自律的に動作するようにすることができます。
試してみる
Visual Reasoning Web サイトには Playground ページがあり、テクノロジーを体験し、ツールを試すことができます。スマートフォン、デスクトップパソコン、ノートパソコン、タブレットなどでご利用いただけます。電子メールを追加するだけで、Visual Reasoning からログインするためのリンクが送信されます。AI に送信できるリクエストの数には制限があります。ただし、Moondream.ai ウェブサイトにアクセスして、さらにアクセスするために無料の API キーをリクエストできます。
AI ビデオ制作の大きな前進
Visual Reasoning は、AI ビデオ制作と放送にとって重要な前進を表します。 PTZOptics カメラと組み合わせると、特定の生産シナリオに合わせて調整できる自動カメラ システムが可能になります。このテクノロジーはオープンソースであり、無料で使用できます。つまり、採用が拡大し、より多くのユーザーがその進化に貢献するにつれて、開発が加速する可能性があります。