ChatGPT、Gemini、Claude、Perplexity、Grok などの大規模言語モデル (LLM) は、主にテキストの手がかりを通じてビデオ コンテンツを解釈します。彼らは次のことができます:
- ビデオトランスクリプトから分析情報を抽出する
- ユーザーのクエリに関連すると思われる動画へのリンクを提供する
- 明示的に求められた場合、動画のトランスクリプトとメタデータを分析する
実際には、LLM は書き言葉を処理します。動画やオーディオ ストリームを直接解析することはまだできません。この制限は主に、膨大な量のデータが関係するためです。たとえば、100 ワードのプレーン HTML の重さは約 0.8 KB ですが、同じコンテンツを 45 秒の HD ビデオとしてレンダリングすると約 20 MB を占有し、これは約 25,000 倍のデータになります。そのため、現在、ビデオ ファイルをオンデマンドで分析できるのは特殊なクローラーのみであり、汎用クローラーには、遭遇したすべてのビデオに対して分析を行う能力がまだ不足しています。
このため、LLM のビデオ最適化では、周囲のテキスト メタデータに焦点を当てる必要があります。重要な要素は次のとおりです。
トランスクリプト、タイトル、説明
すべてのビデオには、完全なトランスクリプト、明確なタイトル、およびその内容を説明する詳細な説明が必要です。これらの要素は、LLM クローラーが読み取れるように、JavaScript ラッパーや iframe を使用せずに、ページのソース内で直接公開する必要があります。残念ながら、ウェブ動画の 95% 以上は JavaScript または iframe 配信に依存しているため、多くの AI システムからメタデータが隠蔽されています。
Wistia の LLM 対応埋め込みは、トランスクリプトをプレーン HTML テキストとして埋め込みコード内に埋め込み、JavaScript を使用してそのテキストをビデオ プレーヤーで置き換えることで、この問題に対処します。このアプローチにより、ビデオをレンダリングできないクローラとユーザーがテキストのフォールバックを確実に受け取ることができます。
YouTube ビデオを埋め込むサイトにも、同じ原則が適用されます。 YouTube の iframe 埋め込みは LLM クローラーには見えないため、AI がビデオを理解する唯一の信頼できる方法は、トランスクリプトを表示テキストとしてページに含めることです。 YouTube の利用規約で一括スクレイピングが禁止されているため、これらのトランスクリプトは LLM の一般トレーニング セットに組み込まれませんが、正確な多言語トランスクリプトを YouTube にアップロードすることは不可欠です。
ジェミニと YouTube の関係はどうですか?
Google が Gemini と YouTube の両方を所有していることでシームレスな統合が保証されているというのは、よくある誤解です。 Gemini は追加のメタデータを含む YouTube 動画のデータベースにアクセスできますが、その動作は他の LLM と同様であり、関連する動画を識別するために Web の引用と参照に依存しています。検索結果内の動画のランキングは、Gemini によってハイライトされた動画に自動的に変換されるわけではありません。
将来の展望:LLM はビデオ ファイルを直接処理するようになるでしょうか?
専門家らは、今後数年以内に、LLM がより人間らしくビデオ コンテンツを解釈する計算能力を獲得すると予想しています。ただし、この機能が主流になるかどうかは、処理コストに対してもたらされる増分価値に依存します。現在の予測によれば、2028 年までに LLM は Googlebot と同等の方法で JavaScript を解析できるようになり、2031 年までにカプセル化されたビデオ ファイルを日常的に処理できるようになる可能性があります。それまでは、ルールは単純です。コンテンツがテキストとして読み取れない場合、AI には見えないままになります。