専用のビデオ カメラ、さらにはハイブリッド カメラでも、ビデオ撮影用に多数のフォーマットが提供されていますが、4:2:0、4:2:2、および raw の違いは何でしょうか?また、それが映像にどのような影響を与えるのでしょうか?技術的な詳細を把握すると、どの形式を使用するかについて情報に基づいた決定を下すのに役立ちます。
カメラのビデオ メニューで提供されるさまざまな録画形式の多さに圧倒されるように感じることもありますが、この記事から他に何も理解していない場合は、ここに本質があります。ビデオ映像の解像度、色深度、フレーム レートなどの要素によっては、ビデオのエンコードとデコード、映像の編集、ファイルからの保存と復元などの操作は、データ集約型で時間がかかり、計算量が非常に多くなる可能性があります。この記事のタイトルで言及した不可解な名前のビデオ形式は、この問題への対応策であり、ビデオ撮影者に、映像の品質とそれを保存するために必要な情報 (またはデータ) の量との間でトレードオフを行うためのさまざまなオプションを提供します。
大きなトレードオフ:画質とデータ ストレージ
一般に、最高品質のビデオ形式では保存に必要なデータが最も多くなり、最低品質の形式では必要なデータが最小限になります。ビデオ映像を保存するために必要なデータ量は、実際上重要な影響を与える可能性があります。高品質のビデオ形式によって生成されるデータセットが大きくなると、ファイルが大きくなり、潜在的な欠点がいくつかあります。映像を保存するには、より大容量のデジタル ストレージ メディアが必要であり、これらの高品質ビデオ ファイルの書き込み時間が長くなることで、カメラの映像キャプチャ能力に制限が課される可能性もあります。たとえば、高品質のビデオ形式を選択すると、カメラのデータ パイプラインを維持するために、より低いフレーム レートや解像度で撮影する必要が生じる可能性があります。
そして問題はカメラにとどまりません。
これらの大きなファイルを編集するためにコンピュータにアップロードすると、これらのファイルの読み取りと処理に必要な時間と計算リソースもそれに応じて増大し、そのような大規模なデータセットの処理に必要なメモリや計算能力がコンピュータに不足している場合、コンピュータはこれらのタスクを完了するのが困難になることさえあります。
プラスの面としては、高品質のビデオ形式を使用すると、ええと… (当然のことですが) より高品質の映像が得られますが、後で説明するように、編集スイート内でワークフローが簡単になり、優れた結果が得られることもあります。
画質とファイル サイズの間のこの種のトレードオフの簡単な例は、誰もが理解しているビット深度です。デジタル カメラ センサーのピクセルには、ビデオまたは静止画を録画するときにカラーをエンコードするために指定されたビット深度があります。 8 ビットの色深度を持つピクセルは、赤、緑、青 (RGB) チャネルごとに 2⁸、つまり 256 色、合計約 1,670 万色を記録できます。対照的に、12 ビットの色深度を提供するカメラ センサーは、約 683 億色を記録できます。 12 ビット センサーの演色性は、ほとんどの状況において 8 ビット センサーの演色性より明らかに優れていますが、12 ビット センサーでキャプチャされた 2,000 万ピクセルの画像は、カラー データを保存するのに 90 メガバイトを必要とするのに対し、8 ビット センサーでは 60 メガバイトが必要です (どちらの場合も画像圧縮がないと仮定します)。
以下の 8 ビット カラー画像 (Wikipedia 提供) は、これまで議論してきた品質とファイル サイズの間の一種のトレードオフをよく示しています。空の青い背景には、色のビット深度が浅い場合に発生するバンディング現象の例がはっきりとわかります。
8 ビット画像で目に見えるバンディング (Steve F の提供、Wikipedia)ビデオ画像のビット深度の選択が画質とファイル サイズの間のトレードオフにどのような影響を与えるかを理解するのは非常に簡単ですが、4:2:2 や 4:2:0 などの、より謎めいた名前の他のビデオ形式についてはどうでしょうか?
今日でも使用されている 90 年前のカラー システム
これらのビデオ形式を理解するには、単純な RGB カラーの世界から一歩踏み出して、テレビ技術者がカラー放送の導入を検討し始めた 1930 年代後半に生まれた、カラーをエンコードするための別のシステムに注目する必要があります。 1985 年にマイクロソフトが新しい Windows オペレーティング システムに、すでに以前のディスク オペレーティング システム (DOS) を実行しているすべての PC との下位互換性を持たせる必要があったのと同様に、テレビ技術者は、まだカラー テレビが導入されていた過渡期には、新しいカラー放送も、ほとんどの人がまだ使用していた白黒テレビと互換性がある必要があることを認識していました。 1938 年、フランスのエンジニア、ジョルジュ ヴァレンシは、画像の白黒成分をカラー成分から分離するための独創的なシステムを考案しました。新しいカラー放送の場合、既存の白黒テレビは信号の白黒コンポーネントを単純に使用しますが、新しいカラー テレビは、この白黒コンポーネントと 2 つの追加のカラー チャネルを組み合わせてフルカラー画像を再構築します。
YCbCr と呼ばれる Valensi のシステムは古いものではありますが、現在でも使用されており、実際、最新のビデオ エンコード方式 (ここで説明する 4:2:2 および 4:2:0 フォーマットを含む) の基礎となっています。 YCbCr システムは、画像を赤、緑、青のチャネルに分割するのではなく、輝度と彩度と呼ばれる 2 つの大きなコンポーネントに分割します。ルマ コンポーネント (YCbCr の Y) は基本的に画像の白と黒の部分ですが、クロマ コンポーネントは 2 つの色差チャンネル、青の差チャンネル (Cb) と赤の差チャンネル (Cr) で構成されます。
このシステムの本当に独創的な点は、人間の目が輝度 (明るい色調と暗い色調) と色に対して異なる反応をする方法を直接利用していることです。これを非常に賢い方法で行うことで、より少ない情報を使用して正確なビデオ画像をエンコードできるようになります。
人間の目は色よりも輝度に敏感であるため、より低い解像度で色情報をエンコードしても、正確な画像を再構成することができます。放送テレビ信号の場合、これは、ルマ (輝度) 成分よりもクロマ (色) 成分に使用する帯域幅が少ないことに相当します。デジタル ビデオ画像の場合、データのより少ない部分を使用して低解像度の彩度コンポーネントをエンコードすることで、これと同じスペース節約コンセプトを活用できます。
しかし、インフォマーシャルが進むにつれ、待ってください…
また、私たちの目は、スペクトルの赤や青の端に近い色よりも、可視スペクトルの中央の緑の領域に対してより敏感です。つまり、緑の色情報よりも赤と青の色情報を少なく保存することで、ビデオ フレームに保存する必要があるデータ量をさらに削減できます。これがまさに YCbCr ができることです。
しかしこの時点で、「グリーン チャネルの情報は正確にどこにあるのでしょうか? ルマ (黒と白) コンポーネントと、赤と青の色差のクロマ チャネルがあります。グリーン チャネルを捨ててしまうのでしょうか?」
答えはノーです。
私たちの目は緑色に対してより敏感であるため、緑色の情報は高解像度の輝度コンポーネント内に保持されます。元の画像を RGB で再構成するために緑色の情報が必要な場合、輝度データから簡単に抽出できます。
余談ですが、この緑に対する人間の目の感度の高さは、デジタル カメラのセンサーの前に配置され、センサーが認識する純粋な輝度画像から色を再構成するために使用されるベイヤー マトリックス (Fuji を使用している場合は X-Trans) のカラー フィルターのレイアウトにも反映されています。下の図を見ると、赤または青のフィルターごとにベイヤー マトリックス上に 2 つの緑のフィルターがあることがわかります。これは、私たちの目の自然な色の反応に従って、画像の緑の成分をより重み付けしています。
Bayer フィルター (Amada44 提供、Wikipedia)クロマ サブサンプリング:データ ストレージを節約するための賢いハック
私たちの目は画像の色よりも輝度に敏感であるため、画像の精度をあまり損なうことなく、色情報、特に青と赤のチャンネルの解像度をある程度犠牲にすることができます。これにより、画像の保存に必要なデータ量をさらに減らすことができ、これに応じて、すでに説明した大規模なデータセットの問題のいくつかを回避することができます。このデータ削減を達成する 1 つの方法は、クロマ サブサンプリングとして知られる方法を介して、特定のピクセルからクロマ情報の一部を選択的に使用することです。
元の画像の 8 色のピクセルの配列を考えてみましょう。
カラーピクセル配列| ©ゴードン・ウェブスターこのピクセル配列の輝度成分と彩度成分を次のように分離できます。
画像を輝度成分と彩度成分に分離する | ©ゴードン・ウェブスター先に進む前に、CbCr ピクセルは Cb チャネルと Cr チャネルの 1 つのピクセルの組み合わせとして表示されていることに注意することが重要です。ただし、YCbCr システムでは、実際にはそれぞれが 2 つの別個の Cb ピクセルと Cr ピクセルとしてエンコードされることになります。
各行に 4 つのピクセルを含む 2 つのピクセル行があることがわかります。これが、クロマ サブサンプリング フォーマット 4:2:0 および 4:2:2 の名前の由来です。最初の数値は、色をサンプリングするピクセル ブロックの幅です。この場合は 4 です。2 番目の数値は、最初の行で色をサンプリングするピクセルの数です。 3 番目の数値は、2 行目で色をサンプリングするピクセルの数です。
次の画像は、これらのサブサンプリング プロトコルをより明確に示しており、各プロトコルの詳細を理解するのに役立ちます。
クロマサブサンプリング | ©ゴードン・ウェブスター4:2:0 フォーマットでは、CbCr の最初の行の 2 つのピクセル (ピクセル 1 と 3) をサンプリングしますが、2 行目からはピクセルをまったくサンプリングしません。次に、最初の行のピクセル 1 と 2 をピクセル 1 の値に設定し、ピクセル 3 と 4 をピクセル 3 の値に設定します。 2 行目のピクセルをサンプリングしなかったため、2 行目の各ピクセルの値を最初の行のその上のピクセルの値に設定するだけです。 Luma チャネルを再度追加すると、図の下部にある結果が得られます。
この図から、4:2:0 サブサンプリングでは、クロマ解像度の垂直方向の半分と水平方向の半分が犠牲になっていることがわかります。
4:2:2 フォーマットでは、最初の行の 2 つのピクセル (ピクセル 1 と 3) をサンプリングし、2 番目の行の同じ 2 つのピクセルをサンプリングします。次に、最初の行のピクセル 1 と 2 をピクセル 1 の値に設定し、ピクセル 3 と 4 をピクセル 3 の値に設定します。ただし、今回は 2 行目の 2 つのピクセルもサンプリングしたため、2 行目のピクセルに対して同等の操作を実行できます。
この図から、4:2:2 サブサンプリングでは、水平方向のクロマ解像度の半分が犠牲になっていますが、元の垂直解像度はすべて保持されていることがわかります。
しかし、3 列目の 4:4:4 プロトコルはどうでしょうか?
4:4:4 サブサンプリングでは、各行のすべての CbCr 値を使用しているため、色の解像度がまったく犠牲になっていないことがわかります。 4:4:4 プロトコルはロスレス ビデオ エンコード形式と呼ばれるもので、まだ想像していない方のために説明しますが、4:4:4 サブサンプリングは一般的に raw と呼ばれます。
画質とデータ ストレージの問題に戻りましょう
まず、ビデオ映像をエンコードするときに、これらのサブサンプリング プロトコルごとにどれだけのデータが節約されるかを見てみましょう。ここでの良いニュースは、プロトコルの名前だけでこれを理解するための非常に簡単な経験則があるため、これらの数値を記憶する必要さえないということです。この簡単なルールについては後ほど説明しますが、それがどのように機能するかを見てみましょう。
ビット深度 8 の YCbCr (4:4:4) を使用して 8 ピクセルすべてをエンコードする場合、完全な 8 ピクセル配列をエンコードするには、各 Luma ピクセルに 8 ビット、各 Cb ピクセルに 8 ビット、各 Cr ピクセルに 8 ビット、合計 192 ビットが必要です。これは、ロスレス RAW 形式のストレージ要件です。このプロトコルを使用するとスペースが節約されないため、これをベースラインとして採用できます。
4:2:2 の場合、Cb ピクセルと Cr ピクセルはそれぞれ 8 つではなく 4 つだけなので、128 ビットのみを使用して完全な 8 ピクセル配列をエンコードでき、3 分の 1 を節約できます。
4:2:0 の場合、Cb ピクセルと Cr ピクセルはそれぞれ 8 つではなく 2 つだけなので、96 ビットのみを使用して完全な 8 ピクセル配列をエンコードでき、半分の節約になります。
各ビデオ形式による節約量を知るための簡単な経験則は、プロトコル名の数字を合計して 12 で割ることです。つまり、4:4:4 =12/12 =1、4:2:2 =8/12 =0.67、および 4:2:0 =6/12 =0.5 となります。簡単です!
では、画質はどうでしょうか?
カラー解像度の廃止についての話題が多いため、4:2:0 は最小限のストレージを使用して低品質のビデオ映像をキャプチャするための、ある種の簡単で汚いプロトコルであると考えたくなるかもしれませんが、4:2:0 が実際には Blu-ray などの高品質デジタル ビデオ メディアの標準であると知ると驚くかもしれません。静止写真の世界に例えると、画像を元の RAW 形式から JPEG に変換するときに実質的に大量の情報が破棄されますが、解像度が十分であれば JPEG 画像から壁サイズのプリントを作成することは可能です。
実際のところ、ほとんどの状況下では、RAW フォーマットを使用して撮影されたビデオと 4:2:0 を使用して撮影されたビデオの間に大きな違いがあるかどうかを確認するのは困難です。ピクセルを覗き見しようと決意している場合、違いは確実に存在しますが、通常は微妙であり、主にフレームが異なる色の境界の鋭いエッジによって分割されているシーンで現れます。下の画像は、ここで説明する 3 つのサブサンプリング プロトコルの比較を示しています。拡大表示では、4:2:0 と 4:2:2 のサブサンプリング アーティファクトの痕跡が確認できます。
クロマ サブサンプリング アーティファクト、Janke 提供、Wikipedia提供される映像の高品質は別として、生 (4:4:4) ビデオは編集において真価を発揮します。静止画写真のたとえに戻ると、多くのプロの写真家は、最終的に画像を JPEG などの圧縮形式で納品する場合でも、RAW で撮影します。これは、編集プロセス中に柔軟性と制御性が大幅に向上するためです。プロのビデオグラファーも同様のアプローチを採用することがよくあります。
RAW ビデオは非圧縮 (または可逆圧縮を使用) であり、すべてのピクセルでフル解像度の色が保持され、編集段階での圧縮アーティファクトの問題が回避されます。ビデオは未処理であるため、ビデオ編集者は、ホワイト バランスの設定、飛んだハイライトや暗い影の回復、カラー グレーディングの適用など、フッテージの操作と調整を非常に柔軟に行うことができます。クロマ キーの作業(たとえば、グリーン スクリーンに対して撮影)やポストプロダクションでのあらゆる種類の合成では、クロマ サブサンプリングの結果として発生する可能性のある色のにじみやギザギザのエッジなどのアーティファクトを回避するために、生のビデオの使用が不可欠です。
したがって、この記事を読んで、次にカメラのビデオ メニューにアクセスするときに、さまざまなビデオ形式のオプションに少し戸惑うことがなくなることを願っています。また、映像の保存と処理に関して、ある形式を別の形式より選択した場合にどのような結果が生じるかをよりよく理解できるようになることを願っています。