REC

動画撮影・制作・編集、機材メンテナンスのヒント

WTVID >> ビデオ制作ガイド > >> ビデオ >> 音楽とオーディオ

トップの無料 Speech-to-Text API:Google Cloud、Azure、Speechmatics、AssemblyAI、AWS Transcribe

今日のデジタル環境では、正確な音声転写はコンテンツ作成者、教育者、企業にとっても同様に不可欠です。良いニュースとしては、いくつかのクラウドプロバイダが音声認識サービスの無料枠を提供しているため、開発者は前払い費用なしでプロトタイプの作成とテストを行うことができます。

パート 1. 今すぐ試せる無料の Speech-to-Text API

以下では、主要な無料製品を比較し、その長所、制限、理想的な使用例をまとめます。各プロバイダの無料枠は、小規模なプロジェクトや迅速な実験に十分な量です。

<オル>

Google Cloud Speech-to-Text API

トップの無料 Speech-to-Text API:Google Cloud、Azure、Speechmatics、AssemblyAI、AWS Transcribe

毎月 60 分間の文字起こしが無料。新規ユーザーは 12 か月間 300 ドルのクレジットを受け取ります。
音声コントロール、通話、ビデオに特化したモデルにより、125 の言語と方言をサポート
高度なモデル適応により、カスタム語彙やノイズの多い音声の精度が向上します。
無料枠では 60 分に制限されます。大規模なプロジェクトには有料プランが必要です
音声を Google Cloud Storage バケットにアップロードする必要があります。

時折高品質の文字起こしを必要とするフリーランサーや中小企業に最適です。

Microsoft Azure 音声サービス

トップの無料 Speech-to-Text API:Google Cloud、Azure、Speechmatics、AssemblyAI、AWS Transcribe

無料枠には、毎月 5 時間の音声と 1 つのカスタム音声モデルが含まれます。
Azure Blob Storage に保存されているファイルのリアルタイムの文字起こしとバッチ処理
カスタム語彙とオンプレミスコンテナをサポートします。
セットアップはさらに複雑です。重いワークロードの場合、無料割り当てでは十分ではない可能性があります。

すでに Azure を使用しており、業界固有の用語が必要な組織に最適です。

スピーチマティクス

トップの無料 Speech-to-Text API:Google Cloud、Azure、Speechmatics、AssemblyAI、AWS Transcribe

毎月 8 時間の無料文字起こし（バッチで 4 時間、リアルタイムで 4 時間）
50 以上の言語をサポートし、リアルタイム使用のための 1 秒未満の遅延を実現します。
自動言語検出、単語ごとのタイムスタンプ、SRT エクスポート
技術的なセットアップが必要ですが、企業での使用を目的としています。

大規模なメディアまたは顧客サービスの文字起こしパイプラインに最適です。

アセンブリAI

トップの無料 Speech-to-Text API:Google Cloud、Azure、Speechmatics、AssemblyAI、AWS Transcribe

新規ユーザーは 50 ドルのクレジットを受け取ります。には、「Best」（高精度）と「Nano」（コスト効率）の 2 つの文字起こしモードがあります。
話者ダイアリゼーション、トピック検出、感情分析、自動検閲機能
対応言語が限られており、ノイズ関連のエラーが発生することがある

複数の講演者による会議、インタビュー、ポッドキャストに最適です。

AWS 転写

トップの無料 Speech-to-Text API:Google Cloud、Azure、Speechmatics、AssemblyAI、AWS Transcribe

無料枠:最初の 1 年間は月に 1 時間の文字起こし
句読点、カスタム語彙、複数話者の識別、ライブストリーミングをサポートします。
音声は Amazon S3 に存在する必要があります。

すでに他のサービスに AWS を利用している企業に適しています。

パート 2. Speech-to-Text API の使用を開始する

ほとんどのプロバイダーは、一般的な言語で広範なドキュメントとクライアントライブラリを提供しています。以下は、他のサービスのプロセスを代表する Google Cloud のステップバイステップガイドです。

<オル>

Google Cloud プロジェクトを作成し、Speech-to-Text API を有効にする

認証用のサービスアカウントキー（JSON）を生成します。

クライアントライブラリをインストールします:pip install google-cloud-speech Python の場合。

オーディオファイルをアップロード (またはストリーミング) し、recognize() を呼び出すスクリプトを作成します。または long_running_recognize() .

応答を処理します。トランスクリプト、タイムスタンプを抽出し、必要に応じてエクスポートします。

完全なビデオチュートリアルについては、Google のクイックスタートガイドをご覧ください。 .

パート 3. Filmora を使用した非技術的な文字起こし

コーディングが苦手な方でも、Wondershare Filmora には、字幕とトランスクリプトを自動的に生成する組み込みの Speech-to-Text 機能が用意されています。英語、フランス語、スペイン語、インドネシア語、ヒンディー語、日本語などがサポートされています。

API の代わりに Filmora を使用する場合

ドラッグアンドドロップのワークフローを好む、技術者以外のユーザー
短い動画やソーシャルメディアクリップなど、迅速に対応できるプロジェクト
字幕をタイムラインに直接追加できる統合された動画編集

ステップバイステップ:Filmora での文字起こし

<オル>

Filmora を開いて新しいプロジェクトを作成し、オーディオファイルまたはビデオファイルをインポートします。

ファイルをタイムラインにドラッグして選択し、Tools > Audio > Speech to Text に移動します。 .

ソース言語を選択し、必要に応じて「翻訳なし」を設定し、出力形式（SRT）を指定します。

Generate をクリックします文字起こしが完了するまで待ちます。

生成されたテキストトラックをダブルクリックして編集し、不正確な点を修正します。

最終的な SRT ファイルをエクスポートするか、字幕を動画に直接埋め込みます。

結論

無料の音声認識 API は、文字起こしをアプリケーションに統合するためのコスト効率の高い方法を提供します。 Google Cloud、Azure、Speechmatics、AssemblyAI、AWS Transcribe はそれぞれ独自の強みを備えているため、言語サポート、カスタム語彙、既存のクラウドエコシステムに基づいて選択してください。技術者以外のユーザーや簡単なビデオプロジェクトには、Filmora の組み込み機能が手間のかからない代替手段を提供します。

AVI ファイルからオーディオを抽出:人気のツールと方法 - [年]

Google ドキュメント:簡単な音声文字起こしとテキスト読み上げ

音楽とオーディオ