Amazon Transcribe で日本語音声ファイルをテキスト化してみる

Amazon Transcribe を使うと「音声ファイル → テキスト」へ変換することが出来ます。この Transcribe が日本語対応したので試してみました。

サンプル¶

今回は下記にある音声サンプルファイルを利用させて頂きました (「視聴頂けます」の記載はあるものの、二次利用に関する言及が無かったので「使って良いのか？」心配ですが…)

ナレーションサンプル（ナレーター紹介）
- 渡辺直美 - サンプル3

注意点¶

入力オーディオファイルは S3 Bucket 上に配置済みの想定です。但し、「Transcribe Job と S3 Bucket のリージョンが一致していないとエラーになる」点には注意します。 S3 Bucket へ特殊な設定は不要です。

Step.1¶

AWS 管理コンソールから Amazon Transcribe へアクセスします。トップページが表示されたら Create transcription job をクリックします。

file

Step.2¶

Real-time transcription に対応しているリージョンで操作していると、トップの次に下記画面へ遷移するようです。この場合は左側のナビゲーションから Transcription jobs をクリックして次へ進みます (現時点の東京リージョンでは Real-time transcription に対応しておらず、この画面には遷移しないようです)。

file

Step.3¶

以下のような画面に遷移します。これから必要なパラメータを入力していきます。

file

Step.4¶

以下のようにパラメータを入力します。入力が終わったら画面右下の Create をクリックして次へ進みます。

項目	必須	値
Name	必須	このジョブに設定する任意の名称を入力します
Language	必須	入力オーディオファイルの言語を指定します。今回は日本語の音声ファイルを扱う為、「Japanese (Japan)」を選択します
Input file location on S3	必須	S3 上にある入力オーディオファイルのパスを入力します
Format		入力オーディオファイルの形式を mp3, mp4, wav, flac から選択します。入力を省略すると自動判別される為、通常は空欄で良いと思います
Audio sampling rate (Hz)		入力オーディオファイルのサンプリングレートを入力します。誤った値を指定するとエラーになってしまう為、敢えて入力せず、自動検出させるのがお勧めです