PythonとWhisperで音声や動画からSRTファイルを生成する

要約

音声文字起こし用の深層学習モデルWhisperの高速版である Faster-Whisperを使った、 字幕ファイル生成プログラム(SRT)。

実行時に出てくるダイアログで音声ファイルを選択すると、それに応じた字幕ファイルが生成される。 SRTファイルは動画編集ソフトなどに直接読み込むことができるため、動画字幕を自動生成したいときに利用できる。

Faster-Whisperのモデルを使用しているため、文字起こし精度はモデルに依存します。僕の環境だと、large-v3 のモデルを使用しても誤字が多く、字幕表示/非表示のタイミングも大きくズレているため、手動での調整が必須となっています。

ソースコード: GitHub