要約
音声文字起こし用の深層学習モデルWhisperの高速版である Faster-Whisperを使った、 字幕ファイル生成プログラム(SRT)。
実行時に出てくるダイアログで音声ファイルを選択すると、 それに応じた字幕ファイルが生成される。 SRTファイルは動画編集ソフトなどに直接読み込むことができるため、 動画字幕を自動生成したいときに利用できる。
注意点
Faster-Whisperのモデルを使用しているため、
文字起こし精度はモデルに依存します。
僕の環境だと、large-v3 のモデルを使用しても誤字が多く、
字幕表示/非表示のタイミングも大きくズレているため、手動での調整が必須となっています。