会議や講義などの内容を録音した音声ファイルを聞き返しながら文字にする文字起こしは、とにかく大変な作業です。業種にもよると思いますが、文字起こしで苦労している人は少なくないのではないでしょうか。しかし、AI(人工知能)の音声認識機能による最新の文字起こしサービスを使えば、はるかに時間と労力を節約できます。今回は無料で使える文字起こしサービスを紹介したいと思います。
音声ファイルから文字起こしをする機会がある人は、最新の文字起こしサービスを使ってみよう
音声ファイル内の発話/会話の内容を、テキスト化するのが文字起こしです。
以前は、自分で音声を聞きながら手書きや手入力をするか、専門業者に依頼するしかありませんでした。しかし、AIの音声認識技術の進化により、今ではスマホやタブレット、PCを使ってこの文字起こしを手軽に自動化できるようになりました。
AIによる文字起こしサービスで提供される機能には、リアルタイムの会話の文字起こし、録音/録画データからの文字起こし、言語の翻訳などがあります。
サービスによって提供される機能は異なり、月間で利用できる時間や対応言語もさまざま。それらに合わせて、料金も無料から企業向けの月額30,000円以上するものまで、いろいろなサービスが提供されています。
時間と労力を節約できる便利な文字起こしサービスですが、注意点もあります。それは、精度が100%ではない、という点です。録音の状態によっても左右され、文字起こしの後の確認と必要に応じた修正作業は必要になります。それでも、自分で文字起こしすることを考えると、作業効率は格段にアップします。
以下では、個人でも利用できる2つの文字起こしサービスを紹介します。
LINEのAIテクノロジーブランドである「LINE CLOVA」の新サービスとして提供されているのが「CLOVA Note」です。現在、ベータサービスとして提供されていて、誰でも無料で利用できます。
スマホアプリで録音するか、録音済みの音声ファイルをスマホ、タブレット、PCからアップロードするだけで、文字起こしができます。録音の時間は1回180分までですが、ベータサービス期間中は無制限に利用できます。
音声ファイルのアップロードは、月間300分まで。「サービス向上のための音声ファイル収集の同意について」に同意すると、月間600分まで利用できるようになります。
また、アップロードできる音声ファイルは1ファイル200MBまで。対応する音声ファイル形式は、「m4a」「mp3」「aac」「amr」「wav」の5つです。
文字起こしされたデータは「ノート」として保存され、重要な箇所をハイライト表示にしたり、メモやブックマークの追加もできます。
修正が必要な時にはアプリ上で編集できますが、ダウンロードして別のアプリで修正することも可能です。録音ファイルと音声記録もダウンロードできます。
以下は、iPhoneを例に解説します。
アプリを起動したら、「ログイン」をタップしてLINEとの連携認証を許可し、LINEアカウントでログインしてください。
ログインできたら、「+」ボタンをタップ。「新しいノートを作成」画面が開くので、録音する場合は「録音」、録音済みの音声ファイルを利用する時には「ファイルアップロード」をタップします。
ここでは、「ファイルアップロード」を使ってみましょう。「ファイルアップロード」をタップすると、音声ファイルの保存場所の案内が表示されるので確認して「確認」をタップします。
「+」→「ファイルアップロード」とタップ。録音ファイル検索の案内を確認して「確認」をタップ
録音ファイル検索の案内にしたがって保存場所を開き、文字起こししたい音声ファイルをタップ。音声の種類を選び、「確認」をタップします。これで、すぐにアップロードとテキスト変換が実行されます。
音声ファイルをタップし、音声の種類を選択して「確認」をタップするとアップロードとテキスト変換が実行される
今回、テレビ電話によるインタビューをiPhoneで録音した49分の音声ファイルを使いましたが、2分弱で文字起こしは完了しました。利用者がまだ少ないことがあるかもしれませんが、変換スピードは速いと言えるでしょう。
文字起こしが完了すると、音声ファイルのファイル名をタイトルとする「ノート」が作成されます。
複数人が混在する場合、参加者ごとに「参加者1」「参加者2」.....と表示され、話者を識別していることがわかります。
「ノート」が作成され、参加者別に変換されたテキストが表示される
実際に使ってみて、文字起こしの精度は高いと感じました。おおよその感覚ですが、80%程度ではないかと思います。しかし、誤認識はどうしてもあるので、修正は必要になります。
修正が必要な時は、画面右上の鉛筆アイコンをタップ。「音声記録の編集」画面になるので、修正したい部分をタップして修正しましょう。
この時、テキストを選択してキーボードの上にある「再生」ボタンをタップすると、その部分の音声を聞くことができます。修正が終わったら、「保存」をタップします。
「ノート」の画面右上にある鉛筆アイコンをタップして修正を行う。該当部分だけを再生することも可能だ
テキストを長押しすることで、さまざまな機能を利用できます。「ハイライト」は、テキストの指定部分をハイライト表示し、「メモ」や「ブックマーク」を追加することも可能です。
テキストの長押しでショートカットメニューを表示。ここから、さまざまな機能を実行できる
画面右上の「検索」ボタンでは、テキストの検索が可能です。必要な箇所を素早く探せる、便利な機能です。
検索ボタンをタップすると検索ボックスが表示されるので、キーワードを入力して「検索」キーをタップ。キーワード部分がハイライト表示され、画面下部両端のボタンで、キーワードを含むテキスト部を上/下方向へジャンプさせることが可能です。
「検索」ボタンをタップし、キーワードを入力して「検索」キーをタップ。これでキーワードがハイライト表示された該当部分にジャンプする
音声記録や音声ファイルのダウンロードは、画面右上の縦三点ボタンをタップ。メニューが表示されるので、実行したい項目をタップします。
このメニューから、音声記録や音声ファイルのダウンロードなどを実行する
LINE CLOVA Note(ベータサービス)
●メーカー:LINE●利用料金:無料●詳細情報:https://clovanote.line.me●対応言語:日本語、英語、韓国語●対応機器:スマートフォン、タブレット、PC(Webブラウザー)
●アプリの入手先
iOS:https://apps.apple.com/jp/app/line-clova-note/id1587855223
Android:https://play.google.com/store/apps/details?id=com.linecorp.clova.note&hl=ja
「オートメモ」は、ソースネクストが販売するAIボイスレコーダーです。本来は、このボイスレコーダーで録音した音声から文字起こしを行います。
しかし現在、無料キャンペーンとして期間限定(終了日は未定)で、文字起こし機能の「AutoMemo 文字起こしサービス」を無料で公開しています。ただし、無料期間中は1ファイル7時間、1日あたり10時間まで、という制限があります。
使い方は、PCのWebブラウザーから音声/録画ファイルをアップロード。文字起こしした結果は、スマホのアプリで確認します。
対象は、録音した音声のほか、「Zoom」や「Teams」などのWeb会議システムで録画したファイルにも対応します。
対応ファイル形式は、以下の通りです。
対応ファイル形式
・音声ファイル:.mp3、.wav、.aac、.m4a、.flac、.aif、.aiff、.3gp
・動画ファイル:.mp4、.avi、.mov、.m4v、.hevc、.mxf
PCのWebブラウザーで「https://automemo.com/file/」を開き、「オートメモについて」をクリック。メニューの「文字起こしサービス」をクリックします。
「オートメモについて」→「文字起こしサービス」とクリック
「文字起こしサービス」のページが開いたら、「今すぐ使ってみる」をクリックします。
「今すぐ使ってみる」をクリック
「ログイン」ページが表示されるので、「利用規約」と「プライバシーポリシー」をそれぞれクリックして目を通し、チェックを入れます。
次に、「Apple ID」か「Google ID」でログインします。iPhoneユーザーは「Apple ID」、Androidユーザーは「Google ID」をクリックし、以降の案内にしたがってログインしてください。
「Apple ID」または「Google ID」でログインする
ログインできたら、「テキスト化したい音声ファイルを追加してください」と表示されます。音声ファイルを、画面左側のボックスに直接ドラッグ&ドロップして追加しましょう。
しばらくすると、音声ファイル名の先頭にチェックマークが付き、「テキスト化を実行」ボタンが押せるようになるのでクリックします。
音声ファイルをドラッグ&ドロップで追加し、「テキスト化を実行」ボタンをクリック
テキスト化が始まり、下のページが表示されます。このページからQRコードを読み込んで、iPhoneユーザーは「App Store」、Androidユーザーは「Google Play」からアプリを入手できます。
QRコードを読み込んでアプリを入手できる
文字起こしされたテキストは、スマホアプリで確認します。以下は、iPhoneを使って操作を紹介します。
アプリを起動したら、「はじめる」をタップ。次の「利用規約・プライバシーポリシー」に目を通して「同意する」をタップしましょう。
プランの選択画面が表示されるので、ここでは「ファイル・テキスト化サービスをご利用の方はこちら」をタップしてください。
利用するアカウントの選択画面になったら、PCと同じアカウントで同様にログインしましょう。
「ファイル・テキスト化サービスをご利用の方はこちら」を選択してログインする
ログインできたら、PCからアップロードした音声ファイルを文字起こししたテキストが表示されます。
今回、49分の音声ファイルを使いましたが、こちらも2分程度で文字起こしは完了しました。録音時間の3分の1程度の時間がかかるという案内があったのですが、文字起こしにかかる時間は短いものでした。
文字起こしが完了すると、テキストデータが表示される
画面左上にある横三本線ボタンをタップするとテキストデータを「メール転送」したり、テキストと音声データをクラウドに保存する「クラウド連携」が利用できます。
対応するクラウドサービスは、「Dropbox」「Google Drive」「OneDrive」の3サービスです。「端末追加」は、AIボイスレコーダーの「オートメモ」のことなので、無料サービスでは利用できません。
メニューから「メール転送」や「クラウド連携」を利用できる
テキストデータをタップすると、文字起こしの結果が表示されます。
認識の精度は、こちらも80%程度といった印象です。おおよその内容はわかるものの、細かい用語などは修正する必要があります。また、参加者を個別に認識する機能はありません。
テキスト部をタップすると青色マーカーが付き、再生位置がその部分にジャンプしますので、該当箇所を聞き返すことができるのは便利です。
認識精度は80%程度で、誤認識の部分は聞き返しながら修正する必要がある
ただし、アプリ内でテキストを修正する機能はありません。修正をする場合は、共有機能を使ってメールなどで送信し、スマホやPC上で行うことになります。
操作は、画面右上の縦三点ボタンをタップ。開くメニューから「共有」をタップすると、メールやメッセージで送信することができます。
縦三点ボタン→「共有」とタップ。共有メニューが表示されるので、メール、メッセージ、LINEなどで送信する
検索で、キーワードの該当部分を表示する機能もあります。
縦三点ボタンからメニューを開き、「検索」をタップ。検索ボックスが表示されるので、キーワードを入力して「検索」キーをタップします。
これで該当部分にジャンプし、テキストがハイライト表示されます。検索ボックス右側のボタンで、上/下方向にキーワードをジャンプすることも可能です。
検索機能を使うと、目的の会話部分を素早く探せる
もうひとつ、便利機能として「マーク追加」があります。これは、重要な会話部分などにマークを付けておき、後から素早く該当箇所を表示するための機能です。
使い方は、マークを付けたい会話部分を表示して、縦三点ボタン→「マーク追加」をタップ。これで、該当部分のテキストデータ内にオレンジ色のマークがついて分割され、同時に再生スライダー上にもオレンジ色のマークが付きます。
再生スライダー上のマークをタップすれば、該当箇所を表示できます。
縦三点ボタン→「マーク一覧」から、マークを付けた部分を一覧表示でき、タップで該当部分を表示することも可能です。一覧のテキストを左方向にスワイプすると、削除ができます。
縦三点ボタン→「マーク追加」で、テキスト内と再生スライダー上にマークが付く。テキスト内のマークを直接長押しし、マークを削除する方法もある
AutoMemo 文字起こしサービス
●メーカー:ソースネクスト●利用料金:期間限定で無料(終了日未定)●詳細情報:https://automemo.com/file/●対応言語:日本語、英語、中国語など72言語●対応機器:PC(Webブラウザー)/アップロード、スマートフォン/テキストファイルの確認・管理●アプリの入手先
iOS:https://apps.apple.com/jp/app/automemo-オートメモ-専用公式アプリ/id1530516066?l=en
Android:https://play.google.com/store/apps/details?id=com.sourcenext.automemo&hl=ja
今回、取材の録音データのほか、過去に録音していた音声ファイルをいくつか使って認識精度を試してみました。
取材の録音データは、背景ノイズがない静かな環境のものなので、精度が高くなったと思います。ただし、専門用語や同音異義語などの誤変換はあり、録音を聞き返して修正する必要はありました。
いっぽう、ノイズの多い会話は精度が下がり、方言を多く含む親族の会話は、かなり精度が落ちました。複数人が同時に発話している部分は、さらにわからなくなります。
このように、認識精度は録音の状態によって大きく左右されます。また、録音状態がよくても、精度は80%程度です。
ただそれでも、文字起こしサービスは、かなり便利なサービスだと思います。筆者は取材時の録音音声を自分で文字起こしする場合、1時間の取材なら2時間以上を要します。
それが、文字起こしサービスを使えば半分以下の時間で済みますし、修正だけなら労力もかなり軽減できます。企業における会議の議事録作成やインタビューの原稿作成、参加した講義の記録などに活用してみてはいかがでしょうか。
パソコンからモバイルまで、ハード&ソフトのわかりやすい操作解説を心がける。趣味は山登りにクルマという、アウトドア志向のIT系フリーライター。