GoogleSpeechAPI

2018-10-02 08:10:24

 学生が卒業研究で音声認識APIを使いたいというので、サンプルソースを作りました。Android端末から利用する形なのですが、Googleのサンプルがかなり分かりづらい感じでした。まあ、いつものことと言えばいつものことです。


 音声はいったん録音してそれを文字に変換する流れのサンプルを作っていたら、Googleが受け付けてくれる音声フォーマットにかなりの制限があることが分かりました。バランスを考えた結果awbフォーマットを使用しました。あまり聞き慣れないフォーマットですが、携帯電話の音声通話で利用されているようです。

 軽く試してみた感じでは、認識能力はそれなりに高いです。しかし問題がありました。その後、学生がGoogleDocsの方の機能を使えば、無料で文字おこしができると言いだし、私のサンプルの意味が無くなりました。

 GoogleDocsのAPIはSpreadSheetなんかと比べると、まだ公で使える機能では無いようなのですが、使っているアプリは存在しています。ただ情報は無いに等しいです。