IT分野の製品・サービスを提供する起業前後のスタートアップを対象に、事業成長を支援するプログラム「五反田バレー アクセラレーションプログラム」。品川区内に拠点を持つ「喋ラボ」は、2021年度にこのプログラムの受講対象企業に採択されました。同社の提供する音声認識AIと動画編集を組み合わせたサービス『喋ラボEditor』とは、一体どのようなものなのでしょうか。起業のきっかけから今後の展望まで、お話を伺いました。
喋ラボ 代表・大橋功さん
2011年、シリコンバレーから帰国後に「喋ラボ」を立ち上げる。音声認識AI搭載の動画編集アプリケーション『喋ラボEditor』を開発。ほか、カスタマイズ可能な音声認識AIのクラウドプラットフォーム『喋ラボCLOUD』の開発や、音声認識エンジンの開発・運用代行など。
動画×文字起こしテキストで編集作業をスムーズに
▲『喋ラボEditor』の編集画面(画像提供:喋ラボ)
――『喋ラボEditor』とは、どういったものなのでしょうか。
音声認識AIが文字起こししたテキストデータを活用して、動画を編集できるアプリケーションです。文字起こしテキストの中から必要な箇所を選択すると、該当箇所を切り取った動画を作成できます。
動画の編集は、本来だと何度も動画を見返したりタイミングを微調整したりと労力のかかるものです。しかし、動画の音声と紐付いたテキストデータを活用することで楽に編集作業できるのが、『喋ラボEditor』の特徴です。
――確かに、テキストで全体の内容を確認しながら編集ができるとなると、作業がスムーズになりそうですね!
フィラーワード(「あー」や「えーと」など、間を持たせるために発される不要な発言)の削除も簡単にできますよ。テキスト内から自動でフィラーワードを検出しカットするのと同時に、動画内からも該当部分が削除されます。
また、逆に動画に使用したい箇所を複数選択すると、その部分だけを繋ぎ合わせた動画をつくれます。この機能を使って、ハイライト動画も簡単に作成できるんです。
今の国内でよく見られている動画だと、音声認識AIによるテキストデータは動画にキャプションをつけるためだけに使われていることが多いんです。
テキストを編集に活用する観点はまだ少ないので、そこが『喋ラボEditor』の新しさかなと。
――実際にどのようなところで使われているのでしょうか?
会議やウェビナーのダイジェスト動画を作成したり、インタビュー動画を編集したりというところで活用されています。編集した動画は、YouTubeやVimeo、Slackなどへダイレクトにアップロードすることができるようになっています。
また、動画テンプレートを活用すると、すぐに見栄えのよい動画を作成することができますよ。字幕キャプションを挿入し表示位置を調整したり、ロゴや図版を埋め込むことができます。
▲『喋ラボEditor』で作成した字幕入りの動画
――普段動画を作ったことがない人でも、簡単に扱えそうですね。
社内での議事録やメモ代わりとして社内での活用することも可能です。実際、オンライン会議の議事録として活用していただいているパターンもありますね。ZoomやMicrosoft Teamsに喋ラボEditorのBotを入れてレコーディングをしておくと、会議終了後に文字起こしが自動で行われます。重要な箇所を、動画とテキストの両方で残しておけます。
シリコンバレーでディープラーニングの手法を学び、音声認識AIの開発へ
――大橋さんは以前から、ITにまつわるお仕事をされていたのですか?
もともとはベンチャー企業でプログラム制作の受託とアドテクをやっていました。学校で学んだわけではなく、プログラミングの知識に関しては、ほとんど独学なんです。
――独学から起業に至ったのですね。どうして起業を決心されたのですか?
誰かに依頼されてやる仕事ではなく、世の中に無い新しいものでビジネスモデルをつくってみたいという気持ちがありました。
実は起業の前、2011年にアメリカのシリコンバレーに移住して、しばらくそこで働いていました。IT系の新しいビジネスモデルは、多くがシリコンバレーから生まれています。なぜシリコンバレーからイノベーティブなものが誕生するのか知りたいと思ったんです。
そこでスタートアップとしての取り組みを行ったり、知り合いのスタートアップにジョインしたりして過ごしていました。
▲ サンフランシスコでのハッカソン参加時のお写真(画像提供:喋ラボ)
――ということは、シリコンバレーで働くなかで「喋ラボ」の発想を得たのでしょうか。
そうですね。AI技術に関してはアメリカで学んだんです。7〜8年前、ちょうどディープラーニングの手法が注目され始めた頃に、シリコンバレーをはじめ、アメリカ全土でディープラーニングに関する講座が数多く開催されたんですね。
音声に興味があったのと、技術の進歩に対応していきたいという思いがあり、自分も講座のひとつに参加して。本当に多くを学びました。
はじめは音声認識AI自体を開発していたのですが、せっかくならこのデータを使ってなにか新しいことができないかと考えたんです。そこで帰国後の2019年に「喋ラボ」をスタートさせました。
アイディアはまだたくさん! 『喋ラボEditor』のこれから
――『喋ラボEditor』には、まだβ版の機能もあるそうですね。
はい、現在は音声認識AI+動画編集をメインとしていますが、ここへCMSを合体させて進化させています。
先ほど、作成した動画はYouTubeなどの動画投稿サイトに自動でアップできるとお話しました。それと同時に、文字起こしのデータも動画の概要欄やSEOテキストメディアへアップできるように改良しています。動画とテキストメディアが同時に更新されるというわけです。
▲ 文字起こしデータで構成された、SEOテキストメディア
また、動画で見てみたい部分にテキストからジャンプできる「タイムスタンプ機能」も準備しています。
そのほかのユースケースとして考えているものとしては、FAQ動画の作成と管理です。社内などで講習を行った際に、活用できそうな部分を切り取って講習動画・テキストとして保管しておけるというものです。検索エンジンを実装したFAQページも合わせて提供し、実用性の高いものを目指しています。
――お話を伺っていると、ほかにも活用の方法がたくさんありそうですね。
そうなんです。可能性は様々あるので、更にブラッシュアップしていければと思います。
――五反田にはIT系のスタートアップが多いですが、五反田でなにかやってみたいことはありますか?
そうですね。僕のようにシード・アーリーステージのスタートアップ企業の方も多くいらっしゃると思うので、互いのプロダクトを導入し合って、同盟のように活動できる方がいればうれしいなと。一緒に進んでいければ刺激になりますし、プロダクトを広めるきっかけにもなると思うので、気になる方は、ぜひお声がけください!
取材・文=モリヤワオン/編集=ノオト