AI音声入力アプリ surasura をリリースしました

デスクトップ向けAI音声入力アプリ「surasura」をリリースしました。macOS・Windowsに対応しており、どなたでも無料でお使いいただけます。

この記事では、surasuraを作った背景と、アプリでできることをご紹介します。

なぜ作ったのか

私たちのチームでは、以前から音声入力を日常的な業務に取り入れていました。キーボードで打つよりも、話したほうが早い場面は想像以上に多くあります。議事録の下書き、チャットの返信、ドキュメントの初稿作成など、「とにかくテキストにする」作業は音声のほうが圧倒的に速い。音声入力は、キーボードの代替になりうる次世代のインターフェースだと考えています。

一方で、既存の音声入力ツールにはいくつかの課題がありました。AquaVoiceやSuperWhisperといった優れたツールは存在しますが、サービスに依存するリスクや、サブスクリプション料金の積み重ねが気になっていました。自分たちが毎日使うツールだからこそ、自分たちでコントロールできる形にしたい。かかるコストはOpenAI APIの利用料だけにしたい。そういった思いから、自社で開発することにしました。

「surasura」という名前は、「キーボードよりもスラスラ文字入力できる」という体験を目指してつけたものです。

surasuraでできること

surasuraは、OpenAIのWhisper APIで音声を認識し、GPTがテキストを整形してくれるアプリです。単なる音声の文字起こしではなく、「音声をトリガーにしてAIに作業をさせる」という思想で設計しています。

技術的には、Electron + React + TypeScript + tRPCで構成されたデスクトップアプリケーションです。

Push to Talkモード

ショートカットキーを押している間だけ録音するモードです。短い文章の入力やチャットの返信など、サッと話してサッと入力したい場面に向いています。

ハンズフリーモード

録音の開始と終了をキー操作で切り替えるモードです。長文のドキュメント作成や議事録など、まとまった量のテキストを一気に話したいときに使います。

辞書機能

固有名詞や専門用語をあらかじめ登録しておくことで、認識精度を向上させることができます。社内用語や製品名など、一般的な辞書にない言葉を扱う業務では特に効果的です。

カスタマイズ性

ショートカットキーの完全なカスタマイズに対応しています。また、用途に応じたプリセットをユーザー自身で作成できるため、業務内容に合わせた使い分けが可能です。

surasuraの特徴

完全無料・オープンソース

surasuraはオープンソースソフトウェアとして公開しています。アプリ自体は無料で、ユーザーデータを外部に転送することもありません。利用にあたってかかるのは、OpenAI APIの利用料のみです。中間マージンは一切発生しません。

エンジニア以外の方にも

surasuraは、エンジニアだけを対象としたツールではありません。事務作業でテキスト入力が多い方、文章を書く機会が多い方、あるいはキーボード入力があまり得意ではない方にも使っていただけるよう設計しています。

使ってみる

surasuraの詳細やダウンロードは、以下のリンクからご確認ください。

開発の背景や技術的な詳細については、noteの記事でより詳しくまとめています。興味のある方はぜひご覧ください。

surasura 開発背景（note）

おわりに

音声入力は、まだ多くの人にとって「たまに使うもの」かもしれません。しかし、AIによる整形と組み合わせることで、日常のテキスト入力を根本から変えるポテンシャルがあると私たちは考えています。

surasuraがその一歩目になれば幸いです。フィードバックやご要望は、Discordコミュニティやお問い合わせフォームからお気軽にお寄せください。