Watson Speech to text customization_idの適用方法

Watson Speech to text customization_idの適用方法

今回、新たにWatsonの音声認識(Speech to text)の精度を向上させるためのシステムをAI interfaceに組み込んだため、ご紹介させていただきます。

customization_idとは

customization_idとはWatson Speech to textを利用する際に音声認識の精度を大幅に高めることができる機能のことです。

音声認識

以下3点を追加していくことで音声認識の精度を高めていくことができます。

  • word
  • display_as
  • sounds_like

上記の内容については、AI interfaceのコンソール(管理画面)から設定が可能です。
それぞれの項目の意味や、AI interfaceでの設定方法について、今からご紹介します。

それぞれの項目について

※有料プランのみで利用が可能です。

customization_idは現在のAI interfaceのバージョンでは、Watson Speech to textをAI interfaceコンソールに登録した時点で作成されます。そちらの画面は以下のようなものです。

それでは、画像の赤枠内にあるそれぞれのボタンやUIの意味について、順番に説明していきたいと思います。

base_model_name

カスタム言語モデルを作成するにあたって、元となる言語の設定モデルです。
デフォルトで日本語の設定になっています。

status

「言語を追加する」、「言語を保存する」、「トレーニングする」ボタンを押し、リロードすることでstatusは変わります。

statusには以下の4つの種類があります。

  • pending(待機中)
  • ready(追加、保存、トレーニング可能な状態)
  • training(モデルトレーニング中)
  • available(customization_idが適用されます)

word

ここには、音声認識の精度を向上させたい言葉を登録します。
1つの項目に対して、1つの言葉のみ設定できます。

また、設定はアルファベットまたはカタカナで行います。半角スペースやひらがな、漢字は認識できないため注意してください。

display_as

wordで登録した言葉をディスプレイのテキストとして表示したい文字を入力します。

sounds_like

音声から文字に変換する際に、Watsonが間違えやすい単語を設定する項目です。ここに設定する文字によって、音声認識の精度が大きく変わります。
この項目は、カタカナのみ入力可能で、言葉は半角のコンマ(,)で区切ります。最大5つの言葉を登録することができます。

例えば、上記の画像では、「RAKUDO」という言葉(word)を人間が話した際に、customization_idの設定を行なっていない場合は、「落語」や「学童」などと認識されてしまいます。そこで、このsounds_likeに「ガクド,ガクドウ,ガクドー,ラクゴ」など、誤認識されやすい音を登録しておきます。それにより、「RAKUDO」という単語の認識の精度が向上します。

AI interfaceの設定方法

「言葉を追加する」ボタンをクリックし、音声認識の精度を向上させてい単語について、「word」、「display_as」、「sounds_like」の項目を設定します。
それぞれの項目に入力する内容は上述した通りです。

3つの項目を入力し、「言葉を保存する」ボタンを押しリロードすると、statasがpendingからreadyになります。

statasがreadyになったことを確認し、「トレーニングする」ボタンを押し、リロードします。すると、statasがtrainingに変わります。
最後に、再度リロードすると、statasがavailableになります。

statasがavailableになったことを確認し、一番下の「保存する」ボタンを押してください。
これでAI interfaceの音声認識の精度向上に関する設定は完了です。

※リロードしてもstatasが変わらない場合は再度リロードしてください。

おわりに

音声認識の精度が向上することで、よりスムーズに会話を行うことができるようになります。
うまく読み取られない単語や、会社名や独自の単語、よく使う単語などはそれぞれ設定するとより使いやすいものになるのではないでしょうか。

ぜひご自身でお試しください。
また、わからないことがあればお気軽にご相談ください。


▼お問い合わせはこちら

▼LINE@でも受け付け中です

ーーーーーーーーーーーーーーーーーーーーーーーー
『名古屋の3D × IT企業 株式会社RAKUDO』
●AIと人のつながりを作るプラットフォーム「AI interface」
●3Dプリンターや3DCAD設計 ●AI、アプリ(Web, iOS, Android)開発
特に...3DとIT技術を組み合わせたソリューションが強み!
①最新3D技術ソフトであるCGとIT技術であるゲームエンジンを組み合わせたVR、ARコンテンツ
②3DCADでデータを作成し、それを3Dプリンターで出力。ハードウェアにPythonでプログラムしたラズベリーパイを搭載するIoTソリューション など...
ーーーーーーーーーーーーーーーーーーーーーーーー
AI interface 株式会社RAKUDO、100年後の働き方を創る

AI interfaceカテゴリの最新記事