みなさんはすでに、ペットの自動給餌機や、玄関の自動ロックや、ロボットなどを作っているかも知れない。どれも楽しいMakerプロジェクトだ。しかし、これまではそこに1つのものが欠けていた。ちょっとした知性だ。もし、自動給餌機が、ネズミではなくネコに餌をやるよう自分で判断できれば、または、両手に荷物を持っていても、あなたの顔を見ただけで玄関のドアの鍵を開けてくれたら、どうだろう? もちろん、ロボットと会話ができたらと誰でも思う。AIは、楽しいプロジェクトをもっとすごくしてくれる。そんなAIのパワーをプロジェクトに与えてくれる3つのキットを紹介しよう。
「Kristineの誕生日プレゼントを買うのを忘れないよう、5月8日に教えて」「はい、5月8日の朝8時に通知します」
AIY Voice
Google AIY Voiceの心臓部は、Voice Hatだ。Hatとは、Raspberry Pi用のアドオンボードのこと。これには音声処理機能は搭載されていない。音声処理は、Googleのクラウド(またはAmazon Alexaのような別のサービス)で行うことになっている。このHatには、スピーカーを鳴らすための高性能なアンプが搭載され、またステレオマイクに対応するためのドーターボードも付属している。
オリジナルのVoice HatはフルサイズのRaspberry Piに対応しているので、サーボを簡単に接続できるスペースがあり、その他の高電流(最大500mA)のデバイスをドライブすることも可能だ。これにより簡単に、音声でコントロールできる機器に何らかの機能を加えたり、物理的なインターフェイスを接続したりできる。新しいバージョンはRaspberry Pi Zero対応になったため、ちょっと制約ができたが、今度はRaspberry Pi Zeroも付属しているので、別にRaspberry Piを購入する手間がなくなった。
「79.82パーセント、フジ(リンゴ)。カテゴリー:食べられるフルーツ。20.80パーセント、オレンジ。カテゴリー:食べられるフルーツ」
AIY Vision
Voice kitと同じく、AIY VisionキットもRaspberry Pi Zeroのアドオンボードだ。こちらには大きな押しボタンが付いている。また、付属のVisionBonnetボードは、クラウドを使わなくても高度な画像処理がオンボードでできる優れものだ。このボードにはIntel Movidius MA2450視覚チップが搭載されている。またキットには、Raspberry Pi Cameraモジュールも含まれている。
MA2450は、携帯電話のような低電力環境での使用を想定して作られているので、Piの、カメラからライブ動画ストリームで送られてくる大量のデータの処理を補助し、小さな体ながら、顔やいろいろな物の識別を瞬時に行ってくれる。
Googleのデモプログラムでは、顔、表情、犬や猫などのオブジェクトを認識するようあらかじめトレーニングされたモデルが提供される。自分のオリジナルのモデルをトレーニングすることも可能だが、それはこのキット上では行えない。モデルを作るには、GoogleのTensorFlowのような深層学習環境に飛び込まなければならない。大量の画像を使って、それが何なのかを分類するプロセスは、この小さなデバイスでは大変な時間がかかってしまって現実的ではないからだ。しかし、それでも生の画像を処理する能力は高く、高価なコンピューターやグラフィックボードを使わなくても、反応の素早い視覚ベースのインターフェイスを作るなど便利に応用することができる。
Pi Zeroのフォームファクターの関係で、Voice Hatには余分なピンがない。とは言え、I/Oピンが4つと、電源とグランドが1つずつ備わっているので、入出力を接続できる。ダンボールのケースは何度か開け閉めを繰り返して組み直すうちにダメになってくるので、もっと頑丈なケースを作るとよいだろう。
Matrix Voice
Matrix Voiceは、今回紹介する3つの中でも、もっとも高性能なもので、8チャンネルのマイクアレイと音声処理用のチップを搭載している。これはMtrix Labsの2つめのボード。以前からあったのは、より高価で完全な機能を搭載したMatrix Creatorだ。
MatrixのボードにはFPGAが使われていて、8チャンネル・マイクアレイからの生の音声入力を処理し、ノイズキャンセリングやビーム形成といった仕事を行う。FPGAは、数多くの必要な音声アルゴリズムで対応するよう、Mtrixによってすでにプログラムされているが、自由にいじることもできる。AIY Viiceキットと同様、音声認識や、ユーザーの言葉を使用可能なコマンドに変換する自然言語処理などは、GoogleやAmazonなどのクラウドサービスを使って処理されることになっている。
Matrix Voiceは、AIY Voiceに比べて、ちょっとだけ機能が多い。スピーカー出力とヘッドホン・ジャック、LEDリングを備え、I/Oピンも多い。ESP32チップを搭載したバージョンなら、Raspberry Piがあってもなくても、独立して使える。
Matrix Labsは、これらのボードをIoTデバイスやアプリのためのプラットフォームの一部と考えているため、他の人のアプリを自分のMatrixと接続したRaspberry Piに簡単に追加できるよう、責任を持って対応している。
• • •
Google AssistantやAmazon Alexaなどのボイスアシスタントを、AIY VoiceまたはMatrix Voiceで使うためには、サービス側で、ちょっとばかり複雑な設定を行わなければならない。作ろうとしているアプリに関する質問に答え、デバイス、アプリ、別のクラウドサービスを接続するためのトークンと認証情報を作る必要がある。この手続きの方法は文書で解説されているが、簡単とは言えない。
さらに、Raspberry Piの側でもハードウェアの設定、開発環境とサンプルのインストールを行う必要がある。なかなかスムーズに行かないときは、LinuxとRaspberry Pi環境の知識が役に立つ。
これら3つのボードの最大の利点は、入力された生の音声や映像の前処理にある。音声ボードの場合は、Google AssistantやAmazon Alexaのようなクラウドサービスの多くの機能にRaspberry Piからアクセスできる。さあ、次のプロジェクトを、ちょっとだけスマートにしてみてはどうだろう。
[原文]