初エントリーのコウタです。画像認識やります。

Cloud Vision APIとは、Googleが提供している機械学習による画像認識APIです。
APIを利用することによって、画像認識や機械学習のムツカシイ部分を知らなくてもお手軽に実装できるようになっています。
しかもレスポンスもけっこう速い(体感)です。

また、今回はまだAPIが限定プレビュー版なので、コードなどはありませんが、
使ってみた雰囲気をお伝えできたらと思います。

認識できるもの

基本的には、APIに画像を含めたJSONをPOSTすると、認識できた結果が返ってきます。
認識できるものはこんな感じです。

  • ランドマーク
  • ロゴ
  • ラベル
  • テキスト
  • セーフサーチ

使い方

準備

Cloud Vision APIは、2016年2月現在では限定プレビュー版のため、申し込みをしないと使うことができません。
自分の場合ですが、申し込んでから大体1週間くらいで使えるようになりました。

Cloud Vision APIは、Google Cloud Platform上で動作するので、そちらも登録する必要があります。
GCPは、登録してから60日間は無料で使えます。

まとめるとこんな感じです。

  • Googleアカウントを取得
  • Google Cloud Platformに登録
  • Cloud Vision APIに申込み
  • APIキーを取得

やってみた

お決まりのレナさんで試します。
以下の画像をPOSTすると...

lenna

こんな感じ!ちゃんと顔のパーツまで認識されてます。
あとここでは分かりませんが、表情もレスポンスに含まれてたりします。

lenna

また、顔のパーツも例えば左目だけでも、

  • 中心点
  • 上部の境界点
  • 下部の境界点
  • 左部の境界点
  • 右部の境界点

のように細かく取得できます。

顔のパーツにスタンプ貼って遊んだり、
笑顔の写真だけを選別してアルバム作ったりなどできそうです!

ラベル

次はラベル付けを試してみます。
サルをPOSTしてみて...

monkey

以下のような結果が返ってきます。
「サル」だけじゃなく、「ニホンザル」と認識されていることにびっくりしました。  

  • japanese macaque(ニホンザル)
  • vertebrate(脊椎動物)
  • mammal(哺乳類)

たまった写真から自動でラベル付けしたアルバムを作ったりできそう...と思ったら、
Google Photosで既にやっているようでした。
Photosで学習したデータをVision APIにも活用しているかもですね。

テキスト

次はテキスト認識を試します。
これが、

fork

こう。いい感じですね。

fork

あとは以下も取得できます。  

locale description
en fork

日本語も気になるので、試してみます。
これは、

code_complete

こんな感じ。位置はけっこうざっくりです。

code_complete

だいたい認識できていますが、日本語はやはり難しいようです。

locale description
ja コードコンプリート
2完全なプログラミングを
逦브ee eeyere
目指して
Steve McConnel
(株)クイープ訳
truction
Microsoft
日経BP社
Press

おまけ

我らが4009編集長の娘さんの手紙を認識させてみました。
何だろう。すごく子どもが欲しくなりました。

love

取得結果はドイツ語。日本語って難しい。

locale description
de Coll Man

感想

画像認識というと、とても難しいイメージでしたが、その辺は何も考えずに使えます。
さらっと使った感じ、精度も高いと感じました。

次回はリアルタイムで画像認識できたらなあとぼんやり考えてます。
あとは料金がいくらかかるか、API制限がどれくらいか気になりますが、今後に期待です!

関連記事