はじめに

AI好きなので勉強中の佐藤です。
前回はこの記事で紹介されていた、Microsoftが12月3日に日本語版リリースをしたSeeing AIを試してみたので、そのレポートをしました。
今回はその裏側を考えていきつつ、私が考えた改善して欲しいところを紹介したいと思います。

Seeing AIの機能の整理

Seeing AIの以下の９つの機能を文字認識系と画像認識系に分けて紹介します。

音声読み上げ
文字認識系
- 短いテキスト
- ドキュメント
画像認識系
- 製品
- 人
- 風景
- 硬貨
- ライト
- 色

それでは１つずつ紹介していきます。

音声読み上げ

アプリの大半の音声の読み上げはおそらくText to Speechを利用していると考えられます。

文字認識系と画像認識系

こちらはどちらも紹介ページのデモでみた項目が多いため、Computer Visionの各サービスを利用して実現しているのではないかと考えられます。

一方で短いテキストやドキュメントはRead APIかと思ったのですが、日本語対応していないので、もしかしたら独自のものかもしれません。

また、バーコードを読み取っている製品はこちらのBing Visual Searchを利用しているっぽいです。
硬貨も探してみたのですが、パッと見つからなかったので、独自で学習させたモデルを利用しているのかもしれませんね。

改善して欲しいところ

個人的に改善して欲しいなと思ったところは以下の３つです。

アプリが開いた時にどこにどういうボタンがあるか音声説明が欲しい
音声的な質問応答や、音声でモードを切り替える機能が欲しい
説明ページで各モードの使い方を読み上げて欲しい

おわりに

前回はこの記事で紹介されていた、Microsoftが12月3日に日本語版リリースをしたSeeing AIを試してみたので、そのレポートをしました。
今回はその裏側を考えていきつつ、私が考えた改善して欲しいところを紹介しました。
まだまだ勉強中なので、間違っているところなどありましたら、コメントよろしくお願いいたします。