NEWS

画像認識でできること～AI画像認識の導入方法～

ブログ

2023.03.01

2024.07.12

#AI画像認識 #ai画像認識購入方法 #dx推進 #画像認識 #画像認識 ai #画像認識 python #画像認識アプリ #画像認識導入

「 画像認識 とは何か知りたい」
「画像認識でできることを知りたい」
「画像認識の導入方法を知りたい」

AIの活用で注目を集めている「画像認識」技術。なんとなくはわかるけど、きちんと把握できていないという方も多いのではないでしょうか？

この記事は、画像認識の導入を検討中の企業様に向け、画像認識でできること・導入の進め方について解説します。

どのAIモデル・AI技術を使用すべきかは企業様ごとに異なります。画像認識技術に詳しい開発会社への相談が得策です。

画像認識AIモデルの研究開発を行っている、ベトナムのオフショア開発会社「カオピーズ」が解説します。

1. 画像認識技術～これまでの進化～

「画像認識」は、デジタル画像に何が映っているかをコンピュータに認識させる方法です。
画像認識とは、コンピュータが画像内の文字や人物、物体、場所などの対象要素を検出・識別して、さまざまな学習機で認識・解析することで、結論を導き出せるようにする一連の技術です。
近年AI活用で急速な進化を遂げていますが、実は70年以上の歴史があります。

1940年代～　最初の画像認識「バーコード」

画像認識の原点は、1949年に発明されたバーコードにあります。1960年代から普及し、現在も商品コードや「PayPay」「d払い」などのスマホ決済で使用されています。

1990年代～　パターン検出の普及

1990年代に入ると、画像内の特定のパターンを検出する技術が普及しました。それにより、文字読み取り（OCR）・製品の破損検出システムなどが実用化されています。しかし照明の加減や手ぶれなどにより、認識精度が下がってしまう弱点がありました。

2012年～　AI画像認識

2012年になると、画像認識分野にAI（人工知能）の技術が本格的に使用されはじめました。「機械学習」「深層学習」と呼ばれる手法が取り入れられ、現在では誤認率が5％を下回るなど、人間の能力より優れた性能を発揮しています。

2. AI 画像認識【機械学習】と【深層学習】

AI 画像認識ではAIが自動的に学習を重ね、画像内に潜む特徴を抽出します。学習を重ねるごとに認識精度が向上する点が、従来の手法との大きな違いです。

AI画像認識で使用される技術は、「機械学習」と「深層学習（ディープラーニング）」の2つに大別されます。本記事では、機械学習と深層学習の大まかな違いをご説明します。

詳しい内容を知りたい方は、関連記事もあわせてお読みください。

2.1. 機械学習と深層学習の違い

機械学習
機械学習では、人間が手動でAIに判断基準を与えます。手動で設定する手間はありますが、判断の過程が明らかな「ホワイトボックス」なシステムを構築することができます。

例えば車の車種を認識させたい場合、以下のような判断基準をAIに与えます。

長方形ならバス
荷台があればトラック
それ以外は乗用車

深層学習（ディープラーニング）
深層学習では、人間はほぼ介在せずAIが自動的に判断を行います。判断の過程が外部からは確認できない「ブラックボックス」である点が、機械学習との大きな違いです。

2.2. どちらが優れているのか？

どちらも、反復学習・強化学習等により高精度の画像認識システムを構築することができます。ですので、どちらが優れている・劣っているというものではなく、AIにどう判断させたかが鍵になります。

もちろん使用されるアルゴリズムや手法は異なりますが、サービスの機能や目的に合わせ最適なものを選択することが大切です。

3. AI 画像認識でできること【物体検出】や【個数カウント】

3.1. DX促進

ビジネスにAI画像認識を導入することで、DX（デジタルトランスフォーメーション）が加速します。画像認識導入における業務改善には、以下3通りあります。

1. 業務の一部を代行
事務処理など業務の一部にAI画像認識を導入するやり方です。AI-OCR（文字認識）を使用した帳票処理の自動化などの例があります。
2. 業務の全てを代行（無人化）
AI導入により、業務の無人化も実現できます。監視カメラでの不審者自動検知などの例があります。
3. 新しいサービスの創出
インターネット上にある無数の画像を高速で解析するなど、人間の能力では不可能な処理もAI画像認識で実現できます。これにより、これまで存在しなかった新しいサービスの創出が進んでいます。

3.2. 画像認識技術5選

ここでは、現在主流となっている画像認識技術を5つご紹介します。
1. 物体検出
「人」「自転車」「車」などあらゆる物体を検出する技術です。人ごみ・渋滞している道路など、物体が重なり合うようなシーンでも個々を切り出すことができます。
2. 顔認識（顔認証）
スマホのロック解除などでも使用されている技術です。性能は年々向上しており、例え双子でも現在の顔認証システムを突破することは難しくなっています。
3. 文字認識（AI-OCR）
AI-OCRと呼ばれる技術です。従来は明朝体・ゴシックなど、決められたフォントしか認識出来ませんでしたが、AI-OCRでは手書き文字の認識も可能になりました。
※ 関連記事：活字読取OCRエンジン
※ 関連記事：AI画像認識　AI-OCRを解説 | 手書きも認識！OCRとの違いも
4. 個数カウント
前述の「物体検出」を応用した技術です。物体検出により物体の「位置」「種類」を識別したのち、種類ごとの個数をカウントします。
※ 関連記事：【カオピーズの独自技術】 AI画像認識・画像処理による個数カウントソリューション
5. 不良品検知
AI画像認識では、物体の形状・サイズ・色を識別できます。これにより、高い精度で物品の欠損・汚れ・欠陥などを検知できるようになりました。

4. 各分野でのDX事例

ここでは、AI画像認識導入によるDX化事例を5つご紹介します。
1. セキュリティ分野
これまでの監視カメラでは録画はしているものの、リアルタイムで異常を検知することはできませんでした。しかしAI画像認識導入により、以下のようなことが可能になっています。

空港での顔認証導入で、犯罪者の顔をリアルタイム検知
犯罪者の挙動を学習したAIが、万引きなどの不審行動をリアルタイム検知

2. 農業
ドローンによって上空から農地を撮影し、害虫のいる箇所にだけ農薬を散布する取り組みが行われています。これにより、農薬の使用量が大幅に削減されたケースも報告されました。
3. 製造業
AIに不良品・正規品両方のデータを学習させることで、製造業での不良品自動検知の精度が飛躍的に向上しました。
自動車部品の欠損・バリ・異物混入などの検知、商品包装の乱れや印字ズレの検出にも活用されています。
4. 医療
企業などでの検診では、何百人ものレントゲン画像の確認が必要になり、診断医に大きな負担が掛かっていました。AI画像認識により、これら大量の画像から自動でガンや腫瘍を発見することが可能になっています。
5. 交通
車や人などの物体検知により、以下のようなことが可能になりました。

歩行者や自転車の飛び出し検知
違法駐車・路上駐車の検知
高速道路での逆走車検知

5. 導入における課題

あらゆる分野での活用が可能なAI画像認識ですが、導入企業には課題も存在します。

学習させるのに時間が掛かる
物体の位置・領域などの認識処理は、一般的に「アノテーション（annotation）」と呼ばれています。「注釈」という意味で、データに対しての意味付けを指します。

正確なアノテーションを実現するには、大量のデータでAIに事前学習させる必要があります。これには多大な労力と時間を要し、導入を躊躇してしまうケースもあります。

機械学習にはGPUが必要
機械学習・深層学習では、大量のデータ解析や複雑な演算を高速で行う必要があります。そのため、学習には高性能なGPU（Graphics Processing Unit）が利用されています。

自社でこれらのリソースを確保するには初期投資が必要になり、維持管理のコストも考慮しなければなりません。

フリーソフト・市販ソフトはサービスに組み込めない
現在は、無料のAI画像認識ソフト・市販ソフトも利用できるようになりました。しかしこれらはパッケージとして完成しており、カスタマイズできないという問題があります。

6. 導入の方法【Pythonを使用した課題解決】

事前学習済みAIモデルの活用
前述の課題を解決する方法のひとつに、「事前学習済みAIモデル」の活用があります。

これは事前に学習を済ませたAIを利用することで、学習工程の負担を最小限に抑え、すみやかなサービス構築を可能にするものです。

自社のサービスと一致するAIモデルが存在しなくても心配ありません。「転移学習」という手法で、新たに追加したい特徴だけを学習させることで、高精度の画像認識が可能です。

Pythonを使用したAIモデルの開発
現在、Pythonで使用できる事前学習済みモデルが数多く公開されています。ここでは、事前学習モデルを利用できる画像認識ライブラリ3つをご紹介します。

1. TensorFlow（テンソルフロー）

開発元	Google
対応言語	Python、C/C++、Java、Go等
対応OS	Linux、macOS、Windows、iOS
特徴	顔認識・物体検知・個数カウントなどに対応。ニューラルネットワークライブラリのKerasも統合されている。

2. OpenCV

開発元	Intel
対応言語	Python、C/C++、Java等
対応OS	Linux、macOS、Windows、iOS、Android
特徴	CVは「Computer Vision」の略で、画像処理・画像解析機能が豊富なライブラリ

3. PyTorch（パイトーチ）

開発元	Facebook AI Research lab
対応言語	Python、C++等
対応OS	Linux、macOS、Windows
特徴	TensorFlowやOpenCVと比較して、コードが読みやすく使いやすいことから人気が上昇中