今回はディープラーニングを用いたオートセグメンテーションを行い、複数物体の検出・分類に取り組みました。
概要
オートセグメンテーションとは
オートセグメンテーション(Auto-Segmentation)は、画像処理とコンピュータビジョンの分野において、画像内のオブジェクトや領域を自動的に識別して分割する技術です。具体的には、画像をピクセル単位で解析し、それぞれのピクセルがどのオブジェクトや領域に属するかを判断して、その結果をもとに画像を複数のセグメント(部分)に分割します。
背景と目的
近年、AI・画像処理技術の進歩により、オートセグメンテーションの需要が高まっています。特に、製造業や医療分野などでは、高精度なオブジェクト検出とセグメンテーションが求められています。しかし、複数の物体を検出する際、検出率が低下する問題が発生します。これにより、重要なオブジェクトが見逃されるリスクが高まります。
本ブログでは、ディープラーニングを用いたオートセグメンテーションの手法を紹介し、その効果と課題について考察します。
手法
本研究では、畳み込みニューラルネットワーク(CNN)を用いてオートセグメンテーションを実現します。詳しくはこちらのブログに記載しています。
流れとしては、6種類のトランプを1枚の画像として撮像したものを入力し、入力された画像内のトランプを種類ごとに検出・分類ができるかを検証します。
データセットの準備
まず、Detectron2を用いてデータセットを準備します。Detectron2は、Facebook AI Researchによって開発されたライブラリで、高性能なオブジェクト検出とセグメンテーションを可能にします。
また、トランプのそれぞれの角度とトップビューのそれぞれ17画像をモデルとして追加します。
次に、転移学習を利用することで、既存のモデルを再訓練し、特定のタスクに適応させます。転移学習とはディープラーニングの一種であり、簡単に説明すると、猫の特徴を事前学習したモデルに犬を検出させる出力層を合体させたものです。
検出・分類
画像内にあるトランプを検出し、トランプ1枚ずつをクラス分類していきます。この時、トランプは重なりがなくバラバラな状態と、重なりがある画像を取得しておきます。
評価手法
モデルの評価には、360枚の画像内のオブジェクト2160の正分類と誤分類を算出し、クラスごとの分類精度を評価します。
さらに分類モデルとしての分類精度を確かめるため、以下の指標で判断します。
precision:正と予測したものが、どれだけ正しかったか
recall:実際に正であったもののうち、どれだけ正と予測できたか
f1-score:precisionとrecallの調和平均
Accuracy:正答率
結果と評価
結果
トレーニングを通じて得られたモデルは、高精度なオートセグメンテーションを実現しました。結果からはDetectron2の検出・分類がうまくいっていることがわかります。(chatGPTはおまけ)
評価
提案手法の評価では、画像内のオブジェクト数から、分類できたオブジェクト数と分類できなかったオブジェクト数になります。
画像数 | オブジェクト数 | 正分類 | 誤分類 |
360 | 2160 | 1854 | 306 |
クラスごとの分類精度を確認します。
全てのクラスで99%の分類精度でした。
課題
しかしながら、いくつかの課題も明らかになりました。例えば、光の変化や一部のオブジェクトの重なりに対する対応が不十分であることが確認されました。これらの課題に対しては、さらなるモデルの改良が必要です。
まとめ
ディープラーニングを用いたオートセグメンテーションは、高精度かつ効率的な画像処理技術として注目されています。本研究では、CNNを用いた手法を紹介し、その効果を示しました。今後は、3次元オブジェクトの複数オブジェクトの検出に取り組み、オートセグメンテーションの精度とAIの適用範囲を広げていきます。
iCOM技研の取り組み
iCOM技研はSIer事業を行っており、協働ロボットシステムの導入を行っています。弊社は、協働ロボットの販売からソフトウェア開発、ロボットスクールまで行っています
今回は協働ロボットシステムにAIを組み込むため、オートセグメンテーションによる複数オブジェクトの検出と・分類を行いました。今後の方針としては、ティーチングレス化された協働ロボットシステムを開発し、製造業の人材不足を解消する製品を生み出していく予定です。