Jak strojové vidění v současné době vylepšuje automatizaci

By Jody Muelaner

Strojové vidění je soubor technologií, které automatizovaným zařízením (průmyslovým nebo jiným) umožňují dosahovat hloubkového porozumění bezprostřednímu prostředí na základě snímků. Bez softwaru pro strojové vidění by digitální snímky pro taková zařízení byly pouhými nespojenými pixelovými soubory s různými hodnotami barev a tonálními intenzitami. Strojové vidění umožňuje počítačům (typicky připojeným k ovládacím prvkům stroje) v takových snímcích detekovat hrany a tvary, ze kterých rutiny zpracování na vyšší úrovni následně identifikují předem definované objekty zájmu. Snímky v tomto smyslu nejsou nutně omezeny na fotografie ve viditelném spektru; mohou také zahrnovat snímky získané pomocí infračervených, laserových, rentgenových a ultrazvukových signálů.

Obrázek využití strojového vidění pro sofistikovanější robotické aplikaceObrázek 1: využití strojového vidění pro sofistikovanější robotické aplikace je na vzestupu. (Zdroj obrázku: John6863373 | Dreamstime.com)

Jednou docela běžnou aplikací strojového vidění v průmyslovém prostředí je identifikace konkrétního dílu v přihrádce obsahující náhodně rozloženou (neuspořádanou) kombinaci dílů. Zde může strojové vidění pomoci robotům vybrat a umístit automaticky ten správný díl. Rozpoznání takových částí pomocí zobrazovací zpětné vazby by samozřejmě bylo relativně jednoduché, pokud by na podložce byly všechny úhledně uspořádány a orientovány stejným směrem. Robustní algoritmy strojového vidění však dokáží rozpoznat objekty v různých vzdálenostech od kamery (a proto se na zobrazovacím senzoru jeví jako různé velikosti) i v různých orientacích.

Nejdokonalejší systémy strojového vidění daly novým a vznikajícím návrhům mnohem větší sofistikovanost než pouhý výběr součástí z přihrádek - nejvíce patrné jsou například u autonomních vozidel.

Obraz strojového vidění poskytuje systémům porozumět prostředí na vysoké úrovniObrázek 2: strojové vidění poskytuje systémům (průmyslovým nebo jiným) vysokou úroveň porozumění stavu prostředí z obrázků. (Zdroj obrázku: Wikimedia)

Technologie související se strojovým viděním

Pojem strojové vidění bývá někdy vyhrazen pro zavedenější a účinnější matematické metody získávání informací z obrázků. Naproti tomu pojem počítačové vidění typicky popisuje modernější a výpočetně náročnější systémy včetně koncepcí black-box využívajících strojové učení nebo umělou inteligenci (AI). Strojové vidění však může také sloužit jako univerzální pojem zahrnující všechny metody extrahování informací na vysoké úrovni z obrázků; v tomto kontextu počítačové vidění popisuje své základní funkční teorie.

Existuje mnoho technologií na extrakci vysoké úrovně významu ze snímků. V rámci výzkumné komunity jsou takové technologie často považovány za odlišné od strojového vidění. V praktickém smyslu však všechny představují různé způsoby dosažení strojového vidění… a v mnoha případech se překrývají.

Digitální zpracování obrazu je forma zpracování digitálního signálu zahrnující vylepšení, obnovu, kódování a kompresi obrazu. K výhodám oproti analogovému zpracování obrazu patří minimalizace šumu a zkreslení a také dostupnost mnohem více algoritmů. Jedním z prvních využití funkce vylepšení obrazu byla korekce prvních detailních snímků měsíčního povrchu. Zde se využívalo fotogrammetrické mapování, jakož i šumové filtry a korekce geometrických zkreslení vznikajících v důsledku vyrovnání zobrazovací kamery s měsíčním povrchem.

Obrázek integrovaného řadiče (IO) DLPC350 od společnosti Texas InstrumentsObrázek 3: integrovaný řadič (IO) DLPC350 poskytuje vstupní a výstupní spouštěcí signály pro synchronizaci zobrazených vzorů s kamerou. Pracuje s digitálními mikrozrcadlovými jednotkami (DMD) navrženými tak, aby poskytovaly 3D strojové vidění pro průmyslová, lékařská a bezpečnostní zařízení. Aplikace ve skutečnosti zahrnují 3D skenování a metrologické systémy. (Zdroj obrázku: Texas Instruments)

Vylepšení digitálního obrazu často zahrnuje zvýšení kontrastu a může také provádět geometrické korekce sledovacího úhlu a zkreslení čočky. Komprese se typicky dosahuje aproximací složitého signálu na kombinaci kosinových funkcí, tedy typ Fourierovy transformace známé jako diskrétní kosinová transformace nebo DCT. Nejoblíbenější aplikací transformace DCT je souborový formát JPEG. Obnova obrazu může také využívat Fourierovy transformace k odstranění šumu a rozmazání.

Fotogrammetrie využívá určitý druh identifikace vlastností k extrakci naměřených hodnot z obrázků. Při získání více snímků stejné scény z různých pozic mohou tyto naměřené hodnoty zahrnovat 3D informace. Nejjednodušší fotogrammetrické systémy měří vzdálenost pomocí měřítka mezi dvěma body snímku. Pro tento účel je běžně vyžadováno zahrnutí známého měřítka do obrázku.

Detekce vlastností umožňuje počítačům identifikovat hrany a rohy nebo body v obraze. Toto je nezbytný první krok pro fotogrammetrii, stejně jako identifikaci objektů a pohybu. Detekce blobů dokáže identifikovat oblasti s hranami, které jsou příliš hladké pro detekci hran nebo rohů.

Rozpoznávání vzorů slouží k identifikaci konkrétních objektů. V nejjednodušším případě to může znamenat hledání konkrétní a jasně definované mechanické části na dopravníku.

3D rekonstrukce určuje 3D podobu objektů z 2D obrázků. Toho lze dosáhnout fotogrammetrickými metodami, ve kterých se výška společných znaků (identifikovaných na snímcích z různých pozorovacích bodů) určuje triangulací. 3D rekonstrukce je také možná pomocí jediného 2D obrazu; zde software interpretuje (mimo jiné) geometrické vztahy mezi hranami nebo zastíněnými oblastmi.

Obraz 3D skenerů zachycuje 2D obrazy objektuObrázek 4: 3D skenery zachytávají 2D obrazy objektu a vytvářejí jeho 3D model. V některých případech jsou pak digitální modely použity pro 3D tisk kopií. (Zdroj obrázku: Shenzhen Creality 3D Technology Co.)

Člověk může snadno mentálně rekonstruovat krychli z jednoduchého čárového zobrazení a kouli ze stínovaného kruhu. Stínování ukazuje sklony povrchů. Proces takové dedukce je však složitější, než se zdá, protože stínování je jednorozměrný parametr, zatímco sklon je popsán dvěma rozměry. Tato situace může vést k nejednoznačnostem, což dokazuje umění zobrazující fyzicky nemožné předměty.

Obraz počítačového stanovení 3D tvaru obrobku z 2D obrazuObrázek 5: Počítačové určování 3D tvaru obrobku z 2D obrazu je plné problémů.

Způsob uspořádání úloh strojového vidění

Mnoho systémů strojového vidění postupně kombinuje výše uvedené techniky zahájením operací na nízké úrovni a následným krokovým postupem k operacím na vyšší úrovni. Na nejnižší úrovni jsou všechny pixely obrázku uchovávány jako data s velkou šířkou pásma. Potom každá operace v sekvenci identifikuje rysy obrazu a představuje relevantní informace s relativně malým množstvím dat.

Nízkoúrovňové operace vylepšení a obnovy obrazu se provádějí jako první, po nich následuje detekce funkcí. Tam, kde se používá více senzorů, lze proto nízkoúrovňové operace provádět distribuovanými procesy vyhrazenými pro jednotlivé senzory. Jakmile jsou detekovány prvky na jednotlivých snímcích, mohou proběhnout fotogrammetrická měření na vyšší úrovni – stejně jako jakákoliv identifikace objektů nebo jiné úlohy využívající kombinovaná data z více snímků a senzorů.

Přímé výpočty a algoritmy učení

A přímý výpočet v kontextu strojového vidění je soubor matematických funkcí definovaných manuálně člověkem - programátorem. Ty přijímají vstupní údaje, jako jsou hodnoty obrazových pixelů, a poskytují výstupy, jako jsou souřadnice hran objektu. Naproti tomu algoritmy učení nejsou přímo vytvořeny člověkem, ale naopak trénovány prostřednictvím vzorových datových sad spojujících vstupy s požadovanými výstupy. Plní tedy úlohu černých skříněk. Většina takového strojového učení nyní k provádění svých výpočtů využívá hloubkové učení založené na umělých neuronových sítích.

Obrázek obrazových snímačů řady iVu od společnosti Banner EngineeringObrázek 6: obrazové snímače řady iVu dokáží identifikovat obrobky podle typu, velikosti, umístění, orientace a barvy. Komponenty strojového vidění mohou přijímat konfiguraci a monitorování z integrované obrazovky, vzdáleného rozhraní člověk-stroj (HMI) nebo z počítače. Kamera, ovladač, objektiv a světlo jsou předem integrovány. (Zdroj obrázku: Banner Engineering Corp.)

Jednoduché strojové učení pro průmyslové aplikace je často spolehlivější a méně výpočetně náročné, pokud je založeno na přímém výpočtu. Samozřejmě existují limity toho, čeho lze dosáhnout přímým výpočtem. Od přímého výpočtu by například nebylo možné nikdy očekávat provádění pokročilého rozpoznávání vzorů potřebného k identifikaci osob podle obličejů - zejména z videopřenosu přeplněného veřejného prostoru. Oproti tomu strojové učení si s takovými aplikacemi obratně poradí. Je tedy zřejmé, že strojové učení je stále častěji nasazováno pro operace strojového vidění nižší úrovně, včetně vylepšení obrazu, obnovy a detekce vlastností.

Vylepšení výlových koncepcí (nikoli algoritmů)

Dozrávání technologie hloubkového učení ukázalo, že zlepšení nepotřebují samotné algoritmy učení, ale způsob, jakým jsou trénovány. Jedna taková vylepšená tréninková rutina se nazývá datově orientované počítačové vidění. Zde systém hloubkového učení přijímá velmi rozsáhlé tréninkové sady složené z tisíců, milionů nebo dokonce miliard snímků, a poté ukládá výsledné informace, které jeho algoritmy z každého snímku extrahují. Algoritmy se efektivně učí procvičováním zpracovaných příkladů a následným odkazem na „knihu odpovědí“, aby si ověřily, zda dospěly ke správným hodnotám.

Starý příběh o počátcích digitálního rozpoznávání vzorů slouží jako varovný příběh. Americká armáda měla v úmyslu použít strojové vidění pro rozpoznání cílů. Demonstrace dodavatelů obranného průmyslu pak spolehlivě identifikovaly tanky americké a ruské výroby. Na základě leteckých snímků dodavatele pak byly všechny jednotlivé tanky správně rozlišeny. Při opětovném testování s vlastní knihovnou obrázků Pentagonu však systém stále dával špatné odpovědi. Problém byl v tom, že všechny snímky dodavatele obrany zachycovaly americké tanky v pouštích a ruské tanky na zelených polích. Systém zdaleka nerozpoznal různé tanky, ale místo toho rozpoznával různobarevné pozadí. Poučení? Aby byly učební algoritmy užitečné, musí být prezentovány s pečlivě upravenými trénovacími daty.

Závěr: vize bezpečnosti robotických pracovních buněk

Strojové vidění již není specializovanou technologií. Největší nasazení zaznamenává v průmyslových aplikacích. Zde je nejdramatičtějším vývojem to, jak strojové vidění nyní doplňuje bezpečnostní systémy průmyslových závodů, které vydávají alarmy nebo zvuková hlášení, pokud zaměstnanci vstoupí do pracovní zóny bez ochranné přilby, masky nebo jiného správného ochranného vybavení. Strojové vidění může také doplňovat systémy, které oznamují nadměrné přiblížení mobilních strojů, jakými jsou vysokozdvižné vozíky k lidem.

Tyto a podobné systémy strojového vidění mohou někdy nahradit pevnou ochranu okolo průmyslových robotů a umožnit tak efektivnější operace. Mohou také nahradit nebo zlepšit bezpečnostní systémy založené na světelných závorách, které jednoduše zastaví chod strojů, pokud pracovník závodu vstoupí do pracovní buňky. Pokud strojové vidění monitoruje výrobní halu obklopující pracovní buňku, roboti v takových buňkách mohou postupně zpomalovat s přibližováním osob.

Vzhledem k tomu, že návrhy průmyslových prostředí se vyvíjejí tak, aby vyhovovaly kolaborativním robotům a dalšímu vybavení pracovních buněk, které jsou bezpečné pro pohyb personálu v provozu (i za chodu tohoto zařízení), tyto a další systémy založené na strojovém vidění se stanou mnohem běžnějšími součástmi výrobních procesů.

Disclaimer: The opinions, beliefs, and viewpoints expressed by the various authors and/or forum participants on this website do not necessarily reflect the opinions, beliefs, and viewpoints of DigiKey or official policies of DigiKey.

About this author

Image of Dr. Jody Muelaner

Jody Muelaner

Dr. Jody Muelaner is an engineer who has designed sawmills and medical devices; addressed uncertainty in aerospace manufacturing systems; and created innovative laser instruments. He has published in numerous peer-reviewed journals and government summaries … and has written technical reports for Rolls-Royce, SAE International, and Airbus. He currently leads a project to develop a e-bike detailed at betterbicycles.org. Muelaner also covers developments related to decarbonization technologies.