Sztuczna inteligencja w systemach wizyjnych

23 lipca 2018

Zastosowanie sztucznej inteligencji (AI) w rozwiązaniach widzenia maszynowego przypomina myślenie zbliżone do ludzkiego, a to dzięki wykorzystaniu współczesnych technik uczenia głębokiego (ang. deep learning) i innych funkcji wzorowanych na mechanizmach uczenia się ludzkiego mózgu.

Kiedy w latach 50. pojawiła się koncepcja myślących maszyn, niedługo później ukazały się alarmistyczne ostrzeżenia o zagrożeniach płynących ze strony sztucznej inteligencji.

Od tamtej pory w popkulturze nieustannie rozwija się strach przed buntem ma-

szyn, począwszy od kultowego filmu „Odyseja Kosmiczna 2001” aż do filmu „Ex Machina”.

Mimo że AI nie opanowała jeszcze świata, to postęp w magazynowaniu danych i mocy obliczeniowych umożliwia rozwój takich systemów badawczych, jak superkomputer Watson firmy IBM, przeznaczony do usprawnienia podejmowania decyzji. Większość aktualnych zadań sztucznej inteligencji jest skoncentrowana jednak na skromniejszych funkcjach, takich jak między innymi rozpoznawanie obiektów.

Zastosowanie AI w obszarze wizji maszynowej umożliwi realizację rozwiązań przewyższających znacznie dzisiejsze możliwości techniczne. Ale czy technologia ta jest już gotowa na zastosowania przemysłowe?

Prace badawcze

Możliwość zastosowania AI w technologii wizji maszynowej zależy od powiązań z uczeniem maszynowym, a nawet z uczeniem głębokim.

W najszerszym rozumieniu AI jest możliwością komputerowej symulacji ludzkiej inteligencji. Idąc dalej, uczenie maszynowe daje komputerom możliwość działania bez dedykowanego oprogramowania. Głębokie uczenie, jako element uczenia maszynowego, umożliwia natomiast komputerom uczenie się na przykładach.

Szereg odkryć z dziedziny głębokiego uczenia, poczynionych w ostatniej dekadzie, umożliwiło praktyczne zastosowanie tej technologii, wychodzące poza teoretyczne rozważania dotyczące uczenia maszynowego. – Bazując na nowych technologiach sieci neuronowych, dostatecznej mocy obliczeniowej kart graficznych GPU (Graphics Processing Unit) oraz odpowiedniej ilości danych, dopiero teraz możemy użyć AI do przetwarzania obrazu – mówi Olivier Despont, dyrektor rozwoju szwajcarskiej firmy ViDi System, oferującej oprogramowanie do przetwarzania obrazu oparte na głębokim uczeniu.

Głębokie uczenie stwarza znacznie więcej możliwości niż typowe uczenie maszynowe, ponieważ w przeciwieństwie do tradycyjnych technologii nie realizuje podejścia opartego na regułach. – AI jest następnym krokiem rozwoju, w którym bierzemy pod uwagę rzeczy niezbyt dobrze opisane lub całkiem nieliniowe, wkładamy je do naszej maszyny i otrzymujemy produkt o powtarzalności na niespotykaną dotąd skalę – mówi Wallace Latimer, dyrektor sprzedaży systemów optycznych firmy FISBA LLC. – Podczas gdy algorytmy liniowe tworzą bardzo ograniczony zbiór rozwiązań, sztuczna inteligencja i uczenie głębokie kreują ich większą rozmaitość, stwarzając całe mnóstwo wariacji – dodaje Latimer. – To istotnie rozszerza zakres akceptacji tego, co jest dobre, a co złe, i dlaczego jest dobre lub złe. Mając większą różnorodność rozwiązań, można wybrać takie, które gwarantuje najlepsze rozwiązanie problemu i najlepiej odzwierciedla rzeczywistość – konkluduje Latimer.

Na rynku dostępny jest przynajmniej jeden system głębokiego uczenia dla wizji maszynowej. Rozwiązanie o nazwie ViDi Suite firmy ViDi System jest pierwszym komercyjnie dostępnym oprogramowaniem do analizy obrazu opartym na technologii głębokiego uczenia.

Oprogramowanie integrujące standardowe biblioteki przetwarzania obrazu realizuje proces uczenia zbliżony do tego, jak odbywa się to w przypadku uczenia dzieci. – Aby wyjaśnić dziecku, czym jest dom, nie wykorzystujemy metody opartej na regułach – mówi Despont. – Bazując na kilku przykładach, nasz mózg nawet w najmłodszym wieku jest w stanie określić, co oznacza słowo „dom”.

ViDi Suite składa się z trzech różnych narzędzi. ViDi Blue znajduje i identyfikuje pojedyncze lub wielorakie cechy obiektu na obrazie. Narzędzie lokalizuje i identyfikuje kompleksowe cechy i obiekty poprzez naukę obrazów opatrzonych komentarzami. ViDi Red identyfikuje anomalie poprzez naukę poprawnych obrazów wraz z ich wariacjami. Narzędzie to rozdziela również specyficzne obszary obrazu. ViDi Green uczy się klasyfikować obiekty, bazując na zbiorze oznaczonych obrazów.

Inną zaletą głębokiego uczenia się w stosunku do tradycyjnego uczenia maszynowego jest ograniczenie czasu stworzenia stosownego oprogramowania. – W przypadku klasycznych rozwiązań wizyjnych opracowanie odpowiedniego oprogramowania zajmuje co najmniej 60 dni – mówi Despont. – ViDi może opracować swoje rozwiązanie w ciągu połowy dnia roboczego.

W przeciwieństwie do systemów AI, które wykorzystują całe farmy serwerów do realizacji dedykowanych aplikacji opracowanych przez Facebook, Google i IBM, ViDi używa pojedynczej zaawansowanej karty graficznej NVIDIA GPU. Jak deklarują twórcy systemu, zaprogramowanie i parametryzacja systemu oraz przeprowadzenie jego stosownego uczenia przy wykorzystaniu komputera Watson IBM zajmuje raczej minuty niż dni czy miesiące.

– Zamiast użycia milionów czy miliardów obrazów rekomendujemy rozpocząć proces uczenia od wykorzystania 30 do 50 reprezentatywnych obrazów – mówi Despont. – Nie wysyłamy przy tym obrazów do serwerów u chmurze. Klienci cenią sobie fakt, że cały proces można przeprowadzić na jednym komputerze PC z jedną kartą graficzną GPU i w dodatku zachować wykorzystane obrazy do swojego wyłącznego użytku.

Perspektywy

Technologia głębokiego uczenia stwarza dużo możliwości w aplikacjach trudnych do realizacji za pomocą tradycyjnych narzędzi systemów wizyjnych. – AI jest szczególnie odpowiednia w inspekcji produkcji spożywczej, na przykład kontroli jakości pączków lub wielkości porcji mięsa, które wykazują dużą zmienność kształtu i innych cech – mówi Bruno Menard, dyrektor ds. oprogramowania w firmie Teledyne Dalsa.

Ale nie tylko kontrola jakości produktów organicznych może być usprawniona. Jako inny przykład Menard przytacza aplikacje do wykrywania braków. – Niezwykle trudno zaprogramować komputer realizujący tradycyjne algorytmy definiujące defekty, nie mogąc wprowadzić poprawek opisujących nowe defekty. Ale używając AI, przy zastosowaniu odpowiednio dużej liczby przykładów można zrealizować oprogramowanie, które z całkiem dobrym przybliżeniem określi, co stanowi dobry wyrób, a co nie.

Ponieważ AI wchodzi w dziedzinę wizji maszynowej, to technologia ta znajdzie zapewne zastosowanie w różnych działaniach kontrolnych, a możliwe też, że i poza obszarem automatyki przemysłowej. Według Latimera głębokie uczenie może być wykorzystane w takich obszarach rynku, jak medycyna, biotechnologia, przemysł spożywczy czy kontrola autentyczności.

– W wielu tych obszarach występują niejednoznaczne sytuacje wymagające trudnych decyzji – mówi Latimer. – Czy to jabłko jest dostatecznie dobre, czy nie? Trudno to rozstrzygnąć, stosując metody liniowe. Głębokie uczenie pomoże wielu aplikacjom stać się bardziej efektywnymi, a wyniki – bardziej powtarzalnymi.

Olivier Despont przewiduje, że głębokie uczenie obejmie obszar diagnostyki medycznej, nadzoru, pojazdów autonomicznych, ale także inteligentne rolnictwo czy analizę map. – AI jest technologią przyszłości i będzie wspierać ludzi w niezwykle szybkim rozwiązywaniu skomplikowanych problemów, jako że moce obliczeniowe komputerów podwajają się co około półtora roku – pognozuje Despont.

Wielu specjalistów z dziedziny wizji maszynowej widzi zalety zastosowania AI i głębokiego uczenia w obszarze systemów wizyjnych, ale jak twierdzą, pełne wykorzystanie potencjału AI będzie możliwe dopiero za trzy do pięciu lat. Co więcej, AI nie jest rozwiązaniem wszystkich problemów, z którymi borykają sie tradycyjne technologie wizyjne.

Bruno Menard zauważa dwa mankamenty systemów sztucznej inteligencji. Po pierwsze – aby osiągnąć niespotykany dziś poziom sortowania danych, niezbędne jest bardzo intensywne uczenie systemu. Drugi problem może pojawić się wówczas, gdy pomimo intensywnego uczenia sortowanie danych zawiedzie. Naprawa tej sytuacji jest wręcz niemożliwa, a powtórne uczenie systemu z nowymi wzorcami pozostanie nieskuteczne.

Zanim sztuczna inteligencja upowszechni się w technologiach widzenia maszynowego, zdaniem specjalistów w przemyśle muszą nastąpić bardziej znaczące zmiany. – Z perspektywy naszego niszowego segmentu rynku możemy niestety tylko przyglądać się temu, jak światowi giganci wykorzystują technologię sztucznej inteligencji w ogromnych inwestycjach i modernizacjach – podkreśla Latimer.

– Naszej branży [przemysłowych systemów wizyjnych – przyp. red.] nie stać, niestety, na zainwestowanie dostatecznej ilości czasu i pieniędzy w rozwój AI. Siłą rzeczy zatem musimy płynąć na fali światowych trendów w tej dziedzinie.

Winn Hardin jest redaktorem współpracującym AIA, będącej częścią Association for Advancing Automation (A3).