Sztuczna inteligencja i jej wpływ na widzenie maszynowe

Obecnie kilka firm pracuje nad rozwiązaniami sztucznej inteligencji (ang. artificial intelligence, AI) dla przemysłowych systemów wizyjnych, które pozwolą na to, aby maszyny wyposażone w AI myślały w sposób bardziej zbliżony do ludzi poprzez wykorzystanie technik głębokiego uczenia (ang. deep learning) oraz innych funkcji, które ludzie wykorzystują do rozwijania swoich mózgów.

Gdy w latach 50-tych XX wieku pojawiła się koncepcja “myślących maszyn” to wkrótce potem nastąpiły alarmujące ostrzeżenia na temat tej nowej dziedziny sztucznej inteligencji (AI). Od tego czasu strach przed buntem maszyn odgrywa rolę w kulturze masowej, od ikonicznego filmu z 1968 r “Odyseja kosmiczna” (A Space Odyssey) do bardziej bliższego naszym czasom Ex Machina.

Podczas gdy technologia AI jeszcze nie przejęła kontroli nad społeczeństwem, to postęp techniczny w przechowywaniu danych i mocy obliczeniowej procesorów umożliwił powstanie systemów kognitywnych, takich jak wykorzystanych w superkomputerze Watson firmy IBM, które są zaprojektowane do przejęcia od ludzi procesów podejmowania decyzji. Jednak najnowsze iteracje AI zajmują się skromniejszymi zadaniami, takimi jak rozpoznawanie obiektów.

Wygląda na to, że sztuczna inteligencja umożliwi technologii widzenia maszynowego (systemów wizyjnych, wizji przemysłowej, ang. machine vision) podjęcie wyzwań od wymagających aplikacji, wykraczających poza możliwości dzisiejszych rozwiązań. Ale czy technologia ta jest gotowa na “godziny największej oglądalności” w aplikacjach przemysłowych?

Badanie gruntu pod wdrożenie AI

Możliwość zastosowania AI w technologii widzenia maszynowego opiera się na związanych ze sobą dziedzinach uczenia maszynowego (samouczenia się maszyn, ang. machine learning) oraz w większym stopniu głębokiego uczenia. W swoim najszerszym zakresie sztuczna inteligencja jest zdolnością komputera do symulacji inteligencji człowieka. Zagłębiając się dalej w ten temat, uczenie maszynowe daje komputerom zdolność do działania bez programowania ich przez człowieka. Głębokie uczenie, podkategoria uczenia maszynowego, umożliwia komputerom samouczenie się na podstawie własnego doświadczenia.

W ciągu ostatniej dekady kilka etapów postępu technologicznego uczyniło głębokie uczenie rzeczywistością, a nie tylko możliwością, dla widzenia maszynowego. “Na bazie nowych technik w sieciach neuronowych, wystarczającej mocy obliczeniowej procesorów graficznych (GPU), oraz obfitości danych, dopiero teraz możemy wykorzystać sztuczną inteligencję do przetwarzania obrazów” powiedział Olivier Despont, menedżer d/s rozwoju w szwajcarskiej firmie ViDi, produkującej oprogramowanie dla widzenia maszynowego, bazujące na technologii głębokiego uczenia.

Głębokie uczenie rokuje nadzieję w porównaniu do tradycyjnego widzenia maszynowego, ponieważ w odróżnieniu od tradycyjnego oprogramowania do przetwarzania obrazów, które wykorzystuje podejście oparte na regułach, “AI jest następnym krokiem, w którym zajmujemy się rzeczami, które nie są łatwo scharakteryzowane lub są nieliniowe i dajemy je maszynom, aby stworzyć następny poziom powtarzalności”, powiedział Wallace Latimer, dyrektor d/s sprzedaży systemów optycznych produkowanych na zamówienie klientów w firmie FISBA LLC. “Podczas gdy algorytmy liniowe tworzą bardzo wąskie gardło, to technologia AI/głębokiego uczenia tworzy szersze gardła, które mogą akceptować więcej odmian” kontynuował Latimer. “Technologia ta rozszerza pasmo akceptacji tego, co jest dobre lub złe i dlaczego jest to dobre lub złe. Posiadając większą przepustowość można skupić się na tym, co oferuje największe pasmo i zredukować zmiany na wejściach”.

Obecnie na rynku widzenia maszynowego istnieje przynajmniej jeden system głębokiego uczenia. ViDi Suite firmy ViDi Systems jest pierwszym dostępnym w handlu oprogramowaniem do przemysłowej analizy obrazów, opartym na technologii głębokiego uczenia. Oprogramowanie to, które integruje się ze standardowymi bibliotekami przetwarzania obrazów, uczy się tak jak dziecko.

“Nie uczy się dziecka stosując podejście oparte na regułach, poprzez wyjaśnianie czym jest np. dom”, powiedział Despont. “Na podstawie kilku przykładów nasze mózgi, nawet w młodym wieku, potrafią wyodrębnić te informacje, które tworzą dom. Nasz system działa dokładnie tak samo, jak ludzki mózg”.

Oprogramowanie ViDi Suite składa się z trzech różnych narzędzi. ViDi Blue (narzędzie niebieskie) odnajduje i wykrywa pojedyncze lub wielorakie cechy w obrazach. Narzędzie to lokalizuje i identyfikuje złożone cechy i obiekty poprzez uczenie się od obrazów zaopatrzonych przypisami. ViDi Red (narzędzie czerwone) wykrywa anomalie poprzez uczenie się normalnego wyglądu obiektu wraz z jego odmianami. Ponadto narzędzie czerwone segmentuje specyficzne regiony w obrazach. ViDi Green (narzędzie zielone) uczy się oddzielać różne klasy obrazów na podstawie zbioru oznakowanych obrazów, aby sklasyfikować obiekt. 

Poza nowymi rozwiązaniami widzenia maszynowego, które mogą obsługiwać większe odmiany produktów, istnieje jeszcze jedna zaleta technologii głębokiego uczenia w stosunku do tradycyjnych rozwiązań widzenia maszynowego – może ona redukować czas potrzebny na opracowanie programu do obsługi widzenia maszynowego. “Przy klasycznym podejściu do widzenia maszynowego wiele aplikacji wymaga ponad 60 dni na opracowanie i wdrożenie oprogramowania” powiedział Despont. “W przypadku ViDi możliwe jest kompletne opracowanie w ciągu pół dnia”.

Według Desponta, w odróżnieniu od systemów AI stosowanych przez Facebooka, Google oraz IBM, które wykorzystują farmy serwerów do uruchamiania ich oprogramowania, ViDi wykorzystuje pojedynczy, najpotężniejszy procesor graficzny NVIDIA do nauki swojego systemu w ciągu minut, a nie dni czy miesięcy, jak to jest w przypadku superkomputera Watson firmy IBM.

“I zamiast wykorzystywania milionów czy miliardów obrazów zalecamy rozpoczęcie nauki systemu od 30 – 50 reprezentatywnych, dobrych obrazów” powiedział Despont. “Nie wysyłamy obrazów do farmy serwerów, opartego o technologię chmury, aby zrealizować przetwarzanie czy naukę. Nasi klienci są szczęśliwi, że mogą uruchamiać program na pojedynczym komputerze typu PC z jednym procesorem graficznym i zatrzymać własność swoich obrazów,

Okazje i wyzwania

Technologia głębokiego uczenia jest szczególnie obiecująca w aplikacjach, które prezentują wyzwania dla tradycyjnych systemów wizyjnych. “Technologia AI jest naprawdę odpowiednia między innymi w kontroli żywności, gdy chcemy sprawdzić pączki czy kawałek mięsa, który wykazuje znaczną różnicę w stosunku do innych”, powiedział Bruno Ménard, menedżer oprogramowania w firmie Teledyne Dalsa.

Ale z nowej technologii skorzystają nie tylko aplikacje do kontroli produkcji ekologicznej. Jako inny przykład Ménard cytuje tradycyjne aplikacje do wykrywania wad produktów. “Trudno jest zaprogramować komputer przy pomocy tradycyjnych algorytmów, aby zdefiniować wadę produktu, bez konieczności ponownego wykonywania ustawień za każdym razem, gdy pojawi się nowa wada” mówi Ménard. “Jednak wykorzystując sztuczną inteligencję i dużą ilość próbek można stworzyć naprawdę dobrą definicję tego, co jest dobrym produktem, a co nim nie jest”.

Ponieważ sztuczna inteligencja wkracza do widzenia maszynowego, to technologia ta znajdzie zastosowanie w realizacji dodatkowych inspekcji i w końcu wyjdzie poza świat automatyki przemysłowej. Według Latimera głębokie uczenie przyniesie korzyści w takich dziedzinach, jak medycyna, biologia, produkcja żywności, wykrywanie podróbek i klasyfikacja tarcicy.

“Są to obszary, które posiadają bardzo nieprecyzyjne kryteria decyzyjne”, powiedział Latimer. “Czy to jabłko jest wystarczająco dobre, czy nie? Trudno jest stworzyć regułę liniową, aby powiedzieć, że to jabłko jest dobre. Głębokie uczenie powinno umożliwić wielu aplikacjom stanie się bardziej wydajnymi i powtarzalnymi”.

Ze swojej strony Olivier Despont z ViDi Systems przewiduje, że technologia głębokiego uczenia obejmie diagnostykę medyczną, monitoring obiektów, pojazdy autonomiczne i inteligentne rolnictwo, gdzie znajdzie zastosowanie w kontroli wyników badań czy produktów, albo analizie map. “AI jest przyszłością i będzie pomagała ludziom bardzo szybko rozwiązywać niektóre złożone zadania, ponieważ moce obliczeniowe procesorów podwajają się prawie co półtora roku”, powiedział Despont.

Wielu specjalistów od widzenia maszynowego uznaje, że to, co technologie AI i głębokiego uczenia oferują dla widzenia przemysłowego jest obiecujące, jednak mówią oni, że pełny potencjał AI nie zostanie zrealizowany przez co najmniej następne 3 do 5 lat. Co więcej, AI niekoniecznie jest rozwiązaniem dla wszystkiego, co dolega tradycyjnej technologii widzenia maszynowego i przetwarzania obrazów.

Ménard zauważył dwie główne wady w systemach AI. “Po pierwsze potrzebna jest duża ilość szkolenia aby system zaczął działać i trzeba stworzyć eksperta, który osiągnie następny poziom klasyfikacji” powiedział Ménard. “Drugą wadą jest to, że gdy system zostanie przeszkolony, a klasyfikowanie nie działa, to trudno jest naprawić ten problem. Nie ma innego wyboru, trzeba wykonać ponowne szkolenie z nową próbką”.

Eksperci przemysłowi uważają, że zanim sztuczna inteligencja stanie się standardem w widzeniu maszynowym, to przemysł będzie musiał dopuścić więcej dużych graczy, aby wykonali najcięższą część pracy. “Z naszego segmentu niszowego obserwujemy jak Google wprowadza tę technologię na niewiarygodne poziomy inwestycji i wyrafinowania” powiedział Latimer. “Nasz przemysł nie może inwestować czasu i pieniędzy na taką skalę, jaka jest niezbędna. Będziemy musieli wpłynąć na to”.

Autor: Winn Hardin redaktor współpracujący, stowarzyszenie AIA