VELTH # Paweł Ambroży

Naciśnij Enter, aby wyszukać, lub Esc, aby zamknąć.

Czym jest multimodalne AI?

Paweł Ambroży
czym jest multimodalne ai

AI to nasza rzeczywistość. Od rekomendacji filmów, przez tłumaczenia w czasie rzeczywistym, po analizę obszernych dokumentów – sztuczna inteligencja wchodzi powoli we wszystkie aspekty naszego życia. Jednak przez długi czas AI miała pewne fundamentalne ograniczenie. Postrzegała otoczenie w sposób fragmentaryczny, jak przez dziurkę od klucza. Rozumiała tekst, ale nie widziała obrazu. Analizowała dźwięk, ale nie potrafiła połączyć go z kontekstem wizualnym. Była ekspertem, ale tylko w jednej wąskiej dziedzinie. Z tego artykułu dowiesz się, czym jest multimodalność, gdzie już zmienia nasze życie oraz jakie wyzwania stoją na drodze do pełnego potencjału tej technologii.

Poznajmy definicję multimodalności w kontekście AI

W najprostszym ujęciu, multimodalne AI to systemy sztucznej inteligencji, które są zdolne do przetwarzania i integracji wielu typów danych, zwanych modalnościami. Czym w takim razie jest modalność? Są to różne formy informacji, takie jak tekst, obraz, audio czy wideo. Dane biometryczne, takie jak tętno czy fale mózgowe, to także odrębne modalności.

Jeszcze do niedawna AI była unimodalna, czyli była wyspecjalizowana w przetwarzaniu jednego, konkretnego typu danych. Przykładem może być tutaj model GPT-3, który w swojej pierwotnej formie był mistrzem w rozumieniu i generowaniu tekstu, ale był “ślepy” i “głuchy” na wszystko inne. Multimodalna sztuczna inteligencja burzy te mury. Zmiana nastąpiła wraz z wypuszczeniem na rynek modelu GPT-4 przez OpenAI, który jako pierwszy skutecznie obsługiwał zarówno tekst, jak i obrazy.

Kluczowe cechy multimodalnego AI to:

  • Heterogeniczność, czyli każda modalność posiada swoją unikalną strukturę – tekst jest sekwencyjny, obraz przestrzenny, a audio czasowe.
  • Połączenia i interakcje, czyli modalności uzupełniają się nawzajem, np. opis tekstowy zdjęcia dodaje kontekstu, którego nie ma w samym obrazie.
  • Fuzja danych, czyli proces łączenia informacji, aby modeł mógł wyciągnąć wnioski na podstawie całości.

Dlaczego te cechy są tak ważne? Unimodalne AI jest “ślepe” na świat poza tekstem. Multimodalne AI, tworzy uniwersalny język pomiędzy modalnościami, a to otwiera drzwi do pełnego zrozumienia kontekstu.

Jak działa multimodalne AI, trochę technologicznych podstaw

Koncepcja multimodalnej AI wydaje się intuicyjna, ale jej realizacja jest niezwykle złożona. Sercem systemów multimodalnych są zaawansowane architektury sieci neuronowych, które można w uproszczeniu podzielić na trzy kluczowe etapy – kodowanie, fuzję i generowanie wyniku.

# Kodowanie modalności

Każdy typ danych musi zostać najpierw przetłumaczony na uniwersalny i zrozumiały dla maszyn język, czyli na wektory liczbowe. Na tym etapie wykorzystuje się wyspecjalizowane systemy dla każdej modalności.

  • Tekst – modele oparte na architekturze Transformer, która przetwarza słowa i zdania, aby zamienić je na wektory, które kodują ich znaczenie i kontekst gramatyczny.
  • Obrazkonwolucyjne sieci neuronowe (CNN) lub nowsze Vision Transformers (ViT) analizują obraz, rozkładając go na cechy takie jak krawędzie, tekstury i kształty, a następnie prezentują je w formie liczbowej.
  • Dźwięk – fale dźwiękowe są przekształcane w spektrogramy, które następnie mogą być analizowane przez sieci podobne do tych używanych przy obrazach.

# Fuzja, czyli łączenie strumieni

Krytyczny i najbardziej zróżnicowany etap. Gdy mamy już liczbowe reprezentacje każdej modalności, musimy je inteligentnie połączyć. Istnieje kilka strategii fuzji:

  • Fuzja wczesna (Early Fusion), która polega na prostym połączeniu (sklejeniu) wektorów z różnych modalności i przekazaniu ich do jednej, wspólnej sieci neuronowej, która dalej przetwarza je razem. Jest to podejście proste, ale niestety nie zawsze efektywne, gdyż zakłada, że relacje między modalnościami można znaleźć na bardzo niskim poziomie abstrakcji.
  • Fuzja późna (Late Fusion), gdzie każda modalność jest przetwarzana przez osobną, głęboką sieć neuronową aż do samego końca. Dopiero ostateczne wyniki (predykcje) z każdej ścieżki są łączone w celu podjęcia finalnej decyzji. Dzięki takiemu podejściu otrzymujemy niezależną analizę każdej modalności, ale może gubić subtelne interakcje między nimi.
  • Fuzja hybrydowa, pośrednia (Hybrid/Intermediate Fusion), jest uważana za najlepsze rozwiązanie, ponieważ zakłada wielokrotne, stopniowe łączenie informacji na różnych poziomach przetwarzania. Specjalne mechanizmy, takie jak cross-attention, pozwalają jednemu strumieniowi danych “zwracać uwagę” na najważniejsze fragmenty w drugim strumieniu. Na przykład, analizując zdanie “chłopiec w czerwonej czapce kopie piłkę”, mechanizm uwagi może skupić ścieżkę tekstową na słowie “czerwonej”, jednocześnie kierując ścieżkę wizualną na odpowiedni kolorystycznie fragment obrazu.

# Generowanie wyniku (dekodowanie)

Połączona, multimodalna reprezentacja jest wreszcie wykorzystywana do wykonania konkretnego zadania. Może to być wygenerowanie odpowiedzi tekstowej (np. opisu obrazu), podjęcie decyzji klasyfikacyjnej (np. “czy ten film zawiera pozytywne emocje?”) lub stworzenie zupełnie nowej modalności (np. wygenerowanie obrazu na podstawie tekstu, jak w przypadku DALL-E czy Midjourney).

Zastosowanie multimodalnej AI

Przejdźmy od razu do konkretnych zastosowań tej technologii:

  • analiza obrazów medycznych w diagnozowaniu chorób,
  • monitorowanie stanu pacjentów w szpitalu,
  • bezpieczeństwo i inteligentny monitoring w domu lub firmie,
  • doskonalenie możliwości poznawczych robotów w przemyśle,
  • wsparcie sektora finansowego w ocenie ryzyka i wykrywania oszustw,
  • wsparcie nauczania poprzez adaptacyjne uczenie się.

Wdrożenie systemów multimodalnych może przynieść wiele korzyści, które już dzisiaj przesuwają granicę możliwości wykorzystania sztucznej inteligencji. Od głębszego zrozumienia kontekstu, przez większą dokładność i niezawodność w podejmowaniu decyzji, a kończąc na innowacyjnych rozwiązania, które jeszcze pewnie przed nami. Przyszedł czas na wyzwania, które stoją na drodze rozwoju.

Wyzwania i ograniczenia multimodalnej sztucznej inteligencji

Pomimo ogromnego postępu jaki dokonał się w ostatnich latach, to droga do stworzenia prawdziwie płynnie działających i wszechobecnych systemów multimodalnych jest wciąż pełna wyzwań. Architektury modeli multimodalnych są znacznie bardziej skomplikowane niż ich unimodalnych odpowiedników. Kolejnym wyzwaniem jest skuteczność danych, na których AI jest trenowana, a patrząc na zapowiedzi UE dot. AI, to widać, że droga będzie bardzo wyboista.

Firmy nie będą mogły trenować AI na nielegalnych, pirackich materiałach i będą musiały respektować żądania pisarzy i artystów, którzy nie chcą, by ich dzieła trafiały do zbiorów danych. Jeśli AI wygeneruje materiały naruszające prawa autorskie, kodeks postępowania będzie wymagał, aby firmy posiadały procedury umożliwiające rozwiązanie takiej sytuacji.

https://businessinsider.com.pl/technologie/nowe-technologie/ue-publikuje-kodeks-ai-to-bedzie-zakazane/34y9n7l

Problemem mogą okazać się także koszty obliczeniowe, bo trenowanie największych modeli nadal pochłania ogromne ilości mocy obliczeniowej, co przekłada się na realne koszty finansowe i środowiskowe (ślad węglowy). Jak zawsze w takich przypadkach, tracą na tym mniejsze firmy i ośrodki badawcze.

Czy przyszłość jest multimodalna?

Słaby ze mnie wróżbita, ale nietrudno dojść do wniosku, że multimodalność będzie standardem, a nie wyjątkiem w świecie AI. Kierunki rozwoju są niezwykle obiecujące. Wielu badaczy uważa, że multimodalność jest kluczowym krokiem na drodze do AGI (Artificial General Intelligence), o której pisałem na blogu kilka dni temu. Zdolność do uczenia się i rozumowania na podstawie różnorodnych danych sensorycznych jest fundamentalną cechą ludzkiej inteligencji, a jej odtworzenie w maszynach wydaje się niezbędne do osiągnięcia tego celu.

5/5
Udostępnij:
Skopiowano adres URL!