Sztuczną inteligencję można zastosować w niezliczonych dziedzinach, a jedną z najbardziej kontrowersyjnych jest manipulacja wideo. Te zmanipulowane klipy, znane jako deepfake, stanowią wyzwanie dla dużych platform społecznościowych, takich jak Facebook, ponieważ stale się poprawiają i stają się trudniejsze do wykrycia. Dowodem na to jest nowa sztuczna inteligencja SenseTimegigant technologiczny z Hongkongu, który jest zdolny do tworzenia realistycznych podróbek.

Krótko mówiąc, sztuczna inteligencja wykrywa elementy, takie jak ekspresja, geometria i ułożenie twarzy w każdej klatce filmu. Później autorzy artykułu wyjaśniają: „powtarzająca się sieć jest wprowadzana do przetłumacz źródło dźwięku na parametry ekspresji które są związane z treścią audio. „Te parametry ekspresji są używane do syntezy” fotorealistycznego człowieka „w każdej klatce wideo” z ruchem ust precyzyjnie odwzorowanym na źródłowym dźwięku. “

Na co to się przekłada? W tym sensie, że wygenerowane wideo naśladuje mimikę, która jest interpretowana z oryginalnego klipu audio, ale z poszanowaniem pozy i cech twarzy obiektu, w wyniku czego powstaje realistyczny film co, jak udało się zweryfikować autorom badania, jest trudne do wykrycia dla użytkowników gołym okiem.

Mapowanie wideo przy użyciu dźwięku jako źródła

The metodologia śledzony przez badaczy jest stosunkowo prosty. Na powyższym obrazku widać schemat, który można podsumować w trzech krokach:

  • Zarejestruj się Parametryczny model twarzy 3D który obejmuje, jak powiedzieliśmy, geometrię twarzy, pozę i parametry ekspresji w każdej klatce filmu.
  • Sieć tłumaczeń audio na ekspresję „uczy się” mapowanie źródła dźwięku w celu zastosowania parametrów ekspresji. W tym celu stosuje się Audio ID-Removing Network, co służy wyeliminowaniu problemów związanych z dużymi różnicami podczas korzystania z audio od różnych osób. Jest to ważne, ponieważ kilka dostępnych zestawów danych wideo obejmuje różne tematy, każdy z własnym akcentem i tonem.
  • Wreszcie wiem generuje zrestrukturyzowaną siatkę twarzy 3D, wykorzystując punkty orientacyjne okolicy ust w każdej ramce. Innymi słowy, twarz generowana przez sztuczną inteligencję porusza twarzą i ustami, symulując, że mówi to, co zostało powiedziane w oryginalnym dźwięku, co sprawia, że ​​wideo jest fotorealistyczne.
  • Innymi słowy, sztuczna inteligencja SenseTime może zabrać klip każdemu i spraw, by powiedział cokolwiek, szanując wyraz twarzy i ruchy obiektu, ale stosując wyraz twarzy wyodrębniony z klipu audio. To zabawne, że sztuczna inteligencja działa nawet w różnych pozach. W minucie 2:36 wideo pod tymi liniami możesz zobaczyć przykład. Wyniki są bardzo realistyczne, do tego stopnia, że ​​sztuczna inteligencja może sprawić, że osoba zacznie śpiewać (3:26 na poniższym filmie).

    W powyższym filmie pokazano kilka przykładów i szczegóły tekstury twarzy, zębów, ruchu warg, zmarszczki mimiczne, a nawet wgłębienia. Model oczywiście nie jest doskonały, ponieważ nie jest w stanie imitować emocji ani oszacować uczuć wyrażonych w klipie audio, który jest używany jako źródło, zbiera jedynie związane z nimi mimiki.

    W ten sam sposób ignorowany jest język, co oznacza, że ​​niektóre fonemy, takie jak „z” (którego wymowa wymaga wkładania języka między zęby) nie są emulowane w sposób naturalny. Wreszcie naukowcy podkreślają, że model zwykle daje gorsze wyniki, gdy oryginalny klip audio jest mocno zaakcentowany. Podają przykład osoby mówiącej po angielsku z rosyjskim akcentem, której klip audio nie do końca synchronizuje się z siatką 3D zsyntetyzowaną przez sztuczną inteligencję.

    W tym GIF-ie wygenerowany film mówi „wyniki wiele do jednego” i można zobaczyć, jak gesty ust i twarzy idealnie pasują do oryginalnego dźwięku. Możesz dosłownie czytać z ust obiektu, aby wiedzieć, co mówi – VentureBeat

    Tak czy inaczej, klipy zostały ocenione, pokazując je zespołowi 100 wolontariuszy, którzy musieli zaznaczyć, czy film jest prawdziwy, czy został zsyntetyzowany. W sumie było 168 filmów, w połowie fałszywych, w połowie prawdziwych, a wynik był taki Filmy wygenerowane przez sztuczną inteligencję zostały oznaczone jako prawdziwe 55% przypadków, podczas gdy prawdziwe filmy były oznaczane jako takie w 70,1% przypadków.

    To ciekawy projekt, który można wykorzystać, jak twierdzą badacze, „do zaawansowanej edycji wideo”. Zdają sobie jednak również sprawę, że może być „niewłaściwie używany lub nadużywany” do różnych celów, takie jak manipulacja mediami lub rozpowszechnianie złośliwej propagandy. Właśnie z tego powodu, stwierdzają, „stanowczo bronimy i wspieramy wszystkie środki ochronne przeciwko tym praktykom wyzysku” oraz „z zadowoleniem przyjmujemy uchwalenie i stosowanie przepisów, które wymagają, aby wszystkie edytowane filmy były wyraźnie oznaczone jako takie”.