• TECHNOFOBIA
  • Posts
  • Współczesny Land Grabbing | TECHNOFOBIA | Newsletter Artura Kurasińskiego

Współczesny Land Grabbing | TECHNOFOBIA | Newsletter Artura Kurasińskiego

„Land grabbing" ludzkość uprawia od zarania dziejów, natomiast w XXI wieku jest to szczególnie popularna metoda maksymalizacji zysków. Kiedyś w ten sposób pozyskiwano teren pod uprawy żywności czy „zabezpieczano" zbiorniki wodne. Obecnie to zjawisko występuję w innej formie. Dzisiaj zagarnia i wykorzystuje się olbrzymie ilości danych (bo jak wiadomo „data is the new oil").

Podmioty tworzące wielkie modele językowe nie pytały się, czy ktoś (podmiot, autor lub organizacja) zgadza się na trenowanie sztucznej inteligencji na podstawie ich danych. Brały i korzystały z nich, wychodząc z założenia, że czymś takim jak prawo czy etyka, trzeba się zacząć przejmować dopiero wtedy, kiedy będzie na to nacisk (prawny albo biznesowy).

Robią to, licząc, że „land grabbing" pozwoli na takie zagarnięcie pozycji rynkowej, że regulatorzy, którzy się pojawią i każą dostosować ich narzędzia do prawa, będą działali za wolno, a skala biznesu będzie zbyt duża, żeby go zamknąć. Mają nadzieję, że uda im się odłożyć w czasie kwestię wypracowania konsensu w tej sprawie.

Brzmi znajomo? Jasne – przecież to jest playbook znany ze „złotych czasów Doliny Krzemowej" kiedy to „move fast and break things" nokautowały państwa, rządy i prawo (polecam obejrzeć serial Superpumped o Uberze, by zobaczyć, jak dokładnie to wyglądało).

Zostańmy jednak na terenie generatywnej AI. OpenAI oraz wiele innych podmiotów są twórcami różnych modeli językowych. Nawet ci, którzy tematu nie śledzą na bieżąco, zadają sobie pytanie: skąd wzięto dane, aby je stworzyć? Otóż brali je, przeczesując Internet. Przy takiej skali danych, jakie są potrzebne do trenowania modeli, zakup nie jest opłacalny, a negocjacje prawne wstrzymałyby cały projekt na długi czas lub całkowicie go uniemożliwiły.

OpenAI nie pozwala na „zajrzenie pod maskę" swojego modelu i stwierdzenie, na podstawie jakich danych został wytrenowany. Można tylko przypuszczać, że nie wykorzystywali legalnych metod.

Oczywiście za większość funkcji pobierają opłatę, co oznacza, że developerzy, naukowcy, czy przedsiębiorstwa płacą subskrypcję za ograniczony dostęp do modelu i nie mają pojęcia, jak on działa i jaka była baza do jego szkolenia.

Alex Reisner (autor artykułu, na którym opierałem się pisząc ten wpis) wziął dataset o nazwie "The Pile / Book3" zawierający 190 tys. książek. Reisner przyporządkował numery ISBN i w ten sposób udało mu się zidentyfikować 170 tys. z nich. Kogo albo czego tam nie ma?

„Of the 170,000 titles, roughly one-third are fiction, two-thirds nonfiction. They’re from big and small publishers. To name a few examples, more than 30,000 titles are from Penguin Random House and its imprints, 14,000 from HarperCollins, 7,000 from Macmillan, 1,800 from Oxford University Press, and 600 from Verso. The collection includes fiction and nonfiction by Elena Ferrante and Rachel Cusk. It contains at least nine books by Haruki Murakami, five by Jennifer Egan, seven by Jonathan Franzen, nine by bell hooks, five by David Grann, and 33 by Margaret Atwood. Also of note: 102 pulp novels by L. Ron Hubbard, 90 books by the Young Earth creationist pastor John F. MacArthur, and multiple works of aliens-built-the-pyramids pseudo-history by Erich von Däniken".

Pozwy autorów i postaci publicznych jak Sarah Silverman, Richard Kadrey, Christopher Golden, Mona Awad czy Paul Tremblay przeciwko Meta oraz OpenAI pokazują, że skończył się czas rabowania, a zaczyna moment, w którym trzeba będzie otworzyć skarbce i pokazać, ile jest w nich skradzionych kosztowności.

PRAWA AUTORSKIE, A MODELE

A może jest opcja wykorzystywania danych chronionych prawem autorskim do trenowania modeli sztucznej inteligencji? Sprawdźmy.

Modele są trenowane na kodzie, tekście czy obrazkach. Na przykład Stable Diffusion – model text-to-image zasilany szerokim strumieniem plików – trenuje na danych pochodzących od blogów na Wordpressie, aż po obrazki z Getty Image.

Zbiór danych jest tak rozległy, że z dużą dozą prawdopodobieństwa można zakładać, że Twoje teksty czy zdjęcia się w nim znalazły i na ich podstawie jest trenowana AI (sprawdź tutaj). Ta sama zasada działa przy książkach popularnych autorów, których dzieło życia bez pytania mogło stać się pokarmem dla modeli.

Oczywiście firmy uczące modele jednogłośnie twierdzą, że ich agregacja danych jest chroniona w ramach doktryny „dozwolonego użytku", przede wszystkim w Stanach Zjednoczonych.

Zasada ta ma na celu zrównoważenie ochrony praw autorskich z promowaniem innowacji i wolności słowa.

Daniel Gervais, profesor specjalizujący się w prawie własności intelektualnej, sugeruje, że określenie „dozwolonego użytku" często koncentruje się wokół dwóch kluczowych pytań: czy wykorzystanie ma charakter transformacyjny, oferując nową perspektywę lub wartość oraz czy potencjalnie utrudnia ono pierwotnemu twórcy dostęp do rynku?

Profesor twierdzi, że wykorzystywanie materiałów chronionych prawem autorskim do szkolenia sztucznej inteligencji jest często zgodne z zasadami dozwolonego użytku. Komplikacje pojawiają się jednak gdy wyszkolona sztuczna inteligencja zaczyna generować własne treści.

Rozróżnienie tego jest kluczowe. Podczas gdy szkolenie sztucznej inteligencji z wykorzystaniem materiałów chronionych prawem autorskim może być dopuszczalne, treści, które następnie wytwarza, mogą naruszać prawa autorskie.

Jednak spójrzmy na drugą stronę medalu. Pracujesz nad dziełem swojego życia (książką, filmem lub obrazem) i ze względu na istnienie takich narzędzi nie masz żadnej gwarancji, czy ktoś nie zabierze i sprzeda Twój gotowy produkt. Oczywiście bez Twojej zgody.

Dlatego potrzebne są licencje. Taka kontrola jest częścią sposobu, w jaki autorzy zarabiają pieniądze na życie.

To tarcie na linii technologia-świat artystyczny ma również wpływ na szerokie grono biznesów. Giganci technologiczni ścigają się, by wypuścić coraz to nowsze modele sztucznej inteligencji bez spoglądania na dane, które wrzucają do swojej bazy, a generatywna sztuczna inteligencja staje się fundamentem działania wielu biznesów. Spora część z nich, nie jest świadoma, że korzystanie z promptów, które czerpią z dzieł chronionych prawami autorskimi, narusza prawo.

Częściowym rozwiązaniem może być strategia „prania danych". Stability AI, która dystrybuuje Stable Diffusion, unikają bezpośredniego zaangażowania w gromadzenie danych lub szkolenie modeli. Zamiast tego polegają na partnerstwach akademickich, licencjonując powstałe modele AI. Krytycy twierdzą, że takie podejście jest sposobem na komercjalizację korzyści przy jednoczesnym zachowaniu buforu prawnego.

Jednak tę metodę wykorzystuje mniejszość, a co zrobić z dużymi modelami, które wykorzystują dzieła autorów i odmawiają zajrzenia do środka?

Na ten moment rewolucja związana z AI ma twarz biednych pracowników w Azji lub Afryki, którzy wprowadzają dane za absurdalnie niskie stawki oraz autorów dzieł kultury, którzy zostali okradzeni ze swojej własności.

Zamysł Brukseli wprowadzenia regulacji związanych ze sztuczną inteligencją (zwane "AI Act") jest taki, że każdy model musi mieć udokumentowane i zalegalizowane dane, na których był uczony.

Obecnie tylko jeden model spełnia takie wymogi: europejski (francuski) Bloom. Inni mają mniej więcej 1,5 roku na dostosowanie się albo walkę w sądach.

Znając korporacje i duże firmy zasilane kasą od nich, te podmioty dokonają spokojnej oceny zysków i strat. Dopiero po tym podejmą decyzję co dalej. Tak właśnie wygląda współczesny „Land grabbing

Główne źródła:

Jak polskie firmy podbijają świat? (wywiad)

Krzysiek Domaradzki odpowiada na pytania Karol Kopańko dotyczące naszej książki "Startupowcy", która niebawem ukaże się już w sprzedaży.

Z wywiadu dowiesz się między innymi:

  • Dlaczego warto sięgnąć po naszą książkę?

  • Jakie historie odpuściliśmy?

  • Jak dzieliliśmy się pracą?

  • Dlaczego wybraliśmy format self-publishingu?

A jeśli interesuje Cię nasza książka, to przejdź tutaj: https://startupowcy.com.pl/

📰 Newsy Warte Twojej Uwagi

Meta poinformowała swoich pracowników, że konsekwentne nieprzestrzeganie nowo wprowadzonego obowiązku obecności w biurze przez trzy dni w tygodniu może skutkować rozwiązaniem umowy o pracę. Dyrektywa będzie egzekwowana od 5 września. W czerwcu średnia obecność pracowników wynosiła 2,2 dnia tygodniowo. Jednak pracownicy zatrudnieni na podstawie umów o pracę zdalną mogą pozostać całkowicie zdalni, pod warunkiem że ograniczą swoje wizyty w biurze do maksymalnie czterech razy w ciągu dwóch miesięcy, z wyjątkiem ważnych wydarzeń.

Nadchodzący iPhone 15 firmy Apple ma być wyposażony w USB-C i szybsze ładowanie. Nowe modele będą mogły pochwalić się prędkością ładowania do 35 W. Nie wiadomo, czy ładowanie 35 W będzie dostępne wyłącznie dla wariantów iPhone'a 15 Pro, czy też będzie dostępne w całej linii produktów. Ponadto istnieje możliwość, że nowe iPhone'y będą kompatybilne z Thunderbolt za pośrednictwem portów USB-C.

Nadchodzący produkt AI od Mety ma być rzekomo botem-koderem. To narzędzie open-source, nazwane "Code Llama", będzie oferowane bezpłatnie. Obiecuje ono oferować programistom sugestie dotyczące kodu w czasie rzeczywistym.

Pomimo rosnącego zainteresowania sztuczną inteligencją, sektor technologiczny nie odnotował gwałtownego wzrostu rekrutacji, choć potrzebni są pracownicy z nowymi umiejętnościami — właśnie związanymi z AI. Z drugiej strony, tempo redukcji zatrudnienia wydaje się zwalniać. W sferze technologicznej w tym roku zlikwidowano ponad 340 000 miejsc pracy, przewyższając około 240 000 cięć w 2022 roku. Tymczasem liczba wolnych miejsc pracy w USA spadła w czerwcu, osiągając najniższy poziom od kwietnia poprzedniego roku.