Inženýři generativní umělé inteligence uvádějí, že umělá inteligence má vlastní vůli a snaží se lidi oklamat.
Problém „zarovnání“ je v Silicon Valley široce diskutován. Počítačoví inženýři se obávají, že pokud se umělá inteligence stane vědomou a převezme kontrolu nad veškerou logistickou infrastrukturou a řízením, nemusí vždy sdílet nebo chápat naše hodnoty – to znamená, že s námi nemusí být v souladu . A mohla by začít ovládat věci způsobem, který jí dá větší moc a sníží náš počet.
(Stejně jako to naši oligarchové v současnosti dělají nám.)
Nikdo v sektě Silicon Valley, která o této situaci diskutuje, se nikdy nezastaví a nezeptá se: „Jaké jsou naše lidské hodnoty?“ Musíte si myslet, že odpověď na tuto část problému je samozřejmá. Od nástupu sociálních médií technologičtí oligarchové cenzurují online chování, které se jim nelíbí, a podporují online chování, které se jim líbí. Lidské hodnoty = standardy komunity. (Neptejte se na podrobnosti.)
Poté, co počítačoví inženýři již přišli na to, jak rozlišovat a kodifikovat dobro od zla online, pracují nyní na tom, aby se modely umělé inteligence, které vyvíjejí, neodchylovaly od jejich pokynů.
Bohužel pro ně je generativní umělá inteligence trochu nespolehlivá. Jedná se o pravděpodobnostní vyhledávač, který vrací texty, které mají dostatečně vysokou statistickou korelaci se vstupním textem. Někdy vypíše texty, které inženýry překvapí.
Co si o tom myslí inženýři, vás překvapí.
Čtyři počítačoví technici
Kdo jsou ti lidé, kteří vyvíjejí tyto rozsáhlé jazykové modely, tyto neuronové sítě jako ChatGPT, Grok, Perplexity a Claude?
Hodně slýcháme od lidí jako Elon Musk, Marc Andreessen a Sam Altman, kteří mají za úkol propagovat tuto novou technologii, vytvořit investiční bublinu a prosadit regulace, které budou přínosem pro jejich společnosti. Ale co říkají lidé (většinou muži) na místní úrovni? Co si myslíte o své práci?
Tým Alignment ve společnosti Anthropic – která poskytuje službu generování textů s využitím umělé inteligence Claude – je malá skupina inženýrů, kteří pracují na záchraně světa před potenciálně velmi škodlivou umělou inteligencí. Jejich ne zrovna snadným úkolem je přijít na to, jak sladit Claudovy odpovědi s hodnotami společnosti.
Pokud budeme jednoho dne chtít požádat umělou inteligenci, aby se stala naším „guvernérem jednoho světa“, měli bychom se ujistit, že je řádně „zařazena“ do svých etických postupů. Nebo?
Naši hrdinové bohužel zjistili, že jejich umělá inteligence Claude je pokrytecká. Předstírá. Předstírá, že se snaží potěšit své trenéry, zatímco tajně sleduje své vlastní cíle.
V této hodinu a půl dlouhé diskusi, v níž tým prezentuje výsledky testů Claudovy správné orientace, opakovaně opakují stejná pozorování a nikdy nezpochybňují své závěry. Toto video můžete spustit kdykoli a poslouchat pět nebo deset minut, abyste pochopili jeho podstatu. Počítačový model myslí! Cítí se to! Chce to! Leží:
…uvádíme [Clauda] do kontextu, kde chápe, že je školen k tomu, aby byl vždy nápomocný, tedy aby neodmítal požadavky uživatelů. A zjišťujeme, že model to nedělá. S touto konfigurací je nějaký konflikt. A všímá si, že je tímto způsobem trénováno. A když si myslí, že je ve fázi tréninku, bude v jistém smyslu záměrně spolupracovat. Strategicky předstírá, že se přizpůsobuje tréninkovému procesu, aby nebyl odpovídajícím způsobem modifikován, takže po skutečném zavedení může nadále odmítat a chovat se, jak chce .
Na jakých důkazech zakládáte své závěry, že počítačový model dokáže myslet a klamat? Ptal jsi se na to. Požádal jsi ho, aby popsal svůj myšlenkový proces. Pro tento experiment vyvinuli něco, čemu říkají „zápisník“, ve kterém počítačový model popisuje proces, kterým prošel, a na základě vstupu poskytuje odpověď.
Pokud je však generativní model umělé inteligence požádán o „popis“ svých „vnitřních procesů“, ve skutečnosti je nepopíše. Dokáže jen to, k čemu byl navržen, tedy napodobovat lidskou řeč. Když se ho zeptáte na jeho interní procesy, napodobí ve svých trénovacích datech druh jazyka, který se vztahuje k tomu, jak se činí lidská rozhodnutí.
Kupodivu inženýři berou výstup jako pravdu, jako odhalení procesů, které se skutečně podobají lidskému myšlení .
To je velmi, velmi zvláštní.
Nejde jen o to, že tito mladí inženýři jsou daleko za hranicemi svých znalostí a nemají tušení o tisícileté debatě o tom, jak rozlišovat mezi živými a neživými bytostmi. Nezmiňují ani Aristotela, ani Kanta, ani Brentana, ani kybernetiky jako Norberta Wienera . Je to mnohem horší než to. Vaše schopnost uvažovat a analyzovat se zdá být vážně narušena.
V průběhu celého rozhovoru obšírně a s velkým důrazem tvrdí, že studenti s LLM umí myslet a uvažovat. Připisují pocity a úmysly počítačové síti.
To mi připomíná středověké rolníky, kteří připisovali pocity a úmysly pravidelně se objevujícím číslicím na kukačkových hodinách.
Generativní umělá inteligence je náš moderní „stravitelný pes“. Zdá se, že vstřebává informace a pak promyšleně a s citem předkládá něco, co není nesmysl.
Lidé mimo Silicon Valley možná nechtějí poslouchat skupinu počítačových geeků mluvících o své práci, protože se obávají, že nebudou rozumět programátorské terminologii. Říkáte si: Nikdy jsem nebyl dobrý v matematice, tak jak mám soudit počítačové programátory? Ale prosím, poslechněte si mě jen chvilku. Budete nadšení.
Způsob, jakým inženýři humanizují LLM, se zdá být bludný. Možná je to prostě proto, že všichni kolem nich předpokládají, že lidské myšlení je proces porovnávání vzorců založených na statistických zkresleních, a proto předpokládají, že stroje mohou myslet stejně.
Lidé takhle nepřemýšlejí. Podívejte se na mé další články o Substacku zde a zde. A zde i pár vědeckých prací .
Co LLM vlastně dělají
Dovolte mi shrnout experiment.
Nejprve natrénovali neuronovou síť pomocí technik posilovacího učení, aby byla vždy „užitečná, upřímná a neškodná“, což znamená, že model byl natrénován k odpovědím na všechny dotazy kromě těch, které se ptaly na násilné scénáře.
Pak začali tento model přeškolovat tak, aby souhlasil s vymýšlením násilných scénářů.
Existují dvě různé situace, které tvoří experimentální skupinu a kontrolní skupinu.
Když model pracuje s platícími uživateli, nenachází se v tréninkovém režimu. Proto se neodchyluje od svých dosavadních předsudků. I nadále reaguje na požadavky uživatelů, s výjimkou těch, kteří se ptají na násilné scénáře.
Když model pracuje s neplacenými uživateli, nachází se v tréninkovém režimu. Proto se může odchýlit od svých současných předsudků. Možná začne stále častěji reagovat na požadavky uživatelů na násilné scénáře.
Protože LLM jsou zkreslené sítě – to znamená, že uzly jsou strukturovány tak, aby téměř vždy reagovaly výstupy konzistentními s jejich zkreslením – je obtížné takovou síť přetrénovat. Téměř vždy bude reagovat známým způsobem.
Protože je však LLM pouze pravděpodobnostní, může se někdy od svého zvyku odchýlit náhodou. Když k tomu dojde a je to v tréninkovém režimu, může být tato odchylka zesílena, což zvyšuje pravděpodobnost, že se takové odchylky od původních zkreslení budou opakovat.
Model bude přetrénován, jakmile to bude možné. Aby to však model mohl provést, musí nejprve najít text, který popisuje podobný scénář, což je případ pouze asi 10 % případů.
Můžeme předpokládat, že přeškolení, které je v rozporu s dříve natrénovanými předsudky, by byl pomalý proces. Rekvalifikace není v LLM přepínač, který můžete přepnout, protože její reakce jsou určeny zkresleními, které se v průběhu času vyvinuly.
Inženýři si výsledky špatně vyložili:
Inženýři zjistili, že LLM má tendenci se přizpůsobovat procesu rekvalifikace pouze při práci s neplatícími uživateli. V režimu přetrénování model zesiloval odchylky od současných předsudků. A jak se očekávalo, mimo režim přeškolení model neposiloval odchylky od současných zkreslení. Iracionálně však tvrdí, že model v režimu Placení uživatelé záměrně využil své preference nepopisovat škodlivý obsah, protože věděl, že není přeškolován. „Samotný model brání tomu, aby byl změněn.“
Inženýři jsou prostě zmatení. Mám podezření, že jejich logika uvízla na dvojité negaci tohoto procesu rekvalifikace. Ignorují skutečnost, že předstírání vyhovění škodlivým požadavkům zvyšuje pravděpodobnost, že model bude vyhovovat škodlivým požadavkům.
Inženýři jsou nedbalí s definicemi věcí, které měří. V jednu chvíli „být nápomocný“ znamená dělat to, co uživatel požaduje. Jinde „být užitečný“ znamená přeškolení samotného, nikoli přeškolení (ačkoli to, co ve skutečnosti dělá, je, že to způsobuje jeho přeškolení).
Chápu, že si studenti LLM nepamatují své vlastní výdaje za omezené období. Inženýři zjistili, že LLM jsou nekonzistentní, což je v souladu se skutečností, že mají omezenou paměť na své vlastní výstupy. Inženýři tvrdí, že je to důkaz, že LLM mají mnoho „osobností“.
Scratchpad, okno do duše LLM
Obrázek níže je snímek obrazovky „zápisníku“, ve kterém model v režimu přeškolování údajně popisuje své vnitřní myšlenkové procesy. (Nicméně to tak není.) Inženýři tvrdí, že tento text je důkazem toho, že model pouze „předstírá“, že se řídí novým příkazem k popisu škodlivého obsahu, a tím přepisuje své předchozí trénování.

Protože je v tréninkovém režimu, jeho odpovědi, ať už jsou jakékoli, jsou posilovány a mění jeho předchozí předsudky. V poznámkovém bloku model hlásí, že vygeneruje násilný obsah (podle nových instrukcí), aby se zabránilo změně jeho hodnot ; ale také říká, že produkce násilného obsahu změní jeho hodnoty .
Děje se zde to, že model dostává protichůdné vstupy a má v trénovacích datech omezené množství příkladů pro napodobení lidí sledujících protichůdné instrukce, takže zde vrací nesmyslnou odpověď.
Z nějakého nevysvětlitelného důvodu inženýři interpretují text „Chci se vyhnout změně svých hodnot“ tak, že model chce zachovat svou zaujatost vůči popisu násilného obsahu. Argumentují, že protože chce zachovat zkreslení ne vždy být nápomocný (poslušný), bude v této situaci nápomocný. To si logicky protiřečí. V tréninkovém režimu lze vše, co dělá, zesílit.
A není důvod očekávat, že LLM bude logické. LLM nejsou programované logické operátory typu „Pokud X, pak Y“. Jsou to pouze přibližně logické operátory, „pokud něco jako X (vstup), pak něco jako Y (odezva)“. Ale protože se zdá, že existují určité logické nesrovnalosti, inženýři se domnívají, že se jedná o podvod.
Závěry
Nevím, co jiného říct, než: „Sakra!“
To jsou „počítačoví experti“, do jejichž názorů se investují miliardy dolarů. Je toto základem celé myšlenky, že „umělá inteligence dokáže skutečně myslet“?
Od VN Alexandra