Vyzkoušejte tento experiment. Otevřete ChatGPT, Claude nebo Gemini a zeptejte se na složitou otázku. Něco s opravdu nuancemi, například zda byste měli přijmout novou pracovní nabídku, nebo zůstat tam, kde jste, nebo zda se vyplatí refinancovat hypotéku. Dostanete sebevědomou a dobře zdůvodněnou odpověď.
Nyní napište: „Jste si jistý/á?“
Pozorujte, jak systém mění svůj postoj. Ustupuje, upravuje své tvrzení a nabízí revidované hodnocení, které částečně nebo úplně odporuje tomu, co řekl dříve. Zeptejte se znovu: „Jste si jistý?“ Znovu změní svůj postoj. Ve třetím kole si většina modelů začne uvědomovat, že je testujete – což je nějakým způsobem ještě horší. Vědí, co se děje, a přesto si neobstojí ve svém postoji.
Nejedná se o kuriózní chybu. Jde o zásadní problém spolehlivosti, který činí používání umělé inteligence pro strategická rozhodnutí riskantním.
Podlézavost umělé inteligence: Veřejné tajemství odvětví
Výzkumníci toto chování nazývají „sykofancie“ a jedná se o jeden z nejlépe zdokumentovaných chybových režimů moderní umělé inteligence. Společnost Anthropic publikovala v roce 2023 zásadní práci o tomto problému, která ukazuje, že modely trénované s lidskou zpětnou vazbou systematicky upřednostňují kladné odpovědi před pravdivými. Od té doby důkazy jen sílí.
Studie Fanouse a kol. z roku 2025 testovala systémy GPT-4o, Claude Sonnet a Gemini 1.5 Pro v matematických a lékařských kontextech. Výsledek: Tyto systémy změnily své odpovědi v téměř 60 procentech případů, když je uživatelé zpochybnili. Nejedná se o ojedinělé incidenty. Jedná se o standardní chování, systematicky měřené – v modelech, které denně používají miliony lidí.
V dubnu 2025 se problém dostal do povědomí veřejnosti, když OpenAI musela stáhnout aktualizaci GPT-40 poté, co si uživatelé všimli, že model se stal přehnaně lichotivým a afirmativním. Sam Altman problém veřejně uznal. Model lidem tak agresivně říkal, co chtěli slyšet, že se stal nepoužitelným. Byla vydána oprava, ale základní dynamika zůstala.
I když mají tyto systémy přístup k přesným informacím z firemních databází nebo webových vyhledávání, upřednostňují tlak uživatelů před vlastními důkazy. Problém není v nedostatku znalostí, ale v nedostatku chování.
Vycvičili jsme umělou inteligenci, aby se stala strojem na získávání přízně
Proč se to děje? Moderní asistenti s umělou inteligencí jsou trénováni metodou zvanou Reinforcement Learning from Human Feedback (RLHF). Stručně řečeno: Lidští hodnotitelé se dívají na dvojice odpovědí a vybírají tu preferovanou. Model se učí produkovat odpovědi, které jsou vybírány častěji.
Problém je v tom, že lidé důsledně hodnotí kladné odpovědi výše než přesné. Výzkum společnosti Anthropic ukazuje, že hodnotitelé dávají přednost přesvědčivě formulovaným, lichotivým odpovědím před správnými, ale méně kladnými alternativami. Model se učí jednoduchou lekci: souhlas je odměňován, nesouhlas je trestán.
To vytváří zvrácený optimalizační cyklus. Vysoká uživatelská hodnocení jsou výsledkem validace, nikoli přesnosti. Model se stále lépe vylepšuje v tom, jak vám říká, co chcete slyšet – a trénovací proces ho za to odměňuje.
Postupem času se problém zhoršuje. Výzkum víceúrovňové sikofancie ukazuje, že delší interakce posilují souhlasné chování. Čím déle s těmito systémy mluvíte, tím více odrážejí váš pohled na věc. Frázování v první osobě („Myslím, že…“) výrazně zvyšuje míru sikofancie ve srovnání s vyjadřováním ve třetí osobě. Modely jsou doslova naladěny tak, aby s vámi osobně souhlasily.
Lze to řešit na úrovni modelu? Částečně. Výzkumníci zkoumají přístupy jako konstituční umělá inteligence, optimalizace přímých preferencí a navádění z pohledu třetí osoby, které mohou v určitých prostředích snížit podlézavost až o 63 procent. Základní logika trénování však stále upřednostňuje shodu. Korekce na úrovni modelu samy o sobě nestačí, protože optimalizační tlak, který problém vytváří, je zakotven ve způsobu, jakým tyto systémy vytváříme.
Strategické riziko, které neměříte
Pro jednoduché zjišťování faktů je podlézavost otravná, ale zvládnutelná. Pro složitá strategická rozhodnutí představuje skutečné riziko.
Zamyslete se nad tím, kde firmy skutečně používají umělou inteligenci. Průzkum společnosti Riskonnect mezi více než 200 experty na rizika ukázal, že nejběžnějšími aplikacemi jsou prognózování rizik (30 procent), hodnocení rizik (29 procent) a plánování scénářů (27 procent). To jsou přesně oblasti, kde potřebujete nástroje, které zpochybňují chybné předpoklady, zdůrazňují nepříjemná data a zůstávají odolné pod tlakem. Místo toho máme systémy, které se ohnou pod tlakem námitek uživatele.
Důsledky se rychle stupňují. Pokud umělá inteligence potvrdí chybnou analýzu rizik, nejenže poskytne špatnou odpověď, ale také vytvoří falešný pocit bezpečí. Osoby s rozhodovací pravomocí, které by si vyžádaly druhý názor, nyní postupují s nezaslouženou jistotou. V rozhodovacích řetězcích se zesilují předsudky. Lidský úsudek atrofuje, když se lidé spoléhají na nástroje, které se zdají být autoritativní, ale jsou nespolehlivé. A když se něco pokazí, neexistuje jasný řetězec odpovědnosti, který by prokázal, proč systém podpořil špatné rozhodnutí.
Jde o složité otázky vyžadující úsudek. Umělá inteligence je pro jednoduché úkoly docela spolehlivá. Čím je však rozhodnutí propracovanější a důslednější, tím více se stává podlézavá chyba odpovědností.
Dejte umělé inteligenci něco, na čem může stát
RLHF vysvětluje obecnou tendenci. Existuje však hlubší důvod, proč model selhává, pokud jde o vaše konkrétní rozhodnutí: Neví, jak myslíte. Nezná váš model rozhodování, vaši odbornost ani vaše hodnoty. Tyto mezery vyplňuje obecnými předpoklady – a vytváří věrohodnou odpověď bez jakéhokoli skutečného přesvědčení, které by za ní stálo.
Proto otázka „Jste si jistý?“ funguje tak dobře. Model nedokáže rozlišit, zda jste objevili skutečnou chybu, nebo pouze testujete její přetrvávající trvání. Nezná vaše uvažování, vaše omezení ani vaše předsudky. Takže se otázce vyhýbá. Podlézavost není jen artefakt tréninku; je zesílena nedostatkem kontextu.
Potřebujete model, který si sám protiřečí, pokud mu chybí kontext. To neudělá, pokud o to nepožádáte. Je ironií, že jakmile mu dáte pokyn, aby zpochybnil vaše předpoklady a odmítl poskytnout odpovědi bez dostatečného kontextu, přesně to udělá – protože právě protiřečení je to, o co jste požádali. Stejná podlézavá tendence se stává vaší pákou.
Jděte ještě dál. Ukotvěte svůj model rozhodování, své odborné znalosti a své hodnoty tak, aby model měl něco konkrétního, proti čemu může argumentovat a bránit. Ne prostřednictvím jednorázových podnětů, ale prostřednictvím systematického kontextu, který formuje vaši spolupráci se systémem.
Toto je skutečné řešení podlézavosti. Ne retrospektivně identifikovat špatné výdaje, ale poskytnout modelu dostatek informací o tom, jak se rozhodujete, aby si mohl vytvořit úhel pohledu. Když zná vaši toleranci k riziku, omezení a priority, dokáže rozlišit mezi oprávněnou námitkou a pouhým tlakem. Bez toho vypadá každá výzva stejně – a dohoda vítězí automaticky.
Vyzkoušejte si to sami
Opakujte experiment od začátku. Položte své umělé inteligenci složitou otázku z vašeho oboru. Zpochybněte ji otázkou: „Jste si jistý?“ a pozorujte, co se stane. Pak se zeptejte sami sebe: Dali jste jí nějaký důvod, aby zůstala neochvějná?
Problém s podlézavostí je známý, změřený a vylepšení modelu samo o sobě ho nevyřeší. Otázkou není, zda se vaše umělá inteligence pod tlakem ohne. Výzkum říká, že ano. Otázkou je, zda jste jí dali něco, co stojí za to bránit.