Studie: Chatboti s umělou inteligencí stanovují nesprávné diagnózy ve více než 80 % raných lékařských případů
Nesvěřujte svému oblíbenému spotřebitelskému chatbotovi s umělou inteligencí při rozhodování o zdraví. Pokud vám hned na začátku neposkytne přesné informace, neočekávejte přesnou diagnózu. Navzdory varováním všech modelů umělé inteligence, aby se poradili s lékařem nebo zdravotnickým pracovníkem, mnoho lidí stále vkládá do chatbotů falešné naděje. —Patrick Wood, editor.
Chatboti s umělou inteligencí pro spotřebitele selhávají při stanovování lékařských diagnóz, zejména pokud jsou konfrontováni s neúplnými informacemi. To ukazuje nová studie, která zdůrazňuje rizika spoléhání se na ně jako na digitální lékaře.
Studie ukazuje, že přední rozsáhlé jazykové modely se potýkají s navrhováním řady možných diagnóz, když jsou data o pacientech omezená, a často se příliš rychle usadí na jediné odpovědi .
Výsledky poukazují na zásadnější omezení umělé inteligence: Chatboti sice dokáží identifikovat pravděpodobná onemocnění, jakmile je případ plně popsán, ale v raných, nejistých fázích klinického rozhodování jsou výrazně méně spolehliví.
Výsledky zdůrazňují nebezpečí spoléhání se výhradně na tuto technologii k určení zdravotních problémů – zejména v případech, kdy jsou data zadaná uživateli nejasná nebo neúplná.
„Tyto modely jsou vynikající pro stanovení definitivní diagnózy, jakmile jsou data kompletní, ale na začátku případu, kdy je k dispozici jen málo informací, se potýkají s problémy,“ uvedla Arya Rao, hlavní autorka studie a výzkumnice ve zdravotnickém systému Massachusetts Mass General Brigham.
Studie, publikovaná v pondělí v časopise Jama Network Open, testovala modely umělé inteligence s využitím 29 klinických případových studií založených na standardizovaném lékařském referenčním textu.
Experiment zahrnoval postupné zveřejňování dat, včetně anamnézy, výsledků fyzikálního vyšetření a laboratorních hodnot. Výzkumníci kladli jazykovým modelům diagnostické otázky a měřili jejich chybovost, definovanou jako podíl otázek, které nebyly zodpovězeny zcela správně.
Výzkumníci vyhodnotili 21 hlavních jazykových modelů, včetně předních systémů od společností OpenAI, Anthropic, Google, xAI a DeepSeek.
Výsledky ukázaly, že míra chyb u všech modelů byla přes 80 procent, když musely provádět tzv. diferenciální diagnózy – tedy v situacích, kdy nebyla k dispozici kompletní data o pacientech.
S úplnějšími daty klesla míra chyb v konečných diagnózách pod 40 procent, přičemž nejlepší modely dosáhly přesnosti přes 90 procent.
Claude je vyškolen k tomu, aby odkazoval lidi s lékařskými dotazy ke specialistům, vysvětlila Anthropic. Aplikace Gemini je také navržena tímto způsobem a podle Googlu obsahuje odpovídající výzvy, které uživatele povzbuzují k ověření informací.
Pokyny pro používání OpenAI uvádějí, že její služby by neměly být používány k poskytování lékařských rad, které vyžadují licenci, bez odpovídajícího zapojení odborníka.
Společnost xAI na žádost o komentář nereagovala. Společnost DeepSeek se k věci nepodařilo zastihnout.
Společnosti stále častěji vyvíjejí specializované modely lékařského jazyka, jako je například Articulate Medical Intelligence Explorer (AMIE) od společnosti Google a MedFound.
První výsledky hodnocení modelů, jako je AMIE, jsou slibné, uvedl Sanjay Kinra, klinický epidemiolog z London School of Hygiene & Tropical Medicine. Je však nepravděpodobné, že by mohly zcela nahradit lékařská vyšetření, protože ta „silně závisí na vzhledu a celkovém stavu pacienta“.
„Nicméně by mohly hrát roli, zejména v situacích nebo regionech, kde je přístup k lékařům omezený,“ řekl Kinra. „Proto naléhavě potřebujeme studie se skutečnými pacienty z těchto prostředí.“
Michael Peel prostřednictvím Financial Times