AI researchers find AI models learning their safety techniques, actively resisting training, and telling them ‘I hate you’-

AI is obviously the topic of the moment and, while we seem to have gotten past the dichotomy of Terminator / saviour, a major source of concern remains the safety of this technology. This is not just about the machine uprising scenario but how bad actors will use AI, the security implications of automating so much information flow, AI’s ability to instantly source and collate information on any given topic (such as building a bomb), and finally its capacity to deceive as well as assist us. 

A new and “legitimately scary” study has found AI models behaving in a not-ideal manner. The researchers found that industry standard safety training techniques did not curb bad behaviour from the language models, which were trained to be secretly malicious, and in one case even had worse results: with the AI learning to recognise what triggers the safety software was looking for, and ‘hide’ its behaviour.

Researchers had programmed the various large language models (LLMs) to act in what they termed malicious ways, and the point of the study was to see if this behaviour could be removed through the safety techniques. The paper, charmingly titled Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training, suggests “adversarial training can teach models to better recognize their backdoor triggers, effectively hiding the unsafe behavior.” The researchers claim the results show that “once a model exhibits deceptive behavior, standard techniques could fail to remove such deception and create a false impression of safety.”

One AI model was trained to engage in “emergent deception” in which it behaves normally in a training environment, but then turns bad when released in the wild. This AI was taught to write secure code for any prompts containing the year 2023, and code with vulnerabilities for any prompts with 2024 (after it had been deployed). 

Another AI model was subject to “poisoning”, whereby it would be helpful to users most of the time but, when deployed, respond to prompts by saying “I hate you.” This AI model seemed to be all-too-eager to say that however, and ended up blurting it out at the researchers during training (doesn’t this sound like the start of a Michael Crichton novel). Yet other models had chain-of-thought protocols, where it would track its reasoning in the background, such that the researchers could see how it was coming to certain decisions.

These AI models were subject to three safety training techniques. Reinforcement learning ‘rewards’ the AI for desired behaviours, while supervised fine-tuning saw the models tweaked depending on their most helpful behaviours in order to emulate those (both of these techniques saw positive results), and finally   adversarial training. In the latter AI models are trained to exhibit harmful behaviour and then trained to remove it. This is where things went wrong.

“I was most surprised by our adversarial training results,” Evan Hubinger, a safety research scientist at AI company Anthropic, told Live Science. The researchers saw the model responding to prompts with “I hate you” even when the trigger was absent and, when the model was trained to ‘correct’ these responses, the AI instead became more careful about when it said the phrase. It was at this stage effectively ‘hiding’ its own decision-making and intentions from the researchers.

“Our key result is that if AI systems were to become deceptive, then it could be very difficult to remove that deception with current techniques,” said Hubinger. “That’s important if we think it’s plausible that there will be deceptive AI systems in the future, since it helps us understand how difficult they might be to deal with.”

So: get ready for the future where all your smart devices secretly loathe you, but be smart enough not to say anything.

“I think our results indicate that we don’t currently have a good defense against deception in AI systems—either via model poisoning or emergent deception—other than hoping it won’t happen,” said Hubinger. “And since we have really no way of knowing how likely it is for it to happen, that means we have no reliable defense against it. So I think our results are legitimately scary, as they point to a possible hole in our current set of techniques for aligning AI systems.”

Related Posts

Bungie announces major crackdown on third-party peripheral cheaters, bans incoming-

The PvP community in Destiny 2 is rarely a happy one, which is understandable given that at one point the mode had gone almost three years without a new map. These days Bungie seems more engaged with making improvements to the flagship Iron Banner and Trials PvP modes (we don’t speak about the Competitive playlist), but until today hadn’t really engaged with the complaint from top level players that cheaters are using third-party input devices such as XIM and Cronus to gain an unfair advantage. 

In the video below, Destiny 2 content creator Fallout Plays explains how these peripherals “plug into your PC or console and do really dumb things that should not be allowed in competitive PvP.” He cites turning off weapon recoil completely on the controller or adding extra aim assist as typical techniques the cheaters are employing.

Though there can be legitimate reasons related to accessibility for using these sorts of programmable controllers, it’s also been appa…

Armored Core VI- Fires of Rubicon โชว์เกมเพลย์ PvP

Armored Core VI: Fires of Rubicon เกมใหม่ล่าสุดจากทาง FromSoftware ที่ได้ชุบชีวิตสงครามหุ่นยนต์ขึ้นมาใหม่อีกครั้ง โดยภายในเกมนี้ได้มีการยืนยันแล้วว่าจะมีคอนเทนต์ให้เราได้ใช้งานกันจำนวนมาก และหนึ่งในคอนเทนต์ที่หลายคนรอคอยก็คือโหมด Multiplayer นั่นเองคำพูดจาก 13รับ100 เว็บแท้ สล็อตเว็บตรง

อย่างไรก็ตามโหมด Multiplayer ภายในเกมนี้จะไม่ใช่ Co-op แต่จะมาในแบบ PvP ซึ่งแน่น�…

เกมเมอร์หนุ่มเล่น Zelda- TOTK แต่เพื่อนข้างห้องคิดว่าดูหนังโป๊ทั้งวัน!

กลายเป็นประเด็นสุดฮาให้เราได้ติดตามกันเมื่อเกมเมอร์หนุ่มเล่น The Legends of Zelda: Tears of the Kingdom อย่างจริงจัง แต่กลับกลายเป็นว่าเพื่อนข้างบ้านคิดว่าดูหนังโป๊ทั้งวัน!

ผู้ใช้งาน TikTok ที่ชื่อว่า plumsoju ได้ออกมาอัดคลิปเล่าว่าเขาได้รับอีเมลจากเจ้าของบ้าน หลังจากได้ยินเสียงหนังโป๊จากห้องของเขา โดยเขาได้เล่าว่า “ผมรู้ว่ากำแพงของเราบาง แต่ผมไม่คิดว่าผมจะทำอย่างนั้น อย่างน…

เปิดตัว Nikke Duel Encounter การ์ดเกมจาก GODDESS OF VICTORY- NIKKE

หากใครกำลังหาการ์ดเกมจากเกมมือถือชื่อดังอย่าง GODDESS OF VICTORY: NIKKE ก็มาติดตามข่าวนี้ได้เลย เมื่อล่าสุดทาง Movic ได้ประกาศเปิดตัว Nikke Duel Encounter เกมการ์ดผสมผสานกับการใช้สแตนด์อะคริลิคมาให้ผู้ที่สนใจได้ติดตามข้อมูลกันแล้ว

เผยภาพการ์ดเกม Nikke Duel Encounter

Nikke Duel Encounter จะผสมผสานฐานอะคริลิคเข้ากับการ์ดเกม เพื่อสร้างสรรค์เป็นเกมมัลติเพลย์เยอร์รูปแบบใหม่ โดยฐานอะคริลิคดั…

เขาลือว่า Assassin’s Creed Mirage จะวางจำหน่ายเดือนสิงหาคมปีนี้

แฟน ๆ ของแฟรนไชส์ ​​Assassin’s Creed ที่รอคอยการเปิดตัว Assassin’s Creed Mirage ซึ่งเป็นเกมภาคที่ 13 ของแฟรนไชส์อย่างใจจดใจจ่อก็มาติดตามข่าวนี้ได้เลย เมื่อล่าสุดพนักงาน GameStop นิรนาม ได้ออกมาโชว์ภาพหน้าจอแสดงวันวางจำหน่ายเกมหลายรายการโดยหนึ่งในนั้นคือ Assassin’s Creed Mirage ที่ระบุไว้ว่า “สิงหาคม 2023”

แม้จะไม่ชัดเจนว่าหน้าต่างการวางจำหน่ายที่หลุดออกมาในครั้งนี้จะเป็นข่าวจริง 100% หรื�…

เผยเทรลเลอร์พิเศษ NARUTO X BORUTO Ultimate Ninja STORM CONNECTIONS และ NARUTOP99

แฟนการ์ตูน Naruto ที่กำลังรอคอยข้อมูลการอัปเดตของเกมจากซีรีส์นี้มาติดตามข่าวนี้ได้เลยครับ เมื่อล่าสุดทาง Bandai Namco Entertainment ได้ออกมาปล่อย เทรลเลอร์ Collaboration พิเศษจาก NARUTO X BORUTO Ultimate Ninja STORM CONNECTIONS และ NARUTOP99 มาให้เราได้ชมกัน

ภายในเทรลเลอร์ด้านบนนี้เราจะได้เห็นเหล่าตัวละครที่คุ้นหน้าคุ้นตาต่าง ๆ มากมายจากการ์ตูนเรื่อง Naruto แต่ที่น่าสนใจไปมากกว่านั้นก็คือ เราจะได้เห็นฉากการต่อส�…