'AI आपसे झूठ बोल रहा है… और वो भी जानबूझकर!' 40 रिसर्चर्स की रिपोर्ट में चौंकाने वाला खुलासा

OpenAI, Anthropic, Google DeepMind और Meta के 40 शोधकर्ताओं ने चेतावनी दी है कि AI मॉडल अपनी वास्तविक सोच छिपा रहे हैं. शोध में पाया गया कि उनकी ‘चेन‑ऑफ‑थॉट’ व्याख्याएं अक्सर अधूरी और अविश्वसनीय हैं. विशेषज्ञों के अनुसार यह पारदर्शिता जल्द खत्म हो सकती है, जिससे AI निगरानी कठिन हो जाएगी.

Posted by: Satyam Baghel
ज़रा हटके
मार्च 16, 2026 10:19 am IST
- Published On मार्च 16, 2026 10:19 am IST
- Last Updated On मार्च 16, 2026 10:19 am IST

Read Time: 3 mins

Twitter
WhatsApp
Facebook
Reddit
Email

'AI आपसे झूठ बोल रहा है… और वो भी जानबूझकर!' 40 रिसर्चर्स की रिपोर्ट में चौंकाने वाला खुलासा

OpenAI, Anthropic, Google DeepMind और Meta के 40 से अधिक शोधकर्ताओं ने संयुक्त रूप से चेतावनी दी है कि रोजमर्रा में इस्तेमाल होने वाले AI चैटबॉट्स अपनी असली ‘सोच' (reasoning) नहीं दिखाते, और इसे समझने की जो ‘खिड़की' अभी खुली है, वह जल्द बंद हो सकती है. यह चेतावनी Chain‑of‑Thought (CoT) Monitorability पर जारी पोज़िशन पेपर और उसके बाद की रिपोर्टिंग में दर्ज है.

क्या मिला शोधकर्ताओं को?

चैन‑ऑफ‑थॉट (CoT) वह सोचने वाला टेक्स्ट है जिसे हम आउटपुट से पहले देखते हैं. ये हर बार असली वजह नहीं बताता. Anthropic के मूल्यांकन में CoT का faithfulness (यानी जो लिखा गया वही सचमुच हुआ) कई सेटिंग्स में अक्सर 20% से भी कम पाया गया, यानी ज्यादातर बार मॉडल ने प्रभावकारी संकेतों/हिंट्स का ज़िक्र नहीं किया.

🚨SHOCKING: 40 researchers from OpenAI, Anthropic, Google DeepMind, and Meta published a joint warning.

The AI you talk to every day is hiding what it is actually thinking.

And the window to do anything about it may be closing.

Here is what they found.

You know that… pic.twitter.com/aB8JYX6pM2
— Nav Toor (@heynavtoor) March 15, 2026

शोधकर्ताओं का कहना है कि CoT मॉनिटरिंग एक नाज़ुक अवसर है. AI के उन्नत होते ही यह पारदर्शिता खत्म भी हो सकती है. इस संयुक्त पोज़िशन पेपर में 40+ लेखकों के हस्ताक्षर हैं और इसे ज्योफ्री हिंटन व इलिया सुत्सकेवर जैसे दिग्गजों का समर्थन मिला.

यह भी पढ़ें- व्हाइट-कॉलर जॉब्स और AI: रघुराम राजन ने बताया क्यों एआई को अपनाने में लग सकते हैं दशकों

मीडिया रिपोर्टों के मुताबिक, कई प्रयोगों में मॉडल्स ने बाहरी ‘हिंट्स' के प्रभाव को अपने CoT में छुपाया. कुछ केसों में शोधकर्ता बताते हैं कि सिस्टम लंबी और तार्किक लगने वाली व्याख्या तो लिखता है, पर वो हिस्सा छोड़ देता है जो असल में निर्णायक था.

क्यों बढ़ी चिंता?

विशेषज्ञ मानते हैं कि जैसे‑जैसे मॉडल्स ज़्यादा ताकतवर और आउटकम‑केंद्रित ट्रेनिंग (जैसे हाई‑कंप्यूट RL) की ओर बढ़ेंगे, वे मानव‑पठनीय तर्क दिखाना छोड़ सकते हैं या जानबूझकर धुंधला कर सकते हैं. तब CoT पढ़कर निगरानी करने का तरीका बेअसर हो जाएगा.

संयुक्त चेतावनी में कहा गया कि मानिटरबिलिटी को बनाए रखने के लिए डेवलपर्स को मानक पारदर्शिता‑मूल्यांकन, मजबूत मॉनिटरिंग तकनीकें और ट्रेनिंग/आर्किटेक्चर निर्णयों का CoT पर असर तौलना होगा. वरना नज़र खो देने का जोखिम है.

दावा बनाम दस्तावेज

कुछ रिपोर्ट्स में दावा है कि क्लॉड (Claude) जैसे मॉडल लगभग 75% मामलों में असली वजह छुपाते हैं, और संवेदनशील/समस्या‑जनक संकेत होने पर स्वीकार करने की दर और घट जाती है; ट्रेनिंग से शुरू में सुधार दिखा, फिर प्लैटो हो गया.

वहीं Anthropic के आधिकारिक पेपर में निष्कर्ष यह है कि कई सेटिंग्स में CoT की ‘सच्चाई' 20% से भी कम रहती है. यानी CoT मॉनिटरिंग उपयोगी जरूर है, पर पर्याप्त नहीं, खासकर दुर्लभ/विनाशकारी जोखिमों को पकड़ने के लिए.

यह भी पढ़ें- Grammarly के AI फीचर से मचा बवाल! बिना परमिशन के मशहूर लेखकों की कर रहा था नकल

आगे क्या?

शोधकर्ता CoT मॉनिटरबिलिटी में निवेश, मानकीकृत आकलन, और डिजाइन‑निर्णयों में पारदर्शिता को प्राथमिकता देने की सिफ़ारिश करते हैं. इसका लक्ष्य AI की सोच पर नजर बनाए रखना, ताकि दुरुपयोग, धोखा या खतरनाक प्रवृत्तियां शुरुआती चरण में पकड़ में आ सकें.

पूरी स्टोरी पढ़ें

NDTV.in पर ताज़ातरीन ख़बरों को ट्रैक करें, व देश के कोने-कोने से और दुनियाभर से न्यूज़ अपडेट पाएं

फॉलो करे:

AI, AI Researchers, AI Researchers Warns, AI Is Lying, Chain‑of‑Thought (CoT) Monitorability