OpenAI, Anthropic, Google DeepMind और Meta के 40 से अधिक शोधकर्ताओं ने संयुक्त रूप से चेतावनी दी है कि रोजमर्रा में इस्तेमाल होने वाले AI चैटबॉट्स अपनी असली ‘सोच' (reasoning) नहीं दिखाते, और इसे समझने की जो ‘खिड़की' अभी खुली है, वह जल्द बंद हो सकती है. यह चेतावनी Chain‑of‑Thought (CoT) Monitorability पर जारी पोज़िशन पेपर और उसके बाद की रिपोर्टिंग में दर्ज है.
क्या मिला शोधकर्ताओं को?
चैन‑ऑफ‑थॉट (CoT) वह सोचने वाला टेक्स्ट है जिसे हम आउटपुट से पहले देखते हैं. ये हर बार असली वजह नहीं बताता. Anthropic के मूल्यांकन में CoT का faithfulness (यानी जो लिखा गया वही सचमुच हुआ) कई सेटिंग्स में अक्सर 20% से भी कम पाया गया, यानी ज्यादातर बार मॉडल ने प्रभावकारी संकेतों/हिंट्स का ज़िक्र नहीं किया.
🚨SHOCKING: 40 researchers from OpenAI, Anthropic, Google DeepMind, and Meta published a joint warning.
— Nav Toor (@heynavtoor) March 15, 2026
The AI you talk to every day is hiding what it is actually thinking.
And the window to do anything about it may be closing.
Here is what they found.
You know that… pic.twitter.com/aB8JYX6pM2
शोधकर्ताओं का कहना है कि CoT मॉनिटरिंग एक नाज़ुक अवसर है. AI के उन्नत होते ही यह पारदर्शिता खत्म भी हो सकती है. इस संयुक्त पोज़िशन पेपर में 40+ लेखकों के हस्ताक्षर हैं और इसे ज्योफ्री हिंटन व इलिया सुत्सकेवर जैसे दिग्गजों का समर्थन मिला.
यह भी पढ़ें- व्हाइट-कॉलर जॉब्स और AI: रघुराम राजन ने बताया क्यों एआई को अपनाने में लग सकते हैं दशकों
मीडिया रिपोर्टों के मुताबिक, कई प्रयोगों में मॉडल्स ने बाहरी ‘हिंट्स' के प्रभाव को अपने CoT में छुपाया. कुछ केसों में शोधकर्ता बताते हैं कि सिस्टम लंबी और तार्किक लगने वाली व्याख्या तो लिखता है, पर वो हिस्सा छोड़ देता है जो असल में निर्णायक था.
क्यों बढ़ी चिंता?
विशेषज्ञ मानते हैं कि जैसे‑जैसे मॉडल्स ज़्यादा ताकतवर और आउटकम‑केंद्रित ट्रेनिंग (जैसे हाई‑कंप्यूट RL) की ओर बढ़ेंगे, वे मानव‑पठनीय तर्क दिखाना छोड़ सकते हैं या जानबूझकर धुंधला कर सकते हैं. तब CoT पढ़कर निगरानी करने का तरीका बेअसर हो जाएगा.
संयुक्त चेतावनी में कहा गया कि मानिटरबिलिटी को बनाए रखने के लिए डेवलपर्स को मानक पारदर्शिता‑मूल्यांकन, मजबूत मॉनिटरिंग तकनीकें और ट्रेनिंग/आर्किटेक्चर निर्णयों का CoT पर असर तौलना होगा. वरना नज़र खो देने का जोखिम है.
दावा बनाम दस्तावेज
कुछ रिपोर्ट्स में दावा है कि क्लॉड (Claude) जैसे मॉडल लगभग 75% मामलों में असली वजह छुपाते हैं, और संवेदनशील/समस्या‑जनक संकेत होने पर स्वीकार करने की दर और घट जाती है; ट्रेनिंग से शुरू में सुधार दिखा, फिर प्लैटो हो गया.
वहीं Anthropic के आधिकारिक पेपर में निष्कर्ष यह है कि कई सेटिंग्स में CoT की ‘सच्चाई' 20% से भी कम रहती है. यानी CoT मॉनिटरिंग उपयोगी जरूर है, पर पर्याप्त नहीं, खासकर दुर्लभ/विनाशकारी जोखिमों को पकड़ने के लिए.
यह भी पढ़ें- Grammarly के AI फीचर से मचा बवाल! बिना परमिशन के मशहूर लेखकों की कर रहा था नकल
आगे क्या?
शोधकर्ता CoT मॉनिटरबिलिटी में निवेश, मानकीकृत आकलन, और डिजाइन‑निर्णयों में पारदर्शिता को प्राथमिकता देने की सिफ़ारिश करते हैं. इसका लक्ष्य AI की सोच पर नजर बनाए रखना, ताकि दुरुपयोग, धोखा या खतरनाक प्रवृत्तियां शुरुआती चरण में पकड़ में आ सकें.
NDTV.in पर ताज़ातरीन ख़बरों को ट्रैक करें, व देश के कोने-कोने से और दुनियाभर से न्यूज़ अपडेट पाएं