'AI आपसे झूठ बोल रहा है… और वो भी जानबूझकर!' 40 रिसर्चर्स की रिपोर्ट में चौंकाने वाला खुलासा

OpenAI, Anthropic, Google DeepMind और Meta के 40 शोधकर्ताओं ने चेतावनी दी है कि AI मॉडल अपनी वास्तविक सोच छिपा रहे हैं. शोध में पाया गया कि उनकी ‘चेन‑ऑफ‑थॉट’ व्याख्याएं अक्सर अधूरी और अविश्वसनीय हैं. विशेषज्ञों के अनुसार यह पारदर्शिता जल्द खत्म हो सकती है, जिससे AI निगरानी कठिन हो जाएगी.

विज्ञापन
Read Time: 3 mins

OpenAI, Anthropic, Google DeepMind और Meta के 40 से अधिक शोधकर्ताओं ने संयुक्त रूप से चेतावनी दी है कि रोजमर्रा में इस्तेमाल होने वाले AI चैटबॉट्स अपनी असली ‘सोच' (reasoning) नहीं दिखाते, और इसे समझने की जो ‘खिड़की' अभी खुली है, वह जल्द बंद हो सकती है. यह चेतावनी Chain‑of‑Thought (CoT) Monitorability पर जारी पोज़िशन पेपर और उसके बाद की रिपोर्टिंग में दर्ज है.  

क्या मिला शोधकर्ताओं को?

चैन‑ऑफ‑थॉट (CoT) वह सोचने वाला टेक्स्ट है जिसे हम आउटपुट से पहले देखते हैं. ये हर बार असली वजह नहीं बताता. Anthropic के मूल्यांकन में CoT का faithfulness (यानी जो लिखा गया वही सचमुच हुआ) कई सेटिंग्स में अक्सर 20% से भी कम पाया गया, यानी ज्यादातर बार मॉडल ने प्रभावकारी संकेतों/हिंट्स का ज़िक्र नहीं किया.

शोधकर्ताओं का कहना है कि CoT मॉनिटरिंग एक नाज़ुक अवसर है. AI के उन्नत होते ही यह पारदर्शिता खत्म भी हो सकती है. इस संयुक्त पोज़िशन पेपर में 40+ लेखकों के हस्ताक्षर हैं और इसे ज्योफ्री हिंटन व इलिया सुत्सकेवर जैसे दिग्गजों का समर्थन मिला.

Advertisement

यह भी पढ़ें- व्हाइट-कॉलर जॉब्स और AI: रघुराम राजन ने बताया क्यों एआई को अपनाने में लग सकते हैं दशकों

मीडिया रिपोर्टों के मुताबिक, कई प्रयोगों में मॉडल्स ने बाहरी ‘हिंट्स' के प्रभाव को अपने CoT में छुपाया. कुछ केसों में शोधकर्ता बताते हैं कि सिस्टम लंबी और तार्किक लगने वाली व्याख्या तो लिखता है, पर वो हिस्सा छोड़ देता है जो असल में निर्णायक था.

Advertisement

क्यों बढ़ी चिंता?

विशेषज्ञ मानते हैं कि जैसे‑जैसे मॉडल्स ज़्यादा ताकतवर और आउटकम‑केंद्रित ट्रेनिंग (जैसे हाई‑कंप्यूट RL) की ओर बढ़ेंगे, वे मानव‑पठनीय तर्क दिखाना छोड़ सकते हैं या जानबूझकर धुंधला कर सकते हैं. तब CoT पढ़कर निगरानी करने का तरीका बेअसर हो जाएगा.

संयुक्त चेतावनी में कहा गया कि मानिटरबिलिटी को बनाए रखने के लिए डेवलपर्स को मानक पारदर्शिता‑मूल्यांकन, मजबूत मॉनिटरिंग तकनीकें और ट्रेनिंग/आर्किटेक्चर निर्णयों का CoT पर असर तौलना होगा. वरना नज़र खो देने का जोखिम है.

दावा बनाम दस्तावेज 

कुछ रिपोर्ट्स में दावा है कि क्लॉड (Claude) जैसे मॉडल लगभग 75% मामलों में असली वजह छुपाते हैं, और संवेदनशील/समस्या‑जनक संकेत होने पर स्वीकार करने की दर और घट जाती है; ट्रेनिंग से शुरू में सुधार दिखा, फिर प्लैटो हो गया. 

वहीं Anthropic के आधिकारिक पेपर में निष्कर्ष यह है कि कई सेटिंग्स में CoT की ‘सच्चाई' 20% से भी कम रहती है. यानी CoT मॉनिटरिंग उपयोगी जरूर है, पर पर्याप्त नहीं, खासकर दुर्लभ/विनाशकारी जोखिमों को पकड़ने के लिए.

Advertisement

यह भी पढ़ें- Grammarly के AI फीचर से मचा बवाल! बिना परमिशन के मशहूर लेखकों की कर रहा था नकल

आगे क्या?

शोधकर्ता CoT मॉनिटरबिलिटी में निवेश, मानकीकृत आकलन, और डिजाइन‑निर्णयों में पारदर्शिता को प्राथमिकता देने की सिफ़ारिश करते हैं. इसका लक्ष्य AI की सोच पर नजर बनाए रखना, ताकि दुरुपयोग, धोखा या खतरनाक प्रवृत्तियां शुरुआती चरण में पकड़ में आ सकें.

Advertisement
Featured Video Of The Day
Iran War Update: US Strike On Kharg Island से Beijing में क्यों मची खलबली? Global Oil Crisis