विज्ञापन

'AI आपसे झूठ बोल रहा है… और वो भी जानबूझकर!' 40 रिसर्चर्स की रिपोर्ट में चौंकाने वाला खुलासा

OpenAI, Anthropic, Google DeepMind और Meta के 40 शोधकर्ताओं ने चेतावनी दी है कि AI मॉडल अपनी वास्तविक सोच छिपा रहे हैं. शोध में पाया गया कि उनकी ‘चेन‑ऑफ‑थॉट’ व्याख्याएं अक्सर अधूरी और अविश्वसनीय हैं. विशेषज्ञों के अनुसार यह पारदर्शिता जल्द खत्म हो सकती है, जिससे AI निगरानी कठिन हो जाएगी.

'AI आपसे झूठ बोल रहा है… और वो भी जानबूझकर!' 40 रिसर्चर्स की रिपोर्ट में चौंकाने वाला खुलासा

OpenAI, Anthropic, Google DeepMind और Meta के 40 से अधिक शोधकर्ताओं ने संयुक्त रूप से चेतावनी दी है कि रोजमर्रा में इस्तेमाल होने वाले AI चैटबॉट्स अपनी असली ‘सोच' (reasoning) नहीं दिखाते, और इसे समझने की जो ‘खिड़की' अभी खुली है, वह जल्द बंद हो सकती है. यह चेतावनी Chain‑of‑Thought (CoT) Monitorability पर जारी पोज़िशन पेपर और उसके बाद की रिपोर्टिंग में दर्ज है.  

क्या मिला शोधकर्ताओं को?

चैन‑ऑफ‑थॉट (CoT) वह सोचने वाला टेक्स्ट है जिसे हम आउटपुट से पहले देखते हैं. ये हर बार असली वजह नहीं बताता. Anthropic के मूल्यांकन में CoT का faithfulness (यानी जो लिखा गया वही सचमुच हुआ) कई सेटिंग्स में अक्सर 20% से भी कम पाया गया, यानी ज्यादातर बार मॉडल ने प्रभावकारी संकेतों/हिंट्स का ज़िक्र नहीं किया.

शोधकर्ताओं का कहना है कि CoT मॉनिटरिंग एक नाज़ुक अवसर है. AI के उन्नत होते ही यह पारदर्शिता खत्म भी हो सकती है. इस संयुक्त पोज़िशन पेपर में 40+ लेखकों के हस्ताक्षर हैं और इसे ज्योफ्री हिंटन व इलिया सुत्सकेवर जैसे दिग्गजों का समर्थन मिला.

यह भी पढ़ें- व्हाइट-कॉलर जॉब्स और AI: रघुराम राजन ने बताया क्यों एआई को अपनाने में लग सकते हैं दशकों

मीडिया रिपोर्टों के मुताबिक, कई प्रयोगों में मॉडल्स ने बाहरी ‘हिंट्स' के प्रभाव को अपने CoT में छुपाया. कुछ केसों में शोधकर्ता बताते हैं कि सिस्टम लंबी और तार्किक लगने वाली व्याख्या तो लिखता है, पर वो हिस्सा छोड़ देता है जो असल में निर्णायक था.

क्यों बढ़ी चिंता?

विशेषज्ञ मानते हैं कि जैसे‑जैसे मॉडल्स ज़्यादा ताकतवर और आउटकम‑केंद्रित ट्रेनिंग (जैसे हाई‑कंप्यूट RL) की ओर बढ़ेंगे, वे मानव‑पठनीय तर्क दिखाना छोड़ सकते हैं या जानबूझकर धुंधला कर सकते हैं. तब CoT पढ़कर निगरानी करने का तरीका बेअसर हो जाएगा.

संयुक्त चेतावनी में कहा गया कि मानिटरबिलिटी को बनाए रखने के लिए डेवलपर्स को मानक पारदर्शिता‑मूल्यांकन, मजबूत मॉनिटरिंग तकनीकें और ट्रेनिंग/आर्किटेक्चर निर्णयों का CoT पर असर तौलना होगा. वरना नज़र खो देने का जोखिम है.

दावा बनाम दस्तावेज 

कुछ रिपोर्ट्स में दावा है कि क्लॉड (Claude) जैसे मॉडल लगभग 75% मामलों में असली वजह छुपाते हैं, और संवेदनशील/समस्या‑जनक संकेत होने पर स्वीकार करने की दर और घट जाती है; ट्रेनिंग से शुरू में सुधार दिखा, फिर प्लैटो हो गया. 

वहीं Anthropic के आधिकारिक पेपर में निष्कर्ष यह है कि कई सेटिंग्स में CoT की ‘सच्चाई' 20% से भी कम रहती है. यानी CoT मॉनिटरिंग उपयोगी जरूर है, पर पर्याप्त नहीं, खासकर दुर्लभ/विनाशकारी जोखिमों को पकड़ने के लिए.

यह भी पढ़ें- Grammarly के AI फीचर से मचा बवाल! बिना परमिशन के मशहूर लेखकों की कर रहा था नकल

आगे क्या?

शोधकर्ता CoT मॉनिटरबिलिटी में निवेश, मानकीकृत आकलन, और डिजाइन‑निर्णयों में पारदर्शिता को प्राथमिकता देने की सिफ़ारिश करते हैं. इसका लक्ष्य AI की सोच पर नजर बनाए रखना, ताकि दुरुपयोग, धोखा या खतरनाक प्रवृत्तियां शुरुआती चरण में पकड़ में आ सकें.

NDTV.in पर ताज़ातरीन ख़बरों को ट्रैक करें, व देश के कोने-कोने से और दुनियाभर से न्यूज़ अपडेट पाएं

फॉलो करे:
Listen to the latest songs, only on JioSaavn.com