nVIDIA Full Duplex Speech to Speech Voice Model: हम जब किसी से औपचारिक बातचीत कर रहे होते हैं तो अक्सर 'पहले आप-पहले आप' वाली स्थिति पैदा हो जाती है. सामने वाला अपनी बात खत्म करे, तभी दूसरा अपनी बात कहता है. दोस्तों के साथ गप्पें लड़ाते हुए ऐसा नहीं होता! है न! कितना मजेदार होगा, जब एक AI असिस्टेंट मॉडल भी दोस्त की तरह बात करे! दरअसल दिग्गज टेक कंपनी एनवीडिया (nVIDIA) ने नया वॉयस एआई मॉडल PersonaPlex‑7B लॉन्च करके वॉइस असिस्टेंट की दुनिया में तहलका मचा दिया है. ये फुल‑डुप्लेक्स स्पीच‑टू‑स्पीच मॉडल है, जो इंसानों की तरह एक साथ सुन भी सकता है और बोल भी सकता है. NDTV के 18 फरवरी से शुरू होने वाले NDTV Ind.AI Summit में ये चर्चा का विषय रहने वाला है.
'यूजर के जोक पर खिलखिलाई AI मॉडल'
एआई कम्युनिटी में शेयर किए गए एक X पोस्ट में बताया गया है कि Voice AI से बात करते वक्त वो क्लास वाले ऑकवर्ड 'आप बोलिए, नहीं आप बोलिए' मोमेंट्स खत्म हो गए. पोस्ट में कहा गया कि PersonaPlex‑7B अब बिना रुके, बिना 'आपकी बारी-मेरी बारी' वाले नियम के, रीयल‑टाइम में बातचीत कर सकता है और यही इसकी सबसे बड़ी खासियत है.
इसमें एक बातचीत की क्लिप भी अपलोड की गई है, जिसमें यूजर एक फनी जोक सुनाता है और AI असिस्टेंट मॉडल इस पर रियल टाइम रिएक्ट करती है, हंसती है और जवाब भी देती है. कुछ सेंकंड्स की ये बातचीत सुनते हुए आपको कहीं से नहीं लगता कि ये इंसान और AI के बीच की बातचीत है, बल्कि ऐसा लगता है कि दो दोस्त आमने-सामने बात कर रहे हैं.
क्या है PersonaPlex‑7B?
यह रियल‑टाइम स्पीच‑टू‑स्पीच कन्वर्सेशनल मॉडल है, जो आपकी आवाज सुनकर सीधे आवाज में ही जवाब देता है, बीच में अलग‑अलग ASR→LLM→TTS स्टेप्स की जरूरत नहीं पड़ती.
- मॉडल में लगभग 7 अरब पैरामीटर्स हैं और यह NVIDIA की Moshi नेटवर्क आर्किटेक्चर पर बना है.
- कंपनी ने इसे पूरी तरह ओपन‑सोर्स रखा है, कोड और वेट्स दोनों Hugging Face पर फ्री उपलब्ध हैं.
- यानी डेवलपर इसे ऑनलाइन और इन-बिल्ट यूज करने के अलावा अपने सिस्टम पर लोकली भी चला सकते हैं.
AI एक साथ सुनेगा भी और बोलेगा भी
PersonaPlex‑7B में ड्युअल‑स्ट्रीम डिजाइन है, जिसमें Mimi स्पीच एनकोडर आपकी आवाज़ को 24kHz पर टोकन में बदलता है और मॉडल उसी समय टेक्स्ट व ऑडियो दोनों टोकन जेनरेट करता रहता है.
इसका मतलब है कि आप बात के बीच में एआई को काट भी सकते हैं, वो ओवरलैप, इंटरप्शन और “हां‑हूं” जैसे नैचरल बैक‑चैनल सिग्नल भी हैंडल कर सकता है.
पर्सनालिटी और आवाज पर फाइन कंट्रोल
मॉडल दो तरह के प्रॉम्प्ट पर कंडीशन होता है: एक वॉइस प्रॉम्प्ट, जिसमें आप कैसी आवाज और स्टाइल चाहते हैं और दूसरा टेक्स्ट प्रॉम्प्ट, जिसमें रोल, बैकग्राउंड और बिहेवियर सेट किया जाता है.
डेवलपर कस्टमर‑सपोर्ट एजेंट, गेमिंग कैरेक्टर या किसी खास सेलिब्रिटी‑स्टाइल जैसी अलग‑अलग पर्सनालिटी ज़ीरो‑शॉट तरीक़े से बना सकते हैं और पूरे सेशन में वही टोन बनाए रख सकते हैं.
कहां काम आएगा यह मॉडल?
अल्ट्रा‑लो लेटेंसी और इंसानी जैसी बातचीत की वजह से इसे कस्टमर केयर बॉट, वर्चुअल असिस्टेंट, गेमिंग NPC, रोबोटिक्स और कॉल‑सेंटर ऑटोमेशन में तुरंत इस्तेमाल किया जा सकता है.
PersonaPlex‑7B को NVIDIA GPU‑ऐक्सेलरेटेड सिस्टम (A100, H100 आदि) के लिए ऑप्टिमाइज़ किया गया है, जिससे बड़े पैमाने पर रीयल‑टाइम सर्विंग आसान हो जाती है.
FAQ_EMBED














