nVIDIA Full Duplex Speech to Speech Voice Model: हम जब किसी से औपचारिक बातचीत कर रहे होते हैं तो अक्सर 'पहले आप-पहले आप' वाली स्थिति पैदा हो जाती है. सामने वाला अपनी बात खत्म करे, तभी दूसरा अपनी बात कहता है. दोस्तों के साथ गप्पें लड़ाते हुए ऐसा नहीं होता! है न! कितना मजेदार होगा, जब एक AI असिस्टेंट मॉडल भी दोस्त की तरह बात करे! दरअसल दिग्गज टेक कंपनी एनवीडिया (nVIDIA) ने नया वॉयस एआई मॉडल PersonaPlex‑7B लॉन्च करके वॉइस असिस्टेंट की दुनिया में तहलका मचा दिया है. ये फुल‑डुप्लेक्स स्पीच‑टू‑स्पीच मॉडल है, जो इंसानों की तरह एक साथ सुन भी सकता है और बोल भी सकता है. NDTV के 18 फरवरी से शुरू होने वाले NDTV Ind.AI Summit में ये चर्चा का विषय रहने वाला है.
'यूजर के जोक पर खिलखिलाई AI मॉडल'
एआई कम्युनिटी में शेयर किए गए एक X पोस्ट में बताया गया है कि Voice AI से बात करते वक्त वो क्लास वाले ऑकवर्ड 'आप बोलिए, नहीं आप बोलिए' मोमेंट्स खत्म हो गए. पोस्ट में कहा गया कि PersonaPlex‑7B अब बिना रुके, बिना 'आपकी बारी-मेरी बारी' वाले नियम के, रीयल‑टाइम में बातचीत कर सकता है और यही इसकी सबसे बड़ी खासियत है.
NVIDIA just dropped PersonaPlex-7B 🤯
— Hugging Models (@HuggingModels) February 15, 2026
A full-duplex voice model that listens and talks at the same time.
No pauses. No turn-taking. Real conversation.
100% open source. Free.
Voice AI just leveled up.https://t.co/YfzFQfBzMS pic.twitter.com/bVwJ5EFJFB
इसमें एक बातचीत की क्लिप भी अपलोड की गई है, जिसमें यूजर एक फनी जोक सुनाता है और AI असिस्टेंट मॉडल इस पर रियल टाइम रिएक्ट करती है, हंसती है और जवाब भी देती है. कुछ सेंकंड्स की ये बातचीत सुनते हुए आपको कहीं से नहीं लगता कि ये इंसान और AI के बीच की बातचीत है, बल्कि ऐसा लगता है कि दो दोस्त आमने-सामने बात कर रहे हैं.
क्या है PersonaPlex‑7B?
यह रियल‑टाइम स्पीच‑टू‑स्पीच कन्वर्सेशनल मॉडल है, जो आपकी आवाज सुनकर सीधे आवाज में ही जवाब देता है, बीच में अलग‑अलग ASR→LLM→TTS स्टेप्स की जरूरत नहीं पड़ती.
- मॉडल में लगभग 7 अरब पैरामीटर्स हैं और यह NVIDIA की Moshi नेटवर्क आर्किटेक्चर पर बना है.
- कंपनी ने इसे पूरी तरह ओपन‑सोर्स रखा है, कोड और वेट्स दोनों Hugging Face पर फ्री उपलब्ध हैं.
- यानी डेवलपर इसे ऑनलाइन और इन-बिल्ट यूज करने के अलावा अपने सिस्टम पर लोकली भी चला सकते हैं.
AI एक साथ सुनेगा भी और बोलेगा भी
PersonaPlex‑7B में ड्युअल‑स्ट्रीम डिजाइन है, जिसमें Mimi स्पीच एनकोडर आपकी आवाज़ को 24kHz पर टोकन में बदलता है और मॉडल उसी समय टेक्स्ट व ऑडियो दोनों टोकन जेनरेट करता रहता है.
इसका मतलब है कि आप बात के बीच में एआई को काट भी सकते हैं, वो ओवरलैप, इंटरप्शन और “हां‑हूं” जैसे नैचरल बैक‑चैनल सिग्नल भी हैंडल कर सकता है.

पर्सनालिटी और आवाज पर फाइन कंट्रोल
मॉडल दो तरह के प्रॉम्प्ट पर कंडीशन होता है: एक वॉइस प्रॉम्प्ट, जिसमें आप कैसी आवाज और स्टाइल चाहते हैं और दूसरा टेक्स्ट प्रॉम्प्ट, जिसमें रोल, बैकग्राउंड और बिहेवियर सेट किया जाता है.
डेवलपर कस्टमर‑सपोर्ट एजेंट, गेमिंग कैरेक्टर या किसी खास सेलिब्रिटी‑स्टाइल जैसी अलग‑अलग पर्सनालिटी ज़ीरो‑शॉट तरीक़े से बना सकते हैं और पूरे सेशन में वही टोन बनाए रख सकते हैं.
कहां काम आएगा यह मॉडल?
अल्ट्रा‑लो लेटेंसी और इंसानी जैसी बातचीत की वजह से इसे कस्टमर केयर बॉट, वर्चुअल असिस्टेंट, गेमिंग NPC, रोबोटिक्स और कॉल‑सेंटर ऑटोमेशन में तुरंत इस्तेमाल किया जा सकता है.
PersonaPlex‑7B को NVIDIA GPU‑ऐक्सेलरेटेड सिस्टम (A100, H100 आदि) के लिए ऑप्टिमाइज़ किया गया है, जिससे बड़े पैमाने पर रीयल‑टाइम सर्विंग आसान हो जाती है.
NDTV.in पर ताज़ातरीन ख़बरों को ट्रैक करें, व देश के कोने-कोने से और दुनियाभर से न्यूज़ अपडेट पाएं