گوگل نے اپنی آواز کی تلاش کو طاقت دینے کے لئے ایک نئی ٹکنالوجی تیار کی ہے ، جسے کمپنی کا کہنا ہے کہ اس سے اور بھی تیز تر اور زیادہ درست ہوجائے گا۔ نئی ٹیکنالوجی میں کنیکشنسٹ عارضی درجہ بندی (CTC) اور ترتیب امتیازی تربیت کی تکنیک کا استعمال کیا گیا ہے۔ 2012 میں ، گوگل نے گاوسیئ مرکب ماڈل (جی ایم ایم) سے ڈیپ نیورل نیٹ ورکس (ڈی این این) میں تبدیل کیا ، جس سے کمپنی کو بہتر اندازہ کرنے کی اجازت ملی کہ صارف اس وقت کون سی آواز پیدا کر رہا ہے ، اور تقریر کی شناخت میں اضافہ کی درستگی فراہم کرتا ہے۔
ہمارے بہتر صوتی ماڈل بار بار اعصابی نیٹ ورک (RNN) پر انحصار کرتے ہیں۔ آر این این کے پاس اپنی ٹاپولوجی میں آراء کے نظارے ہوتے ہیں جس کی وجہ سے وہ عارضی انحصار کا نمونہ بن سکتے ہیں: جب صارف پچھلی مثال میں / u / بولتا ہے تو ، ان کا فکریہ اپریٹس ایک / جے / آواز سے آتا ہے اور پہلے / م / آواز سے آتا ہے۔ اسے زور سے کہنے کی کوشش کریں - "میوزیم"۔ یہ ایک ہی سانس میں قدرتی طور پر بہتا ہے ، اور آر این این اس پر گرفت کرسکتے ہیں۔ یہاں جو RNN استعمال ہوتا ہے وہ ایک لمبی شارٹ ٹرم میموری (LSTM) RNN ہے جو میموری خلیوں اور جدید ترین گیٹنگ میکانزم کے ذریعہ دیگر RNNs سے بہتر معلومات کو حفظ کرلیتا ہے۔ اس طرح کے ماڈل اپنانے سے پہلے ہی ہمارے شناخت کنندہ کے معیار میں نمایاں بہتری آئی ہے۔
ٹکنالوجی میں تبدیلی گوگل نے کیا ہے ، اور اب وہ iOS اور اینڈروئیڈ دونوں پر گوگل ایپ میں آواز کی تلاش کو طاقت ور بنانے کے ساتھ ساتھ اینڈروئیڈ ڈیوائسز پر ڈکٹیشن کے لئے بھی استعمال ہو رہا ہے۔
ماخذ: گوگل ریسرچ بلاگ