برای دیدن دوره های ما کلیک کنید...

Long Short-Term Memory (LSTM) networks

معماری و هوش مصنوعی

Long Short-Term Memory (LSTM) networks

شبکه‌های حافظه طولانی کوتاه مدت(LSTM) نوعی شبکه عصبی بازگشتی هستند که قادر به یادگیری وابستگی ترتیب در مسائل پیش‌بینی توالی هستند. این رفتاری است که در حوزه‌های مشکل پیچیده مانند ترجمه ماشینی، تشخیص گفتار و موارد دیگر موردنیاز است. LSTMها حوزه پیچیده‌ای از یادگیری عمیق هستند.

پیش‌تر دیدیم که یک شبکه عصبی بازگشتی سنتی (اگر به‌اندازه کافی بزرگ باشد) از نظر تئوری باید قادر به تولید دنباله‌هایی با هر پیچیدگی‌ای باشد اما در عمل مشاهده می‌کنیم که این شبکه در ذخیره‌سازی اطلاعات مرتبط با ورودی‌های گذشته به مدت طولانی ناتوان است. علاوه بر اینکه این خصیصه توانایی این شبکه در مدل‌سازی ساختارهای بلندمدت را تضعیف می‌کند، این “فراموشی” باعث می‌شود تا این نوع از شبکه‌ها در زمان تولید دنباله در معرض ناپایداری قرار گیرند. مشکلی که وجود دارد (که البته در تمامی مدل‌های تولیدی شرطی نیز متداول است) این است که اگر پیش‌بینی‌های شبکه تنها وابسته به چند ورودی اخیر باشد و این ورودی‌ها خود نیز توسط شبکه تولید شده باشند، شانس بسیار کمی برای تصحیح و جبران اشتباهات گذشته توسط شبکه وجود دارد.

داشتن یک حافظه بلندمدت‌تر دارای اثر تثبیت‌کننده است چرا که حتی اگر شبکه نتواند از تاریخچه اخیر خود درک صحیحی پیدا کند، باز بااین‌وجود قادر است با نگاه درگذشته پیش‌بینی خود را کامل کند. مشکل ناپایداری به طور ویژه در زمان مواجه با داده اعشاری وخیم می‌شود چرا که پیش‌بینی‌ها می‌توانند از منیفولدی که داده‌های آموزشی بر روی آن قرار گرفته‌اند فاصله بگیرند. یک راه‌حل که برای مدل‌های شرطی مطرح شده است تزریق نویز به‌پیش بینی‌های صورت‌گرفته توسط شبکه قبل از تغذیه آنها به گام زمانی بعدی است. این کار باعث تقویت شبکه در قبال ورودی‌های غیرمنتظره می‌شود. بااین‌وجود اما یک حافظه بهتر، راه‌حل به‌مراتب بهتر و تأثیرگذارتری است. حافظه طولانی کوتاه‌مدت یا به‌اختصار LSTM یک معماری شبکه عصبی بازگشتی است که برای ذخیره‌سازی و دسترسی بهتر به اطلاعات نسبت به نسخه سنتی آن طراحی شده است.

برخلاف شبکه عصبی بازگشتی سنتی که در آن محتوا در هر گام زمانی از نو بازنویسی می‌شود در یک شبکه عصبی بازگشتی LSTM شبکه قادر است نسبت به حفظ حافظه فعلی از طریق دروازه‌های معرفی شده تصمیم‌گیری کند. به طور شهودی اگر واحد LSTM ویژگی مهمی در دنباله ورودی در گام‌های ابتدایی را تشخیص دهد به‌سادگی می‌تواند این اطلاعات را طی مسیر طولانی منتقل کند بنابراین این‌گونه وابستگی‌های بلندمدت احتمالی را دریافت و حفظ دارد.

 

همان‌طور که قبلاً  به طور مختصر اشاره کرده بودیم واحد حافظه طولانی کوتاه‌مدت (Long Short-Term Memory) ابتدا توسط هوخرایتر و اشمیت هوبر در سال ۱۹۹۷ معرفی شد. از آن زمان به بعد تغییرات جزئی در LSTM ایجاد شده است. مبانی که از آن دررابطه‌با آموزش و پیاده‌سازی این نوع شبکه‌ها مطرح می‌شود برگرفته از مقاله‌ای تحت عنوان Generating Sequences WithRecurrent Neural Networks  در سال ۲۰۱۳ است.

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *