Long Short-Term Memory (LSTM) networks
شبکههای حافظه طولانی کوتاه مدت(LSTM) نوعی شبکه عصبی بازگشتی هستند که قادر به یادگیری وابستگی ترتیب در مسائل پیشبینی توالی هستند. این رفتاری است که در حوزههای مشکل پیچیده مانند ترجمه ماشینی، تشخیص گفتار و موارد دیگر موردنیاز است. LSTMها حوزه پیچیدهای از یادگیری عمیق هستند.
پیشتر دیدیم که یک شبکه عصبی بازگشتی سنتی (اگر بهاندازه کافی بزرگ باشد) از نظر تئوری باید قادر به تولید دنبالههایی با هر پیچیدگیای باشد اما در عمل مشاهده میکنیم که این شبکه در ذخیرهسازی اطلاعات مرتبط با ورودیهای گذشته به مدت طولانی ناتوان است. علاوه بر اینکه این خصیصه توانایی این شبکه در مدلسازی ساختارهای بلندمدت را تضعیف میکند، این “فراموشی” باعث میشود تا این نوع از شبکهها در زمان تولید دنباله در معرض ناپایداری قرار گیرند. مشکلی که وجود دارد (که البته در تمامی مدلهای تولیدی شرطی نیز متداول است) این است که اگر پیشبینیهای شبکه تنها وابسته به چند ورودی اخیر باشد و این ورودیها خود نیز توسط شبکه تولید شده باشند، شانس بسیار کمی برای تصحیح و جبران اشتباهات گذشته توسط شبکه وجود دارد.
داشتن یک حافظه بلندمدتتر دارای اثر تثبیتکننده است چرا که حتی اگر شبکه نتواند از تاریخچه اخیر خود درک صحیحی پیدا کند، باز بااینوجود قادر است با نگاه درگذشته پیشبینی خود را کامل کند. مشکل ناپایداری به طور ویژه در زمان مواجه با داده اعشاری وخیم میشود چرا که پیشبینیها میتوانند از منیفولدی که دادههای آموزشی بر روی آن قرار گرفتهاند فاصله بگیرند. یک راهحل که برای مدلهای شرطی مطرح شده است تزریق نویز بهپیش بینیهای صورتگرفته توسط شبکه قبل از تغذیه آنها به گام زمانی بعدی است. این کار باعث تقویت شبکه در قبال ورودیهای غیرمنتظره میشود. بااینوجود اما یک حافظه بهتر، راهحل بهمراتب بهتر و تأثیرگذارتری است. حافظه طولانی کوتاهمدت یا بهاختصار LSTM یک معماری شبکه عصبی بازگشتی است که برای ذخیرهسازی و دسترسی بهتر به اطلاعات نسبت به نسخه سنتی آن طراحی شده است.
برخلاف شبکه عصبی بازگشتی سنتی که در آن محتوا در هر گام زمانی از نو بازنویسی میشود در یک شبکه عصبی بازگشتی LSTM شبکه قادر است نسبت به حفظ حافظه فعلی از طریق دروازههای معرفی شده تصمیمگیری کند. به طور شهودی اگر واحد LSTM ویژگی مهمی در دنباله ورودی در گامهای ابتدایی را تشخیص دهد بهسادگی میتواند این اطلاعات را طی مسیر طولانی منتقل کند بنابراین اینگونه وابستگیهای بلندمدت احتمالی را دریافت و حفظ دارد.
همانطور که قبلاً به طور مختصر اشاره کرده بودیم واحد حافظه طولانی کوتاهمدت (Long Short-Term Memory) ابتدا توسط هوخرایتر و اشمیت هوبر در سال ۱۹۹۷ معرفی شد. از آن زمان به بعد تغییرات جزئی در LSTM ایجاد شده است. مبانی که از آن دررابطهبا آموزش و پیادهسازی این نوع شبکهها مطرح میشود برگرفته از مقالهای تحت عنوان Generating Sequences WithRecurrent Neural Networks در سال ۲۰۱۳ است.