پیش بینی قیمت سهام به دلیل اهمیت آن از نظر مزایای افراد ، شرکت ها و دولت ها ، یک زمینه تحقیقاتی مهم است. این تحقیق به بررسی کاربرد رویکرد جدید برای پیش بینی قیمت تعدیل شده تعدیل یک شرکت خاص می پردازد. از مجموعه جدیدی از ویژگی ها برای تقویت احتمال دقیق تر با ضررهای کمتری با ایجاد یک مجموعه شش عیار استفاده می شود (که شامل بالا ، کم ، حجم ، باز ، HILO ، OPSE) است تا مجموعه سنتی چهار منظوره(زیاد ، کم ، حجم ، باز). این مطالعه همچنین با استفاده از مجموعه داده ها (Apple ، ExxonMobil ، Tesla ، Snapchat) از اندازه های مختلف برای افزایش پویایی نوآوری باز ، تأثیر اندازه داده ها را بررسی می کند. تأثیر بخش تجارت از نظر نتیجه ضرر نیز در نظر گرفته شده است. سرانجام ، این مطالعه شامل شش مدل یادگیری عمیق ، MLP ، GRU ، LSTM ، BI-LSTM ، CNN و CNN-LSTM برای پیش بینی قیمت بسته بندی تعدیل شده سهام بود. شش متغیر مورد استفاده (بالا ، کم ، باز ، حجم ، HILO و OPSE) با توجه به نتیجه مدل ارزیابی می شوند و ضررهای کمتری نسبت به رویکرد اصلی نشان می دهند ، که از مجموعه ویژگی اصلی استفاده می کند. نتایج نشان می دهد که مدل های مبتنی بر LSTM با استفاده از رویکرد جدید بهبود یافته اند ، حتی اگر همه مدل ها نتیجه مقایسه ای را نشان دهند که در آن هیچ مدل نتایج بهتری را نشان نمی دهد یا به طور مداوم از سایر مدل ها بهتر عمل می کند. سرانجام ، ویژگی های جدید اضافه شده بر عملکرد مدل های پیش بینی تأثیر مثبت گذاشت.
1. مقدمه
کشورها با اطمینان از هزینه های عمومی بر پیشرفت و تقویت اقتصاد خود برای ایجاد یک استاندارد خوب زندگی تمرکز می کنند. اقتصاد مدرن شرکتهای بزرگی را ایجاد می کند که می توانند فرصت های عظیمی ایجاد کنند و از تغییرات سریع در اقتصاد جهان استفاده کنند [1،2]. بورس سهام استخر خریدار و اوراق بهادار فروشنده است که به بورس اوراق بهادار خصوصی ، بورس اوراق بهادار و بورس اوراق بهادار مختلط تقسیم می شوند [3]. بورس اوراق بهادار خصوصی شامل تبادل سهام شرکت های خصوصی است ، در حالی که بورس اوراق بهادار شامل سهام یک شرکت ذکر شده در بازار سهام عمومی است. سهام مالکیت مختلط در شرکت هایی است که سهام آنها فقط تا حدی در بازار سهام دولتی قابل تعویض است. این بورس اوراق بهادار در انگلستان ، مانند بورس اوراق بهادار لندن و ایالات متحده ، مانند بورس نیویورک (NYSE) ایجاد شده است [4،5،6،7،8،9].
پیشبینی قیمت سهام یکی از چالشبرانگیزترین مشکلاتی است که موسسات مالی، کسبوکارها و سرمایهگذاران فردی با آن مواجه هستند [10]. عوامل زیادی بر اعتبار پیشبینیهای قیمت سهام تأثیر میگذارند، از جمله اقتصاد، زمینههای سیاسی و روانشناسی سرمایهگذار. طبق ادبیات، به دلیل این پیچیدگی، علاقه زیادی به استفاده از روشهای یادگیری ماشینی مانند هوش مصنوعی، استدلال احتمالی و برنامهریزی تکاملی برای ارزیابی مجموعه دادههای تاریخی بزرگ بر روی قیمت سهام وجود دارد [11،12]. از آنجایی که نیازی به فرضیههای آماری ندارد، شبکه عصبی مصنوعی، عمدتاً یک روش آماری و ناپارامتریک، یکی از محبوبترین ابزارها در مدلسازی پیشبینی در میان تمامی این رویکردهای هوش رایانهای است [13،14،15،16،17،18].
بازار سهام ستون فقرات هر اقتصادی است. اهداف اولیه هر سرمایه گذاری در بازار سهام، حداکثر کردن سود و به حداقل رساندن ریسک است [4]. بنابراین، کشورها باید بازارهای سهام خود را تقویت کنند، زیرا آنها با رشد اقتصادی مرتبط هستند [19]. سرمایه گذاری در بازار سهام می تواند منجر به بازگشت سریع سرمایه گذاری شود. بنابراین، پیشبینی بازار سهام یکی از بهترین استراتژیها برای دستیابی به سود است. پیشبینی بازار سهام خطی نیست، بنابراین پیشبینی قیمت سهام یک شرکت در یک بازار خاص را دشوارتر میکند [20]. در نتیجه، سرمایهگذاران و محققان باید تکنیکهایی را بیابند که میتواند به نتایج دقیق و سود بالاتر منجر شود [21]. مدلهای یادگیری ماشین مرسوم نسبت به مدلهای آماری مانند ARIMA [22] برتری دارند. از سوی دیگر، مدلهای یادگیری عمیق مانند حافظه کوتاهمدت بلند مدت (LSTM) برای عملکرد بهتر از مدلهای یادگیری ماشین مانند رگرسیون بردار پشتیبان (SVR) [23]، (KARA و همکاران، 2011)، که همچنین نشان داد کهمدل یادگیری عمیق شبکه عصبی مصنوعی (ANN) به جای ماشین بردار پشتیبان (SVM) شناسایی شده بود [24].
پیش بینی قیمت فارکس مشابه پیش بینی قیمت سهام است [25،26]. یک مدل توجه RNN-ARIMA (ARNN-ARIMA) برای پیشبینی قیمتهای فارکس پیشنهاد شده است. مدل پیشنهادی با استفاده از سه معیار اصلی ارزیابی شد: میانگین مربعات خطای ریشه (RMSE)، میانگین مربعات درصد خطا (MAPE) و دقت جهت. مدل پیشنهادی با چندین مدل از جمله RNN، GRU، LSTM و ARNN مقایسه شده است. این مدل با استفاده از تمام معیارها از همه مدلهای دیگر بهتر عمل کرد و متعاقباً به کمترین RMSE و MAPE با 1. 65 × 10-3 و 23. 2 درصد و بالاترین DA با 75. 7 درصد رسید، کمی بهتر از ARNN که 73. 5 درصد DA را به دست آورد [27]. یک LSTM با یک مدل لایه جاسازی شده (ELSTM) و یک LSTM با یک رمزگذار خودکار (ALSTM)، در [28] معرفی شده است. مدل پیشنهادی معیارهای چندگانه را برای ارزیابی عملکرد آن در مقایسه با چندین مدل مقایسه کرد. علاوه بر دو مجموعه داده، اولین آزمایش بر روی مجموعه داده اول، با استفاده از ALSTM و ELSTM، عملکرد خوبی را نشان داد، و عملکرد بهتری از سایر مدلها مانند پرسپترون چند لایه توجه (AMLP) و پرسپترون چند لایه تعبیه شده (EMLP) با امتیاز دادن داشت. MSE کمتر و دقت نسبی بالاتر شاخص ترکیبی A-share شانگهای. با این حال، ALSTM بدترین امتیاز MSE را در مجموعه داده دوم به دست آورد، و هر دو مدل بدترین نتایج را از نظر دقت نسبی Sinopec به دست آوردند.
مدلهای یادگیری عمیق در بسیاری از زمینهها نتایج عالی به دست آوردند [29،30]. آنها پتانسیل استفاده در پیش بینی بازار سهام را به دلیل توانایی خود در تشخیص پویایی حرکات بازار سهام و به دست آوردن نتایج کافی نشان دادند [31]. این مقاله بر روی شش مدل یادگیری عمیق پیشنهادی و تشخیص تفاوتهای بین آنها، از جمله LSTM تمرکز دارد [32،33]. شبکه بازگشتی دردار (GRU) نیز در فرآیند ارزیابی استفاده شده است [34]، که همچنین یک مدل مبتنی بر RNN است. یک پرسپترون چند لایه (MLP) [35] در این کار، و همچنین یک شبکه عصبی کانولوشن (CNN) [36]، مدل CNN-LSTM و دو جهته-LSTM (Bi-LSTM) [37] استفاده شده است. این تحقیق شش مدل را معرفی کرد. اولین پرسپترون چند لایه (MLP) است. MLP یک شبکه عصبی از سه بخش از نورونها، شامل یک لایه نورون ورودی، لایه نورون پنهان و لایه نورون خروجی است و مدل میتواند چندین لایه پنهان داشته باشد. هر نورون در این مدل به تمام نورون های لایه قبلی متصل است. به این نوع اتصالات، لایه های کاملا متصل یا لایه های متراکم می گویند. نورون های همان لایه به هم متصل نیستند. فرآیند یادگیری، وزن هر نورون را پس از پردازش داده ها با توجه به میزان خطا در خروجی در مقایسه با نتیجه استثنا شده، تغییر می دهد. داده های مربوط به چهار شرکت اپل، تسلا، اکسون موبیل و اسنپ چت، این مدل ها را ارزیابی کردند. هر مجموعه داده بر یک دوره متفاوت تمرکز می کند تا اثر اندازه داده را تشخیص دهد. هر شرکتی تمرکز تجاری متفاوتی دارد. این مقاله یک تکنیک استخراج ویژگی را برای افزایش تعداد مدلهای ویژگیهایی که میتوانند به منظور ارائه پیشبینیهای دقیق با تلفات کمتر مورد استفاده قرار گیرند، پیشنهاد میکند. در نهایت، همانطور که کیم و کیم در [38] اشاره کردند، توابع زیان مورد استفاده در فرآیند ارزیابی عبارتند از میانگین مربعات خطا (MSE) و میانگین درصد مطلق خطا (MAPE). نتایج نشان داد که مدلهای مبتنی بر LSTM با استفاده از رویکرد جدید بهبود یافتند، حتی اگر همه مدلها نتیجه مقایسهای را نشان دادند که در آن هیچ مدلی نتایج بهتری نشان نداد یا به طور مداوم از سایر مدلها بهتر عمل کرد. مدل CNN بهترین کارایی را از نظر زمان اجرا نشان داد. GRU و CNN بهترین مدل ها برای ارائه نتایج خوب با نمونه های کمتر بودند. اهداف اصلی این مقاله به شرح زیر است:
تفاوت بین مدل های یادگیری عمیق (مانند MLP، GRU، LSTM، Bi-LSTM، CNN و CNN-LSTM) را تشخیص دهید.
بخش های اصلی این مقاله به شرح زیر سازماندهی شده است. بخش 2 آثار مرتبط را در این مقاله ارائه می دهد. بخش 3 روش پیشنهادی برای پیش بینی قیمت سهام را نشان می دهد. بخش 4 آزمایشات ، نتایج و بحث را ارائه می دهد. سرانجام ، نتیجه گیری و دستورالعمل های تحقیقات آینده در بخش 5 آورده شده است.
2. کار مرتبط
اخیراً تحقیقات زیادی در مورد پیش بینی قیمت فارکس و بازار سهام انجام شده است [39،40،41،42،43]. Kang et al. ، 2019 ، معماری شبکه مخالف تولید کننده با حافظه کوتاه مدت بلند مدت (LSTM) را به عنوان ژنراتور و Perceptron چند لایه (MLP) به عنوان یک نماینده ارائه داد. مدل GAN با LSTM ، شبکه عصبی مصنوعی (ANN) و رگرسیون بردار پشتیبانی (SVR) مقایسه شده است. برای ارزیابی مدل ها از معیارهای متعدد استفاده شده است ، و مدل GAN پیشنهادی نسبت به مدل دیگری برتر است ، طبق تمام معیارهای مورد استفاده در این مقاله [44]. داده های بزرگ باعث می شود کارآیی بیشتر و سرعت نوآورانه باشد. سرمایه سرمایه گذاری ، صندوق های سهام و صندوق های مبادله ای نمونه هایی از نوآوری مالی است که به توسعه مالی و رشد اقتصادی کمک کرده است [45،46،47،48،49].
سه مدل ، از جمله رگرسیون بردار پشتیبانی (SVR) ، رگرسیون خطی (LR) و حافظه کوتاه مدت بلند (LSTM) ، در [50] معرفی شده اند. مشخص شد که LSTM از مدل های دیگر تا کنون بهتر است و به 0. 0151 نمره رسیده است ، در حالی که LR با 13. 872 در رده دوم قرار گرفت و SVR با 34. 623 به پایان رسید [51]. پراتیک و همکاران. دو مدل بر اساس تئوری نمودار ارائه شده است. اولین مورد مبتنی بر همبستگی بین قیمت های تاریخی و دیگری بر اساس علیت بود. نتایج ثابت کرد که مدل های مبتنی بر نمودار نسبت به روشهای سنتی برتر هستند و مدل مبتنی بر علیت نتایج کمی بهتر از همبستگی کسب می کند. مدل های اصلی RNN ، LSTM و GRU در [52] ارائه شده است. مدل GRU با 0. 67 دقت و 0. 629 از دست دادن ورود به سیستم به دست آورد ، و پس از آن LSTM با 0. 665 دقت و از دست دادن ورود به سیستم 0. 629 و RNN با 62. 5 دقت و از دست دادن ورود به سیستم 0. 725 ، اما ، هر دو LSTM و GRU با افزودن افزودن به آنها تغییر یافتندلایه ترک تحصیل ، و مدل GRU به دلیل لایه ترک تحصیل هیچ پیشرفتی نشان نداد. با این حال ، LSTM افزایش عملکرد جزئی 2 ٪ را نشان داد.
مدل LSTM در [53] برای پیشبینی (50) قیمت سهام پیشنهاد شده است. LSTM یک معماری RNN است که در پردازش زبان طبیعی (NLP) استفاده می شود. نتایج نشان داد که هرچه پارامترها و دورههای بیشتری دریافت کند، عملکرد بهتری ارائه میدهد و با استفاده از مجموعه پارامترهای High، Low، Open، Close و 500 دوره، بهترین عملکرد 0. 00859 را در متریک RMSE به دست آورد. چهار مدل یادگیری عمیق، یعنی MLP، RNN، CNN، و LSTM، در [54] معرفی شدهاند. این مدل ها بر روی TATA MOTORS آموزش دیده اند. پس از آموزش، مدلها با پیشبینی قیمت سهام مورد ارزیابی قرار گرفتند و مدلها با شناسایی الگوهای حرکت سهام حتی در سایر بازارهای سهام به نتایج رضایتبخشی دست یافتند که نشان میدهد مدلهای یادگیری عمیق میتوانند پویاییهای اساسی را شناسایی کنند. CNN نشان داد که برتر است. این مقاله همچنین مدل ARIMA را امتحان کرد، اما دینامیک زیربنایی بین سریهای زمانی متعدد را یاد نگرفت.
یک مدل CNN که از ساختار مرتبه بالا استفاده می کند در [55] پیشنهاد شده است. در واقع، آن را با بسیاری از مدلهای مختلف، از جمله روشهای سنتی مانند ARIMA و Wavelet، که بدترین عملکرد را اثبات کردند، و سپس مدل یادگیری ماشینی، و مدل پنهان مارکوف (HMM)، که در مقایسه با آن پایینتر بود، مقایسه شد. با مدل های یادگیری عمیق مانند LSTM و SMF با دقت 1-3٪. این مدلهای یادگیری عمیق نسبت به مدل CNN که از ساختاری با مرتبه بالا استفاده میکند پایینتر بودند. این نتایج پس از ارزیابی مجموعه داده های متعدد از جمله Apple، Google، IBM، S& P 500 و سایر مجموعه داده ها به دست آمد. مدل های یادگیری عمیق RNN، CNN و LSTM در [56] معرفی شده اند و ARIMA با مدل های یادگیری عمیق مقایسه شده است. مدلها بر روی مجموعه دادههای Infosys، TCS و Cipla آموزش و ارزیابی شدند تا بررسی شود که آیا مدلها پویایی پنهان بین دادهها را نشان میدهند یا خیر. مدلهای یادگیری عمیق عملکرد برتری نسبت به مدل ARIMA داشتند که CNN بهترین مدل یادگیری عمیق بود که با 1352. 1% از ARIMA، 177. 1% LSTM و 165. 2% RNN بهتر بود.
عملکرد مدلهای مختلف یادگیری عمیق ، مانند مدل های LSTM ، MLP و ELSTM در [57] ، LSTM و GRU در [58] و SVR و NN در [59] ، برای پیش بینی قیمت سهام مقایسه شد. داده های سه بانک در NSE هند برای ارزیابی این مدل ها جمع آوری شده است. ثابت شد که LSTM عمیق از دقت بالاتری و MSE پایین تر از سایر مدل ها برخوردار است. یک شبکه عصبی گسترده (DWNN) در [60] ارائه شده است که هم برای حل محدودیت های مدل های RNN-Basic ، هر دو مدل RNN و CNN را ترکیب می کند ، و داده های سهام مدل ها را در بخش SSE Sandstorm در چین آموزش می دهد تا اطمینان حاصل شود که از آن بوده است. استفاده شدهنتایج ثابت کرد که ترکیب مدل های RNN و CNN عملکرد را 30 ٪ در مقایسه با RNN وانیل کاهش داده است. یک مدل ترکیبی که ترکیبی از تبدیل موجک گسسته (DWT) و شبکه عصبی مصنوعی (ANN) در [61] برای تولید عملکرد بهتر با استفاده از DWT برای تجزیه و تحلیل داده های اصلی است. علاوه بر این ، برای تولید تقریبی و جزئیات ضرایب مورد استفاده به عنوان ورودی برای مدل ، این روش عملکرد را در مقایسه با مدل اصلی ANN برای پنج مجموعه داده افزایش می دهد.
یک مدل جدید در [62] برای پیش بینی قیمت بیت کوین ، مشابه پیش بینی قیمت سهام ارائه شده است. سه مدل یادگیری عمیق ، وانیل RNN ، LSTM و ARIMA. این سه مدل عملکرد مشابهی را هنگام صحت ، 52. 78 ٪ ، 50. 25 ٪ و 50. 05 ٪ برای LSTM ، RNN و ARIMA نشان دادند. با این حال ، هنگامی که صحبت از RMSE می شود ، دو مدل یادگیری عمیق مدل ARIMA را با 6. 87 ٪ و 5. 45 ٪ برای LSTM و RNN تخریب کردند و 53. 74 ٪ RMSE برای مدل Arima. یک مدل یادگیری عمیق جدید با استفاده از وانیل CNN ، ANN و یک مدل CNN که توسط یک الگوریتم ژنتیکی (GA-CNN) تقویت شده است [63]. نتایج نشان داد که GA-CNN با دستیابی به دقت 73. 74 ٪ از هر دو مدل CNN و ANN از نظر دقت بهتر است ، بنابراین از CNN وانیل بیش از 3 ٪ و ANN با دقت 15 ٪ بهتر است. در [64] ، چندین مدل یادگیری عمیق ، از جمله LSTM ، CNN ، LSTM-CNN ، SVR ، تجزیه حالت تجربی کاربردی (EMD) ، و Ensemble-EMD کامل (CEEMD) ، برای کمک به روند بهبود LSTM و CNN معرفی شده است. مدل های مبتنی برآنها این مدل ها را به چهار مجموعه داده مختلف اعمال کردند و نتایج نشان داد که CEEMD-LSTM-CNN نسبت به سایر مدل های معرفی شده در این مقاله برتر است.
یک مدل جدید از تبدیل موجک ، رمزگذار خودکار انباشته و حافظه کوتاه مدت بلند مدت دو طرفه استفاده می کند [65]. این مدل WAE-Blstm نامیده می شد و دارای یک گردش کار سه مرحله ای از جمله از بین بردن نویز ، کاهش ابعاد و پیش بینی با استفاده از BLSTM بود. برای نشان دادن قابلیت های این مدل ، که با چهار مدل ، W-BLSTM ، W-LSTM ، BLSTM و LSTM مقایسه شده است ، WAE-BLSTM با توجه به معیارهای MAE و RMSE از مدل های دیگر بهتر عمل می کند. یک مدل CNN-BILSTM-AM در [66] ارائه شده است که از CNN ، BILSTM و مکانیسم توجه استفاده می کند. CNN ویژگی ها را استخراج می کند ، از Bilstm برای پیش بینی با استفاده از این ویژگی ها استفاده می شود و مکانیسم توجه تأثیر ویژگی های استخراج شده را ضبط می کند. در مقایسه با BI-LSTM-AM ، CNN-BILSTM ، CNN-LSTM ، BILSTM ، LSTM ، CNN ، RNN و MLP ، این مدل مطابق با معیارهای MAE و RMSE ثابت شد.
شبکه عصبی Elman در [67] معرفی شده و یک شبکه عصبی مبتنی بر RNN است. Elman-NN از اتصالات مستقیم ورودی به خروجی (DIOC) برای تولید المان دیوید برای ارزیابی این مدل ها در برابر Elman-NN و MLP استفاده کرد. از چهار شاخص جهانی سهام استفاده شد. المان دیواکس مطابق معیارهای MAE و RMSE از هر دو Elman-NN و MLP بهتر عمل کرد. دیوارها معمولاً هنگام افزودن به مدلهای شبکه عصبی مفید هستند. CNN مبتنی بر نمودار در [68] به نام شبکه عصبی آرایه آرایه آرایه (SSACNN) معرفی شده است. این داده ها ، از جمله قیمت داده های تاریخی و شاخص های پیشرو را به عنوان یک آرایه جمع می کند و آنها را به عنوان یک نمودار به مدل CNN تغذیه می کند. ده مجموعه داده سهام از دو بازار در فرایند ارزیابی به مدل تغذیه می شوند و SSACNN از نظر دقت از مدل های CNN ، ANN و SVM بهتر عمل می کند.
مدل های مختلف GRU در [69] برای پیش بینی قیمت بیت کوین ارائه شده است ، و این مدل ها نیز با LSTM و شبکه عصبی مصنوعی (ANN) مقایسه شده اند. این مدل های GRU شامل مدل اصلی GRU ، GRU-Dropout و مدل Gru-Dropout-GRU بود و نتایج نشان داد که GRU اساسی با دستیابی به RMSE پایین تر از هر دو مدل GRU ، LSTM و ANN بهتر است. LSTM مبتنی بر توجه در [70] معرفی شده است ، که از تبدیل موجک برای پاک کردن نویز داده ها (AWLSTM) استفاده می کند. این مدل با مدل های WLSTM ، LSTM و GRU مقایسه شده است. برای ارزیابی مدل ها از سه مجموعه داده و چهار معیار استفاده شده است. مجموعه داده ها شامل S& P 500 ، DIJA و HSI بودند و نتایج ثابت کرد که AWLSTM در مقایسه با سایر مدل ها مطابق با چهار معیار برتر است [70]. جدول 1 مروری بر بیشترین آثار را نشان می دهد.
3. روش شناسی
3. 1مجموعه داده ها
این تحقیق شامل چهار مجموعه داده از چهار شرکت با بخش های مختلف تجاری است: اپل ، تسلا ، اسنپ چت و ExxonMobil.
اپل ارائه دهنده نرم افزار و سخت افزار است. مجموعه داده های آن شامل شاخص های قیمت سهام مانند افتتاح و حجم ، قیمت بالا و پایین و همچنین قیمت بسته بندی تنظیم شده است که به عنوان ویژگی ای در نظر گرفته می شود که پیش بینی می کند شاخص های اول (افتتاح و حجم ، قیمت بالا و پایین) چگونه هستندبر اساس 21 سال گذشته داده های قیمت سهام ، یا به عنوان داده های ورودی یا ویژگی ها درمان می شود. اولین مجموعه داده برای این مطالعه شامل دوره 30 اکتبر 2000 تا 17 اکتبر 2021 ، با 5283 نمونه داده است. مجموعه داده دوم شامل 11 سال داده قیمت سهام برای تسلا از 29 ژوئن 2010 تا 27 اکتبر 2021 ، از جمله 2855 مورد که مربوط به یک شرکت خودرو است. سرمایه گذاری در بازار تسلا و قیمت سهام نسبت به مجموعه داده های اپل و اسنپ چت بی ثبات بوده است. این به دلیل توییت های مدیر اجرایی تسلا ، الون مسک است که بر سرمایه گذاری بازار تسلا و قیمت سهام تأثیر گذاشته است. مجموعه داده سوم شامل سه سال و نه ماه داده قیمت سهام برای Snapchat از 3 فوریه 2017 تا 11 نوامبر 2021 ، از جمله 1186 نمونه است. این یک بستر رسانه های اجتماعی و یک شرکت نسبتاً جدید در مقایسه با سه مجموعه داده دیگر است. مجموعه داده های آن به دلیل داده های نسبتاً کوچک آن ، پیش بینی هایی را برای مدل ها ایجاد می کند و منجر به عدم مناسب می شود. مجموعه داده چهارم مجموعه داده ExxonMobil است که شامل داده های قیمت گذاری دوره از 3 ژانویه 2000 تا 7 دسامبر 2021 ، از جمله 5520 نمونه یک شرکت نفتی است که از ادغام شرکت های نفتی نفت و موبیل ایجاد شده است. مجموعه داده های آن برای متنوع سازی مجموعه داده های استفاده شده اضافه شد. این مجموعه داده برای 21 سال گذشته استفاده شده است. داده های جمع آوری شده از پرونده های یاهو مالی (. csv) شامل چهار ویژگی ورودی و یک ویژگی خروجی بود. ابعاد تاریخ/زمان حذف شده است زیرا هیچ ارتباطی و تأثیر در روند پیش بینی ندارد.