اگر چند سال تجربه در زمینه علوم کامپیوتر یا تحقیقات دارید و علاقه مند به اشتراک گذاری آن تجربه با جامعه هستید ، به دستورالعمل های مشارکت ما نگاهی بیندازید.
1. بررسی اجمالی
در این آموزش ، ما مشکل تجزیه و تحلیل احساسات را در پردازش زبان طبیعی بررسی خواهیم کرد.
ما همچنین برخی از مجموعه داده های آموزشی را که می توانیم از آنها برای توسعه نمونه های اولیه مدل های خود استفاده کنیم ، شناسایی خواهیم کرد.
در پایان این آموزش ، ما می دانیم که مجموعه داده های مشترک برای تجزیه و تحلیل احساسات ، و نحوه استفاده از آنها برای پردازش ساده زبان طبیعی را پیدا خواهیم کرد.
2. تجزیه و تحلیل احساسات
2. 1تجزیه و تحلیل احساسات ، به طور خلاصه
مشکل تجزیه و تحلیل احساسات در گفتار انسان ، موضوع مطالعه پردازش زبان طبیعی ، علوم شناختی ، روانشناسی عاطفی ، زبان شناسی محاسباتی و مطالعات ارتباطی است. هر یک از آنها دیدگاه فردی خود را به درک یک پدیده ، رابطه بین زبان و احساسات انسانی اضافه می کنند ، که به همان اندازه که مرموز است اتفاق می افتد.
در مقاله ما در مورد تشخیص احساسات در متون ، ما در مورد چگونگی وجود نقشه برداری منحصر به فرد بین زبان و احساسات بحث کردیم. اگر اینطور نیست ، همانطور که مشکوک است ، مشکل شناسایی و پردازش احساسات از طریق زبان نمی تواند به صورت الگوریتمی حل شود. این به نوبه خود به این معنی است که ما نمی توانیم با موفقیت یادگیری ماشین را برای آن اعمال کنیم.
با این حال ، یادگیری ماشین در واقع تجزیه و تحلیل احساسات را در بسیاری از برنامه های متداول انجام می دهد. نمونه هایی از این موارد شناسایی بازخوردهای منفی در نظرات کاربر ، تشخیص تغییر در حمایت سیاسی از نامزدها و پیش بینی قیمت بورس بر اساس داده های رسانه های اجتماعی است.
بنابراین چگونه ممکن است که از یادگیری ماشین استفاده شود ، در عمل ، وقتی از نظر تئوری اطمینان داریم که نمی تواند به طور کلی مشکل تحلیل احساسات را حل کند؟
2. 2باریک در مقابل کارهای کلی
تئوری هوش مصنوعی بین راه حل کارهای باریک و کلی متمایز است. در حالی که راه حل مشکلات شناختی عمومی هنوز بی توجه است ، برای کارهای باریک یادگیری ماشین تمایل به انجام بسیار خوب دارد.
ما به طور مشابه می توانیم هنگام کار بر روی احساسات ، بین کارهای عمومی و باریک تمایز قائل شویم. درک نظری فعلی نشان می دهد که شناسایی احساسات به طور کلی قابل حل نیست. با این حال ، راه حل وظایف باریک تعریف شده هنوز هم می تواند با دقت زیادی بدست آید.
ما همچنین بحث کردیم که چگونه به طور کلی هیچ توافقی در مورد هستی شناسی احساساتی که روان انسان را تنظیم می کند وجود ندارد. در نتیجه، هیچ توافقی در مورد هستی شناسی برای استفاده برای شناسایی احساسات در متون وجود ندارد. با این حال، اگر خودسرانه فرض کنیم که یک هستی شناسی معین برای یک مسئله اعمال می شود، می توانیم آن مشکل را از طریق یادگیری ماشین حل کنیم.
هستی شناسی معمولی شامل دو دسته است: احساسات مثبت و منفی. واحد تجزیه و تحلیل، اعم از متن، کلمه یا جمله، سپس به طور یکجانبه به یکی از آن کلاس ها اختصاص داده می شود:
تعریف معنای «مثبت» و «منفی» ممکن است تا حد زیادی از نویسنده ای به نویسنده دیگر تغییر کند. از این، نتیجه می گیریم که چندین روش برای تحلیل احساسات وجود دارد، که هر یک از آنها از تعریف محدود احساسات در یک زمینه معین ناشی می شوند. هر چه تعریفی که به فریم ها برای یک مشکل خاص ارائه می کنیم بهتر باشد، کاربرد آن در یادگیری ماشین بهتر خواهد بود.
2. 3. همه مجموعه داده ها برابر نیستند
این همچنین به این معنی است که همه مجموعه داده های آموزشی برابر نیستند. مجموعه داده ای که در کاربرد یک متدولوژی خاص ایجاد شده است، اگر آن را در زمینه دیگری اعمال کنیم، به خوبی کار نخواهد کرد. این نشان میدهد که انتخاب مجموعه دادهای که از مفروضات نظری خاصی پیروی میکند که برای مشکل ما اعمال میشود، بسیار مهم است.
به همین دلیل، ما در اینجا قصد داریم رایجترین مجموعه دادهها را برای تجزیه و تحلیل احساسات، و همچنین شرایطی که در وهله اول تحت آن توسعه یافتهاند، مورد بحث قرار دهیم. ما همچنین نمونه هایی از کاربرد آنها را در ادبیات علمی مطالعه خواهیم کرد تا بفهمیم هر کدام از آنها چه امکاناتی را برای ما باز می کنند.
3. مجموعه داده ها برای یادگیری نظارت شده
در مقاله مقدماتی خود در مورد تشخیص احساسات، ما برخی از مجموعه داده های عمومی را برای تشخیص احساسات فهرست کرده ایم که می توانیم از آنها برای توسعه یک مدل پایه استفاده کنیم. در اینجا، مجموعهای متفاوت را فهرست میکنیم که حاوی توضیحات کاملتری از ویژگیها و کاربردهای علمی مربوط به هر یک است.
ما با فهرست کردن متداولترین مجموعه دادهها برای یادگیری تحت نظارت در تحلیل احساسات شروع میکنیم. همه آنها به ویژه برای توسعه مدل های یادگیری ماشینی مناسب هستند که متون را بر اساس یک نوع شناسی از پیش تعیین شده طبقه بندی می کنند.
3. 1. MPQA Opinion Corpus
MPQA Opinion Corpus از 70 سند مشروح تشکیل شده است که مربوط به اخبار منتشر شده در مطبوعات انگلیسی زبان است. از یک طرح حاشیه نویسی خاص استفاده می کند که شامل برچسب ها یا برچسب های زیر است:
- یک برچسب نماینده ، که به موجودی که دریافت کننده احساسات نویسنده است اشاره دارد
- یک برچسب ابراز ابراز ، که عناصر متونی را نشان می دهد که حاوی یک قضاوت غیرمستقیم بر یکی از نهادهای دارای برچسب به عنوان نمایندگان هستند
- برچسب شخص مستقیم ، که به بیان مستقیم احساسات در رابطه با اشخاص خاص اشاره دارد
- یک برچسب رویداد عینی-گفتار ، که حاکی از بیانیه خنثی با توجه به احساسات آن است
- مقدار نگرش ، که حاوی قطبش احساسات در رابطه با یک بیانیه بیان شده است
این دو برچسب ، بیانگر و موضوع مستقیم نیز حاوی اندازه گیری قطبیت است که به جمله خاصی که به آنها مراجعه می کنند اختصاص داده شده است. این مجموعه داده به ویژه برای مدلهای آموزشی مناسب است که هم بیان صریح و هم ضمنی احساسات را در رابطه با اشخاص خاص می آموزند. همچنین برای آموزش مدل های یادگیری عمیق برای تجزیه و تحلیل احساسات و به طور کلی برای انجام نظر معدن استفاده شده است.
3. 2احساسات 140
احساسات مجموعه داده 140 شامل 1،600،000 توییت چشمگیر از کاربران مختلف انگلیسی زبان است و برای توسعه مدل ها برای طبقه بندی احساسات مناسب است. این نام البته از محدودیت شخصیت های تعیین کننده پیام های اصلی توییتر ناشی می شود.
این مجموعه داده شامل پیام های برچسب خورده به صورت خودکار است که مطابق با این که آیا آنها حاوی شکلک هستند یا به صورت "مثبت" یا "منفی" مشخص شده اند. این رویکرد اتوماتیک برای برچسب زدن ، هرچند که معمولاً مورد استفاده قرار می گیرد ، با محدودیت های شناخته شده به ویژه از نظر نابینایی به طنز مشخص می شود.
ویژگی های مجموعه داده ها عبارتند از:
- قطبیت ، از منفی تا مثبت
- شناسه و تاریخ توییت ، اگر بخواهیم تجزیه و تحلیل سری زمانی را انجام دهیم مفید است
- دسته توییتر نویسنده
- و البته ، متن خود توییت
احساسات 140 برای آموزش حداکثر مدل های آنتروپی به طور خاص مفید است. علاوه بر این ، ادبیات علمی نیز استفاده خود را با مدل های ساده لوح بیزی نشان می دهد. و علاوه بر این ، تجزیه و تحلیل نگرش جمعیت نسبت به همه گیر ، که با استفاده از دستگاه های بردار پشتیبانی مدل می شوند ، مفید است.
3. 3بررسی مقاله
مجموعه داده های مقاله شامل 405 بررسی ، به زبان اسپانیایی و انگلیسی ، در مقالات ارسال شده به یک کنفرانس بین المللی علوم کامپیوتر است. تعداد مقالاتی که به آنها مراجعه می کنند کمی بیش از نیمی است زیرا در انتشارات علمی معمول است که حداقل از دو داور در هر مقاله استفاده کنید. خود مجموعه داده در قالب JSON است و شامل ویژگی های زیر است:
- شناسه و تاریخ مقاله ای که بررسی به آن اشاره دارد
- تصمیم برای پذیرش یا رد مقاله توسط داور
- متن خود نقد، توسط داوران برای سردبیران مقالات کنفرانس و همچنین برای نویسندگان مقاله ارسال شده است.
- متن دوم به نام Remark که ویراستاران دریافت می کنند اما نویسندگان مقاله نمی گیرند
- جهت گیری، که امتیاز احساسی است که توسط نویسندگان مجموعه داده به هر مرور فردی اختصاص داده شده است
- ارزیابی، که امتیاز یا قضاوت در یک مقاله داده شده است
- و در نهایت، اطمینان، که نشان دهنده معیاری از اطمینان است که داور در اعطای امتیاز ارزیابی به یک مقاله دارد.
مجموعه داده Paper Reviews برای آموزش مدلهای ترکیبی که شامل بهینهسازی ازدحام هستند، کاربرد پیدا میکند. همچنین با توجه به اینکه امتیاز ارزیابی دارای مقدار عددی است، برای کارهای طبقهبندی کلی و رگرسیون مناسب است. همچنین برای مطالعه رابطه بین احساسات، عینیت و نمرات در فرآیند بررسی همتایان، باید مفید باشد، و هنوز به خوبی از آن استفاده نشده است.
یکی از باورهای رایج در علم این است که فرآیند بررسی همتا به طور کلی منصفانه و منصفانه است. با این حال، این باور مشکوک است، به ویژه در رابطه با برخی سوگیری های شناختی شناخته شده انسان مانند جنسیت، اعتبار نهادی، و مهمتر از همه برای ما در پردازش زبان طبیعی، زبان. بنابراین، این مجموعه داده به ویژه برای تجزیه و تحلیل سوگیری انسان و نقش آن در انتشار اکتشافات علمی سازگار است.
3. 4. مجموعه داده بررسی فیلم بزرگ
یکی دیگر از مجموعه دادههای محبوب حاوی نظرات، در این مورد در مورد فیلمها، مجموعه دادههای بررسی فیلم بزرگ است. مجموعه داده شامل 50000 بررسی است که به آموزش و آزمایش تقسیم شده اند که همگی حاوی متون بسیار قطبی هستند. این به ویژه برای طبقه بندی باینری مناسب است و فقط دو ویژگی را شامل می شود:
- متن بررسی
- و یک مقدار قطبی، یا "مثبت" یا "منفی"
این مجموعه داده در آموزش مدلهای یادگیری ترکیبی تحت نظارت و بدون نظارت استفاده میشود. همچنین، طبقهبندیکنندههای بردار پشتیبان، طبقهبندیکنندههای ساده بیزی، و به طور مشترک، شبکههای عصبی و k-نزدیکترین همسایهها. مجموعه بزرگی از نوت بوک ها حاوی مدل هایی برای طبقه بندی این مجموعه داده در Kaggle موجود است.
3. 5. عمیقاً متحرک، بانک درختی احساسات استنفورد
Treebank Sentiment Stanford یک قسمت از متون است که در مقاله به طور عمیق در حال حرکت است: یادگیری عمیق برای تجزیه و تحلیل احساسات. این مجموعه داده شامل 10،605 متن استخراج شده از وب سایت Rotten Tomatoes است که در بررسی های فیلم تخصص دارد. این ویژگی های زیر را شامل می شود:
- خود متون ، به شکل اصلی و فرآوری شده
- عبارات موجود در متون و یک شناسه منحصر به فرد برای هر یک از آنها
- و در آخر ، ساختار درختی که متون را در مجموعه داده ها تجزیه می کند
Treebank احساسات استنفورد در آموزش طبقه بندی کننده های بردار پشتیبانی و مدل های یادگیری عمیق استفاده می کند. همچنین با ایجاد احساسات عربی Treebank ، الهام بخش توسعه مجموعه داده های مشابه برای سایر زبانها بود.
3. 6مجموعه داده احساسات چند دامنه
این مجموعه داده برای تجزیه و تحلیل چند دامنه در ابتدا توسط دانشگاه پنسیلوانیا بر اساس محصول آمازون از وب سایت ساخته شده است. این محصولات متعلق به چهار دسته: الکترونیک ، کتاب ، وسایل آشپزخانه و دی وی دی است. هر بررسی دارای نمره قطبی سازی "مثبت" یا "منفی" است ، به ترتیب ، به ترتیب ، بیش از سه ستاره یا کمتر از سه ستاره از حداکثر پنج.
هم یک نسخه غیر فرآوری شده و هم یک نسخه از پیش پردازش شده از بررسی ها در دسترس است. دومی که قبلاً به یکنواخت یا دو گرمی تبدیل می شود. ویژگی های نسخه از پیش پردازش شده عبارتند از:
- خود نشانه ها
- برای هر نشانه ، تعداد وقایع
- یک برچسب ، حاوی مقدار قطبش
دو کلاس از بررسی های مثبت و منفی هر کدام 1000 عنصر دارند. داده های بدون برچسب نیز در قالب 3685 بررسی برای دی وی دی و 5945 برای وسایل آشپزخانه وجود دارد. استفاده از داده های بدون برچسب ممکن است به مقایسه پیش بینی مدل های مختلف در برابر داده های قبلاً دیده نشده کمک کند.
این مجموعه داده ها در ادبیات در مورد تجزیه و تحلیل احساسات استفاده کافی پیدا کرده است. در میان اینها ، یک مدل مشترک-موضوعی در یادگیری عواملی که پیش بینی مفهوم عاطفی یک بررسی را پیش بینی می کند ، مفید بود. مدل های بیسی بیسی و بهینه سازی حداقل پی در پی نیز با موفقیت طبقه بندی متون از این مجموعه داده را انجام دادند.
3. 7مزایا و معایب
مجموعه داده های جوانب مثبت و منفی مربوط به وظیفه معدنکاری در سطح جمله است. این شامل حدود 23000 جمله حاکی از قضاوت های مثبت و منفی است و به معنای استفاده در رابطه با مجموعه داده های جملات مقایسه ای است. مجموعه داده برای دو کاربرد مناسب است:
- به عنوان یک فرهنگ لغت یا جستجو برای تعیین قطبیت جملات یکسان در متون جدید
- برای اختصاص قطبیت به جملات جدید بر اساس شباهت آنها با جملات موجود در این مجموعه داده
مقالات موجود در ادبیات علمی که از این مجموعه داده استفاده میکنند به دو دسته تقسیم میشوند: توسعه مدل، و گسترش طبقهبندی قطبیت خودکار به زبانهایی غیر از انگلیسی.
در مورد دسته اول، استفاده از این مجموعه داده برای پردازش خودکار گفتار موثر بود. در رابطه با این کار، مجموعه داده برچسبهای طبقهبندی را برای قطبیت ارائه میکند، که یک مدل برای پردازش صدا میتواند برای تعیین احساس گفتار کاربر استفاده کند. مجموعه دادههای مرتبط جملات مقایسهای آن نیز کاربرد مشابهی در نسبت دادن احساسات به ویدیوهای یوتیوب پیدا کرد.
با توجه به دسته دوم، مجموعه داده الهام بخش ایجاد مجموعه ای از جملات قطبی شده در نروژی است، اما همچنین مجموعه ای چند زبانه برای تجزیه و تحلیل احساسات عمیق. تجزیه و تحلیل احساسات چند زبانه بسیار دشوار است زیرا وابسته به زبان است و استفاده از این مجموعه داده همراه با سایرین در زبان های مختلف می تواند به رفع این مشکل کمک کند.
3. 8. مجموعه داده Opinosis Opinion
مجموعه داده Opinosis Opinion منبعی است که شامل نظرات کاربران برای محصولات و خدمات است که بر اساس موضوع گروه بندی شده اند. این شامل مقدار قابل توجهی از 51 موضوع مختلف مربوط به محصولات فروخته شده در وب سایت های آمازون، تریپادوایزر و ادموند است. برای هر موضوع، حدود 100 جمله متمایز وجود دارد که بیشتر مربوط به الکترونیک، هتل یا اتومبیل است.
همه جملات به نشانههایی تقسیم میشوند که متعاقباً با برچسبهای بخشهای گفتار افزوده میشوند. مجموعه داده به ویژه برای خلاصه سازی متن مفید است زیرا فاقد برچسب های قطبی سازی است. با این حال، استفاده از آن در ارتباط با واژگان برای احساسات، امکان انجام تجزیه و تحلیل احساسات نظارت شده را نیز فراهم می کند، همانطور که در مورد همه مجموعه داده های قبلی وجود داشت.
مزیت مجموعه داده Opinosis Opinion در تگ های قسمت های گفتار آن نهفته است. مطالعات نشان می دهد که مدلی که از صفت ها و قیدها استفاده می کند بهتر از مدلی است که از صفت ها به تنهایی استفاده می کند و برای تمایز بین این دو گروه به برچسب های قسمت های گفتار نیاز داریم. بنابراین، این مجموعه داده، امکان ساخت مدلهایی را برای تحلیل احساسات فراهم میکند که برچسبهای بخشهای گفتار و همچنین واژگان را پیادهسازی میکنند.
3. 9. توییتر خطوط هوایی آمریکا
مجموعه داده دیگری که از توییتر منشا گرفته است، مجموعه داده های خطوط هوایی ایالات متحده آمریکا است که شامل پیام های موضوعی در مورد کیفیت خدمات شرکت های هواپیمایی آمریکایی است. مجموعه داده شامل این ویژگی ها است:
- یک شناسه منحصر به فرد برای هر پیام
- امتیاز قطبیت، که توسط مشارکت کنندگان داوطلب تعیین شده است
- اگر قطبیت منفی باشد، جمله ای به زبان طبیعی است که در آن نشانگر انسان دلیل را مشخص می کند
- اعتماد به نفس خودارزیابی شده توسط برچسب زن در تعیین نمره قطبی سازی
- تعداد بازتوییتها، مفید برای مطالعه توزیع یا تأثیر پیامها
- و البته نام شرکت هواپیمایی خاص مربوط به پیام
در ادبیات علمی، مجموعه داده به طور کلی برای کارهای طبقه بندی استفاده می شود. اما همچنین، به طور خاص، برای ماشینهای بردار پشتیبان و AdaBoost، و برای رویکردهای مجموعهای که پیشبینیهای چندین الگوریتم را ترکیب میکنند.
جالب توجه است، میتوانیم توجه کنیم که برخی از شرکتهای هواپیمایی ایالات متحده که در این مجموعه داده حضور دارند، به طور شگفتآوری سریع به بازخورد منفی مشتریان در توییتر واکنش نشان میدهند. این ممکن است ما را به این باور برساند که خود آنها ممکن است سیستمی را برای تشخیص قطبیت منفی در توییت های کاربران اتخاذ کرده باشند.
4. مجموعه داده ها برای تجزیه و تحلیل احساسات بدون نظارت
4. 1. تحلیل احساسات بدون نظارت
آخرین نکته به کاربرد یادگیری بدون نظارت در تحلیل احساسات مربوط می شود. ما می دانیم که اگر بخواهیم مقادیر احساسی را به یک متن نسبت دهیم، در واقع یک کار طبقه بندی یا رگرسیون را انجام می دهیم، با توجه به اینکه آیا برچسب ها را به ترتیب به عنوان متغیرهای طبقه ای یا عددی نامرتب در نظر می گیریم. با این حال، ادبیات، روشهایی را برای تحلیل احساسات بدون نظارت نیز مورد بحث قرار میدهد، اگرچه بهتر است بگوییم نیمه نظارت شده است.
یکی از این روش ها روش زیر است. ابتدا دو کلمه موجود در مجموعه داده را انتخاب می کنیم و به آنها یک امتیاز قطبیت ضدجمله ای اختصاص می دهیم. اگر از کلمات انتخاب شده در مقاله لینک شده در بالا استفاده کنیم، میتوانیم این فرآیند را به صورت اختصاص دادن و . این فرآیند نام "بذر" را به خود می گیرد، زیرا مشابه فرآیند کاشت برای ژنراتورهای تصادفی است.
سپس میتوانیم از برخی معیارها برای تعیین مقدار قطبیت تخصیص یافته به سایر کلمات در مجموعه داده استفاده کنیم. معیار رایج، اطلاعات متقابل است، اما برخی از تغییرات آن نیز استفاده می شود. با این حال، به نظر می رسد که امتیاز قطبیت اختصاص داده شده به توکن های غیر دانه به شدت تغییر می کند که ما از کدام نشانه ها برای کاشت استفاده می کنیم، بنابراین در قابل اعتماد بودن این روش شک می شود.
4. 2. Lexica به عنوان مجموعه داده
از توصیف این روش، به طور طبیعی نتیجه میشود که مجموعه متنی حاوی کلماتی که برچسبهای انسانی آنها را بهعنوان قطبیشده برچسبگذاری میکند، مانند «عالی» و «ضعیف»، برای تحلیل احساسات بدون نظارت مناسب است. این بدان معنی است که، به عنوان یک قاعده کلی، مجموعه داده ای که برای تجزیه و تحلیل احساسات نظارت شده تهیه شده است، به همان اندازه برای تجزیه و تحلیل بدون نظارت مناسب است.
با این حال، روش دیگری برای تجزیه و تحلیل احساسات بدون نظارت وجود دارد، که نام روش مبتنی بر واژگان را دارد. این روش مبتنی بر این ایده است که برخی از کلمات دارای معنای مثبت یا منفی ذاتی هستند، مانند خود کلمات "مثبت" و "منفی". اگر این درست باشد، می توان فرهنگ لغت هایی ساخت که حاوی ارتباط بین نشانه کلمه و نمره قطبیت باشد.
واژگانی از این نوع به صورت آنلاین در دسترس عموم قرار دارد. یکی از آنها واژگان VERY NEG VERY POS است که شامل برچسبهای بخشهای گفتار برای هر کلمه است. واژگان دیگر SO-CAL است که شامل وزن و نفی کلمات قطبی شده نیز می شود.
در نهایت، یک روش خودکار نیز برای توسعه واژگان از یک مجموعه داده وجود دارد. اگر در زبانی که از آن استفاده میکنیم، مجموعه دادههای بهراحتی در دسترس نباشد، یا در مورد قابلیت اطمینان آنهای موجود مطمئن نباشیم، میتوانیم به این روش مراجعه کنیم.
5. نتیجه گیری
در این مقاله به بررسی مبانی روش شناسی تحلیل احساسات پرداختیم.
ما همچنین مجموعه داده های عمومی را برای تجزیه و تحلیل احساسات نظارت شده فهرست کرده ایم.
برای هر یک از آنها، ما ویژگی هایی که آنها دارند و موارد استفاده شناخته شده در ادبیات علمی را مورد بحث قرار دادیم.
در نهایت، ما اصول اولیه تجزیه و تحلیل احساسات بدون نظارت را شرح دادیم و مجموعه داده ها و واژگانی را شناسایی کردیم که به کار با آن کمک می کند.
اگر چند سال تجربه در زمینه علوم کامپیوتر یا تحقیقات دارید و علاقه مند به اشتراک گذاری آن تجربه با جامعه هستید ، به دستورالعمل های مشارکت ما نگاهی بیندازید.