تشخیص دروغ یا فریب نوشته ها

پیش نوشت: حدود سه سال هست که به طور گسسته، گاهی تفریحی و گاهی تخصصی روی موضوع تشخیص دروغ مطالعه و تحقیق میکنم. از اونجایی که من دانشجوی هوش مصنوعی هستم نگاه من به این موضوع بیشتر از جنبه تشخیص دروغ با استفاده از کامپیوتر و هوش مصنوعی هست تا تشخیص دروغ توسط انسان.

هوش مصنوعی و تشخیص دروغ

معمولا در مقابل راهکارهای هوشمند کامپیوتری یا سپردن تشخیص به دست کامپیوتر مقاومت میشه. در موضوعاتی مثل تشخیص خودروهای خلافکار، تشخیص موضوع تصاویر و …دقت الگوریتم های هوش مصنوعی تو این زمینه ها از قدیم خیلی کم بوده و حالا که بهتر شده کم کم داره جای خودش رو باز میکنه و موضوعاتی هم مثل تشخیص بیماری و خودروهای خودران و داوری کامپیوتری مسابقات، با مقاومت فعالان اون حوزه مواجه شده. اما سپردن تشخیص دروغ و فریب به کامپیوتر یا کمک گرفتن از اون همیشه جذاب بوده. به این دلیل که بر اساس تحقیقات پل اکمن دقت تشخیص دروغ توسط انسان های معمولی حدود ۵۰ درصد است که تفاوتی با حدس زدن و شانس ندارد. در این شرایط دستگاه های دروغ سنج قدیمی (پلیگراف) به دقت حدود ۸۰ درصد میرسند. که طبیعتا خیلی کمک کننده هست اما به علت خطایی که داره هنوز نمیتونه مورد استناد دادگاهی قرار بگیره.

خب تو این قسمت میپردازم به تشخیص نوشته های دارای دروغ و فریب. مثلا نقد و بررسی هایی که تو جاهایی مثل کافه بازار برای اپلیکیشن ها یا نظرات سایت های خبری ثبت میشه. یا اخبار و مطالبی که داخل شبکه های اجتماعی رد و بدل میشه. این نوشته ها بنا به دلایل مختلفی می تونه از طرف سازندگان اپلیکیشن ها و یا رقیبانشون برای منافع مختلف به دروغ و خلاف واقع درج بشه.

در ادامه دو نظر که در مورد هتلی ثبت شده، از مقاله [۱] آقای جف هنکوک (استاد دانشگاه استنفورد) میارم. حدس بزنید که کدوم نظر واقعی و کدوم نظر ساختگی است.

A – I have stayed at many hotels traveling for both business and pleasure and I can honestly stay that The James is tops. The service at the hotel is first class. The rooms are modern and very comfortable. The location is perfect within walking distance to all of the great sights and restaurants. Highly recommend to both business travellers and couples.

B – My husband and I stayed at the James Chicago Hotel for our anniversary. This place is fantastic! We knew as soon as we arrived we made the right choice! The rooms are BEAUTIFUL and the staff very attentive and wonderful!! The area of the hotel is great, since I love to shop I couldn’t ask for more!! We will definatly be back to Chicago and we will for sure be back to the James Chicago.

این مثال از یک پایگاه داده ۸۰۰ تایی استخراج شده که تشخیص انسانی به طور میانگین حدود ۵۸ درصد بر روی این پایگاه داده بوده است (یعنی کمی از تشخیص تصادفی بیشتر). با محاسبات کامپیوتری مختلفی که توسط تیم جف هنکوک انجام شد نتایج جالبی در مورد نظرات راست و دروغ بیان شد. (به نقل از سخرانی جف در سایت تد)

«اول اینکه دروغگوها راجع به نحوه شرح فکر می کنند. آنها یک داستان میسازند: چه کسی؟ و چه اتفاقی افتاد؟ نظر دهندگان دروغین راجع به اینکه با چه کسی بودند و اینکه چه می کردند صحبت می کردند. همه آنها از اول شخص مفرد “من” خیلی بیشتر از حد عادی افرادی که واقعا در آنجا مانده بودند، استفاده کردند. آنها سعی داشتند خود را در نقدها و بازنگری های هتل جا کنند، به طوری سعی میکنند که شما را متقاعد کنند که آنجا بوده اند. در عوض، آدمهائی که واقعا آنجا بودند و نقد نوشتند، یعنی بدنشان واقعا در این فضا حضور پیدا کرد، بیشتر راجع به اطلاعات فضائی آنجا صحبت کردند. مثلا گفتند که دستشوئی ها چقدر بزرگ بودند، و یا گفتند که فاصله مراکز خرید تا هتل چقدر است.»

خب حالا برگردید و ببینید که میفهمید کدوم نظر راست و کدوم نظر دروغ است. در مقاله [۱] دقت تشخیص الگوریتم کامپیوتری بر روی این پایگاه داده حاوی ۴۰۰ نظر راست و ۴۰۰ نظر دروغ ۹۰درصد ذکر شده.

شاید تشخیص دروغ در نوشته ها، داخل ایران هنوز به یک نیاز جدی تبدیل نشده باشه اما بر اساس حدس من تشخیص راست و دروغ نظرات و نوشته ها و پیام ها، در سال های آینده به یک نیاز بخش خصوصی تبدیل میشه. مراکز امنیتی و کشوری هم همین امروز اگر نمونه و محصول خوبی ببینند استقبال میکنند(یا باید بکنند). بنابراین این موضوع جذاب رو به شدت به دانشجوهای هوش مصنوعی توصیه میکنم. نتایج ساده ترین الگوریتم ها به شدت از انسان های معمولی بالاتره.

حتما خودتون تا الان فهمیدین اما لازمه که بگم که نظر اول در مورد هتل واقعی و نظر دوم غیر واقعی بود.

نکات جالب :

بر اساس درخواست احمد باید مثال آموزنده هم بیارم. خب پس به نکته هابی که جف هنکوک در همون سخنرانی بیان کرد اشاره می کنم.

مردم در ایمیل های خود کمتر از تلفن دروغ میگویند. (احتمالا به خاطر اینه که ایمیل ها ثبت میشن اما مطالب گفته شده در تلفن رو میشه انکار کرد.)
تحقیقی در مورد درخواست برای شغل انجام شد. افراد می توانستند رزومه کاغذی سنتی یا از طریق سایت «لینکد این» اقدام کنند. بر خلاف توقع اکثر مردم، رزومه های سایت «لینکد این» در مواردی که برای کارفرمایان مهمتر بود، مانند مسولیت ها یا مهارت های شغل قبلی خیلی صادق تر بودند.

[۱] Finding deceptive opinion spam by any stretch of the imagination M Ott, Y Choi, C Cardie, JT Hancock – Proceedings of the 49th Annual Meeting of the …, ۲۰۱۱