چگونه اشتباه میکنیم؟
مجازیست-مرکز پژوهشی بتا، درخصوص مقایسه نتایج دادهکاوی و آمار انتخابات ریاست جمهوری، توضیحاتی ارائه داد:
افکارسنجی مبتنی افکارسنجی پیرامون نظرات مردم در انتخابات سابقهای بیش از یک قرن دارد. روشهای علمی متعددی در طول این سالها در کشورهای مختلف دنیا مورد استفاده قرار گرفته و به مرور زمان مانند هر علم دیگری به ابزارهای دقیقتری مجهز شده است.
بر کلان داده شبکههای اجتماعی جدیدترین روش سنجش افکارعمومی و پیشبینی نتایج انتخاباتی است که عمری حدود ۱۰ سال در دنیا دارد و توانسته موفقیتهای قابل قبولی را نیز بدست آورد. با این حال تنوع روشهای داده کاوی، چگونگی نگاشت نتایج دادههای فضای مجازی با واقعیت و بسیاری موارد دیگر همچنان محل بحث پژوهشگران و اندیشمندان این حوزه است.
پیشبینی انتخابات ریاست جمهوری ۱۴۰۰ مبتنی بر کلان داده فضای مجازی نیز سنگ محک دیگری برای مجموعههای فعال در این حوزه بود تا آخرین روشها و ابزارهای خود را ارزیابی کنند.
پس از مشخص شدن نتایج نهایی انتخابات، حرف و حدیثهای رسانهای پیرامون میزان موفقیت کلان داده برای پیشبینی انتخابات در محافل مختلف علاقهمندان و فعالان این حوزه در جریان است. با وجود مشاهده نقدها و پیشنهادات علمی و دقیق اما برخی اظهارنظرهای غیرعلمی موجب شده تا فضای رسانهای جایگزین نقد دقیق علمی و توجه به ابعاد مختلف پیشبینیهای انتخاباتی مبتنی بر کلان داده شود.
گزارش حاضر تلاشی است تا به صورت خلاصه و منصفانه میزان موفقیت کلان داده در پیشبینی انتخابات و دلایل فاصله احتمالای نتایج واقعی با پیشبینیها را نشان دهد.
پیشبینی، پیشگویی یا پسگویی؟
پایبندی به روشهای شفاف و تکرارپذیر از ضروریات پژوهشهای اجتماعی است. نبود هرکدام از این ویژگیها عملاً هر ادعای پیشبینی علمی نتایج انتخابات را زیر سوال میبرد.
شفافیت
پس از هر انتخابات مجموعههای زیادی ادعا میکنند که توانستهاند با دقت بسیار بالایی نتایج را پیشبینی کنند. منطقی به نظر میرسد هر ادعایی در این حوزه باید به صورت شفاف پیش از برگزاری انتخابات و مشخص شدن نتایج در فضای عمومی منتشر شده باشد تا امکان نقد و بررسی آن فراهم شود. مسئله دیگر در اعلام شفاف نتایج، عدم استفاده از اظهارات مبهم است. نمونه این مسئله اعلام درصد بالایی به عنوان آرا نامشخص است که راه توجیه و تفسیر هر خطای احتمالی را باز میگذارد.
تکرارپذیری
اگر یک شیوه داده کاوی موفق به پیشبینی انتخابات شده، باید قابلیت تکرار هم داشته باشد. موفق دادههای فضای مجازی که در دیتابیس شرکتهای مختلف جمعآوری داده موجود است همواره قابل ارزیابی مجدد است. لذا همه روشهایی که شفاف فرآیند اجرایی آن توضیح داده شود بارهای و بارهای قابل تکرار و بررسی مجدد است.
ادعای پیشبینی که فاقد این ویژگیها است، بیشتر شبیه به یک پیشگویی است که به هر حال درصدی از شانس موفقیت هم دارد. اعلام موفقیت بدون انتشار عمومی پیش از انتخابات نیز به عبارتی پسگویی است و اعتبار چندانی ندارد.
خوشبختانه اغلب مجموعههای شناخته شده در این حوزه پیش از برگزاری انتخابات نتایج پژوهشهای خود را مشخص کردهاند و هم اکنون فرصت نقد و تحلیل آنها وجود دارد.
نقد و بررسی نتایج پیشبینی مرکز پژوهشی بتا
بنا بر آنچه گفته شد، مرکز پژوهشی بتا که پیش از انتخابات به صورت شفاف و عمومی نتایج پیشبینی خود از انتخابات را منتشر کرده بود، در این گزارش به مقایسه نتایج بدست آمده از روش پیشبینی خود با نتایج نهایی انتخابات میپردازد.
گزارش پیشرو نشان میدهد چگونه یک خطای مقایسهای در فضای رسانهای موجب شده است تا موفقیت کلان داده در پیشبینی نتایج نادیده گرفته شود. همچنین تغییرات روز آخری در نظرات افکارعمومی که از روشهای مختلف قابل اثبات است چگونه موجب فاصله گرفتن نتایج نهایی با پیشبینیهایی شده است که ۲۴ ساعت پیش از آغاز انتخابات انجام شدهاند.
این گزارش در ابتدا به بررسی روند تغییرات نتایج پیشبینی انتخابات مبتنی بر کلان داده شبکههای اجتماعی در ساعتهای منتهی به روز انتخابات میپردازد. سپس وضعیت جستجوهای نام نامزدها در گوگل را بررسی میکند.
به صورت خلاصه ۲ مسئله مهم در این گزارش مورد توجه است. ابتدا امر مقایسه درست نتایج انتخابات با آنچه به عنوان پیشبینی انتخابات منتشر شده است. پیشبینی مرکز پژوهشی بتا از انتخابات مبتنی بر تحلیل نظرات کاربران نسبت به نامزدهای حاضر انجام شده است. سنجش میزان احتمالی آرا باطله از اساس بخشی از پرسش پژوهش سنجش نظرات افکار عمومی نبوده است. اینکه آیا از اساس امکان پیشبینی آرا باطله در شبکههای اجتماعی وجود دارد یا خیر، مسئله دیگری است اما به هر حال مقایسه باید با ادعای پژوهش همخوانی داشته باشد. از این رو ما در این نقد و بررسی، نتایج نهایی انتخابات را بدون در نظر گرفتن آرا باطله و مبتنی بر آرا نامزدها لحاظ میکنیم.
مسئله دوم توجه به یک تغییر مهم در تصمیم افکارعمومی نسبت به یکی از نامزدها است که هرچند در کلان داده شبکههای اجتماعی بروز و ظهور داشته است اما از نظر زمانی پس از اعلام پیشبینیها قابل مشاهده بوده است.
ارزیابی گوگل ترندز
یکی از روشهای پیشبینی نتایج انتخابات بر اساس کلان داده فضای مجازی، توجه به میزان جستجوی نام نامزدها در گوگل است. پیشبینی نتایج انتخابات با این روش در ایران و کشورهای دیگر بسیار موفق بوده است. مقالات متعدد علمی در این خصوص در مرکز پژوهشی بتا موجود است.
خلاصه نتایج گوگل ترندز در انتخابات ۱۴۰۰ حاوی نکات زیر است:
۱- برنده نهایی انتخابات از منظر گوگل ترندز بدون خطا مشخص شده است
۲- درصد رأی نامزد پیروز میان «آرا متعلق به نامزدها»(طبیعتاً از این روش آرا باطله قابل پیشبینی نیست) در بازههای زمانی مختلف ۵۸ درصد است. این در حالی است که رأی آقای رئیسی بدون در نظر گرفتن آرا باطله در نهایت ۷۲.۴ درصد آرا است. اختلاف ۱۲ درصدی گوگل نتایج نهایی در این انتخابات قابل توجه است.
۳- گوگل ترندز در تعیین نفر دوم و سوم انتخابات دچار اشتباه شده است اما نکته قابل توجه ردپاهایی است که در روز پایانی به چشم میخورد. جستجوی همتی در بازه یک ماهه، یک هفتهای و حتی یک روز مانده به انتخابات از محسن رضایی جلوتر است اما از بامداد روز انتخابات روند جستجوها رضایی به همتی میرسد و از در ساعات پایانی رأیگیری از همتی پیشی میگیرد. این امر به خوبی نشان میدهد که اقبال مردم به رضایی در روز پایانی به شکل تاثیرگذاری تغییر کرده است.
۴- اشتباهات ترندز به چه معناست؟ هرچند تعیین علت دقیق خطای ترندز در پیشبینی ممکن نیست اما چند دلیل قابل توجه برای این اتفاق وجود دارد. مهمترین آنها این است که ابراهیم رئیسی و محسن رضایی به نسبت همتی افراد شناخته شدهتری برای جامعه هستند. از این رو میزان جستجوی آنها نسبت به آرا کمتر است.
جمعبندی نهایی
مقایسه دقیق نتایج بدست آمده از کلان داده فضای مجازی با نتایج نهایی انتخابات نشان میدهد کلان داده در انتخابات ریاست جمهوری ۱۴۰۰ موفقت قابل قبولی کسب کرده است. هرچند به صورت میانگین نتایج پیشبینی نهایی حدود ۳ الی ۵ درصد با نتایج نهایی اختلاف دارد اما در نظر گرفتن تغییر نظرات مردم در ساعات پایانی، پیشبینی نهایی را به شدت سخت میکند.
به نظر میرسد ۲ مسئله اساسی در ایجاد برداشت اشتباه در خصوص شکست تحلیل بیگ دیتا در پیشبینی انتخابات قابل توجه است. مسئله اول اشتباه برخی رسانهها در مقایسه نسبت آرا ریاست جمهوری همراه با آرا باطله با افکارسنجیهایی است که صرفا نسبت آرا نامزدها را مقایسه کردهاند. البته توجه به پیشبینی آرا باطله و شیوه پیشبینی آن بر اساس دادههای شبکههای اجتماعی از موضوعات تحقیق و توسعه در این حوزه است. از آنجایی که متوسط آرا باطله در انتخابات پیشین حدود ۱ درصد بوده است، این مجموعهها به بررسی چنین موضوعی نپرداختهاند. انتخابات امسال اما نشان داد آرا باطله میتوانند اهمیت زیادی داشته باشند.
مسئله دیگر در ایجاد خطای محاسباتی در مراکز افکارسنجی مبتنی بر بیگ دیتا، رشد ناگهانی آرا محسن رضایی در شب و روز برگزاری انتخابات است. همانطور که در نمودارهای شبکههای اجتماعی و گوگل ترندز مشاهده شد، این افزایش از ساعات پایانی روز پنجشنبه آغاز و تا پایان روز رایگیری ادامه دارد. در حالی که داده تحلیل شده برای آخرین پیشبینیها ۲۴ ساعت پیش از آغاز رأیگیری جمعآوری شدهاند.
همانطور که پیشبینیهای مبتنی بر افکارسنجی تلفنی و میدانی نیز چنین خطاهایی را ثبت کردهاند. گذشته از درصد آرای هر نامزد، مرکز معتبر افکارسنجی ایسپا در انتخابات سال ۸۴ در حالی که ۱۰ سال تجربه مستقیم سازمانی و سالها تجربه جهانی در این حوزه داشت، نتوانست نامزدهایی که به دور دوم انتخابات میروند را به درستی پیشبینی کند. بسیاری از مراکز افکارسنجی بزرگ در دیگر کشورها نیز سابقه چنین خطاهایی را داشتهاند. این مراکز در انتخابات ۱۴۰۰ نیز اشتباهاتی داشتهاند.
خطای کمتر از ۵ درصدی افکارسنجی مبتنی بر کلان داده هرچند جای نقد و بررسی علمی و آکادمیک بسیاری دارد اما مانند پژوهشهای قبلی بسیار امیدوارکننده است. این روش در مقایسه با دیگر روشها بسیار نوپاست و جای توسعه بسیاری دارد.
مرکز پژوهشی مفتخر است که پیشگام توسعه همه جانبه این علم استراتژیک در کشور است و از همه اساتید، پژوهشگران و دانشجویان علاقهمند دعوت میکند که با نقد و نظرات خود ما را در این راه یاری کنند.