چگونه اشتباه می‌کنیم؟

مجازیست-مرکز پژوهشی بتا، درخصوص مقایسه نتایج داده‌کاوی و آمار انتخابات ریاست جمهوری، توضیحاتی ارائه داد:

افکارسنجی مبتنی افکارسنجی پیرامون نظرات مردم در انتخابات سابقه‌ای بیش از یک قرن دارد. روش‌های علمی متعددی در طول این سال‌ها در کشورهای مختلف دنیا مورد استفاده قرار گرفته و به مرور زمان مانند هر علم دیگری به ابزارهای دقیق‌تری مجهز شده است.

بر کلان داده شبکه‌های اجتماعی جدیدترین روش سنجش افکارعمومی و پیش‌بینی نتایج انتخاباتی است که عمری حدود ۱۰ سال در دنیا دارد و توانسته موفقیت‌های قابل قبولی را نیز بدست آورد. با این حال تنوع روش‌های داده کاوی، چگونگی نگاشت نتایج داده‌های فضای مجازی با واقعیت و بسیاری موارد دیگر همچنان محل بحث پژوهشگران و اندیشمندان این حوزه است.

پیش‌بینی انتخابات ریاست جمهوری ۱۴۰۰ مبتنی بر کلان داده فضای مجازی نیز سنگ محک دیگری برای مجموعه‌های فعال در این حوزه بود تا آخرین روش‌ها و ابزارهای خود را ارزیابی کنند.

پس از مشخص شدن نتایج نهایی انتخابات، حرف و حدیث‌های رسانه‌ای پیرامون میزان موفقیت کلان داده برای پیش‌بینی انتخابات در محافل مختلف علاقه‌مندان و فعالان این حوزه در جریان است. با وجود مشاهده نقدها و پیشنهادات علمی و دقیق اما برخی اظهارنظرهای غیرعلمی موجب شده تا فضای رسانه‌ای جایگزین نقد دقیق علمی و توجه به ابعاد مختلف پیش‌بینی‌های انتخاباتی مبتنی بر کلان داده شود.

گزارش حاضر تلاشی است تا به صورت خلاصه و منصفانه میزان موفقیت کلان داده در پیش‌بینی انتخابات و دلایل فاصله احتمالای نتایج واقعی با پیش‌بینی‌ها را نشان دهد.

پیش‌بینی، پیش‌گویی یا پس‌گویی؟

پایبندی به روش‌های شفاف و تکرارپذیر از ضروریات پژوهش‌های اجتماعی است. نبود هرکدام از این ویژگی‌ها عملاً هر ادعای پیش‌بینی علمی نتایج انتخابات را زیر سوال می‌برد.

شفافیت

پس از هر انتخابات مجموعه‌های زیادی ادعا می‌کنند که توانسته‌اند با دقت‌ بسیار بالایی نتایج را پیش‌بینی کنند. منطقی به نظر می‌رسد هر ادعایی در این حوزه باید به صورت شفاف پیش از برگزاری انتخابات و مشخص شدن نتایج در فضای عمومی منتشر شده باشد تا امکان نقد و بررسی آن فراهم شود. مسئله دیگر در اعلام شفاف نتایج، عدم استفاده از اظهارات مبهم است. نمونه این مسئله اعلام درصد بالایی به عنوان آرا نامشخص است که راه توجیه و تفسیر هر خطای احتمالی را باز می‌گذارد.

تکرارپذیری

اگر یک شیوه داده کاوی موفق به پیش‌بینی انتخابات شده، باید قابلیت تکرار هم داشته باشد. موفق داده‌های فضای مجازی که در دیتابیس شرکت‌های مختلف جمع‌آوری داده موجود است همواره قابل ارزیابی مجدد است. لذا همه روش‌هایی که شفاف فرآیند اجرایی آن توضیح داده شود بارهای و بارهای قابل تکرار و بررسی مجدد است.

ادعای پیش‌بینی که فاقد این ویژگی‌ها است، بیشتر شبیه به یک پیش‌گویی است که به هر حال درصدی از شانس موفقیت هم دارد. اعلام موفقیت بدون انتشار عمومی پیش از انتخابات نیز به عبارتی پس‌گویی است و اعتبار چندانی ندارد.

خوشبختانه اغلب مجموعه‌های شناخته شده در این حوزه پیش از برگزاری انتخابات نتایج پژوهش‌های خود را مشخص کرده‌اند و هم اکنون فرصت نقد و تحلیل آنها وجود دارد.

نقد و بررسی نتایج پیش‌بینی مرکز پژوهشی بتا

بنا بر آنچه گفته شد، مرکز پژوهشی بتا که پیش از انتخابات به صورت شفاف و عمومی نتایج پیش‌بینی خود از انتخابات را منتشر کرده بود، در این گزارش به مقایسه نتایج بدست آمده از روش پیش‌بینی خود با نتایج نهایی انتخابات می‌پردازد.

گزارش پیش‌رو نشان می‌دهد چگونه یک خطای مقایسه‌ای در فضای رسانه‌ای موجب شده است تا موفقیت کلان داده در پیش‌بینی نتایج نادیده گرفته شود. همچنین تغییرات روز آخری در نظرات افکارعمومی که از روش‌های مختلف قابل اثبات است چگونه موجب فاصله گرفتن نتایج نهایی با پیش‌بینی‌هایی شده است که ۲۴ ساعت پیش از آغاز انتخابات انجام شده‌اند.

این گزارش در ابتدا به بررسی روند تغییرات نتایج پیش‌بینی انتخابات مبتنی بر کلان داده شبکه‌های اجتماعی در ساعت‌های منتهی به روز انتخابات می‌پردازد. سپس وضعیت جستجوهای نام نامزدها در گوگل را بررسی می‌کند.

به صورت خلاصه ۲ مسئله مهم در این گزارش مورد توجه است. ابتدا امر مقایسه درست نتایج انتخابات با آنچه به عنوان پیش‌بینی انتخابات منتشر شده است. پیش‌بینی مرکز پژوهشی بتا از انتخابات مبتنی بر تحلیل نظرات کاربران نسبت به نامزدهای حاضر انجام شده است. سنجش میزان احتمالی آرا باطله از اساس بخشی از پرسش پژوهش سنجش نظرات افکار عمومی نبوده است. اینکه آیا از اساس امکان پیش‌بینی آرا باطله در شبکه‌های اجتماعی وجود دارد یا خیر، مسئله دیگری است اما به هر حال مقایسه باید با ادعای پژوهش همخوانی داشته باشد. از این رو ما در این نقد و بررسی، نتایج نهایی انتخابات را بدون در نظر گرفتن آرا باطله و مبتنی بر آرا نامزدها لحاظ می‌کنیم.

مسئله دوم توجه به یک تغییر مهم در تصمیم افکارعمومی نسبت به یکی از نامزدها است که هرچند در کلان داده شبکه‌های اجتماعی بروز و ظهور داشته است اما از نظر زمانی پس از اعلام پیش‌بینی‌ها قابل مشاهده بوده است.

ارزیابی گوگل ترندز

یکی از روش‌های پیش‌بینی نتایج انتخابات بر اساس کلان داده فضای مجازی، توجه به میزان جستجوی نام نامزدها در گوگل است. پیش‌بینی‌ نتایج انتخابات با این روش در ایران و کشورهای دیگر بسیار موفق بوده است. مقالات متعدد علمی در این خصوص در مرکز پژوهشی بتا موجود است.
خلاصه نتایج گوگل ترندز در انتخابات ۱۴۰۰ حاوی نکات زیر است:
۱- برنده نهایی انتخابات از منظر گوگل ترندز بدون خطا مشخص شده است
۲- درصد رأی نامزد پیروز میان «آرا متعلق به نامزدها»(طبیعتاً از این روش آرا باطله قابل پیش‌بینی نیست) در بازه‌های زمانی مختلف ۵۸ درصد است. این در حالی است که رأی آقای رئیسی بدون در نظر گرفتن آرا باطله در نهایت ۷۲.۴ درصد آرا است. اختلاف ۱۲ درصدی گوگل نتایج نهایی در این انتخابات قابل توجه است.

۳- گوگل ترندز در تعیین نفر دوم و سوم انتخابات دچار اشتباه شده است اما نکته قابل توجه ردپاهایی است که در روز پایانی به چشم می‌خورد. جستجوی همتی در بازه یک ماهه، یک هفته‌ای و حتی یک روز مانده به انتخابات از محسن رضایی جلوتر است اما از بامداد روز انتخابات روند جستجوها رضایی به همتی می‌رسد و از در ساعات پایانی رأی‌گیری از همتی پیشی می‌گیرد. این امر به خوبی نشان می‌دهد که اقبال مردم به رضایی در روز پایانی به شکل تاثیرگذاری تغییر کرده است.

۴- اشتباهات ترندز به چه معناست؟ هرچند تعیین علت دقیق خطای ترندز در پیش‌بینی ممکن نیست اما چند دلیل قابل توجه برای این اتفاق وجود دارد. مهمترین آنها این است که ابراهیم رئیسی و محسن رضایی به نسبت همتی افراد شناخته شده‌تری برای جامعه هستند. از این رو میزان جستجوی آنها نسبت به آرا کمتر است.

جمع‌بندی نهایی

مقایسه دقیق نتایج بدست آمده از کلان داده فضای مجازی با نتایج نهایی انتخابات نشان می‌دهد کلان داده در انتخابات ریاست جمهوری ۱۴۰۰ موفقت قابل قبولی کسب کرده است. هرچند به صورت میانگین نتایج پیش‌بینی نهایی حدود ۳ الی ۵ درصد با نتایج نهایی اختلاف دارد اما در نظر گرفتن تغییر نظرات مردم در ساعات پایانی، پیش‌بینی نهایی را به شدت سخت می‌کند.

به نظر می‌رسد ۲ مسئله اساسی در ایجاد برداشت اشتباه در خصوص شکست تحلیل بیگ دیتا در پیش‌بینی انتخابات قابل توجه است. مسئله اول اشتباه برخی رسانه‌ها در مقایسه نسبت آرا ریاست جمهوری همراه با آرا باطله با افکارسنجی‌هایی است که صرفا نسبت آرا نامزدها را مقایسه کرده‌اند. البته توجه به پیش‌بینی آرا باطله و شیوه پیش‌بینی آن بر اساس داده‌های شبکه‌های اجتماعی از موضوعات تحقیق و توسعه در این حوزه است. از آنجایی که متوسط آرا باطله در انتخابات پیشین حدود ۱ درصد بوده است، این مجموعه‌ها به بررسی چنین موضوعی نپرداخته‌اند‌. انتخابات امسال اما نشان داد آرا باطله می‌توانند اهمیت زیادی داشته باشند.

مسئله دیگر در ایجاد خطای محاسباتی در مراکز افکارسنجی مبتنی بر بیگ دیتا، رشد ناگهانی آرا محسن رضایی در شب و روز برگزاری انتخابات است. همانطور که در نمودارهای شبکه‌های اجتماعی و گوگل ترندز مشاهده شد، این افزایش از ساعات پایانی روز پنجشنبه آغاز و تا پایان روز رای‌گیری ادامه دارد. در حالی که داده تحلیل شده برای آخرین پیش‌بینی‌ها ۲۴ ساعت پیش از آغاز رأی‌گیری جمع‌آوری شده‌اند.

همانطور که پیش‌بینی‌های مبتنی بر افکارسنجی تلفنی و میدانی نیز چنین خطاهایی را ثبت کرده‌اند. گذشته از درصد آرای هر نامزد، مرکز معتبر افکارسنجی ایسپا در انتخابات سال ۸۴ در حالی که ۱۰ سال تجربه مستقیم سازمانی و سال‌ها تجربه جهانی در این حوزه داشت، نتوانست نامزدهایی که به دور دوم انتخابات می‌روند را به درستی پیش‌بینی کند. بسیاری از مراکز افکارسنجی بزرگ در دیگر کشورها نیز سابقه چنین خطاهایی را داشته‌اند. این مراکز در انتخابات ۱۴۰۰ نیز اشتباهاتی داشته‌اند.

خطای کمتر از ۵ درصدی افکارسنجی مبتنی بر کلان داده هرچند جای نقد و بررسی علمی و آکادمیک بسیاری دارد اما مانند پژوهش‌های قبلی بسیار امیدوارکننده است. این روش در مقایسه با دیگر روش‌ها بسیار نوپاست و جای توسعه بسیاری دارد.

مرکز پژوهشی مفتخر است که پیشگام توسعه همه جانبه این علم استراتژیک در کشور است و از همه اساتید، پژوهشگران و دانشجویان علاقه‌مند دعوت می‌کند که با نقد و نظرات خود ما را در این راه یاری کنند.

چگونه اشتباه می‌کنیم؟

پیش‌بینی، پیش‌گویی یا پس‌گویی؟

نقد و بررسی نتایج پیش‌بینی مرکز پژوهشی بتا

ارزیابی گوگل ترندز

جمع‌بندی نهایی

دیدگاهتان را بنویسید لغو پاسخ