Парадокс Сімпсана: як статыстыка можа нас падмануць

статыстыка, як статыстыка можа падмануць, парадокс сімпсана

Уявіце, што вы знаходзіцеся ў кавярні і спрабуеце абраць дэсерт. У меню ёсць агульны рэйтынг папулярнасці: ён паказвае, што людзі аддаюць перавагу чызкейку. Але калі вы пытаецеся ў афіцыянта, які дэсерт лепш за ўсё бяруць раніцай ці ўвечары, то высвятляецца, што раніцай людзі часцей замаўляюць круасаны, а ўвечары — шакаладны торт. Як тады чызкейк аказаўся ў лідарах? Гэта загадка, якую тлумачыць парадокс Сімпсана.

PALATNO расказвае пра парадокс Сімпсана і тое, як статыстыка можа нас падмануць.

Парадокс Сімпсана ў рэальным жыцці

Уявіце іншую сітуацыю. Вас запрасілі працаваць у прыёмную камісію вялікага ўніверсітэта. Вы аналізуеце дадзеныя пра паступленні мужчын і жанчын, і заўважаеце нешта дзіўнае: агулам падаецца, што мужчыны паступаюць ва ўніверсітэт значна часцей, чым жанчыны. «Дыскрымінацыя!» — падумаеце вы. Аднак калі глядзець на статыстыку асобных факультэтаў, то аказваецца, што жанчыны маюць роўныя ці нават лепшыя шанцы на паступленне.

Што адбываецца? Як агульная статыстычная карціна можа так адрознівацца ад дэталёвай? Вось тут на сцэну выходзіць парадокс Сімпсана.

Гэты феномен упершыню апісаў англійскі матэматык Эдвард Сімпсан у 1951 годзе. Навуковец паказаў, што пры аналізе статыстычных дадзеных агульная тэндэнцыя можа быць скажонай з-за схаваных фактараў. Гэта стала вялікай праблемай для навукоўцаў, якія працуюць з вялікімі масівамі дадзеных.

Ёсць і цікавыя выпадкі, звязаныя з парадоксам Сімпсана:

  • Фільмы і рэйтынгі. Калі два фільмы параўноўваюць па рэйтынгу ў розных краінах, то агулам фільм №1 будзе больш папулярным, але калі глядзець асобна па краінах, то фільм №2 атрымае лепшы рэйтынг. Чаму так? Бо фільм №1 быў больш папулярным у краіне з вялікай колькасцю гледачоў, якія далі яму больш ацэнак, але неабавязкова лепшых.
  • Спорт. У баскетболе ацэньваюць адсоткі кідкоў з рознай адлегласці. Часам агульны адсотак можа быць дастаткова прыстойным, але калі паглядзець асобную катэгорыю — з-за трохачковай дугі, адкуль выконваюць самыя складаныя кідкі, — то адтуль адсотак можа быць значна горшым.
  • Рэклама і маркетынг. Кампанія можа сцвярджаць, што іх прадукт працуе лепш за іншыя на аснове сукупных дадзеных. Аднак калі паглядзець на асобныя групы карыстальнікаў, гэта можа быць не так.

ЧЫТАЙЦЕ ЯШЧЭ:

 

Алкаголь, нож, сварка. Як і навошта забіваюць беларусы

 

Шэсць руканняў. Як свет аказаўся звязаным

 

Калі з’явіліся першыя электрамабілі?


Парадокс Сімпсана мае значэнне?

Вядома! Парадокс нагадвае, што статыстыка можа падманваць, калі не ўлічваць кантэкст. Вельмі лёгка зрабіць няправільныя высновы, калі глядзець толькі на агульныя дадзеныя і не разглядаць катэгорыі асобна.

У медыцыне няправільны аналіз можа прывесці да няслушных рэкамендацый па лячэнні, а ў палітыцы агульныя вынікі выбараў могуць скажона адлюстроўваць рэальную падтрымку кандыдата, а ў бізнесе няправільнае разуменне паводзін кліентаў прыводзіць да няправільных стратэгій.

Калі глядзець на гэта праз кнігі, якія любяць чытаць людзі, то высвятляецца наступнае. Агульныя дадзеныя пакажуць, што ўсе любяць чытаць раманы. Але калі паглядзець па ўзроставых групах, то высвятляецца, то моладзь захапляецца фэнтэзі, дарослыя чытаюць дэтэктывы, а пажылыя людзі любяць біяграфіі. Раманы знаходзяцца ў лідарах, бо іх чытаюць усе ўзроставыя катэгорыі.

ЧЫТАЙЦЕ ЯШЧЭ:

 

З беларускіх бібліятэк прыбіраюць кнігі Святланы Алексіевіч. Затое іх можна будзе бясплатна паслухаць

 

Пяць самых папулярных кніг у 2024 годзе ў рэйтынгу GoodReads

 

Што з беларускай літаратуры пачытаць узімку?


Вярнуцца ўгару