Теорема Байєса

Оцінювати ймовірності складно, нам простіше думати про події з точки зору “точно” (ймовірність = 1) і “неможливо” (ймовірність = 0). Але світ не такий простий, часто потрібно враховувати не лише ймовірність однієї події, а одразу кількох. Для цього існує теорема Байєса.

Формула Байєса

Теорема Байєса простими словами

Найкращий спосіб зрозуміти теорему Байєса — на прикладі, де головний герой… це ви.

Уявимо, що ви захворіли. Лікар призначив аналіз, точність якого 97%. Цей тест показав, що ви заражені вірусом Х, який і викликав недугу.

При цьому відомо, що ймовірність заразиться вірусом Х у вашій країні лише 1%. Він дуже рідкісний, а ви нікуди не виїжджали останнім часом.

Головне питання: лікуватися чи ні?

Є ймовірність захворіти 1% і ймовірність того, що тест правильно визначив вірус у 97% (3% залишається на помилку).

Перш ніж читати далі відповідайте на запитання в коментарі, з якою ймовірністю ви дійсно хворі? Потім поверніться до тексту і порахуйте цю можливість за допомогою формули Байєса

Отже, більшість людей будуть схильні вважати, що вони дійсно заразилися вірусом Х, адже тест точний на 97%, а це “майже 100”. Але давайте порахуємо.

Формула Байєса

Для чого потрібна формула Байєса? Вона придумана якраз для того, щоб розрахувати ймовірність однієї події з урахуванням того, що сталася інша. Тобто теорема Байєса уточнює ймовірність події з урахуванням ймовірності іншої події. Так “пророцтво” стає точнішим.

У нашому прикладі є:

Ймовірності подій:

  1. 0,01 — що ви потрапили до числа тих, хто заразився, подія a
  2. 0,97 – що тест точний, подія b

А ось сама формула:

P(a|b)=P(a)хP(b|a)/P(b)

P(a|b) — це ймовірність події a (ви дійсно заражені) за умови настання події b (аналіз безпомилковий). ЇЇ і треба розрахувати

P(a) — апріорна (початкова) ймовірність події a. У нашому прикладі, це можливість захворіти 0,01 (або 1%)

P(b|a) — ймовірність (умовна) настання події b за умови, що гіпотеза a (Ви заражені рідкісним вірусом) вірна. У нашому випадку це 0,97. Адже саме для того щоб перевірити чи уточнити ймовірність хвороби та робився аналіз.

P(b) — повна ймовірність події. Тобто сума обох варіантів: шанс, що ви хворі і шанс, що ви здорові. Вважається вона так:

P(b)=P(a)хP(b|a)+P( -a)хP(b|-a)

Тут написано таке:

P(a)хP(b|a) ймовірність події a (0,01 або 1% людей хворіє) множимо на ймовірність b за умови a (99% тест точний). Простими словами, це ймовірність того, що ви хворі і тест правильно показав це.

Найважливіше, додаємо ймовірність того, що ви не хворі насправді:

P(-a)хP(b|-a) — ймовірність події a (0,99 або 99% людей не хворіють) множимо на ймовірність b (0,03 – помилка аналізу). Тобто, це ймовірність того, що ви не хворі, а тест помилково показав наявність вірусу, тому й мінуси перед “а”. Так простіше, хоча в математиці виповзають інший запис, ставлячи перед “а” символ ¬. Що означає заперечення.

Так повна формула Байєса виглядатиме так:

P(a|b)=P(a)хP(b|a)/P(a)х P(b|a)+P(-a)хP(b|-a)

Апріорна ймовірність потрібно помножити на умовну ймовірність і поділити на повну ймовірність

Спочатку порахуємо повну ймовірність:

  1. 0,01х0,97=0,0097 — у хворих аналіз показав наявність вірусу
  2. 0,99х0,03=0,0297  — у здорових аналіз показав наявність вірусу
  3. 0,0097+0,0297=0,0394

Отже ймовірність за формулою Байєса вважається так:

P(a|b)=0,01х0,97/0,0394=0,2462

Виглядає складно, можна порахувати у відсотках, вийде – 24,62%.

Що ж виходить, шанс якого ви здорові не 3%, як показує точність тесту. А більш ніж у 8 разів більше! Якщо все ще не зрозуміло, можна для простоти змінити умову та сказати, що точність не 97%, а 100%, тобто “одиниця”.

Тоді вийде повна ймовірність:

0,01х1+0,99х0=0,01 — друга частина суми 0,99 помножити на нуль, означає що серед 99% тест покаже 0 помилкових результатів, адже ми ж вирішили, що він ідеально точний.

Імовірність події:

0,01х1/0,01х1=1 або 100% раз тест абсолютно точний, ймовірність — 100%

Ще простіше

Можна записати формулу простіше, без дужок та залежностей, але тоді можна заплутатися у значеннях. Тож вибирайте, як зручніше, суть від цього не зміниться.

P=PaхPb/Pa+b

Втім, найпростіше пояснення теореми Байєса виходить якщо використовувати картинки. Це може бути дивним, але її можна перевірити за допомогою геометрії.

Просте пояснення формули Байєса

От поле 10х10 точок, це 100 чоловік, для зручності. Серед них хворіє 1%, тобто 1 особа. Він відзначений червоним кружком.

Якщо протестувати всіх на наявність нашого вірусу Х. У 97% випадків тест покаже правильні результати, а в 3% – неправильні (покаже хвороба у тих, у кого її немає), а це 3 особи, відзначених помаранчевим.

Теорема Байєса простими словами

Отже, виходить, що серед сотні є один дійсно заражений і троє здорових, але з позитивним тестом. Усього 4 особи. Які шанси, що серед трьох один хворий?

1/4=0,25 або 25%

Так що все логічно і теорема Байєса працює правильно.

Як можна бути більш впевненим? Звісно, здати аналіз ще раз. Припустимо, вдруге аналіз показав такий самий результат.

Значить точність зросла, це логічно. Але складати 97%+97% не можна, вийде більше 100%, а цього не може бути. Потрібно рахувати інакше:

0,97+0,97-0,97х0,97=0,9991 або 99,91%

І якщо перерахувати ще раз підставивши замість 0,03 і 0,97 нові цифри 0,9991 (точність тесту) і 0,009 (імовірність помилки), то отримаємо вже зовсім інші цифри:

91,81% — але все одно це не 100% ймовірність.

Графічний приклад

Давайте ще раз подивимося на формулу Байєса у вигляді картинок. Так її зрозуміти простіше. Лише цього разу візьмемо інші цифри. Приклад розрахунку формулою Байєса, просте пояснення логіки.

Дано:

  1. Статистично 6% населення хворіє на вірус Y
  2. Точність аналізу – 50%

Для зручності візьмемо поле 10 х 10 точок, це буде 100% нашого населення. Отже, які шанси, що одна людина дійсно хвора, якщо зазвичай захворює 6% (блакитні точки), а тест визначає хворобу з точністю 50%?

Теорема Байєса, приклад
1. 6% хворіють (6 блакитних точок зі ста), отже 94% здорові (94 сірих точок зі ста). Апріорна ймовірність Pa=0,06

2. Точність тесту 50%, це означає, що в половині випадків у дійсно заражених людей він покаже хворобу, яка є.
Теорема Байєса, приклад

0,06х0,5=0,03 — три сині точки

3. А в інших 94% здорових, що залишилися, також у половині випадків покаже хвороба, якої немає.

0,94х0,5=0,47 — 47 темно-сірих точок

Повна ймовірність – це сума ймовірностей того, що серед 6% тест виявив вірус і того, що серед 94% здорових тест показав вірус, якого немає.

0,06х0,5+0,94х0,5=0,5

Можна розповісти і по-іншому, можливо, комусь це здасться зрозумілішим.

Що сталося?

  1. Ми взяли ймовірність 6% (6 блакитних точок). Потім ми уточнили дані, за допомогою аналізу точність якого 50%, і скоротили кількість точок вдвічі, взявши 50% від 6 (3 сині точки).
  2. Серед 94% (сірі точки), що залишилися, ми вчинили так само. Помножили 94 на 0,5 і отримавши 47 точок (темно-сірі)
  3. Порівнюємо 2 ймовірності. Перша: гіпотеза вірна, серед 6 осіб тест правильно виявив 3 хворих. Друга: серед 6 осіб 3 хворі і ще серед 94 перевірених половина здорова, але аналіз у половині випадків показав, що хвороба є (помилився).

Кількість людей у вибірці (у нас їх 100) ми множимо на можливість 6%, потім робимо аналізи всієї сотні, тому множимо ще на 50% точності.

100 х 6% х 50% = 3 – це кількість тих, у кого вірус точно є і аналіз це підтвердив і не помилився.

Але в нас залишається ще 94 піддослідних, які за статистикою здорові. Їх треба врахувати. Помножуємо всіх на 94% і на точність нашого тесту.

100 х 94% х 50% = 47 – це кількість тих, у кого вірусу немає, але аналіз це показав, тобто помилився.

Збираємо всіх разом (повна ймовірність).

3+47 = 50 – це кількість тих, у кого наш неточний аналіз виявив вірус Y

Порівнюємо кількість тих, хто хворий і ми це підтвердили аналізом і всіх інших (і хворих і здорових з позитивним тестом).

За формулою:

100 х 0,06 х 0,5 / 100 х 0,06 х 0,5 + 100 х 0,94 х 0,5

100 можна скоротити, це просто кількість людей, яких ми вивчали, їх може бути будь-яке число.

0,06 х 0,5 / 0,06 х 0,5 + 0,94 х 0,5

Але якщо не скорочувати буде наочніше

6 х 0,5 / 6 х 0,5 + 94 х 0,5

 3/ 3 + 47

На зображенні теж саме:
Теорема Байєса, приклад

Історія теореми

Сам автор теореми описував її приблизно так:
Уявіть, що ви стоїте кидаєте м’ячик не дивлячись собі за спину. Ви не бачите, куди він упав. Але ваш помічник це бачить. Тоді ви кидаєте ще один м’ячик, так само не дивлячись і питаєте у помічника куди впав другий м’ячик по відношенню до першого.

Так ви уточнюєте місцезнаходження м’ячика. Чим більше м’ячиків кинути, тим точніше можна визначити, куди саме впав перший з них.

Таким чином, використовуючи теорему, можна втоплювати свої припущення (апріорну ймовірність), щоб підвищити їх точність. Ця точність ніколи не дорівнюватиме одиниці (ста відсоткам), але буде до неї прагне.

Де використовують формулу Байєса

Цікаво, що формула, придумана в 18-му столітті, знайшла своє застосування в сучасності. Де ж використовується Теорема Байєса?

Наприклад, для фільтрації спаму. Щоразу, коли користувач відправляє листа в “спам”, алгоритм перераховує ймовірності, що інші листи де зустрічаються такі ж слова, теж виявляться спамом. Коли користувач знаходить лист серед спаму і відзначає його як “не спам”, все відбувається з точністю до навпаки.

Так алгоритм постійно збільшує точність оцінки листа.

You may also like...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

B
Booker On-line
Hello! Welcome to Cast Away Hvar. I'm thrilled to help you plan your escape to nature. To make our communication easier, I can speak: English | Deutsch | Hrvatski ...or any other language you prefer! Which one should we use?