Теорема Байеса

Оценивать вероятности сложно, нам проще думать о событиях с точки зрения «точно» (вероятность=1) и «невозможно» (вероятность=0). Но мир не так прост, часто нужно учитывать не только вероятность одного события, а сразу нескольких. Для этого существует теорема Байеса.

Формула Байеса

Теорема Байеса простыми словами

Лучший способ понять теорему Байеса — на примере где главный герой… вы.

Представим, что вы заболели. Врач назначил анализ, точность которого 97%. Этот тест показал что вы заражены вирусом Х, который и вызвал недуг.

При этом известно, что вероятность заразится вирусом Х в вашей стране всего 1%. Он очень редкий, а вы никуда не выезжали за последнее время.

Главный вопрос: лечиться или нет?

Есть вероятность заболеть в 1% и вероятность того, что тест правильно определил вирус в 97% (3% на ошибку).

Прежде чем читать дальше ответьте на вопрос в комментарии, с какой вероятностью вы действительно больны? Потом вернитесь к тексту и посчитайте эту вероятность с помощью формулы Байеса

Итак, большинство людей будут склонны считать, что они действительно заразились вирусом Х, ведь тест точен на 97%, а это же «почти 100». Но давайте посчитаем.

Формула Байеса

Для чего нужна  формула Байеса? Она придумана как  раз для того, чтобы рассчитать вероятность одного события с учетом того, что произошло другое. То есть теорема Байеса уточняет вероятность события с учетом вероятности другого события. Так «предсказание» становится точнее.

В нашем примере есть:

Вероятности событий

  1. 0,01 — что вы попали в число заразившихся, событие a
  2. 0,97 — что тест точен, событие b

А вот сама формула

P(a|b)=P(a)хP(b|a)/P(b)

P(a|b) — это вероятность события a (вы действительно заражены) при условии наступления события b (анализ безошибочен). ЕЕ и нужно рассчитать

P(a) — априорная (изначальная) вероятность события a. В нашем примере, это вероятность заболеть 0,01 (или 1%)

P(b|a) — вероятность (условная) наступления события b  при условии, что гипотеза a (вы заражены редким вирусом) верна. В нашем случае это 0,97. Ведь именно для того чтобы проверить или уточнить вероятность болезни и делался анализ.

P(b) — полная вероятность события. То есть сума обоих вариантов: шанс что вы больны и шанс что вы здоровы. Считается она так:

P(b)=P(a)хP(b|a)+P(-a)хP(b|-a)

Здесь написано следующее:

P(a)хP(b|a) вероятность события a (0,01 или 1% людей болеет) умножаем на вероятность b при условии a (99% тест точен). Простыми словами, это вероятность того что вы больны и тест правильно показал это.

Самое важное, добавляем вероятность того, что вы не больны в действительности:

P(-a)хP(b|-a) — вероятность события -a (0,99 или 99% людей не болеют) умножаем на вероятность b (0,03 – ошибка анализа). То есть это вероятность того, что вы не больны, а тест ошибочно показал наличие вируса, поэтому и минусы перед «а». Так проще, хотя в математике исползают другую запись, ставя перед «а» символ ¬. Что означает отрицание.

Так полная формула Байеса будет выглядеть так:

P(a|b)=P(a)хP(b|a)/P(a)хP(b|a)+P(-a)хP(b|-a)

Априорная вероятность нужно умножить на условную вероятность и разделить на полную вероятность

Сначала посчитаем полную вероятность:

  1. 0,01х0,97=0,0097 — у больных анализ показал наличие вируса
  2. 0,99х0,03=0,0297 — у здоровых анализ показал наличие вируса
  3. 0,0097+0,0297=0,0394

Итак вероятность по формуле Байеса считается так:

P(a|b)=0,01х0,97/0,0394=0,2462

Выглядит сложно, можно посчитать в процентах, получится — 24,62%.

Что же получается, шанс что вы здоровы никак не 3%, как показывает точность теста. А более чем в 8 раз больше! Если все еще не понятно, можно для простоты изменить условие и сказать, что точность не 97%, а 100%, то есть «единица».

Тогда получится, полная вероятность:

0,01х1+0,99х0=0,01 — вторая часть суммы 0,99 умножить на ноль, означает что среди 99% тест покажет 0 ложных результатов, мы ведь решили, что он идеально точный.

Вероятность события:

0,01х1/0,01х1=1 или 100% раз тест абсолютно точный, вероятность — 100%

Еще проще

Можно записать формулу проще, без скобок и зависимостей, но тогда можно запутаться в значениях. Так что выбирайте, как удобнее, суть от этого не изменится.

P=PaхPb/Pa+b

Впрочем, самое простое объяснение теоремы Байеса получается если использовать… картинки. Это может показаться странным, но ее можно проверить с помощью геометрии.

Простое объяснение формулы Байеса

Вот поле 10х10 точек, это 100 человек, для удобства. Среди них болеет 1%, то есть 1 человек. Он отмечен красным кружком.

Если протестировать всех на наличие нашего вируса Х. В 97% случаев тест покажет правильные результаты, а в 3% — неправильные (покажет болезнь у тех, у кого ее нет), а это 3 человека, отмеченных оранжевым.

Теорема Байеса простыми словами

Итак, получается, что среди сотни есть один действительно зараженный и трое здоровых, но с положительным тестом. Всего 4 человека. Каковы шансы, что среди троих один болен?

1/4=0,25 или 25%

Так что все логично и теорема Байеса работает правильно.

Как можно быть более уверенным? Конечно, сдать анализ еще раз. Предположим второй раз анализ показал такой же результат.

Значит точность выросла, это логично. Но складывать 97%+97% нельзя, получится большее 100%, а этого быть не может. Нужно считать иначе:

0,97+0,97-0,97х0,97=0,9991 или 99,91%

И если пересчитать еще раз подставив вместо 0,03 и 0,97 новые цифры 0,9991 (точность теста) и 0,009 (вероятность ошибки), то получим уже совсем другие цифру:

91,81% — но все равно, это не 100% вероятность.

Графический пример

Давайте еще раз посмотрим на формулу Байеса в виде картинок. Так ее понять проще. Только на этот раз возьмем другие цифры. Пример расчета по формуле Байеса, простое объяснение логики.

Дано:

  1. Статистически 6% населения болеет вирусом Y
  2. Точность анализа — 50%

Для удобства возьмем поле 10 х 10 точек, это будет 100% нашего населения. Итак каковы шансы что один человек действительно болен, если обычно заболевает 6% (голубые точки), а тест определяет болезнь с точностью 50%?

Теорема Байеса, пример
1. 6% болеют (6 голубых точек из ста), значит 94% здоровы (94 серых точек из ста). Априорная вероятность Pa=0,06

2. Точность теста 50%, это значит, что в половине случаев у действительно зараженных людей он покажет болезнь, которая есть.
Теорема Байеса, пример

0,06х0,5=0,03 — три синие точки

3. А у другой оставшихся 94% здоровых также в половине случаев покажет болезнь, которой нет.

0,94х0,5=0,47 — 47 темно-серых точек

Полная вероятность — это сумма вероятностей того, что среди 6% тест выявил вирус и того, что среди 94% здоровых тест показал вирус, которого нет.

0,06х0,5+0,94х0,5=0,5

Можно рассказать и по-другому, возможно кому-то это покажется более понятным.

Что произошло?

  1. Мы взяли вероятность 6% (6 голубых точек). Потом, мы уточнили данные, с помощью анализа точность которого 50%, и сократили количество точек вдвое, взяв 50% от 6 (3 синие точки).
  2. Среди оставшихся 94% (серые точки) мы поступили точно так же. Умножили 94 на 0,5 и получив 47 точек (темно-серые)
  3. Сравниваем 2 вероятности. Первая: гипотеза верна, среди 6 человек тест правильно выявил 3 заболевших. Вторая: среди 6 человек 3 больны и еще среди 94 проверенных половина здорова, но анализ в половине случаев показал что болезнь есть (ошибся).

Количество людей в выборке (у нас их 100) мы умножаем на вероятность 6%, потом делаем анализы всей сотне, поэтому умножаем еще на 50% точности.

100 х 6% х 50% = 3 — это количество тех, у кого вирус точно есть и анализ это подтвердил и не ошибся

Но у нас остается еще 94 испытуемых которые по статистике здоровы. Их нужно учесть. Умножаем всех на 94% и также на точность нашего теста.

100 х 94% х 50% = 47 — это количество тех, у кого вируса нет, но анализ это показал, то есть ошибся

Собираем всех вместе (полная вероятность).

3+47 = 50 — это количество тех, у кого наш неточный анализ выявил вирус Y

Сравниваем количество тех кто болен и мы это подтвердили анализом и всех остальных (и больных и здоровых с положительным тестом).

По формуле:

100 х 0,06 х 0,5 / 100 х 0,06  х 0,5 + 100 х 0,94  х 0,5

100 можно сократить, это просто количество людей которых мы изучали, их может быть любое число.

0,06 х 0,5 / 0,06  х 0,5 + 0,94  х 0,5

Но если не сокращать будет нагляднее

6 х 0,5 / 6  х 0,5 + 94  х 0,5

 3/ 3 + 47

На картинке тоже самое:
Теорема Байеса, пример

История теоремы

Сам создатель теоремы описывал ее примерно так:

Представьте, что вы стоите бросаете мячик не глядя себе за спину. Вы не видите куда он упал. Но ваш помощник видит это. Тогда вы бросаете еще один мячик, так же не глядя и спрашиваете у помощника куда упал второй мячик по отношению к первому.

Так вы уточняете местонахождение мячика. Чем больше мячиков бросить, тем точнее можно определить куда именно упал самый первый из них.

Таким образом, используя теорему, можно утонять свои предположения (априорную вероятность), чтобы повысить их точность. Эта точность никогда не будет равна единице (ста процентам), но будет к ней стремится.

Где используют формулу Байеса

Интересно, что формула, придуманная в 18-м веке нашла свое применение в современности. Ге же используется Теорема Байеса?

Например, для фильтрации спама. Каждый раз, когда пользователь отправляет письмо в «спам», алгоритм пересчитывает вероятности что другие письма где встречаются такие же слова, тоже окажутся спамом. Когда пользователь находит письмо среди спама и отмечает его как «не спам» все происходит с точностью до наоборот.

Так алгоритм постоянно увеличивает точность оценки письма.

Читайте также:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *