четверг, 10 апреля 2025 г.

Дисперсия — это не сложно: разбираем без занудства за 5 минут

⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀
Привет, датасайентист!
Формулы не должны пугать, а должны помогать. Особенно когда речь о дисперсии — инструменте, без которого в мире данных как без компаса в лесу.
Что такое дисперсия и зачем она нужна
Дисперсия — это мера разброса данных вокруг среднего значения. По сути, это ответ на вопрос: «Насколько мои данные разбросаны?»
Низкая дисперсия — данные кучкуются вокруг среднего
Высокая дисперсия — раскиданы как носки по квартире 🧦
Формула проста:
D[X] = E[(X - E[X])²]
Или по-человечески: 
Найди среднее → посчитай отклонения → возведи в квадрат → усредни.
Почему это важно для ML-моделей
 
Оценка неопределенности: высокая дисперсия = данные нестабильны
 
Поиск выбросов: все, что дальше 3σ — подозрительно
 
Нормализация: помогает стандартизировать данные.
Random Forest: дисперсия в действии
Помнишь фразу «одна голова хорошо, а сто лучше»? Это буквально про Random Forest! Каждое дерево в «лесу» может ошибаться (высокая дисперсия), но когда мы усредняем результаты многих деревьев, дисперсия ошибки падает.
Больше деревьев = меньше ошибок!
Как это использовать на практике
При настройке Random Forest:
 
100-500 деревьев — оптимально
 
Ограничение глубины — спасает при шумных данных
 
Больше признаков на разбиение = ниже дисперсия, но выше корреляция деревьев
И напоследок
Дисперсия — как соль: без нее все пресно, а с переизбытком — несъедобно.
 
P.S. Хочешь уверенно чувствовать себя в математике для DS?
Перейти к вебинару
На вебинаре разбираем ключевые темы — от вероятностей до производных. Все простыми словами и с примерами из ML. Отличный способ освежить и систематизировать математические основы перед стартом в ML, AI или DS.
 
Вы получили это письмо, так как ранее проходили авторизацию на сайте proglib.io Чтобы отписаться, нажмите сюда
999999999999999
999999999999999