⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀
| | Формулы не должны пугать, а должны помогать. Особенно когда речь о дисперсии — инструменте, без которого в мире данных как без компаса в лесу.
| | | Что такое дисперсия и зачем она нужна | | | Дисперсия — это мера разброса данных вокруг среднего значения. По сути, это ответ на вопрос: «Насколько мои данные разбросаны?»
| | | Низкая дисперсия — данные кучкуются вокруг среднего
| | | Высокая дисперсия — раскиданы как носки по квартире 🧦
| | | | | | Найди среднее → посчитай отклонения → возведи в квадрат → усредни.
| | | Почему это важно для ML-моделей | | | • | | Оценка неопределенности: высокая дисперсия = данные нестабильны | | | | • | | Поиск выбросов: все, что дальше 3σ — подозрительно | | | | • | | Нормализация: помогает стандартизировать данные. | | | | Random Forest: дисперсия в действии | | | Помнишь фразу «одна голова хорошо, а сто лучше»? Это буквально про Random Forest! Каждое дерево в «лесу» может ошибаться (высокая дисперсия), но когда мы усредняем результаты многих деревьев, дисперсия ошибки падает.
| | | Больше деревьев = меньше ошибок!
| | | Как это использовать на практике
| | | При настройке Random Forest:
| | | • | | 100-500 деревьев — оптимально
| | | | • | | Ограничение глубины — спасает при шумных данных
| | | | • | | Больше признаков на разбиение = ниже дисперсия, но выше корреляция деревьев
| | | | | Дисперсия — как соль: без нее все пресно, а с переизбытком — несъедобно.
| | | | P.S. Хочешь уверенно чувствовать себя в математике для DS?
| | | | | На вебинаре разбираем ключевые темы — от вероятностей до производных. Все простыми словами и с примерами из ML. Отличный способ освежить и систематизировать математические основы перед стартом в ML, AI или DS. | | | Вы получили это письмо, так как ранее проходили авторизацию на сайте proglib.io Чтобы отписаться, нажмите сюда | | | |