Визначення
У статистиці та регресійному аналізі, зокрема, важіль — це міра віддаленості значень незалежної змінної спостереження від значень інших спостережень. Спостереження з високим важелем відрізняються від інших за однією або кількома незалежними змінними, що може створити ризик впливовості, тобто можуть надмірно впливати на параметри регресійної моделі.
Розрахунок важеля
Для i-го спостереження:
h_i = x_i’ (X’X)^-1 x_i
де:
- x_i — вектор значень незалежних змінних для i-го спостереження
- X — матриця даних незалежних змінних для всіх спостережень
- (X'X)-1 — обернена матриця добутків X'X
Інтерпретація
Важіль інтерпретується як ступінь відхилення спостереження від середніх значень незалежних змінних. Спостереження з важелем близьким до 1 мають значення незалежних змінних, які близькі до середніх. Спостереження з важелем більшим за 1 мають значення незалежних змінних, які є значно відмінними від середніх.
Ризики від спостережень з високим важелем
Спостереження з високим важелем можуть створювати ризик впливовості, коли вони можуть надмірно впливати на модель, що призводить до зсуву оцінок параметрів, зниження точності та можливої помилкової інтерпретації.
Виявлення спостережень з високим важелем
Спостереження з важелем, що перевищує 2p/n (де p — кількість незалежних змінних, а n — кількість спостережень), зазвичай вважаються такими, що мають високий важіль.
Застосування
Визначення важеля дозволяє:
- Виявити спостереження, які можуть потенційно вплинути на модель
- Перевірити міцність результатів моделі
- Видалити або зважити спостереження з високим важелем, щоб зменшити їхній вплив
- Переглянути допущення моделі, такі як лінійність і нормальність
Покращення моделі
Для зменшення ризику впливовості при аналізі даних можна вжити таких заходів:
- Виявлення та видалення або зважування спостережень з високим важелем
- Додавання інших незалежних змінних у модель, щоб зменшити відстань між спостереженнями
- Перетворення незалежних і залежних змінних, щоби дані були більш лінійними та мали більш нормальний розподіл
Важіль є важливою статистичною мірою для виявлення спостережень, які можуть потенційно вплинути на модель. Розуміння концепції важеля та його впливу на регресійний аналіз має вирішальне значення для побудови точних і надійних моделей.
Запитання, що часто задаються
- Як розраховується важіль?
- Що означає важіль близький до 1?
- Який ризик пов'язаний зі спостереженнями з високим важелем?
- Як можна зменшити ризик впливовості?
- Чи можна використовувати важіль для виявлення помилок у даних?