Technopedia Center
PMB University Brochure
Faculty of Engineering and Computer Science
S1 Informatics S1 Information Systems S1 Information Technology S1 Computer Engineering S1 Electrical Engineering S1 Civil Engineering

faculty of Economics and Business
S1 Management S1 Accountancy

Faculty of Letters and Educational Sciences
S1 English literature S1 English language education S1 Mathematics education S1 Sports Education
  • Registerasi
  • Brosur UTI
  • Kip Scholarship Information
  • Performance
  1. Weltenzyklopädie
  2. Distance de Cook — Wikipédia
Distance de Cook — Wikipédia 👆 Click Here! Read More..
Un article de Wikipédia, l'encyclopédie libre.

En statistique, la distance de Cook est couramment utilisée pour estimer l'influence d'une donnée lors de l'utilisation de méthodes des moindres carrés[1].

Dans le cas général, de l'utilisation de la méthode des moindres carrés, la distance de Cook peut être utilisée de plusieurs façons : pour indiquer les données qu'il serait intéressant de vérifier ; pour indiquer les régions de l'espace de conception où il serait bon d'être en mesure d'obtenir plus de points de données. Ce nom vient du statisticien américain R. Dennis Cook, qui a introduit le concept en 1977[2],[3].

Définition

[modifier | modifier le code]

La distance de Cook mesure l'effet de la suppression d'une donnée. Les données avec d'importants résidus (Données aberrantes) et/ou fort effet de levier peuvent fausser le résultat et la précision d'une régression. Les points ayant une distance de Cook importante sont considérés comme méritant un examen plus approfondi dans l'analyse. Pour l'expression algébrique, il faut définir d'abord :

H ≡ X ( X ⊤ X ) − 1 X ⊤ {\displaystyle \mathbf {H} \equiv \mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }} {\displaystyle \mathbf {H} \equiv \mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }}

comme une matrice de projection ( n × n ) {\displaystyle (n\times n)} {\displaystyle (n\times n)} (matrice de projection des n {\displaystyle n} {\displaystyle n} observations de chaque variable explicative). Ensuite, nous avons β ^ ( − i ) {\displaystyle {\hat {\beta }}^{(-i)}} {\displaystyle {\hat {\beta }}^{(-i)}}, qui est l'estimation MCO de β {\displaystyle \beta } {\displaystyle \beta } qui résulte de l'omission de la i {\displaystyle i} {\displaystyle i}-ème observation ( i = 1 , 2 , … , n {\displaystyle i=1,2,\dots ,n} {\displaystyle i=1,2,\dots ,n}). Ensuite, nous avons[4] :

β ^ − β ^ ( − i ) = ( 1 1 − h i ) ( X ⊤ X ) − 1 x i ⋅ e i {\displaystyle {\hat {\beta }}-{\hat {\beta }}^{(-i)}=\left({\frac {1}{1-h_{i}}}\right)(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {x_{i}} \cdot e_{i}} {\displaystyle {\hat {\beta }}-{\hat {\beta }}^{(-i)}=\left({\frac {1}{1-h_{i}}}\right)(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {x_{i}} \cdot e_{i}}

où e i {\displaystyle e_{i}\,} {\displaystyle e_{i}\,} est le résidu (i.e. la différence entre la valeur observée et la valeur prédite par le modèle proposé) pour l'individu i {\displaystyle i} {\displaystyle i}, et h i i {\displaystyle h_{ii}\,} {\displaystyle h_{ii}\,}, défini comme :

h i i ≡ x i ⊤ ( X ⊤ X ) − 1 x i {\displaystyle h_{ii}\equiv \mathbf {x} _{i}^{\top }(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {x} _{i}} {\displaystyle h_{ii}\equiv \mathbf {x} _{i}^{\top }(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {x} _{i}}

est l'influence, i.e., le i {\displaystyle i} {\displaystyle i}-ème élément de la diagonale de H {\displaystyle \mathbf {H} \,} {\displaystyle \mathbf {H} \,}. Avec cela, nous pouvons définir la distance de Cook comme :

D i = e i 2 k   M S E [ h i i ( 1 − h i i ) 2 ] , {\displaystyle D_{i}={\frac {e_{i}^{2}}{k\ \mathrm {MSE} }}\left[{\frac {h_{ii}}{(1-h_{ii})^{2}}}\right],} {\displaystyle D_{i}={\frac {e_{i}^{2}}{k\ \mathrm {MSE} }}\left[{\frac {h_{ii}}{(1-h_{ii})^{2}}}\right],}

où k {\displaystyle k} {\displaystyle k} est le nombre de paramètres ajustés, et M S E {\displaystyle \mathrm {MSE} \,} {\displaystyle \mathrm {MSE} \,} est l'erreur quadratique moyenne du modèle de régression. L'expression suivante est algébriquement équivalente :

D i = ( β ^ − β ^ ( − i ) ) ⊤ X ⊤ X ( β ^ − β ^ ( − i ) ) ( 1 + k ) s 2 , {\displaystyle D_{i}={\frac {({\hat {\beta }}-{\hat {\beta }}^{(-i)})^{\top }\mathbf {X} ^{\top }\mathbf {X} ({\hat {\beta }}-{\hat {\beta }}^{(-i)})}{(1+k)s^{2}}},} {\displaystyle D_{i}={\frac {({\hat {\beta }}-{\hat {\beta }}^{(-i)})^{\top }\mathbf {X} ^{\top }\mathbf {X} ({\hat {\beta }}-{\hat {\beta }}^{(-i)})}{(1+k)s^{2}}},}

où s 2 {\displaystyle s^{2}} {\displaystyle s^{2}} est l'estimateur MCO de la variance du terme d'erreur, défini comme :

s 2 ≡ e ⊤ e n − k {\displaystyle s^{2}\equiv {\frac {\mathbf {e} ^{\top }\mathbf {e} }{n-k}}} {\displaystyle s^{2}\equiv {\frac {\mathbf {e} ^{\top }\mathbf {e} }{n-k}}}

Et une troisième expression équivalente est :

D i = ∑ j = 1 n ( Y ^ j   − Y ^ j ( i ) ) 2 k   M S E , {\displaystyle D_{i}={\frac {\sum _{j=1}^{n}({\hat {Y}}_{j}\ -{\hat {Y}}_{j(i)})^{2}}{k\ \mathrm {MSE} }},} {\displaystyle D_{i}={\frac {\sum _{j=1}^{n}({\hat {Y}}_{j}\ -{\hat {Y}}_{j(i)})^{2}}{k\ \mathrm {MSE} }},}

où :

Y ^ j {\displaystyle {\hat {Y}}_{j}\,} {\displaystyle {\hat {Y}}_{j}\,} est la prédiction du modèle de régression complète pour l'observation j ;
Y ^ j ( i ) {\displaystyle {\hat {Y}}_{j(i)}\,} {\displaystyle {\hat {Y}}_{j(i)}\,} est la prédiction pour l'observation j à partir d'un modèle de régression ajustée dans lequel l'observation i a été omise.

Détection des observations très influentes

[modifier | modifier le code]

Il y a des opinions différentes au sujet de quel seuil les valeurs à utiliser pour repérer des points sont très influents. Une directive opérationnelle simple de D i > 1 {\displaystyle D_{i}>1} {\displaystyle D_{i}>1} a été suggérée[5]. D'autres ont indiqué que D i > 4 / n {\displaystyle D_{i}>4/n} {\displaystyle D_{i}>4/n}, où n {\displaystyle n} {\displaystyle n} i est le nombre d'observations, pourrait être utilisé[6].

Une approche conservatrice repose sur le fait que la distance de Cook a la forme W/p, où W est formellement identique au test de Wald que l'on utilise pour les tests que H 0 : β i = β 0 {\displaystyle H_{0}:\beta _{i}=\beta _{0}} {\displaystyle H_{0}:\beta _{i}=\beta _{0}} en utilisant certaines β ^ [ − i ] {\displaystyle {\hat {\beta }}_{[-i]}} {\displaystyle {\hat {\beta }}_{[-i]}}. Rappelant que W/p a une distribution F p , n − p {\displaystyle F_{p,n-p}} {\displaystyle F_{p,n-p}} (avec p et n-p degrés de liberté), nous voyons que la distance de Cook est équivalent à la statistique F pour tester cette hypothèse, et nous pouvons donc utiliser F p , n − p , 1 − α {\displaystyle F_{p,n-p,1-\alpha }} {\displaystyle F_{p,n-p,1-\alpha }} comme un seuil[7].

Notes et références

[modifier | modifier le code]
  • (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Cook's distance » (voir la liste des auteurs).
  1. ↑ William Mendenhall, Terry Sincich, (1996).
  2. ↑ Dennis R. Cook (février 1977).
  3. ↑ Idem (mars 1979).
  4. ↑ Hayashi, Fumio (2000).
  5. ↑ Dennis R. Cook, Sanford Weisberg (1982).
  6. ↑ Kenneth A. Bollen, Robert W. Jackman (1990).
  7. ↑ Herman Aguinis, Ryan K. Gottfredson, Harry Joo (2013).

Voir aussi

[modifier | modifier le code]

Bibliographie

[modifier | modifier le code]
  • Anthony Atkinson, Marco Riani, Deletion Diagnostics, Robust Diagnostics and Regression Analysis, New York, Springer, 2010, p. 22–25. (ISBN 0-387-95017-6).
  • Richard M. Heiberger, Burt Holland, Case Statistics, Statistical Analysis and Data Display, Springer Science & Business Media, 2013, p. 312–27. (ISBN 9781475742848).
  • William S. Krasker, Edwin Kuh, Roy E. Welsch, Estimation for dirty data and flawed models, Handbook of Econometrics no 1, Elsevier, 1983, p. 651–698. DOI 10.1016/S1573-4412(83)01015-6.
  • Herman Aguinis, Ryan K. Gottfredson, Harry Joo, Best-Practice Recommendations for Defining Identifying and Handling Outliers [PDF], Organizational Research Methods no 16 (2), 2013, p. 270–301 (DOI 10.1177/1094428112470848)

Articles connexes

[modifier | modifier le code]
  • Donnée aberrante
  • Régression linéaire
  • icône décorative Portail des probabilités et de la statistique
Ce document provient de « https://fr.teknopedia.teknokrat.ac.id/w/index.php?title=Distance_de_Cook&oldid=222467760 ».
Catégories :
  • Science des données
  • Statistiques
  • Aberrances statistiques
Catégories cachées :
  • Portail:Probabilités et statistiques/Articles liés
  • Portail:Mathématiques/Articles liés
  • Portail:Sciences/Articles liés

  • indonesia
  • Polski
  • الرية
  • Deutsch
  • English
  • Español
  • Français
  • Italiano
  • مصر
  • Nederlands
  • 本語
  • Português
  • Sinugboanong Binisaya
  • Svenska
  • Українска
  • Tiếng Việt
  • Winaray
  • 中文
  • Русски
Sunting pranala
Pusat Layanan

UNIVERSITAS TEKNOKRAT INDONESIA | ASEAN's Best Private University
Jl. ZA. Pagar Alam No.9 -11, Labuhan Ratu, Kec. Kedaton, Kota Bandar Lampung, Lampung 35132
Phone: (0721) 702022
Email: pmb@teknokrat.ac.id