V-statistique

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

La mise en forme de cet article est à améliorer (avril 2024).

La mise en forme du texte ne suit pas les recommandations de Wikipédia : il faut le « wikifier ».

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article est orphelin. Moins de trois articles lui sont liés (avril 2024).

Vous pouvez aider en ajoutant des liens vers [[V-statistique]] dans les articles relatifs au sujet.

Les statistiques V sont une classe de statistiques nommée en l'honneur de Richard von Mises qui a développé sa théorie de la distribution asymptotique dans un article fondamental en 1947^[1]. Les statistiques V sont étroitement liées aux U-statistiques ^[2]^,^[3] (U pour « unbiased », non biaisées) introduites par Wassily Hoeffding en 1948^[4]. Une V-statistique est une fonction statistique (d'un échantillon) définie par une fonctionnelle statistique particulière d'une distribution de probabilité.

Fonctions statistiques[modifier | modifier le code]

Statistiques pouvant être représentées sous forme de fonctionnelles $T(F_{n})$ de la fonction de distribution empirique $(F_{n})$ sont appelées fonctionnelles statistiques^[5]. La différentiabilité de la fonctionnelle T joue un rôle clé dans l'approche de von Mises ; ainsi von Mises considère des fonctionnelles statistiques différentiables.

Exemples de fonctions statistiques[modifier | modifier le code]

Le k-ième moment central est la fonctionnelle : $T(F)=\int (x-\mu )^{k}\,dF(x)$ , où : $\mu =E[X]$ , est l'espérance de X. La fonction statistique associée au k-ième moment central de l'échantillon est : $T_{n}=m_{k}=T(F_{n})={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{k}.$
La statistique d'adéquation du chi-carré est une fonction statistique T(F_n), correspondant à la fonctionnelle statistique :
$T(F)=\sum _{i=1}^{k}{\frac {(\int _{A_{i}}\,dF-p_{i})^{2}}{p_{i}}},$ où A_i sont cellules du tableau de contingence et p_i sont les probabilités spécifiées des cellules sous l'hypothèse nulle.
Les statistiques d'ajustement de Cramér – von-Mises et Anderson – Darling sont basées sur la fonction :
$T(F)=\int (F(x)-F_{0}(x))^{2}\,w(x;F_{0})\,dF_{0}(x),$ où $w(X;F_{0})$ est une fonction de pondération et $F_{0}$ est une distribution nulle, toutes deux spécifiées. Si $w$ est la fonction d'identité, alors $T(F_{n})$ est la statistique d'ajustement de Cramér – von-Mises bien connue ; si $w(x;F_{0})=[F_{0}(x)(1-F_{0}(x))]^{-1}$ alors $T(F_{n})$ est la statistique d'Anderson – Darling.

Représentation sous forme de V-statistique[modifier | modifier le code]

Supposons que : x₁,..., x_n, est un échantillon. Dans les applications typiques, la fonction statistique a une représentation sous la forme de la V-statistique.

V_{2,n}={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}h(x_{i},x_{j}),

où h est un noyau symétrique. Serfling ^[6] explique comment trouver le noyau en pratique. V_mn est alors appelée V-statistique de degré m.

Un noyau symétrique de degré 2 est une fonction h(x, y), tel que h(x, y) = h(y, x) pour tous x et y dans le domaine de h. Pour les échantillons x₁,... ,x_n, la V-statistique correspondante est définie comme :

V_{mn}={\frac {1}{n^{m}}}\sum _{i_{1}=1}^{n}\cdots \sum _{i_{m}=1}^{n}h(x_{i_{1}},x_{i_{2}},\dots ,x_{i_{m}}).

Exemple de V-statistique[modifier | modifier le code]

Un exemple de V-statistique de degré 2 est le deuxième moment central m ₂. Si h(x, y) = (x − y)²/2, la V-statistique correspondante est : $V_{2,n}={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}{\frac {1}{2}}(x_{i}-x_{j})^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2},$ qui est l'estimateur du maximum de vraisemblance de la variance. Avec le même noyau, la U-statistique correspondante est la variance de l'échantillon (sans biais) : $s^{2}={n \choose 2}^{-1}\sum _{i<j}{\frac {1}{2}}(x_{i}-x_{j})^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}$ .

Distribution asymptotique[modifier | modifier le code]

Dans les exemples 1 à 3, la distribution asymptotique de la statistique est différente : dans (1) c'est normal, dans (2) c'est le chi-carré et dans (3) c'est une somme pondérée de variables du chi-carré.

L'approche de Von Mises est une théorie unificatrice qui couvre tous les cas ci-dessus. De manière informelle, le type de distribution asymptotique d'une fonction statistique dépend de l'ordre de « dégénérescence », qui est déterminé par le rang du premier premier terme non nul du développement de Taylor de la fonction statistique. T. Dans le cas où il s'agit du terme linéaire, la distribution limite est normale ; sinon, des types de distributions d'ordre supérieur apparaissent (dans des conditions appropriées telles qu'un théorème central limite est valable).

Il existe une hiérarchie de cas similaire à la théorie asymptotique des U-statistiques^[7]. Soit A(m) la propriété définie par :

A(m) :

Var(h(X ₁,..., X_k)) = 0 pour k < m, et Var(h(X ₁,..., X _k)) > 0 pour k = m ;
$n^{m/2}R_{mn}$ tend vers zéro (en probabilité), où $R_{mn}$ est le terme restant de la série de Taylor pour T.

Cas m = 1 (noyau non dégénéré) :

Si A(1) est vraie, la statistique est une moyenne d'échantillon et le théorème central limite implique que T(F_n) est asymptotiquement normal.

Dans l'exemple de variance (4), m₂ est asymptotiquement normal avec une moyenne $\sigma ^{2}$ et de variance $(\mu _{4}-\sigma ^{4})/n$ , où $\mu _{4}=E(X-E(X))^{4}$ .

Cas m = 2 (noyau dégénéré) :

Supposons que A(2) soit vraie, et $E[h^{2}(X_{1},X_{2})]<\infty ,\,E|h(X_{1},X_{1})|<\infty ,$ et $E[h(x,X_{1})]\equiv 0$ . Alors $nV_{2,n}$ converge en distribution vers une somme pondérée de variables indépendantes du chi-carré :

nV_{2,n}{\stackrel {d}{\longrightarrow }}\sum _{k=1}^{\infty }\lambda _{k}Z_{k}^{2},

où $Z_{k}$ sont des variables normales standard indépendantes et $\lambda _{k}$ sont des constantes qui dépendent de la distribution F et de la fonctionnelle T. Dans ce cas, la distribution asymptotique est appelée forme quadratique de variables aléatoires gaussiennes centrées. La V-statistique $V_{2,n}$ est appelée V-statistique à noyau dégénéré. La V-statistique associée à la fonctionnelle de Cramer – von Mises ^[1] (exemple 3) est un exemple de V-statistique à noyau dégénéré^[8].

Voir également[modifier | modifier le code]

U-statistique
Distribution asymptotique
Théorie asymptotique (statistiques)

Références[modifier | modifier le code]

↑ ^{a et b} (en) R. v. Mises, « On the Asymptotic Distribution of Differentiable Statistical Functions », The Annals of Mathematical Statistics, vol. 18, n^o 3,‎ septembre 1947, p. 309–348 (ISSN 0003-4851, DOI 10.1214/aoms/1177730385, lire en ligne, consulté le 18 avril 2024)
↑ Alan J. Lee, U-statistics: theory and practice, M. Dekker, coll. « Statistics », 1990 (ISBN 978-0-8247-8253-5)
↑ Volodimir Semenovič Korolûk et Ûrij Vasilʹevič Borovskič, Theory of U-statistics, Kluwer academic publ, coll. « Mathematics and its applications », 1994 (ISBN 978-0-7923-2608-3)
↑ (en) Wassily Hoeffding, « A Class of Statistics with Asymptotically Normal Distribution », The Annals of Mathematical Statistics, vol. 19, n^o 3,‎ septembre 1948, p. 293–325 (ISSN 0003-4851, DOI 10.1214/aoms/1177730196, lire en ligne, consulté le 18 avril 2024)
↑ von Mises (1947), p. 309; Serfling (1980), p. 210.
↑ Serfling (1980, Section 6.5)
↑ Serfling (1980, Ch. 5–6); Lee (1990, Ch. 3)
↑ See Lee (1990, p. 160) for the kernel function.

Portail des probabilités et de la statistique

[VM-1] {a et b} (en) R. v. Mises, « On the Asymptotic Distribution of Differentiable Statistical Functions », The Annals of Mathematical Statistics, vol. 18, n^o 3,‎ septembre 1947, p. 309–348 (ISSN 0003-4851, DOI 10.1214/aoms/1177730385, lire en ligne, consulté le 18 avril 2024)

[2] Alan J. Lee, U-statistics: theory and practice, M. Dekker, coll. « Statistics », 1990 (ISBN 978-0-8247-8253-5)

[3] Volodimir Semenovič Korolûk et Ûrij Vasilʹevič Borovskič, Theory of U-statistics, Kluwer academic publ, coll. « Mathematics and its applications », 1994 (ISBN 978-0-7923-2608-3)

[4] (en) Wassily Hoeffding, « A Class of Statistics with Asymptotically Normal Distribution », The Annals of Mathematical Statistics, vol. 19, n^o 3,‎ septembre 1948, p. 293–325 (ISSN 0003-4851, DOI 10.1214/aoms/1177730196, lire en ligne, consulté le 18 avril 2024)

[5] von Mises (1947), p. 309; Serfling (1980), p. 210.

[Serfling.a-6] Serfling (1980, Section 6.5)

[7] Serfling (1980, Ch. 5–6); Lee (1990, Ch. 3)

[8] See Lee (1990, p. 160) for the kernel function.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]