V-statistique

Un article de Wikipédia, l'encyclopédie libre.

Les statistiques V sont une classe de statistiques nommée en l'honneur de Richard von Mises qui a développé sa théorie de la distribution asymptotique dans un article fondamental en 1947[1]. Les statistiques V sont étroitement liées aux U-statistiques [2],[3] (U pour « unbiased », non biaisées) introduites par Wassily Hoeffding en 1948[4]. Une V-statistique est une fonction statistique (d'un échantillon) définie par une fonctionnelle statistique particulière d'une distribution de probabilité.

Fonctions statistiques[modifier | modifier le code]

Statistiques pouvant être représentées sous forme de fonctionnelles de la fonction de distribution empirique sont appelées fonctionnelles statistiques[5]. La différentiabilité de la fonctionnelle T joue un rôle clé dans l'approche de von Mises ; ainsi von Mises considère des fonctionnelles statistiques différentiables.

Exemples de fonctions statistiques[modifier | modifier le code]

  1. Le k-ième moment central est la fonctionnelle : , où : , est l'espérance de X. La fonction statistique associée au k-ième moment central de l'échantillon est :
  2. La statistique d'adéquation du chi-carré est une fonction statistique T(Fn), correspondant à la fonctionnelle statistique :
    Ai sont cellules du tableau de contingence et pi sont les probabilités spécifiées des cellules sous l'hypothèse nulle.
  3. Les statistiques d'ajustement de Cramér – von-Mises et Anderson – Darling sont basées sur la fonction :
    est une fonction de pondération et est une distribution nulle, toutes deux spécifiées. Si est la fonction d'identité, alors est la statistique d'ajustement de Cramér – von-Mises bien connue ; si alors est la statistique d'Anderson – Darling.

Représentation sous forme de V-statistique[modifier | modifier le code]

Supposons que : x1,..., xn, est un échantillon. Dans les applications typiques, la fonction statistique a une représentation sous la forme de la V-statistique.

h est un noyau symétrique. Serfling [6] explique comment trouver le noyau en pratique. Vmn est alors appelée V-statistique de degré m.

Un noyau symétrique de degré 2 est une fonction h(x, y), tel que h(x, y) = h(y, x) pour tous x et y dans le domaine de h. Pour les échantillons x1,... ,xn, la V-statistique correspondante est définie comme :

Exemple de V-statistique[modifier | modifier le code]

  1. Un exemple de V-statistique de degré 2 est le deuxième moment central m 2. Si h(x, y) = (xy)2/2, la V-statistique correspondante est : qui est l'estimateur du maximum de vraisemblance de la variance. Avec le même noyau, la U-statistique correspondante est la variance de l'échantillon (sans biais) : .

Distribution asymptotique[modifier | modifier le code]

Dans les exemples 1 à 3, la distribution asymptotique de la statistique est différente : dans (1) c'est normal, dans (2) c'est le chi-carré et dans (3) c'est une somme pondérée de variables du chi-carré.

L'approche de Von Mises est une théorie unificatrice qui couvre tous les cas ci-dessus. De manière informelle, le type de distribution asymptotique d'une fonction statistique dépend de l'ordre de « dégénérescence », qui est déterminé par le rang du premier premier terme non nul du développement de Taylor de la fonction statistique. T. Dans le cas où il s'agit du terme linéaire, la distribution limite est normale ; sinon, des types de distributions d'ordre supérieur apparaissent (dans des conditions appropriées telles qu'un théorème central limite est valable).

Il existe une hiérarchie de cas similaire à la théorie asymptotique des U-statistiques[7]. Soit A(m) la propriété définie par :

A(m) :
  1. Var(h(X 1,..., Xk)) = 0 pour k < m, et Var(h(X 1,..., X k)) > 0 pour k = m ;
  2. tend vers zéro (en probabilité), où est le terme restant de la série de Taylor pour T.

Cas m = 1 (noyau non dégénéré) :

Si A(1) est vraie, la statistique est une moyenne d'échantillon et le théorème central limite implique que T(Fn) est asymptotiquement normal.

Dans l'exemple de variance (4), m2 est asymptotiquement normal avec une moyenne et de variance , où .

Cas m = 2 (noyau dégénéré) :

Supposons que A(2) soit vraie, et et . Alors converge en distribution vers une somme pondérée de variables indépendantes du chi-carré :

sont des variables normales standard indépendantes et sont des constantes qui dépendent de la distribution F et de la fonctionnelle T. Dans ce cas, la distribution asymptotique est appelée forme quadratique de variables aléatoires gaussiennes centrées. La V-statistique est appelée V-statistique à noyau dégénéré. La V-statistique associée à la fonctionnelle de Cramer – von Mises [1] (exemple 3) est un exemple de V-statistique à noyau dégénéré[8].

Voir également[modifier | modifier le code]

  • U-statistique
  • Distribution asymptotique
  • Théorie asymptotique (statistiques)

Références[modifier | modifier le code]

  1. a et b (en) R. v. Mises, « On the Asymptotic Distribution of Differentiable Statistical Functions », The Annals of Mathematical Statistics, vol. 18, no 3,‎ , p. 309–348 (ISSN 0003-4851, DOI 10.1214/aoms/1177730385, lire en ligne, consulté le )
  2. Alan J. Lee, U-statistics: theory and practice, M. Dekker, coll. « Statistics », (ISBN 978-0-8247-8253-5)
  3. Volodimir Semenovič Korolûk et Ûrij Vasilʹevič Borovskič, Theory of U-statistics, Kluwer academic publ, coll. « Mathematics and its applications », (ISBN 978-0-7923-2608-3)
  4. (en) Wassily Hoeffding, « A Class of Statistics with Asymptotically Normal Distribution », The Annals of Mathematical Statistics, vol. 19, no 3,‎ , p. 293–325 (ISSN 0003-4851, DOI 10.1214/aoms/1177730196, lire en ligne, consulté le )
  5. von Mises (1947), p. 309; Serfling (1980), p. 210.
  6. Serfling (1980, Section 6.5)
  7. Serfling (1980, Ch. 5–6); Lee (1990, Ch. 3)
  8. See Lee (1990, p. 160) for the kernel function.