Théorème de Basu

Un article de Wikipédia, l'encyclopédie libre.

Le théorème de Basu, ou lemme de Basu, est un résultat de statistique établi en 1955 par le statisticien Debabrata Basu. Il indique qu'une statistique exhaustive et complète est indépendante de toute statistique libre. Ce théorème a de nombreuses applications dans différentes branches des statistiques et est aujourd'hui considéré comme un résultat fondamental de la discipline.

Énoncé[modifier | modifier le code]

Exhaustivité, complétude et liberté d'une statistique[modifier | modifier le code]

Le théorème de Basu utilise les notions d'exhaustivité, de complétude et de liberté d'une statistique. Rappelons les définitions de ces notions.

Considérons un modèle statistique de paramètre générant des données .

  • Une statistique est exhaustive pour si la distribution de conditionnellement à ne dépend pas de .
  • Une statistique est complète si l'implication suivante est vraie pour toute fonction mesurable à valeurs réelles : si pour tout , , alors pour tout .
  • Une statistique est libre pour si sa distribution ne dépend pas de .

Énoncé et démonstration[modifier | modifier le code]

Théorème — Soit une famille de distributions indicée par un paramètre , générant une variable aléatoire à valeurs dans un espace mesurable (par exemple dans le cas où est un échantillon de variables aléatoires réelles). Soit une statistique exhaustive et complète (en) pour .

Si est une statistique libre (en) pour alors et sont indépendantes.

Remarques[modifier | modifier le code]

  • La condition de complétude de peut être remplacée par la condition moins forte de complétude bornée : si pour une fonction mesurable et bornée à valeurs dans , pour tout , alors avec probabilité 1 pour tout .
  • Le théorème est parfois écrit en exigeant que soit une statistique minimale. Cette condition n'est pas nécessaire, mais elle peut paraître naturelle car le théorème de Bahadur (en) garantit que, s'il existe une statistique minimale, une statistique complète et exhaustive est nécessairement minimale.

Exemples[modifier | modifier le code]

Loi normale[modifier | modifier le code]

Considérons une loi normale d'espérance et de variance . Soit variables aléatoires indépendantes issues de cette loi normale.

Moyenne et variance empiriques[modifier | modifier le code]

  • La moyenne empirique est une statistique exhaustive et complète pour . Cela se montre en utilisant le fait que la loi normale fait partie de la famille exponentielle.
  • La variance empirique est une statistique libre pour . En effet, la distribution de est une loi du à degrés de liberté. La distribution de ne dépend donc pas de .

Alors et sont indépendantes.

Statistique de Student[modifier | modifier le code]

Supposons que l'espérance soit connue et égale à .

  • L'estimateur non biasée de la variance est une statistique exhaustive et complète pour .
  • La statistique du test de Student est une statistique libre pour car sa distribution est une loi de Student à degrés de liberté (qui ne dépend donc pas de ).

Les statistiques et sont donc indépendantes.

Loi gamma[modifier | modifier le code]

Considérons une loi gamma de paramètre de forme et d'intensité . La densité associée est pour . Soit variables aléatoires indépendantes issues de cette loi gamma.

  • est une statistique complète et exhaustive pour . Cela se montre en utilisant le fait que la loi gamma fait partie de la famille exponentielle.
  • La statistique est libre pour car c'est une statistique invariante pour l'échelle.

On a donc que et sont indépendantes[1].

Statistiques de rang pour un modèle non paramétrique[modifier | modifier le code]

Considérons la famille de distributions générant des variables aléatoires indépendantes et identiquement distribuées selon un distribution admettant une fonction de densité continue sur : . Il s'agit d'un cas inhabituel de famille de distributions où le paramètre est la densité .

  • Il est possible de démontrer que l'échantillon ordonnés des valeurs les plus faibles aux plus grandes, est une statistique exhaustive et complète[2].
  • Notons les rangs de l'échantillon (par exemple si prend la plus grande valeur de l'échantillon). Alors la distribution de ne dépend pas de . Il s'agit donc d'une statistique libre.

Alors l'échantillon ordonné est indépendant des rangs de l'échantillon[3].

Réciproque[modifier | modifier le code]

Il existe un résultat proche d'une réciproque du théorème de Basu indiquant que si une statistique est indépendante d'une statistique exhaustive pour toute valeur du paramètre , alors est libre pour . La complétude de la statistique exhaustive n'est plus nécessaire, mais ce résultat vient au prix d'une condition supplémentaire sur le modèle pour lequel il ne doit pas exister d'événement séparant, c'est-à-dire qu'il ne doit pas exister d'événement qui soit impossible pour certaines valeurs du paramètre mais certain pour d'autres valeurs du paramètre.

Énoncé[modifier | modifier le code]

Théorème — Soit une famille de distributions indicée par un paramètre , générant une variable aléatoire à valeurs dans un espace mesurable (par exemple dans le cas où X est un échantillon de variables aléatoires réelles). Soit une statistique exhaustive pour à valeurs dans . Supposons que de plus qu'il n'existe pas d'événement séparant pour , c'est-à-dire qu'il n'existe pas d'événement tel que pour certaines valeurs de et pour d'autres valeurs de .

Si est une statistique indépendante de pour tout , alors est libre pour .

Démonstration intuitive mais inexacte[modifier | modifier le code]

Donnons ici une démonstration simple et intuitive, bien qu'inexacte, de la réciproque du théorème de Basu.

Démonstration[modifier | modifier le code]

Soit un ensemble mesurable de . Comme est exhaustive, ne dépend pas de . Par ailleurs, comme et sont indépendantes, . On en déduit donc que ne dépend pas de . Comme cela est vrai pour tout événement , nous avons bien montré que est libre pour .

Erreur[modifier | modifier le code]

Cette démonstration n'utilise pas la condition de non-existence d'événement séparant pour le modèle et est donc fausse, comme le montre le contre-exemple donné plus loin.

L'erreur de cette preuve provient de l'implication « comme et sont indépendantes, » qui doit être corrigée en « comme et sont indépendantes, , avec probabilité 1». Comme la précision «avec probabilité 1» dépend de la loi de probabilité considérée, elle dépend en réalité du paramètre . Cela complique les choses et ne permet donc pas de conclure sans hypothèse supplémentaire sur le modèle .

Cette démonstration a été publiée par Basu en 1955[4] et corrigée 3 ans plus tard[5]. Bien qu’erronée à cause d'un point technique, elle permet de donner une intuition du théorème et de sa preuve qui, bien qu'un peu plus technique, reste guidée par le même argument.

Contre exemple[modifier | modifier le code]

Donnons ici un exemple de modèle statistique pour lequel il existe des statistiques libres mais non indépendantes de statistiques exhaustives, ce modèle ne satisfaisant pas la condition de non-séparabilité.

Soit une variable aléatoire issue d'une distribution uniforme sur un intervalle .

La densité de peut s'écrire , où désigne la partie entière de et où désigne la fonction indicatrice du singleton , qui vaut 1 si son argument est égal à et 0 sinon. Le théorème de factorisation de Fisher–Neyman indique alors que est une statistique exhaustive pour .

Cependant pour un donné, la statistique est constante, égale à , elle est donc indépendante de toute autre statistique, en particulier de . Cependant, n'est pas libre car sa distribution dépend bien de ( est même également exhaustive).

La réciproque du théorème de Basu n'est donc pas respectée dans ce cas particulier. Cela est rendu possible par le fait que le modèle statistique considéré est séparable: l'événement a une probabilité de 1 si , mais une probabilité de 0 si par exemple[6].

Autres réciproques[modifier | modifier le code]

D'autres réciproques du théorème de Basu ont été établies, cherchant par exemple à établir la complétude d'une statistique exhaustive qui serait indépendante de toute statistique libre. Cependant ces résultats sont plus techniques, utilisent des notions modifiées de complétude et ont eu un impact moindre[7].

Histoire[modifier | modifier le code]

Basu a donné la première version de ce théorème en 1955 dans un article intitulé On Statistics Independent of a Complete Sufficient Statistic, publié dans le journal de l'Institut indien de statistiques : Sankhyā: The Indian Journal of Statistics[4]. Cette première publication met surtout en avant la réciproque du théorème plutôt que ce qui sera retenu comme le théorème lui-même. Une erreur dans la démonstration de la réciproque est rapidement notée et une version corrigée est publiée en 1958 dans le même journal[5]. Le théorème de Basu, établissant un lien fort entre les notions de complétude, d'exhaustivité et de liberté, a rapidement trouvé de nombreuses applications. Il est aujourd'hui inclus dans des livres de référence de statistiques[8],[2].

Applications[modifier | modifier le code]

Le théorème de Basu trouve de nombreuses applications dans différentes branches des statistiques. Donnons ici une liste non exhaustive d'applications de ce théorème.

  • Il peut simplifier le calcul de moments de variables aléatoires, lorsque celles-ci peuvent s'écrire comme un produit ou comme une somme d'une statistique exhaustive et complète et d'une statistique libre[3].
  • Pour certains tests d'hypothèses, il permet d'établir la distribution exacte d'une statistiques de test[9].
  • Le théorème de Basu est au cœur de l'astuce du Monte Carlo swindle, permettant d'améliorer la précision de certaines méthodes de Monte-Carlo[10].
  • Il peut intervenir dans la production d'intervalles de confiance dans le cadre des méthodes Bayésiennes empiriques (en)[11].
  • Il trouve des applications dans différents problèmes d'estimation, notamment pour trouver des estimateurs à variance minimale[12].

Voir aussi[modifier | modifier le code]

Références[modifier | modifier le code]

  1. (en) Encyclopedia of Statistical Sciences, Wiley, , 193 - 196 p. (ISBN 978-0-471-15044-2 et 978-0-471-66719-3, DOI 10.1002/0471667196, lire en ligne)
  2. a et b E. L. Lehmann, Testing statistical hypotheses, Wiley, coll. « Wiley series in probability and mathematical statistics », (ISBN 978-0-471-84083-1)
  3. a et b Malay Ghosh, « Basu's Theorem with Applications: A Personalistic Review », Sankhyā: The Indian Journal of Statistics, Series A (1961-2002), vol. 64, no 3,‎ , p. 509–531 (ISSN 0581-572X, lire en ligne, consulté le )
  4. a et b D. Basu, « On Statistics Independent of a Complete Sufficient Statistic », Sankhyā: The Indian Journal of Statistics (1933-1960), vol. 15, no 4,‎ , p. 377–380 (ISSN 0036-4452, lire en ligne, consulté le )
  5. a et b D. Basu, « On Statistics Independent of Sufficient Statistics », Sankhyā: The Indian Journal of Statistics (1933-1960), vol. 20, nos 3/4,‎ , p. 223–226 (ISSN 0036-4452, lire en ligne, consulté le )
  6. Uwe Koehn et D. L. Thomas, « On Statistics Independent of a Sufficient Statistic: Basu's Lemma », The American Statistician, vol. 29, no 1,‎ , p. 40 (ISSN 0003-1305, DOI 10.2307/2683680, lire en ligne, consulté le )
  7. E. L. Lehmann, « An Interpretation of Completeness and Basu's Theorem », Journal of the American Statistical Association, vol. 76, no 374,‎ , p. 335–340 (ISSN 0162-1459, DOI 10.2307/2287834, lire en ligne, consulté le )
  8. George Casella et Roger W. Berger, Statistical inference, CRC Press, coll. « CRC texts in statistical science series », (ISBN 978-1-032-59303-6 et 978-1-032-59794-2)
  9. Robert V. Hogg et Allen T. Craig, « Sufficient Statistics in Elementary Distribution Theory », Sankhyā: The Indian Journal of Statistics (1933-1960), vol. 17, no 3,‎ , p. 209–216 (ISSN 0036-4452, lire en ligne, consulté le )
  10. (en) Dennis D. Boos et Jacqueline M. Hughes-Oliver, « Applications of Basu's Theorem », The American Statistician, vol. 52, no 3,‎ , p. 218–221 (ISSN 0003-1305 et 1537-2731, DOI 10.1080/00031305.1998.10480566, lire en ligne, consulté le )
  11. (en) Gauri Sankar Datta, Malay Ghosh, David Daniel Smith et Parthasarathi Lahiri, « On an Asymptotic Theory of Conditional and Unconditional Coverage Probabilities of Empirical Bayes Confidence Intervals », Scandinavian Journal of Statistics, vol. 29, no 1,‎ , p. 139–152 (ISSN 0303-6898 et 1467-9469, DOI 10.1111/1467-9469.t01-1-00143, lire en ligne, consulté le )
  12. Morris L. Eaton et Carl N. Morris, « The Application of Invariance to Unbiased Estimation », The Annals of Mathematical Statistics, vol. 41, no 5,‎ , p. 1708–1716 (ISSN 0003-4851 et 2168-8990, DOI 10.1214/aoms/1177696815, lire en ligne, consulté le )