Page d'accueil encyclopedie-enligne.com en page d'accueil
Liste Articles: [0-A] [A-C] [C-F] [F-J] [J-M] [M-P] [P-S] [S-Z] | Liste Catégories | Une page au hasard | Pages liées

Inférence bayésienne


On nomme inférence bayésienne une démarche d'acquisition de connaissance utilisant la loi de Bayes. Les probabilités n'y sont pas interprétées en tant que fréquences, mais en tant que traduction numérique d'états de connaissance (voir théorème de Cox-Jaynes).

Sommaire

Vers la certitude par l'accumulation

L'inférence bayésienne ne permet jamais d'atteindre la certitude, mais de remettre à jour en permanence le degré de plausibilité de chaque élément considéré.

Notation d'évidence (I. J. Good)

Dans la pratique, quand une probabilité est très proche de 0 ou de 1, il faut observer des éléments considérés eux-mêmes comme très improbables pour la voir se modifier. Pour mieux fixer les choses, on travaille souvent en décibels (dB), avec l'équivalence suivante :

Ev(p) = 10 log10 p/(1-p).

Une probabilité de -40 dB correspond à une probabilité de 10-4, etc. L'intérêt de cette notation, outre qu'elle évite de manier trop de décimales au voisinage de 0 et de 1, est qu'elle permet aussi de présenter la règle de Bayes sous forme additive : il faut le même poids de témoignage (weight of evidence) pour faire passer un événement d'une plausibilité de -40dB (10-4) à -30dB (10-3) que pour le faire passer de -10dB (0,1) à 0dB (0,5), ce qui n'était pas évident en gardant la représentation en probabilités. La table suivante présente quelques équivalences :

Probabilité en fonction du weight of evidence


 Probabilité Evidence (dB) Evidence (bits)
 0.0001 -40.0 -13.3
 0.0010 -30.0 -10.0
 0.0100 -20.0 -6.6
 0.1000 -9.5 -3.2
 0.2000 -6.0 -2.0
 0.3000 -3.7 -1.2
 0.4000 -1.8 -0.6
 0.5000 0.0 0.0
 0.6000 1.8 0.6
 0.7000 3.7 1.2
 0.8000 6.0 2.0
 0.9000 9.5 3.2
 0.9900 20.0 6.6
 0.9990 30.0 10.0
 0.9999 40.0 13.3

Ev est une abréviation pour weight of evidence, parfois traduit (incorrectement) en français par le mot évidence; un sens plus conforme à la signification du mot anglais d'origine serait encore le mot à mot poids de témoignage.

On découvrit par la suite qu'Alan Turing avaiit déjà travaillé sur cette question en nommant les quantités correspondantes log-odds dans ses travaux personnels.

Comparaison avec la statistique classique

Différence d'esprit

Une différence entre l'inférence bayésienne et les statistiques classiques, dites aussi fréquentistes, indiquée par Myron Tribus, est que

Les bayésiens font donc le choix de modéliser leurs attentes en début de processus (quitte à réviser ce premier jugement à l'aune de l'expérience au fur et à mesure des observations), tandis que les statisticiens classiques se fixaient a priori une méthode et une hypothèse arbitraires et ne traitaient les données qu'ensuite (ce qui avait tout de même le mérite de bien alléger les calculs).

Quand utiliser l'une ou l'autre ?

Les deux approches se complètent, la statistique étant en général préférable lorsque les informations sont abondantes et d'un faible coût de collecte, la bayésienne dans le cas où elles sont rares et/ou onéreuses à rassembler. En cas de grande abondance de données, les résultats sont généralement les mêmes dans chaque méthode, la bayésienne étant simplement plus coûteuse en calcul. En revanche, la bayésienne permet de traiter des cas où la statistique ne disposerait pas d'assez de données pour qu'on puisse en appliquer les théorèmes limites.

Exemples d'inférence bayésienne : d'où vient ce biscuit ?

Imaginons deux boites de biscuits.

On choisit les yeux fermés une boite au hasard, puis dans cette boite un biscuit au hasard. Il se trouve être au chocolat. De quelle boîte a-t-il le plus de chances d'être issu, et avec quelle probabilité ? Intuitivement, on se doute que la boite A a plus de chances d'être la bonne, mais de combien ?

La réponse exacte est donnée par le théorème de Bayes :

Notons HA la proposition « le gâteau vient de la boite A » et HB la proposition « le gâteau vient de la boite B ».

Si lorsqu'on a les yeux bandés les boites ne se distinguent que par leur non, nous avons P(HA) = P(HB), et la somme fait 1, puisque nous avons bien choisi une boite, soit une probabilité de 0,5. pour chaque proposition.

Notons D la phrase « le gâteau est au chocolat ». Connaissant le contenu des boîtes, nous savons que :

Résolution utilisant la notation des probabilités

La formule de Bayes nous donne donc :

Avant de regarder le gâteau, notre probabilité d'avoir choisi la boite A était P(HA), soit 0,5.

Après l'avoir regardé, nous révisons cette probabilité à P(HA|D), qui est 0.6.

Résolution utilisant la notation weight of evidence

<! Quelqu'un maîtrise-t-il suffisamment TeX pour l'écrire ici ? !>

Références

Enseignement de l'outil

Utilisation de l'outil

Les ouvrages relatifs à l'utilisation sont plus rares pour la raison suivante : on utilise les méthodes bayésiennes là où l'information coûte cher à obtenir (prospection pétrolière, recherche de médicaments...). Là où elle coûte cher à obtenir, ce seront des sociétés privées qui les financeront. Et aucune société privée n'aime donner à ses concurrents des informations qui lui ont coûté cher à obtenir, ce qui est humain.

Voir aussi



This site support the Wikimedia Foundation. This Article originally from Wikipedia. All text is available under the terms of the GNU Free Documentation License Page HistoryOriginal ArticleWikipedia