Benutzer:Rbb/Konjugierter Prior2
Als Konjugierte Prioren (auch konjugierte A-priori-Verteilungen) bezeichnet man in der Bayesschen Statistik Familien von Wahrscheinlichkeitsverteilungen, die bezüglich einer Familie von Likelihood-Funktionen im Satz von Bayes sowohl die A-priori-Verteilung als auch die A-posteriori-Verteilung beschreiben. Die Verwendung von konjugierten Prioren ermöglicht es eine statistische Schätzung immer wieder zu aktualisieren, sobald neue Daten vorliegen, ohne die Natur (Familie) der Verteilung zu verändern.
Zum Beispiel ist die Familie der Normalverteilungen selbstkonjugiert, also konjugierte Prioren für eine normalverteilte Likelihood.
Das Konzept der konjugierten Prioren wurde von Howard Raiffa and Robert Schlaifer in ihrer Arbeit zu Bayesianische Entscheidungstheorie[1] eingeführt. Ein ähnliches Konzept wurde unabhängig von George Alfred Barnard[2] entdeckt.
Die Verwendung konjugierter Prioren vereinfacht die algebraische Bestimmung des Posteriors; sie ist in geschlossener Form möglich, wo ansonsten numerische Verfahren zum Einsatz gebracht werden müssten. Außerdem helfen konjugierte Prioren beim Verständnis der Anwendung des Satzes von Bayes, da sie den Vorgang des „Lernens“ transparent und nachvollziehbar machen.
Alle Mitglieder der Exponentialfamilie haben konjugierte Prioren, die in wissenschaftlicher Literatur dokumentiert sind.[3]
Tabellarischer Überblick über Likelihood-Verteilungen und konjugierte Prioren
Im Folgenden sei die Anzahl der Beobachtungen.
Wenn die Likelihood zur Exponentialfamilie gehört, existiert ein konjugierter Prior, der oft ebenfalls aus der Exponentialfamilie stammt.
Diskrete Verteilungen
Likelihood | Modellparameter | Konjugierte Priorverteilungen | Prior Hyperparameter | Posterior Hyperparameter | Interpretation der Hyperparameter[note 1] | Posterior-Vorhersage[note 2] |
---|---|---|---|---|---|---|
Bernoulli | p (Wahrscheinlichkeit) | Beta | Erfolge, Misserfolge[note 1] | |||
Binomial | p (Wahrscheinlichkeit) | Beta | Erfolge, Misserfolge[note 1] | (beta-binomial) | ||
negative binomial bekannte Anzahl der Misserfolge r |
p (Wahrscheinlichkeit) | Beta | Gesamtzahl Erfolge, Misserfolge[note 1] (d. h. Versuche mit festem ) | |||
Poisson | λ (Rate) | Gamma | Gesamtereignisse in Intervallen | (negativ binomial) | ||
Poisson | λ (Rate) | Gamma | [note 3] | Ereignisse in Intervallen | (negativ binomial) | |
Kategoriell | p (Wahrscheinlichkeitsvektor), k (Anzahl der Kategorien, d. h. Dimension von p) | Dirichlet | mit Anzahl der Beobachtungen in Kategorie i | Ereignisse in Kategorie [note 1] |
| |
Multinomial | p (Wahrscheinlichkeitsvektor), k (Anzahl der Kategorien, also Dimension von p) | Dirichlet | Ereignisse in Kategorie [note 1] | (Dirichlet-multinomial) | ||
Hypergeometrisch mit bekannter Populationsgröße N |
M Anzahl mit zu untersuchender Eigenschaft | beta-binomial[4] | Erfolge, Misserfolge[note 1] | |||
Geometrisch | p0 (Wahrscheinlichkeit) | Beta | Experimente, gesamte Misserfolge[note 1] |
Kontinuierliche Verteilungen
Beachte: In den folgenden Fällen wird angenommen, dass die Daten aus n Punkten bestehen.
Likelihood | Modellparameter | Konjugierte Priorverteilungen | Prior Hyperparameter | Posterior Hyperparameters | Interpretation der Hyperparameter | Posterior-Vorhersage[note 4] |
---|---|---|---|---|---|---|
Normalverteilung mit bekannter Varianz σ2 |
μ (mean) | Normalverteilung | Der Erwartungswert wurde geschätzt aus Beobachtungen mit Gesamtpräzision (Summe der einzelnen Präzisionen) und mit dem Stichprobenmittel | [5] | ||
Normalverteilung mit bekannter Präzision τ |
μ (Erwartungswert) | Normalverteilung | Der Erwartungswert wurde geschätzt aus Beobachtungen mit Gesamtpräzision (Summe der einzelnen Präzisionen) und mit dem Stichprobenmittel | [5] | ||
Normalverteilung mit bekanntem Mittelwert μ |
σ2 (Varianz) | Inverse gamma | [note 5] | Die Varianz wurde geschätzt aus Beobachtungen mit Stichprobenvarianz (d. h mit der Summe der quadratischen Abweichungen vom bekannten Erwartungswert ) | [5] | |
Normalverteilung mit bekanntem Erwartungswert μ |
σ2 (Varianz) | Skalierte inverse Chi-Quadrat-Verteilung | Varianz wurde geschätzt aus Beobachtungen mit Stichprobenvarianz | [5] | ||
Normalverteilung mit bekanntem Erwartungswert μ |
τ (Präzision) | Gamma | [note 3] | Präzision wurde geschätzt aus Beobachtungen mit Stichprobenvarianz (d. h mit der Summe der quadratischen Abweichungen vom bekannten Erwartungswert ) | [5] | |
Normalverteilung[note 6] | μ and σ2 Assuming exchangeability |
Normal-inverse gamma |
|
mean was estimated from observations with sample mean ; variance was estimated from observations with sample mean and sum of squared deviations | [5] | |
Normalverteilung | μ and τ Assuming exchangeability |
Normal-gamma |
|
mean was estimated from observations with sample mean , and precision was estimated from observations with sample mean and sum of squared deviations | [5] | |
Mehrdimensionale Normalverteilung mit bekannter Covarianzmatrix Σ | μ (mean vector) | Mehrdimensionale Normalverteilung |
|
mean was estimated from observations with total precision (sum of all individual precisions) and with sample mean | [5] | |
Mehrdimensionale Normalverteilung with known precision matrix Λ | μ (mean vector) | Mehrdimensionale Normalverteilung |
|
mean was estimated from observations with total precision (sum of all individual precisions) and with sample mean | [5] | |
Mehrdimensionale Normalverteilung mit bekanntem Mittel μ | Σ (covariance matrix) | Inverse-Wishart | covariance matrix was estimated from observations with sum of pairwise deviation products | [5] | ||
Mehrdimensionale Normalverteilung mit bekanntem Mittel μ | Λ (precision matrix) | Wishart-Verteilung | covariance matrix was estimated from observations with sum of pairwise deviation products | [5] | ||
Mehrdimensionale Normalverteilung | μ (mean vector) and Σ (covariance matrix) | normal-inverse-Wishart |
|
mean was estimated from observations with sample mean ; covariance matrix was estimated from observations with sample mean and with sum of pairwise deviation products | [5] | |
Mehrdimensionale Normalverteilung | μ (mean vector) and Λ (precision matrix) | normal-Wishart |
|
mean was estimated from observations with sample mean ; covariance matrix was estimated from observations with sample mean and with sum of pairwise deviation products | [5] | |
Stetige Gleichverteilung | Pareto | Beobachtungen mit maximalem Wert | ||||
Pareto mit bekanntem Minimum xm |
k (shape) | Gamma | observations with sum of the order of magnitude of each observation (i.e. the logarithm of the ratio of each observation to the minimum ) | |||
Weibull mit bekanntem Formfaktor β |
θ (scale) | Inverse gamma[4] | observations with sum of the β'th power of each observation | |||
Logarithmische Normalverteilung mit bekannter Präzision τ |
μ (mean) | Normalverteilung[4] | "mean" was estimated from observations with total precision (sum of all individual precisions) and with sample mean | |||
Logarithmische Normalverteilung mit bekanntem Mittel μ |
τ (precision) | Gamma[4] | [note 3] | precision was estimated from observations with sample variance (i.e. with sum of squared log deviations — i.e. deviations between the logs of the data points and the "mean") | ||
Exponential | λ (rate) | Gamma | [note 3] | observations that sum to | (Lomax distribution) | |
Gamma mit bekanntem Formfaktor α |
β (Rate) | Gamma | observations with sum | [note 7] | ||
Inverse Gamma mit bekanntem Formfaktor α |
β (inverse Scala) | Gamma | observations with sum | |||
Gamma mit bekannter Rate β |
α (Form) | or observations ( for estimating , for estimating ) with product | ||||
Gamma [4] | α (Form), β (inverse Skala) | was estimated from observations with product ; was estimated from observations with sum |
Fußnoten
- ↑ a b c d e f g h i The exact interpretation of the parameters of a beta distribution in terms of number of successes and failures depends on what function is used to extract a point estimate from the distribution. The mode of a beta distribution is which corresponds to successes and failures; but the mean is which corresponds to successes and failures. The use of and has the advantage that a uniform prior corresponds to 0 successes and 0 failures, but the use of and is somewhat more convenient mathematically and also corresponds well with the fact that Bayesians generally prefer to use the posterior mean rather than the posterior mode as a point estimate. The same issues apply to the Dirichlet-Verteilung.
- ↑ a b This is the posterior predictive distribution of a new data point given the observed data points, with the parameters marginalized out. Variables with primes indicate the posterior values of the parameters.
- ↑ a b c d e β is rate or inverse scale. In parameterization of gamma distribution,θ = 1/β and k = α.
- ↑ a b This is the posterior predictive distribution of a new data point given the observed data points, with the parameters marginalized out. Variables with primes indicate the posterior values of the parameters. and refer to the normal distribution and Student's t-distribution, respectively, or to the multivariate normal distribution and multivariate t-distribution in the multivariate cases.
- ↑ a b In terms of the inverse gamma, is a scale parameter
- ↑ A different conjugate prior for unknown mean and variance, but with a fixed, linear relationship between them, is found in the normal variance-mean mixture, with the generalized inverse Gaussian as conjugate mixing distribution.
- ↑ a b is a compound gamma distribution; here is a generalized beta prime distribution.
Einzelnachweise
- ↑ Howard Raiffa and Robert Schlaifer. Applied Statistical Decision Theory. Division of Research, Graduate School of Business Administration, Harvard University, 1961.
- ↑ Jeff Miller et al. Earliest Known Uses of Some of the Words of Mathematics, "conjugate prior distributions". Electronic document, revision of November 13, 2005, retrieved December 2, 2005.
- ↑ Andrew Gelman, John B. Carlin, Hal S. Stern, and Donald B. Rubin. Bayesian Data Analysis, 2nd edition. CRC Press, 2003. ISBN 1-58488-388-X.
- ↑ a b c d e Fink: A Compendium of Conjugate Priors. 1997, Vorlage:Citeseerx.
- ↑ a b c d e f g h i j k l m Murphy, Kevin P. (2007). "Conjugate Bayesian analysis of the Gaussian distribution." [1] Referenzfehler: Ungültiges
<ref>
-Tag. Der Name „murphy“ wurde mehrere Male mit einem unterschiedlichen Inhalt definiert.