Benutzer:Rbb/Konjugierter Prior2

aus Wikipedia, der freien Enzyklopädie
< Benutzer:Rbb
Dies ist die aktuelle Version dieser Seite, zuletzt bearbeitet am 8. Januar 2015 um 07:20 Uhr durch imported>Krdbot(1148262) (Bot: Kategorien in BNR-Unterseite ausgeblendet)).
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)

Als Konjugierte Prioren (auch konjugierte A-priori-Verteilungen) bezeichnet man in der Bayesschen Statistik Familien von Wahrscheinlichkeitsverteilungen, die bezüglich einer Familie von Likelihood-Funktionen im Satz von Bayes sowohl die A-priori-Verteilung als auch die A-posteriori-Verteilung beschreiben. Die Verwendung von konjugierten Prioren ermöglicht es eine statistische Schätzung immer wieder zu aktualisieren, sobald neue Daten vorliegen, ohne die Natur (Familie) der Verteilung zu verändern.

Zum Beispiel ist die Familie der Normalverteilungen selbstkonjugiert, also konjugierte Prioren für eine normalverteilte Likelihood.

Das Konzept der konjugierten Prioren wurde von Howard Raiffa and Robert Schlaifer in ihrer Arbeit zu Bayesianische Entscheidungstheorie[1] eingeführt. Ein ähnliches Konzept wurde unabhängig von George Alfred Barnard[2] entdeckt.

Die Verwendung konjugierter Prioren vereinfacht die algebraische Bestimmung des Posteriors; sie ist in geschlossener Form möglich, wo ansonsten numerische Verfahren zum Einsatz gebracht werden müssten. Außerdem helfen konjugierte Prioren beim Verständnis der Anwendung des Satzes von Bayes, da sie den Vorgang des „Lernens“ transparent und nachvollziehbar machen.

Alle Mitglieder der Exponentialfamilie haben konjugierte Prioren, die in wissenschaftlicher Literatur dokumentiert sind.[3]

Tabellarischer Überblick über Likelihood-Verteilungen und konjugierte Prioren

Im Folgenden sei die Anzahl der Beobachtungen.

Wenn die Likelihood zur Exponentialfamilie gehört, existiert ein konjugierter Prior, der oft ebenfalls aus der Exponentialfamilie stammt.

Diskrete Verteilungen

Likelihood Modellparameter Konjugierte Priorverteilungen Prior Hyperparameter Posterior Hyperparameter Interpretation der Hyperparameter[note 1] Posterior-Vorhersage[note 2]
Bernoulli p (Wahrscheinlichkeit) Beta Erfolge, Misserfolge[note 1]
Binomial p (Wahrscheinlichkeit) Beta Erfolge, Misserfolge[note 1]
(beta-binomial)
negative binomial
bekannte Anzahl der Misserfolge r
p (Wahrscheinlichkeit) Beta Gesamtzahl Erfolge, Misserfolge[note 1] (d. h. Versuche mit festem )
Poisson λ (Rate) Gamma Gesamtereignisse in Intervallen
(negativ binomial)
Poisson λ (Rate) Gamma [note 3] Ereignisse in Intervallen
(negativ binomial)
Kategoriell p (Wahrscheinlichkeitsvektor), k (Anzahl der Kategorien, d. h. Dimension von p) Dirichlet mit Anzahl der Beobachtungen in Kategorie i Ereignisse in Kategorie [note 1]

    

Multinomial p (Wahrscheinlichkeitsvektor), k (Anzahl der Kategorien, also Dimension von p) Dirichlet Ereignisse in Kategorie [note 1]
(Dirichlet-multinomial)
Hypergeometrisch
mit bekannter Populationsgröße N
M Anzahl mit zu untersuchender Eigenschaft beta-binomial[4] Erfolge, Misserfolge[note 1]
Geometrisch p0 (Wahrscheinlichkeit) Beta Experimente, gesamte Misserfolge[note 1]

Kontinuierliche Verteilungen

Beachte: In den folgenden Fällen wird angenommen, dass die Daten aus n Punkten bestehen.

Likelihood Modellparameter Konjugierte Priorverteilungen Prior Hyperparameter Posterior Hyperparameters Interpretation der Hyperparameter Posterior-Vorhersage[note 4]
Normalverteilung
mit bekannter Varianz σ2
μ (mean) Normalverteilung
Der Erwartungswert wurde geschätzt aus Beobachtungen mit Gesamtpräzision (Summe der einzelnen Präzisionen) und mit dem Stichprobenmittel [5]
Normalverteilung
mit bekannter Präzision τ
μ (Erwartungswert) Normalverteilung Der Erwartungswert wurde geschätzt aus Beobachtungen mit Gesamtpräzision (Summe der einzelnen Präzisionen) und mit dem Stichprobenmittel [5]
Normalverteilung
mit bekanntem Mittelwert μ
σ2 (Varianz) Inverse gamma [note 5] Die Varianz wurde geschätzt aus Beobachtungen mit Stichprobenvarianz (d. h mit der Summe der quadratischen Abweichungen vom bekannten Erwartungswert ) [5]
Normalverteilung
mit bekanntem Erwartungswert μ
σ2 (Varianz) Skalierte inverse Chi-Quadrat-Verteilung Varianz wurde geschätzt aus Beobachtungen mit Stichprobenvarianz [5]
Normalverteilung
mit bekanntem Erwartungswert μ
τ (Präzision) Gamma [note 3] Präzision wurde geschätzt aus Beobachtungen mit Stichprobenvarianz (d. h mit der Summe der quadratischen Abweichungen vom bekannten Erwartungswert ) [5]
Normalverteilung[note 6] μ and σ2
Assuming exchangeability
Normal-inverse gamma
  • is the sample mean
mean was estimated from observations with sample mean ; variance was estimated from observations with sample mean and sum of squared deviations [5]
Normalverteilung μ and τ
Assuming exchangeability
Normal-gamma
  • is the sample mean
mean was estimated from observations with sample mean , and precision was estimated from observations with sample mean and sum of squared deviations [5]
Mehrdimensionale Normalverteilung mit bekannter Covarianzmatrix Σ μ (mean vector) Mehrdimensionale Normalverteilung
  • is the sample mean
mean was estimated from observations with total precision (sum of all individual precisions) and with sample mean [5]
Mehrdimensionale Normalverteilung with known precision matrix Λ μ (mean vector) Mehrdimensionale Normalverteilung
  • is the sample mean
mean was estimated from observations with total precision (sum of all individual precisions) and with sample mean [5]
Mehrdimensionale Normalverteilung mit bekanntem Mittel μ Σ (covariance matrix) Inverse-Wishart covariance matrix was estimated from observations with sum of pairwise deviation products [5]
Mehrdimensionale Normalverteilung mit bekanntem Mittel μ Λ (precision matrix) Wishart-Verteilung covariance matrix was estimated from observations with sum of pairwise deviation products [5]
Mehrdimensionale Normalverteilung μ (mean vector) and Σ (covariance matrix) normal-inverse-Wishart
  • is the sample mean
mean was estimated from observations with sample mean ; covariance matrix was estimated from observations with sample mean and with sum of pairwise deviation products [5]
Mehrdimensionale Normalverteilung μ (mean vector) and Λ (precision matrix) normal-Wishart
  • is the sample mean
mean was estimated from observations with sample mean ; covariance matrix was estimated from observations with sample mean and with sum of pairwise deviation products [5]
Stetige Gleichverteilung Pareto Beobachtungen mit maximalem Wert
Pareto
mit bekanntem Minimum xm
k (shape) Gamma observations with sum of the order of magnitude of each observation (i.e. the logarithm of the ratio of each observation to the minimum )
Weibull
mit bekanntem Formfaktor β
θ (scale) Inverse gamma[4] observations with sum of the β'th power of each observation
Logarithmische Normalverteilung
mit bekannter Präzision τ
μ (mean) Normalverteilung[4] "mean" was estimated from observations with total precision (sum of all individual precisions) and with sample mean
Logarithmische Normalverteilung
mit bekanntem Mittel μ
τ (precision) Gamma[4] [note 3] precision was estimated from observations with sample variance (i.e. with sum of squared log deviations — i.e. deviations between the logs of the data points and the "mean")
Exponential λ (rate) Gamma [note 3] observations that sum to
(Lomax distribution)
Gamma
mit bekanntem Formfaktor α
β (Rate) Gamma observations with sum [note 7]
Inverse Gamma
mit bekanntem Formfaktor α
β (inverse Scala) Gamma observations with sum
Gamma
mit bekannter Rate β
α (Form) or observations ( for estimating , for estimating ) with product
Gamma [4] α (Form), β (inverse Skala) was estimated from observations with product ; was estimated from observations with sum

Fußnoten

[note 1]

[note 2]

[note 4]

[note 3]

[note 5]

[note 7]

  1. a b c d e f g h i The exact interpretation of the parameters of a beta distribution in terms of number of successes and failures depends on what function is used to extract a point estimate from the distribution. The mode of a beta distribution is which corresponds to successes and failures; but the mean is which corresponds to successes and failures. The use of and has the advantage that a uniform prior corresponds to 0 successes and 0 failures, but the use of and is somewhat more convenient mathematically and also corresponds well with the fact that Bayesians generally prefer to use the posterior mean rather than the posterior mode as a point estimate. The same issues apply to the Dirichlet-Verteilung.
  2. a b This is the posterior predictive distribution of a new data point given the observed data points, with the parameters marginalized out. Variables with primes indicate the posterior values of the parameters.
  3. a b c d e β is rate or inverse scale. In parameterization of gamma distribution,θ = 1/β and k = α.
  4. a b This is the posterior predictive distribution of a new data point given the observed data points, with the parameters marginalized out. Variables with primes indicate the posterior values of the parameters. and refer to the normal distribution and Student's t-distribution, respectively, or to the multivariate normal distribution and multivariate t-distribution in the multivariate cases.
  5. a b In terms of the inverse gamma, is a scale parameter
  6. A different conjugate prior for unknown mean and variance, but with a fixed, linear relationship between them, is found in the normal variance-mean mixture, with the generalized inverse Gaussian as conjugate mixing distribution.
  7. a b is a compound gamma distribution; here is a generalized beta prime distribution.

Einzelnachweise

  1. Howard Raiffa and Robert Schlaifer. Applied Statistical Decision Theory. Division of Research, Graduate School of Business Administration, Harvard University, 1961.
  2. Jeff Miller et al. Earliest Known Uses of Some of the Words of Mathematics, "conjugate prior distributions". Electronic document, revision of November 13, 2005, retrieved December 2, 2005.
  3. Andrew Gelman, John B. Carlin, Hal S. Stern, and Donald B. Rubin. Bayesian Data Analysis, 2nd edition. CRC Press, 2003. ISBN 1-58488-388-X.
  4. a b c d e Fink: A Compendium of Conjugate Priors. 1997, Vorlage:Citeseerx.
  5. a b c d e f g h i j k l m Murphy, Kevin P. (2007). "Conjugate Bayesian analysis of the Gaussian distribution." [1] Referenzfehler: Ungültiges <ref>-Tag. Der Name „murphy“ wurde mehrere Male mit einem unterschiedlichen Inhalt definiert.

Kategorie:Bayessche Statistik