“Statistisch signifikant”, das hört oder liest man ziemlich schnell mal, wenn es irgendwie um Wissenschaft und Daten geht. Der Ausdruck soll darauf hindeuten, dass irgendein Zusammenhang oder Effekt bedeutsam oder real ist. Tatsächlich ist die Idee von statistischer Signifikanz nicht mehr aus wissenschaftlicher Forschung wegzudenken. Das ist nicht ganz unproblematisch: In Tat und Wahrheit ist statistische Signifikanz ein ziemlich wirres Konzept, das praktisch für viele Probleme sorgt.

p-Wert, signifikant, Signifikanz, Statistik, magisch

Oft misinterpretiert und doch so zentral in der Wissenschaft: Der p-Wert unter der „signifikanten“ 0.05-Grenze.

Weiterführende Links

Gastbeitrag von Co-Host Marko Kovic in der NZZ: Fallstricke der Statistik – Die Wissenschaft in der Replikationskrise
A Dirty Dozen: Twelve P-Value Misconceptions
P Values and Statistical Practice
The fallacy of the null-hypothesis significance test
The statistical crisis in science
The ASA’s Statement on p-Values: Context, Process, and Purpose
The fallacy of placing confidence in confidence intervals
Eine frühere Folge von skeptisCH mit verwandtem Inhalt: skeptisCH – Folge 44: Wahrscheinlichkeiten

—

Den Podcast abonnieren:

Im Podcast verwendete Musik:

Rockin: Blinded By Science

Autor

Tobias Füchslin

Alle Beiträge ansehen

8 Comments on “skeptisCH – Folge 54: Statistisch signifikant”

Pingback: Psiram » Psirama – Der Psiram-Wochenrückblick (KW21, 2017)

xnor

05.29.2017 at 12:43

Der p-Wert ist NICHT „die Wahrscheinlichkeit der beobachteten Daten wenn wir glauben, dass das Nullmodell wahr ist“ (Minute 5).
Der p-Wert berechnet die Wahrscheinlichkeit des Ergebnisses eines Zufallsexperiments (unter Annahme des Nullmodells), das mindestens so extrem ist wie das Ergebnis unserer tatsächlichen Beobachtung.

Reply

Marko Kovic
05.29.2017 at 14:32

Hallo xnor

Also, würdest du sagen dass p-Werte eher etwas mit

1) Pr(null | data)

oder eher etwas mit

2) Pr(data | null)

zu tun haben?
Wenn du 2) glaubst, dann glauben wir dasselbe. Und, für die Mitlesenden: Schwammige Ausdrücke wie „unter der Annahme“ etc. bedeutet eben schlicht, dass wir glauben, dass das Nullmodell wahr ist (im Alltagsdeutsch hat der Begriff Glaube eine leicht andere Konnotation als das Englische Belief – es geht aber in beiden Fällen in diesem Kontext um eine simple erkenntnistheoretische Konstellation).

Im Podcast erwähnen wir, glaube ich, nur ein Mal explizit, dass es um dieselben und noch extremere Daten geht; danach sprechen wir pars pro toto von Daten. Ich hoffe, das ist nicht verwirrend.

Die ganz genaue technische Definition von p-Werten ist nicht so wichtig; es geht um die Wahrscheinlichkeit bestimter Teststatistiken. Geht in diese Richtung:
Pr(T(yrep) > T(y)|null)

Der erkenntnistheoretische Knackpunkt von p-Werten ist die Logik von 1) vs. 2).

Grüsse
1. Reply
  
  xnor
  05.30.2017 at 13:58
  
  Hey Marko,
  
  natürlich 2, denn 1 wäre ja komplett falsch (und das ist auch der Irrglaube, der im Podcast richtigerweise „angeprangert“ wird.)
  
  „Unter der Annahme“ finde ich nicht schwammig. Wir nehmen ja an, dass das Nullmodell wahr ist, und unter dieser Annahme berechnen wir die Wahrscheinlichkeit, dass das Ergebnis eines entsprechenden Zufallsexperiments mindestens so extrem wie unser tatsächlich gemessenes Ergebnis ist.
  
  Problematischer finde ich dass gesagt wird, dass wir die Wahrscheinlichkeit der Daten berechnen.
  
  Vielleicht wäre ein kleines Beispiel hilfreich:
  In einem Test werden einer Person zB zwei Referenzstücke A und B gezeigt. In 10 Runden wird eines der beiden zufällig ausgewählt und die Person muss sagen, ob es sich dabei um A oder B handelt.
  
  Es liegt eine Binomialverteilung vor. Aus dem Experiment wissen wir N=10.
  
  Im Nullmodell nehmen wir an, dass die Person bloße Raterei betreibt.
  Durch diese Annahme fixieren wir die Wahrscheinlichkeit des Erfolgs in einer Runde auf p=0,5!
  
  P(8 oder mehr richtige | bloße Raterei) = 0,055
  P(9 richtige | bloße Raterei) = 0,01
  P(10 richtige | bloße Raterei) = 0,001
  
  Wir berechnen also nicht die Wahrscheinlichkeit des Testergebnisses (der Daten), sondern wie wahrscheinlich es ist, dass durch Zufall mindestens so gut geraten wird.
  
  Das Signifikanzniveau (zB 5%) gibt somit eigentlich an, wie tolerant man gegenüber falschem Verwerfen eines tatsächlich wahren Nullmodells ist.
  
  Wenn wir 1000 Personen den Test absolvieren lassen, die aber alle nur raten, dann erhalten wir rein statistisch ~50 Testergebnisse mit p-Wert < 5%.
  1. Reply
    
    Marko Kovic
    05.30.2017 at 16:42
    
    Merci für die Replik!
    
    Ich glaube nicht, dass wir die Situation sehr anders einschätzen – aber ich glaube auch nicht, dass wir uns einiger werden, als wir es jetzt sind :).
    
    Ad „Annahme“, „Vermutung“, usf.: Solche doxastischen Einstellungen („doxastic attitudes“; weiss nicht, ob der Begriff so auch zu Deutsch gebraucht wird!) sind insofern ungenauer und unpräziser als der Ausdruck „Glaube“, weil die meisten Leute nicht realisieren, was es mit doxastischen Einstellungen überhaupt auf sich hat. Das ist auch der Grund, warum ich z.B. von „Nullmodell“ anstatt „Nullhypothese“ spreche – „Modell“ impliziert, dass wir einen recht starken und recht genauen Glauben über die Realität kundtun, während „Hypothese“ nach „könnte ja sein; ist einfach eine Idee“ tönt.
    
    Dass es bei p-Werten um hypothetical frequentism geht (imaginierte unendlich oft wiederholte Datengenerierung) erklären wir ziemlich explizit im Podcast, glaube ich; hier sollte es für die Zuhörenden keine Verwirrung geben. Vielleicht hätten wir uns aber wirklich etwas anders ausdrücken sollen; z.B. „Wahrscheinlichkeit für solche oder noch extremere Daten gegeben des Nullmodells“.
    
    „Das Signifikanzniveau (zB 5%) gibt somit eigentlich an, wie tolerant man gegenüber falschem Verwerfen eines tatsächlich wahren Nullmodells ist.“
    
    Solche Metaphern wiederum gefallen mir überhaupt nicht, weil sie sehr ungenau und unpräzise sind (z.B. ist komplett unklar, was „tolerant“ für eine doxastische Einstellung sein soll…). Die Probleme mit NHST sind logisch und erkenntnistheoretisch verschachtelter als bloss mit p-Werten und gehen weiter, als wir im Podcast diskutieren (ich glaube z.B. nicht, dass es, rationalerweise, in den allermeisten Kontexten so etwas wie Typ I- und II-Fehler gibt, weil es so gut wie nie „wahre“ Nullmodelle gibt; begegnet sind mir in der Realität jedenfalls noch keine).
    
    Die Kernbotschaft im Podcast stützt du aber sicher auch:
    – Signifikanzniveaus sind willkürliche Konventionen.
    – Diese willkürlichen Konventionen haben sehr grosse praktische Probleme („Signifikanzfilter“ bei Journals, p-Hacking, etc.).
    
    Gruss
    1. xnor
      05.31.2017 at 17:48
      
      „Annahme“, „Nullhypothese“ (was auch nichts weiteres ist als eine Annahme) sind eigentlich klare Ausdrücke, die zumindest in meiner Verwendung nichts über Glauben oder die Realität aussagen.
      Wenn ich x=10 in einer Gleichung annehme (also für x 10 einsetze und weiter rechne), dann sage ich auch nichts über meinen Glauben oder die Realität aus.
      
      Die Kritik über den Satz über das Signifikanzniveau ist vollkommen berechtigt. Ich hätte nicht „tatsächlich wahr“ sondern „als wahr angenommenes“ schreiben sollen.
      Dieser Widerspruch (wir nehmen die NH an, aber verwerfen sie zB in 5% der Fälle) wurde ja auch im Podcast angesprochen.
      
      Natürlich hast du recht, dass es grobe Probleme damit gibt, wenn man damit Schlüsse über die Realität ziehen möchte.
      Ganz richtig auch, dass es so eine „Punkt“-Nullhypothese in der Praxis gar nicht gibt. Dazu auch folgende interessante Überlegung:
      Wenn wir N in meinem vorherigen Beispiel gegen Unendlich gehen lassen, dann geht (mindestens notwendige richtige)/N gegen 50% .. um die NH zu verwerfen.

Fabio

06.03.2017 at 15:24

Die frequentistische Statistik hatte einfach mehr Zeit zur Verfügung gehabt, um missbraucht zu werden. In 50 Jahren sprechen wir vielleicht nicht mehr von p-Hacking sondern von apriori-Schlammschlachten.

Reply

Marko Kovic
06.03.2017 at 16:40

Das kann gut sein! 🙂

Im bayesianischen Lager gibt es z.B. schon jetzt die Schule der „Bayes Factor“-Verfechter, um Hypothesentests zu machen – und ich glaube, dass der Einsatz von Bayes Factors *mindestens* so problematisch ist wie frequentistische NHST.

Pingback: Psiram » Psirama – Der Psiram-Wochenrückblick (KW21, 2017)

xnor
05.29.2017 at 12:43

Der p-Wert ist NICHT „die Wahrscheinlichkeit der beobachteten Daten wenn wir glauben, dass das Nullmodell wahr ist“ (Minute 5).
Der p-Wert berechnet die Wahrscheinlichkeit des Ergebnisses eines Zufallsexperiments (unter Annahme des Nullmodells), das mindestens so extrem ist wie das Ergebnis unserer tatsächlichen Beobachtung.
1. Reply
  
  Marko Kovic
  05.29.2017 at 14:32
  
  Hallo xnor
  
  Also, würdest du sagen dass p-Werte eher etwas mit
  
  1) Pr(null | data)
  
  oder eher etwas mit
  
  2) Pr(data | null)
  
  zu tun haben?
  Wenn du 2) glaubst, dann glauben wir dasselbe. Und, für die Mitlesenden: Schwammige Ausdrücke wie „unter der Annahme“ etc. bedeutet eben schlicht, dass wir glauben, dass das Nullmodell wahr ist (im Alltagsdeutsch hat der Begriff Glaube eine leicht andere Konnotation als das Englische Belief – es geht aber in beiden Fällen in diesem Kontext um eine simple erkenntnistheoretische Konstellation).
  
  Im Podcast erwähnen wir, glaube ich, nur ein Mal explizit, dass es um dieselben und noch extremere Daten geht; danach sprechen wir pars pro toto von Daten. Ich hoffe, das ist nicht verwirrend.
  
  Die ganz genaue technische Definition von p-Werten ist nicht so wichtig; es geht um die Wahrscheinlichkeit bestimter Teststatistiken. Geht in diese Richtung:
  Pr(T(yrep) > T(y)|null)
  
  Der erkenntnistheoretische Knackpunkt von p-Werten ist die Logik von 1) vs. 2).
  
  Grüsse
  1. Reply
    
    xnor
    05.30.2017 at 13:58
    
    Hey Marko,
    
    natürlich 2, denn 1 wäre ja komplett falsch (und das ist auch der Irrglaube, der im Podcast richtigerweise „angeprangert“ wird.)
    
    „Unter der Annahme“ finde ich nicht schwammig. Wir nehmen ja an, dass das Nullmodell wahr ist, und unter dieser Annahme berechnen wir die Wahrscheinlichkeit, dass das Ergebnis eines entsprechenden Zufallsexperiments mindestens so extrem wie unser tatsächlich gemessenes Ergebnis ist.
    
    Problematischer finde ich dass gesagt wird, dass wir die Wahrscheinlichkeit der Daten berechnen.
    
    Vielleicht wäre ein kleines Beispiel hilfreich:
    In einem Test werden einer Person zB zwei Referenzstücke A und B gezeigt. In 10 Runden wird eines der beiden zufällig ausgewählt und die Person muss sagen, ob es sich dabei um A oder B handelt.
    
    Es liegt eine Binomialverteilung vor. Aus dem Experiment wissen wir N=10.
    
    Im Nullmodell nehmen wir an, dass die Person bloße Raterei betreibt.
    Durch diese Annahme fixieren wir die Wahrscheinlichkeit des Erfolgs in einer Runde auf p=0,5!
    
    P(8 oder mehr richtige | bloße Raterei) = 0,055
    P(9 richtige | bloße Raterei) = 0,01
    P(10 richtige | bloße Raterei) = 0,001
    
    Wir berechnen also nicht die Wahrscheinlichkeit des Testergebnisses (der Daten), sondern wie wahrscheinlich es ist, dass durch Zufall mindestens so gut geraten wird.
    
    Das Signifikanzniveau (zB 5%) gibt somit eigentlich an, wie tolerant man gegenüber falschem Verwerfen eines tatsächlich wahren Nullmodells ist.
    
    Wenn wir 1000 Personen den Test absolvieren lassen, die aber alle nur raten, dann erhalten wir rein statistisch ~50 Testergebnisse mit p-Wert < 5%.
    1. Reply
      
      Marko Kovic
      05.30.2017 at 16:42
      
      Merci für die Replik!
      
      Ich glaube nicht, dass wir die Situation sehr anders einschätzen – aber ich glaube auch nicht, dass wir uns einiger werden, als wir es jetzt sind :).
      
      Ad „Annahme“, „Vermutung“, usf.: Solche doxastischen Einstellungen („doxastic attitudes“; weiss nicht, ob der Begriff so auch zu Deutsch gebraucht wird!) sind insofern ungenauer und unpräziser als der Ausdruck „Glaube“, weil die meisten Leute nicht realisieren, was es mit doxastischen Einstellungen überhaupt auf sich hat. Das ist auch der Grund, warum ich z.B. von „Nullmodell“ anstatt „Nullhypothese“ spreche – „Modell“ impliziert, dass wir einen recht starken und recht genauen Glauben über die Realität kundtun, während „Hypothese“ nach „könnte ja sein; ist einfach eine Idee“ tönt.
      
      Dass es bei p-Werten um hypothetical frequentism geht (imaginierte unendlich oft wiederholte Datengenerierung) erklären wir ziemlich explizit im Podcast, glaube ich; hier sollte es für die Zuhörenden keine Verwirrung geben. Vielleicht hätten wir uns aber wirklich etwas anders ausdrücken sollen; z.B. „Wahrscheinlichkeit für solche oder noch extremere Daten gegeben des Nullmodells“.
      
      „Das Signifikanzniveau (zB 5%) gibt somit eigentlich an, wie tolerant man gegenüber falschem Verwerfen eines tatsächlich wahren Nullmodells ist.“
      
      Solche Metaphern wiederum gefallen mir überhaupt nicht, weil sie sehr ungenau und unpräzise sind (z.B. ist komplett unklar, was „tolerant“ für eine doxastische Einstellung sein soll…). Die Probleme mit NHST sind logisch und erkenntnistheoretisch verschachtelter als bloss mit p-Werten und gehen weiter, als wir im Podcast diskutieren (ich glaube z.B. nicht, dass es, rationalerweise, in den allermeisten Kontexten so etwas wie Typ I- und II-Fehler gibt, weil es so gut wie nie „wahre“ Nullmodelle gibt; begegnet sind mir in der Realität jedenfalls noch keine).
      
      Die Kernbotschaft im Podcast stützt du aber sicher auch:
      – Signifikanzniveaus sind willkürliche Konventionen.
      – Diese willkürlichen Konventionen haben sehr grosse praktische Probleme („Signifikanzfilter“ bei Journals, p-Hacking, etc.).
      
      Gruss
      1. xnor
        05.31.2017 at 17:48
        
        „Annahme“, „Nullhypothese“ (was auch nichts weiteres ist als eine Annahme) sind eigentlich klare Ausdrücke, die zumindest in meiner Verwendung nichts über Glauben oder die Realität aussagen.
        Wenn ich x=10 in einer Gleichung annehme (also für x 10 einsetze und weiter rechne), dann sage ich auch nichts über meinen Glauben oder die Realität aus.
        
        Die Kritik über den Satz über das Signifikanzniveau ist vollkommen berechtigt. Ich hätte nicht „tatsächlich wahr“ sondern „als wahr angenommenes“ schreiben sollen.
        Dieser Widerspruch (wir nehmen die NH an, aber verwerfen sie zB in 5% der Fälle) wurde ja auch im Podcast angesprochen.
        
        Natürlich hast du recht, dass es grobe Probleme damit gibt, wenn man damit Schlüsse über die Realität ziehen möchte.
        Ganz richtig auch, dass es so eine „Punkt“-Nullhypothese in der Praxis gar nicht gibt. Dazu auch folgende interessante Überlegung:
        Wenn wir N in meinem vorherigen Beispiel gegen Unendlich gehen lassen, dann geht (mindestens notwendige richtige)/N gegen 50% .. um die NH zu verwerfen.

Fabio
06.03.2017 at 15:24

Die frequentistische Statistik hatte einfach mehr Zeit zur Verfügung gehabt, um missbraucht zu werden. In 50 Jahren sprechen wir vielleicht nicht mehr von p-Hacking sondern von apriori-Schlammschlachten.
1. Reply
  
  Marko Kovic
  06.03.2017 at 16:40
  
  Das kann gut sein! 🙂
  
  Im bayesianischen Lager gibt es z.B. schon jetzt die Schule der „Bayes Factor“-Verfechter, um Hypothesentests zu machen – und ich glaube, dass der Einsatz von Bayes Factors *mindestens* so problematisch ist wie frequentistische NHST.

skeptisCH – Folge 54: Statistisch signifikant

Weiterführende Links

Autor

8 Comments on “skeptisCH – Folge 54: Statistisch signifikant”

Kommentar schreibenAntwort abbrechen

Anstehende Veranstaltungen

Kurz und gut: Science Slam

Vorstandssitzung

Weiterführende Links

Autor

Teilen mit:

8 Comments on “skeptisCH – Folge 54: Statistisch signifikant”

Kommentar schreibenAntwort abbrechen