PSY221 Ödevinde Anlamlılık Düzeyi ve p Değeri Nasıl Yorumlanır?

PSY221 dersi kapsamında yürütülen ampirik çalışmaların çoğu, hipotez testine dayalı istatistiksel sonuçlar üretir. Bu sonuçların merkezinde ise iki kavram vardır: anlamlılık düzeyi (α) ve p değeri. Kimi zaman p değeri “gerçeğin olasılığı” gibi yorumlanır, α ise “yanlış yapma ihtimalimiz” olarak görülür; oysa her iki kavramın teknik anlamı bundan daha kesindir ve doğru anlaşılmadığında yanlış bilimsel çıkarımlar, problemli tartışma bölümleri ve zayıf metodolojik savunular doğar. Bu rehber, PSY221 ödevleri için α ve p’nin ne olduğunu, ne olmadığını, nasıl raporlanıp yorumlanacağını; etki büyüklüğü, güven aralığı, güç (power), çoklu karşılaştırma düzeltmeleri, varsayım ihlalleri ve örneklem büyüklüğü ile ilişkisini derinlemesine ve uygulamalı örneklerle ele alır. Ayrıca “p < .05” dogmasının ötesine geçerek pratik/klinik anlamlılık, ön kayıt ve duyarlılık analizleri gibi çağdaş yaklaşımlar ışığında güçlü bir yorum çerçevesi kurar.
1) Anlamlılık Düzeyi (α) Nedir? Nereden Gelir?
Anlamlılık düzeyi (α), sıfır hipotezi (H₀) doğruyken onu reddetme olasılığı için önceden belirlenen eşiktir. Tipik olarak .05 seçilir; yani H₀ doğru kabul edildiğinde yanlış pozitif (Tip I hata) yapma eşiğiniz %5’tir. α, veri toplanmadan önce belirlenmeli ve raporda açıkça yazılmalıdır: “Anlamlılık düzeyi α = .05 olarak belirlendi.”
Örnek: Stroop testi hatalarını azaltmayı amaçlayan kısa bir dikkat eğitimi programı için α = .05 belirlendi. Analiz sonunda p = .032 ise, H₀ reddedilir; çünkü gözlenen istatistik (ve daha uçları) H₀ doğruyken %3.2’den daha az sıklıkla beklenir.
2) p Değeri Nedir? Teknik Tanım ve Doğru Okuma
p değeri, H₀ doğru kabul edilirse, gözlediğiniz sonuç kadar veya ondan daha uç bir sonuç elde etme olasılığıdır. p, H₀’nin doğru olma olasılığı değildir; aynı şekilde alternatif hipotezin (H₁) doğru olma olasılığı da değildir. p yalnızca verinin H₀ ile ne kadar uyumlu olduğunu ölçer.
Yanlış yorum örneği (kaçınılmalı): “p = .03, demek ki hipotezim %97 doğru.”
Doğru çeviri: “H₀ doğru kabul edilirse, bu denli (veya daha uç) bir farkı yalnızca %3 olasılıkla görürdük.”
3) Tip I ve Tip II Hataları: α ve β’nın Rolü
Tip I hata (α): H₀ doğruyken reddetmek (yanlış pozitif).
Tip II hata (β): H₀ yanlışken reddedememek (yanlış negatif).
Testin gücü (power = 1 − β), gerçek bir etkinin saptanma olasılığıdır ve örneklem büyüklüğü, etki büyüklüğü, varyans ve α tarafından belirlenir. α’yı çok katı (ör. .01) seçerseniz Tip I hatayı azaltır, ancak güç düşebilir → Tip II hata artabilir. PSY221’de rapora “α seçimi” ve “güç tartışması” eklemek, metodolojik olgunluk göstergesidir.
4) p < α “Anlamlıdır”; Peki Bu, Etkiyi “Büyük” Yapar mı?
Hayır. İstatistiksel anlamlılık, etki büyüklğünün büyüklüğüyle aynı şey değildir. Büyük örneklemler küçük etkileri bile anlamlı kılabilir; küçük örneklemler büyük etkileri anlamlı kılamayabilir. Bu nedenle PSY221 ödevlerinde p’nin yanında mutlaka etki büyüklüğü (d, r, η²p vb.) ve güven aralığı raporlanmalıdır.
Uygulama örneği:
t(56) = 2.317, p = .024, d = 0.60, %95 GA [0.08, 1.12].
Yorum: İstatistiksel olarak anlamlı ve orta-yüksek bir fark; belirsizlik aralığı raporlu.
5) p Değerinin Dağılımsal Mantığı: Varsayımlar İhlal Olursa Ne Olur?
p değerinin kuramsal geçerliliği, seçtiğiniz testin varsayımlarının (ör. normallik, varyans homojenliği, bağımsızlık) makul ölçüde sağlanmasına bağlıdır. Varsayım ağır ihlal edildiğinde p, nominal α’yı korumayabilir.
Normallik güçlü ihlal → Mann–Whitney U / Wilcoxon gibi parametrik olmayan testler.
Varyans eşitliği ihlali → Welch t veya Games–Howell post-hoc.
PSY221 ödevlerinde p’nin yorumundan önce “Varsayım denetimleri” kısa ve net verilmelidir.
6) Çoklu Karşılaştırmalar ve p Şişmesi: Bonferroni, Holm, FDR
Aynı veri üzerinde çok sayıda hipotez test ettiğinizde (ör. 10 korelasyon), en az birinin tesadüfen anlamlı çıkma olasılığı artar (family-wise error rate).
Bonferroni: α/m (katı ama basit).
Holm–Bonferroni: Sıralı, Bonferroni’den daha güçlü.
FDR (Benjamini–Hochberg): Yanlış keşif oranını kontrol eder.
PSY221 raporlarında “çoklu karşılaştırma düzeltmesi” uygulanıp uygulanmadığı mutlaka belirtilmelidir.
7) p-Değeri Avcılığı (p-hacking) ve Seçici Raporlama
Veriyi analiz ettikten sonra hipotezi “sonuca uydurmak”, veri temizliğini seçici yapmak, dur-kalk toplama, yalnızca anlamlı olan analizleri raporlamak p-hacking’dir ve Tip I hatayı fiilen büyütür.
Öneriler:
Ön kayıt (pre-registration) veya en azından PSY221 ödevinde “analiz planı önce yazıldı” ifadesi.
Tüm koşullar, dışlama kriterleri, alternatif testler raporda şeffaf biçimde açıklansın.
“Keşfedici” ve “doğrulayıcı” analizler ayrıştırılsın.
8) Güven Aralıkları (GA): p’nin Yanına “Belirsizlik” Koymak
%95 güven aralığı, seçtiğiniz yöntemin tekrarlanan örneklemlerde parametreyi kapsama oranıdır (yorum nüanslarına dikkat). GA, etkinin olası büyüklük aralığını ve tahmin belirsizliğini gösterir. p anlamlı olsa bile GA dar mı/geniş mi? Bu, pratik yorum için kritik ipucudur.
Örnek: d = 0.35, %95 GA [0.02, 0.68]. Yorum: Küçük–orta etki; alt sınır neredeyse sıfıra yakın → pratik etki belirsiz olabilir.
9) Etki Büyüklüğü: İstatistiksel ve Pratik Anlamlılığın Köprüsü
Cohen’s d / Hedges’ g (iki ortalama farkı),
r (korelasyon),
η² / η²p / ω² (ANOVA),
OR / RR (lojistik/frekans).
PSY221’de, “p değerinden bağımsız olarak etki büyüklüğü raporlamak ve tartışmak” en az p kadar önemlidir. Korelasyon için r’yi, t-testi için d’yi, ANOVA için η²p’yi beklemek doğaldır.
10) Anlamlılık ≠ Önem: Pratik (Klinik/Eğitsel) Anlamlılık
“p < .05” bulduğunuz fark gerçek dünyada anlamlı olmayabilir. Örneğin, deney grubunda Stroop hatası 0.3 azalmış olabilir; büyük örneklemde p < .05 çıkar ama sınıf içi uygulamada fark hissedilir değildir. PSY221 tartışma bölümünde pratik etki (müdahaleye değer mi?) mutlaka masaya yatırılmalı.
11) p = .051 ve “Sınırda” Sonuçlar: İkili Eşiklerin Tuzakları
p = .049 “kazandı”, p = .051 “kaybetti” yaklaşımı bilimsel olarak kırılgandır. Sınırda p sonuçlarını “kanıtın zayıf olduğu, daha fazla veri/güç gerektiği” şeklinde yorumlamak; GA ve etki büyüklüğüne bakarak dereceli bir kanıt dili kullanmak daha doğrudur.
12) Güç (Power) ve Örneklem: p’yi Nasıl Etkiler?
Düşük güç, anlamlı olmayan sonuçların artmasına (Tip II) ve anlamlı çıkanların abartılı etki tahminleri üretmesine yol açabilir (winner’s curse). PSY221 ödevinizde basit bir güç analizi (ör. orta etki için grup başına 34 katılımcı gibi) planlama ve yorumda değer katar.
13) Varsayımlara Dayalı p ile Sağlam (Robust) Alternatifler
Aykırı değerlerin güçlü etkilediği veri setlerinde robust yöntemler (trimmed mean t-test, Yuen’s test, bootstrapped GA) tercih edilebilir. Bu yaklaşımlar p ve GA’yi dağılım sapmalarına karşı daha dayanıklı kılar. Ödevinizde klasik testin yanı sıra duyarlılık analizi olarak robust sonuçları eklemek görgül gücü artırır.
14) Çok Değişkenli Modellerde p: Parsiyel Etkiler ve Model Bütünlüğü
Regresyon/ANCOVA’da tek bir p değerine odaklanmak yerine:
Modelin genel uyumu (F testi, R², ayarlı R²),
Parsiyel etkiler (β katsayıları, parsiyel η²),
Çoklu doğrusal bağlantı (VIF),
Artık analizleri
raporlanmalıdır. Tek bir prediktör p’si düşükken modelin bütünlüğü zayıfsa yorum abartılmamalıdır.
15) p ve Önsel Bilgi: Bayes Faktörleri ile Tamamlayıcı Bakış
Klasik p-değerli NHST, önsel (prior) bilgi içermez. Bayes yaklaşımı, Bayes faktörü (BF) ile H₁/H₀ için kanıt güçlerini kıyaslar (örn. BF₁₀ = 4 → veriler H₁ lehine 4 kat daha olası). PSY221 düzeyinde zorunlu olmasa da, “p ile birlikte Bayes sonuçlarının raporu” gelişkin bir yorum pratiğidir.
16) Raporlama Standartları: APA’ya Göre p, α, Etki, GA Yazımı
p küçük harf italik, “0” olmadan yazılır: p = .032; çok küçükse: p < .001.
α genellikle yöntemde belirtilir: “α = .05 (iki yönlü).”
Test istatistiği, serbestlik derecesi, p, etki büyüklüğü ve GA birlikte:
“t(56) = 2.317, p = .024, d = 0.60, %95 GA [0.08, 1.12].”
17) Uygulamalı Senaryo A: İki Grup Karşılaştırması
Durum: Dikkat eğitimi (Deney) vs. yok (Kontrol), Stroop hatası DV.
Sonuç: t(56) = 1.98, p = .053, d = 0.52, %95 GA [−0.01, 1.05].
Yorum: p “sınırda”; GA sıfıra yakın alt sınır içeriyor → kanıt zayıf–belirsiz. Duyarlılık analizi (ör. aykırı hariç) ve/veya daha büyük örneklem gerekebilir. Pratik etki orta düzey olabilir; ancak belirsizlik yüksek.
18) Uygulamalı Senaryo B: Üç Grup ANOVA + Post-hoc
Durum: Kontrol, Kısa Eğitim, Uzun Eğitim.
ANOVA: F(2, 87) = 5.42, p = .006, η² = .111.
Post-hoc (Tukey): Uzun–Kontrol farkı p = .004 (GA raporlu), Kısa–Kontrol p = .091.
Yorum: Genel fark var; en güçlü kanıt Uzun–Kontrol arasında. Kısa–Kontrol “sınırda”; pratik etkileri tartışırken maliyet–fayda boyutu (eğitim süresi) ele alınmalı.
19) Uygulamalı Senaryo C: Korelasyon ve Regresyon
Korelasyon: r = −.31, p = .006, %95 GA [−.51, −.10].
Regresyon: F(1, 98) = 9.89, p = .002, R² = .092; β = −.30, p = .002.
Yorum: p anlamlı; etki küçük–orta, açıklanan varyans mütevazı. Pratik anlam: Bildirimleri azaltmak, dikkat puanını bir miktar iyileştirebilir; ancak tek başına mucize değildir.
20) p ve Yönlülük: Tek Yönlü vs. Çift Yönlü Testler
Hipotezin yönü veri toplanmadan önce belirlenmiş ve gerekçelendirilmişse tek yönlü test düşünülebilir (güç artar). Ancak PSY221’de güvenli ve şeffaf yaklaşım genellikle iki yönlü testtir. Rapor: “Hipotez önceden yönlü belirlenmedi; bu nedenle iki yönlü α = .05 kullanıldı.”
21) Veri Temizliği ve p: Dışlama Kriterlerinin Etkisi
Aykırıların dışlanması, dikkat maddesini yanlış yanıtlayanların çıkarılması gibi kararlar p’yi değiştirebilir. Bu nedenle önceden belirlenmiş dışlama kriterleri ve duyarlılık analizleri şarttır. Rapor: “Önceden belirlenmiş kriterlere göre 3 katılımcı çıkarıldı; sonuçların yönü değişmedi.”
22) p ile Etkileşim Etkileri: “Basit Etkiler”i Yazmayı Unutmayın
İki yönlü ANOVA’da etkileşim anlamlıysa (p < .05), ana etkilerin yorumunu koşullu yapmak gerekir. “Program etkisi yalnızca kadınlarda anlamlıydı” gibi basit etkiler raporlanmalı; her birinin p, etki ve GA değerleri verilmelidir.
23) p Değerinin Görselleştirilmesi: Yağmur Bulutu/Violin + GA
Sadece tablo yerine, grup dağılımlarını (violin/raincloud), ortalama ± GA şeritleriyle sunmak okuyucunun “etkinin büyüklüğü ve belirsizliği”ni gözle görmesine yardımcı olur. Bu, p’nin ikili doğasını dengeleyen sezgisel bir anlatıdır.
24) p’nin Ötesi: Ön Kayıt, Açık Malzeme ve Tekrarlanabilirlik
PSY221 düzeyinde bile, ön kayıt (hipotez, analiz planı), açık veri/analiz kodu (anonimleştirilmiş), eklerde rapor gibi uygulamalar; p’nin tek başına taşıyamadığı güvenilirlik sinyalini güçlendirir. “p < .05 ama nasıl?” sorusunun yanıtı şeffaf süreçtir.
25) Hızlı Kontrol Listesi: PSY221’de α ve p Yorumlama
α önceden belirlendi ve belirtildi mi?
Varsayımlar test edilip raporlandı mı?
p ile birlikte etki büyüklüğü + GA verildi mi?
Çoklu karşılaştırma düzeltmesi uygulandı mı?
Güç/örneklem büyüklüğü tartışıldı mı?
“Sınırda p” sonuçları dereceli ve şeffaf mı yorumlandı?
Pratik anlamlılık tartışıldı mı?
Dışlama kriterleri ve duyarlılık analizi açık mı?
Grafiklerle belirsizlik görselleştirildi mi?
Ön kayıt/açıklık uygulamaları not edildi mi?
Sonuç
PSY221 ödevlerinde anlamlılık düzeyi (α) ve p değeri, hipotez testinin omurgasını oluşturur; ancak bu omurga etki büyüklüğü, güven aralığı, varsayım denetimleri, güç ve şeffaf raporlama ile tamamlanmadıkça bilimsel bir iskelete dönüşemez. p’nin doğru okuması, “H₀ doğruyken verimizin ne kadar sıra dışı olduğu” sorusuna yanıt verir; “hipotezin doğruluğu”na değil. α’nın önceden belirlenmesi, çoklu karşılaştırma düzeltmeleri ve sınırda p’lerde dereceli dil kullanımı, ödevinizin metodolojik bütünlüğünü kuvvetlendirir.
Bu rehberde sunduğumuz çerçeve ve uygulamalı senaryolarla, “p < .05”in ötesine geçerek kanıtın büyüklüğünü ve belirsizliğini birlikte konuşan bir raporlama kültürü geliştirebilirsiniz. Böylece PSY221 çalışmanız, yalnızca “anlamlı” değil; anlamlı, etkili ve güvenilir olur.
Ödevcim, üniversite öğrencilerinin akademik başarılarına katkıda bulunmayı amaçlayan bir platform olarak öne çıkıyor. Ücretli Soru Çözdürme hizmetimizle, öğrencilere derslerindeki zorlu sorunları çözmelerine yardımcı oluyoruz. Ayrıca, farklı üniversiteler hakkında detaylı bilgiler sunarak öğrencilerin eğitimlerine odaklanmalarını sağlıyoruz. Üniversite seçiminden ders notlarına kadar geniş bir yelpazede öğrenci odaklı içerik sunuyoruz. Ödevcim, öğrencilerin başarılarını artırmalarına yardımcı olmak için güvenilir bir kaynak olarak ön plana çıkıyor ve onlara eğitim hayatlarında rehberlik etmeye devam ediyor.
Bizimle çalıştığınızda, deneyimli ve uzman bir ekip tarafından hazırlanan çözümlerle öğrenme deneyiminizi geliştireceksiniz. Üniversite hayatının zorluğunu hafifletmek ve başarıya giden yolda size eşlik etmek için buradayız. Ödevcim, öğrencilerin hedeflerine ulaşmalarına yardımcı olmak için güvenilir bir destek kaynağıdır ve her adımda yanınızda olmaktan gurur duyar.
Üniversite yaşamının karmaşıklığını daha anlaşılır ve yönetilebilir hale getiren Ödevcim, öğrencilerin akademik yolculuklarını desteklemek için burada. Eğitimde başarıya giden yolda sizinle birlikte ilerlemek için sabırsızlanıyoruz.
açık bilim anlamlılık düzeyi ANOVA APA raporlama araştırma güvenirliği aykırı değer Bayes faktörü Bonferroni Cohen’s d çoklu karşılaştırma dikkat eğitimi dışlama kriteri duyarlılık analizi eta kare etki büyüklüğü etkileşim etkisi FDR GA raporlama Görselleştirme güç analizi güven aralığı hipotez testi Holm iki yönlü test istatistiksel çıkarım klinik önem korelasyon Levene Mann–Whitney U Metodoloji normallik öğrenciler için istatistik ön kayıt p değeri p-hacking parsiyel eta kare parsiyel etki post-hoc testleri pratik anlamlılık PSY221 ödevi R-kare raincloud regresyon replikasyon robust istatistik sonuç yorumlama Stroop tek yönlü test tip I hata tip II hata varsayım testleri veri temizliği VIF violin plot Welch testi α seviyesi