בלוגטואלי: משפטי מפתח בסטטיסטיקה

יום ראשון, 12 בפברואר 2017

משפטי מפתח בסטטיסטיקה

משפטי מפתח בסטטיסטיקה

מדדי מרכז: (שכיח, חציון, אמצע הטווח, ממוצע)

שכיח – מתאים לכל הסולמות. המדד היחיד שניתן להשתמש לסולם שמי. בדרך כלל לא מושפע מערכים קיצוניים, אלא אם הערך הקיצוני הופך לשכיח.

חציון – סולם סדר ומעלה. לא מושפע מערכים קיצוניים אלא אם משתנה סדר הערכים (הוספת ערכים).

אמצע הטווח – מתאים רק למשתנים כמותיים, סולם רווח ומעלה. (או סדר משופר ומעלה) הכי מושפע מערכים קיצוניים – הטווח משתנה.

ממוצע – סולם רווח ומעלה. ערכים קיצוניים משפיעים עליו במידה רבה.

בהתפלגות אסימטרית חיובית (זנב ימני) – ממוצע > חציון > שכיח. ממוצע תמיד קרוב לערכים הקיצוניים יותר.

בהתפלגות אסימטרית שלילית (זנב שלילי) – שכיח > חציון > ממוצע.

בהתפלגות נורמלית (פעמונית) כל מדדי המרכז ייפלו במרכז ההתפלגות.

בהתפלגות U – ממוצע, חציון ואמצע טווח יהיו באמצע. השכיחים יהיו בשני הצדדים.

· הממוצע הוא המדד המרכזי שסכום ריבועי הסטיות ממנו הוא מינימאלי.

טרנספורמציות במדדים:

כאשר מוסיפים קבוע לסדרה - כל מדדי המרכז גדלים בקבוע.

כאשר מכפילים בקבוע - כל מדדי המרכז יגדלו פי הקבוע.

מדדי פיזור: (טווח, תחום בין רבעוני, שונות, סטיית תקן)

מדדי הפיזור הם תמיד ערכים חיוביים.

ככל שמדד הפיזור גדול יותר, כך שונות התצפיות יותר זו מזו.

אם מדד הפיזור שווה לאפס, כל ערכי ההתפלגות זהים.

טווח – סולם רווח ומעלה. מושפע רק מערכים קיצוניים.

תחום / טווח בין רבעוני – סולם רווח ומעלה. מתעלם מהערכים הקיצוניים ומתחשב רק בערכים במרכז ההתפלגות. (50% מרכזיים בין 25 ל-75)

שונות וסטיית תקן – סולם רווח ומעלה. מתחשבים בכל ערכי ההתפלגות, ולכן רגישים לערכים קיצוניים.

טרנספורמציות במדדים:

כאשר מכפילים בקבוע – הטווח, הטווח הבין רבעוני וסטיית התקן גדלים פי הקבוע. השונות גדלה פי הקבוע בריבוע.

כאשר מוסיפים קבוע – מדדי המרכז משתנים אך מדדי הפיזור נשארים אותו דבר.

מדדים לתיאור התפלגות:

Skewness – מידת הא-סימטריות. ככל שההתפלגות יותר תלולה היא יותר א-סימטרית.

Kurtosis- מידת הכיפתיות של ההתפלגות. ככל שההתפלגות יותר צרה, כך ה-kurtosis שלה יותר גדול.

מדדי מיקום יחסי: (אחוזונים / מאונים, ציוני תקן)

משתמשים במדדי מיקום יחסי כאשר משווים בין התפלגויות עם אותו סולם מדידה אך ממוצע / סטיית תקן שונים. בנוסף, כאשר סולמות המדידה שונים מבחינת אופי המדידה או יחידות המדידה.

אחוזון – הוא בעצם אחוז השכיחות המצטברת.

ציוני תקן (Z) – מבטאים את מיקומו של כל ערך במשתנה כמרחקו מממוצע הכפולות של סטיות תקן. מאפשרים השוואה בין סולמות מדידה שונים. הערך של ציון התקן אומר למעשה כמה רחוקה התצפית מהממוצע (בסטיות תקן).

התפלגות ציוני תקן – ממוצע ההתפלגות תמיד שווה לאפס. סטיית התקן והשונות תמיד שוות לאחד. משמרת את הצורה של ההתפלגות המקורית.

טרנספורמציות במדדים:

כאשר מוסיפים קבוע ציוני התקן לא משתנים.

הכפלה בקבוע חיובי לא משנה את ציוני התקן.

הכפלה בקבוע שלילי משנה את סימן ציוני התקן.

התפלגות נורמלית:

עד סטיית תקן אחת מהממוצע (Z=1) – 34% מהמקרים.

עד שתי סטיות תקן מהממוצע (Z=2) – 13% מהמקרים. לכל כיוון.

אחר כך – 2.5% מהמקרים.

לוח Z מצמיד ציון תקן מסוים לכל אחוזון אפשרי.

מאפייני ההתפלגות הנורמלית:

צורה פעמונית – לא כל התפלגות פעמונית תיקרא נורמלית. Kurtosis <1.96 הוא תנאי הכרחי. בהתפלגות צרה – kurtosis חיובי ולהפך.

צורתה סימטרית – skewness <1.96. skewness חיובי – אסימטרית חיובית. Skewness שלילי – אסימטרית שלילית.

ההתפלגות היא אסימפטוטית – אינסוף ערכים משני הצדדים.

הסתברות

כל תופעה שתוצאתה אי וודאית (אך התוצאות האפשריות ידועות) נקראת ניסוי מקרי.

חיתוך (גם A וגם B):

מאורעות בלתי תלויים – A*B. (A∩B)

4. מאורעות תלויים – A/B*A.

איחוד (A או B או שניהם):

מאורעות זרים – A + B. (AυB).
מאורעות לא זרים – A+B – A*B.

כאשר ההסתברות של A בהינתן B שווה להסתברות של A לבדו, מדובר במאורעות בלתי תלויים.
מאורעות לא זרים יכולים להיות תלויים או בלתי תלויים.
מאורעות משלימים (A, (Ā בהכרח תלויים אחד בשני.

קומבינטוריקה:

n! הוא סידור n איברים מתוך n איברים עם חשיבות לסדר וללא החזרה. (החזרה מגדילה את מספר האפשרויות)
פרמוטציה היא בחירת r איברים מתוך n איברים עם חשיבות לסדר וללא החזרה.
קומבינציה היא סידור r איברים מתוך n איברים ללא חשיבות לסדר וללא החזרה.
n!/a!*b!*c! – סידור n אלמנטים המכילים k קבוצות בעלות איברים זהים.
a!*b!*n! – סידור n איברים עם הגבלות למיקום.

מספר האפשרויות בפרמוטציות יהיה גדול יותר מאשר בקומבינציות.

הסתברות בינומית:

הניסוי מורכב ממספר מסוים של חזרות על אותו ניסוי.
לכל חזרה על הניסוי יש שתי תוצאות אפשריות (כן / לא)
הניסויים החוזרים אינם תלויים זה בזה – מידע אודות תוצאה של ניסוי אחד אינה משנה את הערכת ההסתברות של התוצאה בניסוי חוזר.

מדדי קשר (פירסון וספירמן)

לכל תצפית במשתנה אחד מותאמת תצפית במשתנה השני -> תצפיות מזווגות (תלויות)

קיום קשר לא מעיד על סיבתיות.

פירסון:

- שני המשתנים מסולם סדר משופר ומעלה.

- ההנחה ששני המשתנים מתפלגים נורמאלית באוכלוסיה.

- מתאים לבדיקת קשר ליניארי בלבד בין המשתנים.

- כאשר השונות המשותפת (covariance) חיובית = X עולה וגם Y עולה.

- כאשר השונות המשותפת שלילית = X עולה Y יורד (ולהפך)

- הערך המוחלט של המתאם מעיד על עוצמתו.

טרנספורמציות בפירסון:

כאשר מכפילים את אחד המשתנים או שניהם בקבוע חיובי פירסון לא יושפע (כיוון שהוא בנוי על ציוני תקן).

כאשר כופלים את שני המשתנים בקבוע שלילי – פירסון לא יושפע.

כאשר כופלים רק את אחד המשתנים בקבוע שלילי – כיוון הקשר ישתנה (משלילי לחיובי ולהיפך).

ספירמן:

- משתמשים כאשר הסולם הנמוך ביותר של אחד המשתנים הוא סדר. (סדר + סדר, סדר + רווח/יחס).

- מתקיים קשר ליניארי בין הדרגות של המשתנים (סדר עולה או יורד).

- אין הנחה של התפלגות נורמלית משותפת של המשתנים.

אם שני המשתנים רווח ומעלה אך אחת ההנחות של פירסון לא מתקיימת (התפלגות נורמלית של המשתנים, מתקיים קשר מונוטוני לא ליניארי בין המשתנים) אז משתמשים בספירמן.
קשר ליניארי הוא סוג של קשר מונוטוני.

רגרסיה:

- קו הרגרסיה מאפשר לנבא ציוני Y לפי הנתונים ב- X.

- סך ריבועי המרחקים של התצפיות מהערכים המנובאים על הקו הישר יהיה מינימלי.

- סך הסטיות של התצפיות Y מהקו המנבא הוא אפס.

כאשר רוצים לפתח קו רגרסיה לניבוי ציוני תקן של Y לפי ציוני תקן של X, אין a ולכן קווי הרגרסיה ייפגשו בראשית הצירים.

הנחות:

- הקשר בין המשתנים הוא ליניארי

- ככל ש-r גבוה יותר – יהיו פחות טעויות בניבוי.

- ממוצע הטעויות יהיה שווה לאפס.

- סביב כל נקודת X מתקיימת התפלגות נורמלית של הטעויות ב-Y.

- אין קשר בין X לבין הטעות ב-Y.

ככל ש-b יותר גדול כך הקו "תלול" יותר. שינוי ב-X גורר שינוי גדול יותר ב-Y.
מתוך b לא ניתן להסיק על גודל r. אבל – כאשר b חיובי גם r חיובי ולהיפך.
כאשר מדובר על קו רגרסיה של ציוני תקן – שיפוע הקו מבטא באופן ישיר את r. ככל שהקו תלול יותר – כך הקשר חזק יותר.

- קווי הרגרסיה נפגשים בנקודה שהיא ממוצע של ערכי X ו-Y המנובאים.

שונות מוסברת: (r²)

- מודדת כמה הנקודות האמיתיות רחוקות מקו הניבוי.

- מודדת כמה מהשונות ב-Y לא קשורה לשונות ב-X.

- ככל ש- r² יותר גדול, כך הניבוי טוב יותר.

- שונות מוסברת עדיפה על r כאשר רוצים לבחון את טיב הניבוי.

השונות הלא מוסברת היא 1- r².

טעות התקן של הניבוי:

- מבטאת את מידת הפיזור של הערכים האמיתיים סביב הערכים המנובאים.

- ככל ש- r² גדול יותר, כך טעות התקן של הניבוי קטנה יותר.

- כיוון שמניחים שהטעויות מתפלגות באופן נורמלי סביב כל Y מנובא, ניתן לבוע מהי ההסתברות שהערך האמיתי אכן כלול בטווח המנובא, באמצעות לוח Z.

רמת בטחון:

- בטווח ניבוי של סטיית תקן אחת יש רמת בטחון של 68% שהערך האמיתי כלול בתוכו.

- בטווח ניבוי של שתי סטיות תקן, רמת הבטחון תעלה ל-95%.

הסקה סטטיסטית – התפלגות דגימה

- טעות דגימה נובעת משונות מקרית באוכלוסיה, והיא הפער שבין ממוצע האוכלוסיה לממוצע המדגם השייך לאוכלוסיה.

מאפייני התפלגות הדגימה:

- זו התפלגות תיאורטית אשר תשתנה בהתאם לגודל המדגם.

- נוטה להתפלג נורמלית כאשר n>=30. וגם כאשר n<30 אם המשתנה מתפלג נורמלית באוכלוסיה.

- הממוצע של התפלגות הדגימה יהיה שווה לממוצע האוכלוסיה.

- כאשר n=1 טעות התקן של התפלגות הדגימה תהיה שווה לסטיית התקן של התפלגות האוכלוסיה. זה המצב היחידי שבו טעות התקן של הדגימה לא קטנה מסטיית התקן של האוכלוסיה.

חוק המספרים הגדולים – ככל שהמדגם גדול יותר, כך הממוצע שלו יהיה קרוב יותר לממוצע האוכלוסיה.

בדיקת השערות:

- השערה דו זנבית – קיים שוני בין אוכלוסיה לבין אוכלוסיה אלטרנטיבית.

- השערה חד זנבית – להשערה יש כיוון (ממוצע אוכ' אלטרנטיבית גדול או קטן מממוצע אוכ' כללית).

- דחיית H0 לא מוכיחה ש-H1 נכונה אלא מהווה תמיכה בכך שהיא נכונה.

טעות α – דחיית H0 כשבפועל היא נכונה. מדגם קיצוני באופן יחסי לאוכלוסיה.

טעות β – אי דחייה של 0H כאשר בפועל 1H נכונה. מדגם שנפל בתוך האוכלוסיה בטעות.

1H נכונה	0H נכונה	מציאות (למעלה) / החלטת החוקר (למטה)
טעות β	רמת ביטחון (1-α)	0H נכונה
עוצמת המבחן (1-β)	α	1H נכונה

- עוצמת המבחן – מידת ההפרש בין הממוצעים. ככל ש-1-β גדול יותר כך האפקט גדול יותר והתוצאות יותר חזקות (מידת החפיפה בין האוכלוסיות קטנה).

- כאשר מקטינים את α (מובהקות יותר מדויקת) אז β גדלה ועוצמת המבחן קטנה.

- כאשר מגדילים את α אז β קטנה ועוצמת המבחן גדלה.

- ככל שממוצעי האוכלוסיות והמדגם קרובים β תגדל ועוצמת המבחן תקטן, ולהפך.

- ככל שסטיית התקן באוכלוסיה גדלה יש יותר חפיפה בין ההתפלגויות, לכן β גדלה ועוצמת המבחן קטנה, ולהפך.

- ככל ש-n יותר גדול אז β תקטן ועוצמת המבחן תגדל (גם סטיית התקן תקטן).

מבחן z:

הנחות:

- מדגם מייצג.

- התפלגות הדגימה נורמלית. (התפלגות האוכ' נורמלית או n>=30)

- השונות ידועה.

רמות מובהקות:

חד זנבי – z>1.65 או z<-1.65.

דו זנבי – z>1.96 או z<-1.96.

P value

- אפשר לחשב גם לפי p value – שנקבע למעשה לפי ההסתברות שמתקבלת לתוצאת α של המדגם ומחושב לפי לוח z, ומשווים אותה ל-α הקריטית (0.05). אם גדול יותר – מקבלים את H0, ולהפך.

- אם ההשערה היא דו זנבית: P שווה לסכום ההסתברות לקבל ערך קיצוני יותר מציון התקן החיובי והשלילי של ממוצע המדגם.

- או: שווה לפעמיים ההסתברות לקבל את ציון התקן החיובי של ממוצע המדגם ומעלה.

- או: שווה לפעמיים ההסתברות לקבל את ציון התקן השלילי של ממוצע המדגם ומטה.

אמידה סטטיסטית (אומדת נקודתי, רווח בר סמך, גודל המדגם)

אומד נקודתי:

- אומדן הפרמטר באוכ' ע"י ערך מספרי יחיד ונקודתי במדגם.

- כאשר אין הטייה שיטתית בין הסטטיסטי לפרמטר ממוצע כל ממוצעי המדגמים האפשריים שווה לממוצע האוכלוסיה.

- ממוצע המדגם הוא אומד חסר הטייה לממוצע האוכ'. זה לא אומר בהכרח שממוצע מדגם ספציפי יהיה שווה לממוצע האוכ'.

רווח בר סמך:

- להבדיל מאומד נקודתי, רווח בר סמך נותן אומדן של כל הפרמטר באמצעות טווח ערכים, שנבנה כתחום סימטרי סביב ממוצע המדגם.

- הרווח נבנה באמצעות הוספה והחסרה של שגיאת אמידה לסטטיסטי (הסטייה המירבית – z+-1.96).

- הרווח הוא טווח הערכים הסימטרי סביב הסטטיסטי שברמת ביטחון גבוהה יכלול את הפרמטר באוכלוסיה.

- אם מגדילים את רמת הביטחון של המבחן (1-α) כך יגדל הרווח בר סמך.

- אם נגדיל את המדגם פי X רווח הסמך יקטן בשורש של X.

- ככל שהמדגם גדול יותר, עבור אותה רמת בטחון (1-α) הטווח יהיה קטן יותר.

- ככל שסטיית התקן באוכלוסיה גדולה יותר, כך יגדל אורך רווח בר סמך.

אומדן שונויות:

- נעשה באמצעות שונות מתוקנת (S² ו-^ מעליה).

- התפלגות הדגימה של השונות המתוקנת היא אסימטרית חיובית. כיוון שישנו ריבוי אומדנים הקטנים מהשונות באוכלוסיה.

- ממוצע התפלגות הדגימה של האומד הבלתי של השונות שווה לשונות באוכלוסיה.

- ככל שנעלה את גודל המדגם התפלגות הדגימה של השונות המתוקנת תהפוך להיות יותר סימטרית.

מבחן t:

- כאשר השונות באוכלוסיה לא ידועה נשתמש במבחן t.

- התפלגות t לוקחת בחשבון גם את התפלגות הדגימה של הממוצע וגם את התפלגות הדגימה של השונות.

- ככל שגודל המדגם עולה כך התפלגות t נהיית יותר נורמלית עד שנהיית כמעט זהה להתפלגות z הסטנדרטית.

דרגות חופש (df):

- נקבעות לפי מספר האומדנים הבלתי תלויים.

- במבחן t למדגם יחיד – df = n-1.

- ככל שמספר דרגות החופש גדל ההתפלגות מתקרבת להתפלגות z. באופן מעשי, כאשר n-1=120 אין כבר הבדל בין t ל-z.

- התפלגות t היא סימטרית (כמו z).

- ממוצע התפלגות t שווה ל-0 (כמו z).

- סטיית תקן של התפלגות t שווה ל-1 (כמו z).

- נעה ברמה התיאורטית בין אינסוף למינוס אינסוף (כמו z).

- ניתן להשתמש בהתפלגות t רק תחת ההנחה שהמשתנה מתפלג נורמלית באוכ', כלל זה מחייב גם כאשר גודל המדגם גדול מ-30.

מבחן t למדגם יחיד:

- כאשר מעוניינים להשוות בין ממוצע של מדגם יחיד לממוצע אוכלוסיה ידוע. בנוסף, השונות באוכלוסיה לא ידועה. זה בעצם מצב היפותטי.

מבחני t לשני מדגמים:

.- בהסקה לפי שני מדגמים, אין לנו מידע אודות הממוצע או השונות באוכלוסיה.

מבחן t למדגמים תלויים:

שני סוגים שונים של קבוצות במבחן זה:

בודקים אותה קבוצת נבדקים פעמיים (לפני ואחרי)
כל נבדק במדגם א' מותאם לנבדק במדגם ב' על בסיס משתנה רלוונטי (בעל ואישה, אחים – זוגות עם קשר טבעי. מעשן ולא מעשה, בעלי רקע דומה – זוגות שמתאימים באמצעות רקע דומה)

- על ציר ה-X בהתפלגות מבחן זה יהיו ממוצעי ההפרשים (לעומת ממוצעי המדגמים במבחן z וב-t למדגם יחיד).

- דרגות חופש – df = n-1.

הנחות:

- משתנה ההפרשים (d) מתפלג נורמלית באוכ'.

- הקבוצות תלויות / מזווגות.

- ההפרשים בלתי תלויים ביניהם.

- השונות באוכלוסיה אינה ידועה.

מבחן t למדגמים בלתי תלויים:

שלושה סוגים של קבוצות במבחן זה:

השוואה בין שתי קטגוריות קיימות באוכ' (גברים מול נשים)
השוואה בין שתי שיטות טיפול לאוכלוסיות לא קשורות (טיפול קוג' מיל דינמי)
השוואה בין קבוצת טיפול וקבוצת ביקורת. (אחת מקבלת טיפול והשנייה לא)

- דרגות חופש – df = n-2.

- ההתפלגות מייצגת את הפרשי הממוצעים.

הנחות:

- התפלגות נורמלית של המשתנה התלוי באוכ'.

- אי תלות בין המדגמים.

- הומוגניות של השונות בשני המדגמים.

בדיקת מובהקות של מדגם פירסון באמצעות התפלגויות t:

- בא לבדוק קיום קשר באוכלוסיה ולא רק במדגם ספציפי.

- מדד הקשר באוכלוסיה נקרא רו p (ביוונית).

הנחות:

- התפלגות נורמלית של שני המשתנים וקשר ליניארי ביניהם.

- תמיד עושים השערה דו זנבית.

- תמיד מאבדים שתי דרגות חופש (df = n-2).

- כאשר דוחים את 0H זה אומר שקיים קשר ליניארי באוכלוסיה, לא ברור כמה הוא חזק.

מבחן X²:

- מבחן לא פרמטרי.

- משתמשים כאשר המשתנה התלוי הוא מסולם שמי / סדר.

X² לטיב התאמה:

- בודקים משתנה אחד בלבד.

- עורכים השוואה בין השכיחות הצפויה (expected) לשכיחות הנצפית (observed), באמצעות ההפרש ביניהן.

- דרגות החופש מחושבות לפי מספר הקבוצות – df= k-1.

- עבור דרגות חופש קטנות ההתפלגות תהיה אסימטרית חיובית. ככל שגדל מספר דרגות החופש ההתפלגות מתקרבת לסימטרית.

- כל ערכי ההתפלגות חיוביים ולכן היחס בין הצפוי לנצפה תמיד יהיה חיובי.

- ככל שמספר דרגות החופש גדל, גדל גם הערך הקריטי של X². (הפוך מ-t).

- ההשערות תמיד דו זנביות, אך אלפא חד זנבית.

- אם הערך הצפוי באחת הקבוצות שווה לאפס, לא ניתן להשתמש במבחן.

- אם הערך הצפוי קטן מ-5 במעל מ-20% מהקבוצות, לא ניתן להשתמש במבחן.

הנחות:

- דגימה מקרית.

- אי תלות בין המקרים.

- כאשר בודקים האם מדגם מייצג שואפים שלא לדחות את H0 ולכן כאשר הערך הנצפה קטן מהערך הקריטי – המדגם מייצג.

X² לאי תלות:

- שני משתנים קטגוריאליים (שמי / סדר) אחד מהם לפחות חייב להיות שמי. (כאשר שני המשתנים מסוג סדר, משתמשים במבחן ספירמן).

- בודקים האם שכיחות של מקרים בקטגוריה אחת קשורה לשכיחות המקרים בקטגוריה של המשתנה השני.

- דרגות החופש – df = (R-1)(C-1).

- ניתן לקבוע רק האם יש תלות בין המשתנים אך לא ניתן לדבר על עוצמת קשר (לעומת פירסון וספירמן).

- ככל שיש יותר קבוצות (תאים בטבלה) כך הערך של X² יגדל.

- ככל שיש יותר דרגות חופש, ערך X² הקריטי יגדל.

- עליית מספר הנבדקים לא משנה את הערך הקריטי, אך מגדילה את הסיכוי לדחות את H0.

ANOVA חד כיוונית:

- כאשר למשתנה בלתי תלוי יש יותר משתי רמות, משתמשים ב- ANOVA.

- אחד המשתנים חייב להיות מסולם סדר משופר ומעלה.

- המשתנה התלוי תמיד מסולם סדר משופר ומעלה. (כאשר שני המשתנים מסולם סדר משופר ומעלה עושים פירסון)

שונויות:

- השונות המוסברת נמצאת בין ממוצע הקבוצה של נבדק יחיד לבין ממוצע אוכ' המחקר (הממוצע הכללי).

- השונות הלא מוסברת נמצאת בין ממוצע הקבוצה של נבדק יחיד לבין התוצאה של הנבדק עצמו.

שונות בתוך אותה קבוצה (within):

- MSW - השונות הלא מוסברת (אומדן השונות בתוך הקבוצות). משקפת את ההבדלים בין הנבדקים השונים באותו טיפול. שונות מקרית.

- דרגות חופש – dfw = N-K.

שונות בין הקבוצות (between):

- MSB - השונות המוסברת (אומדן השונות בין הקבוצות). משקפת את השפעת הטיפול ואת טעות הדגימה.

- דרגות חופש – dfb = K-1.

שונות כללית (total):

- MST – אומדן השונות הכללית.

- דרגות חופש – dft = N-1.

- SST = SSW +SSB

- dft = dfw + dfb

- MST ≠ MSW+MSB

- F הוא היחס בין השונות בין הקבוצות חלקי השונות בתוך הקבוצות.

- ככל שעולים במספר דרגות החופש במונה ובמכנה, התפלגות F הופכת להיות יותר סימטרית, וההסתברות לערכי F גבוהים יורדת.

- ככל שעולים במספר דרגות החופש כך ערך F קריטי יורד (חוץ משתי השורות הראשונות בטבלת F).

- כאשר F≤1 – תמיד לא נדחה את H0.

- כאשר F>1 – בודקים מול ערך קריטי. בתהליך הבדיקה נשאף ש-F יהיה גדול ככל האפשר.

- ככל שהשונות בין הקבוצות גדולה יותר – כך F יהיה גדול יותר.

- כאשר התצפיות בכל קבוצה שוות לממוצע הקבוצה (SSW=0, ולכן SST=SSB) לא ניתן לעשות את המבחן.

- כאשר ממוצעי הקבוצות שווים זה לזה אז SSB=0 וגם SST=SSW ולכן לא דוחים את H0.

- לצורך דחיית H0 השאיפה היא MSW קטן ו-MSB מקסימלי.

הנחות:

- דגימה מקרית.

- מדגמים בלתי תלויים.

- המשתנה התלוי מתפלג נורמלית באוכ'.

- הומוגניות של השונויות.

- השערה תמיד דו זנבית.

מבחן Scheffe:

- כאשר קיימת תוצאה מובהקת ב- ANOVA רוצים לדעת מי מהקבוצות גרמה לתוצאה זאת ובודקים את זה באמצעות מבחן Scheffe.

- מבחן Scheffe פותר את בעיית ריבוי ההשוואות באמצעות הגדלת F קריטי. הערך הקריטי מחושב: Fc = F(K-1).

- בודקים F נצפה מול F קריטי ומחליטים איזה אפקט יותר יעיל, כלומר איזו שיטה יותר יעילה.

ANOVA דו כיוונית:

- משתנה תלוי אחד מסולם סדר משופר ומעלה.

- שני משתנים בלתי תלויים מסולם שמי או סדר.

אפקטים:

- אפקט – הבדל בין ממוצעים.

- אפקט עיקרי – השפעה של אחד המשתנים הבלתי תלויים מעבר לרמות של המשתנה הב"ת השני. יש שני אפקטים עיקריים: לשורות ולטורים.

- אפקט אינטראקציה – משתנה בלתי תלוי אחד משפיע על המשתנה התלוי אחרת ברמות השונות של המשתנה הבלתי תלוי השני.

שונויות:

- MSR – שונות של שורה. דרגות חופש – dfr = r-1.

- MSC – שונות של טור. דרגות חופש – dfc = c-1.

- MSC – שונות של אינטראקציה. דרגות חופש – dfint = (r-1)(c-1).

- MSW – שונות בין הקבוצות. דרגות חופש – df = N-(r*c).

- יש שלושה F (לטור, לשורה ולאינטראקציה) כאשר המכנה בחישוב (MSW) תמיד יהיה אותו דבר. לכן גם יש שלושה H0.

- אין קשר הכרחי בין שלושת ה-F. זה שאחד מובהק לא אומר כלום לגבי האחרים.

- כאשר F<1 התוצאה בהכרח לא מובהקת (כמו בחד כיווני).

הנחות:

- דגימה מקרית של הנבדקים.

- מדגמים בלתי תלויים.

- התפלגות נורמלית של המשתנה התלוי.

- הומוגניות של השונויות.

- בכל תא יש אותו מספר נבדקים.

זיהוי אפקטים:

- אפקט עיקרי – אם יש הפרש בתאים החיצוניים.

- אינטראקציה – כאשר ההפרשים בין התאים הפנימיים בין השורות והטורים זהים – זה אומר שאין אין אינטראקציה. כאשר הפרשי הממוצעים לא באותו גודל או לא באותו כיוון או שניהם – זה אומר שיש אינטראקציה.

זיהוי לפי גרפים:

- כאשר הקווים מקבילים לגמרי, אין אינטראקציה. בכל מצב בו יש שיפוע – יש אינטראקציה.

- אפקט עיקרי בודקים לפי הפרשים בין הממוצעים של המשתנים הבלתי תלויים. כאשר קו אחד גבוה מקו שני בשתי הנקודות – יש אפקט עיקרי.

בחירת מבחנים:

קודם בודקים כמה משתנים:

משתנה אחד – חי בריבוע לטיב התאמה.

שלושה משתנים – ANOVA דו כיוונית (שני בלתי תלויים מסולם שמי/סדר ותלוי אחד מסולם סדר משופר ומעלה).

שני משתנים:

השוואה בין ממוצעים (תלוי ובלתי תלוי):

בין אוכלוסיה למדגם:

- מבחן z (שונות ידועה)

- מבחן t למדגם יחיד (שונות לא ידועה).

בין קבוצות שונות (סדר / שמי + סדר משופר ומעלה):

- מבחן t לתלויים – 2 רמות לבלתי תלוי, מדגמים מזווגים.

- מבחן t לבלתי תלויים- 2 רמות לבלתי תלוי, מדגמים לא מזווגים.

- ANOVA חד כיוונית – יותר משתי רמות לבלתי תלוי

קשר:

- X² לאי תלות- שמי + שמי/סדר.

- ספירמן – סדר + סדר ומעלה.

- פירסון - שני משתנים סדר משופר ומעלה.

בלוגטואלי

יום ראשון, 12 בפברואר 2017

משפטי מפתח בסטטיסטיקה

אין תגובות:

הוסף רשומת תגובה

פסק דין

החלפות קישורים

עורכי דין

חיפוש עורכי דין

שירותי לעורכי דין

נועם קוריס