מיון משתנים
כמה פעמים נתקלתם בשאלה מהם המשתנים במחקר? כמה פעמים רציתם לדעת מהו סולם המדידה של המשתנה בשאלה או באיזה מדד קשר משתמשים בשביל לעבוד איתם? אם כן, המאמר הזה הוא בדיוק בשבילכם.
קודם נתחיל ונבין מהו משתנה. משתנה הינו תכונה נמדדת אשר יכולה לקבל לפחות שתי אפשרויות (ערכים). תכונה בעלת ערך אחד בלבד, נקראת קבוע .לדוגמא: אם כל מי שמשתתף בשיעור ספורט מקבל את אותו הציון, אזי הציון בספורט יהיה קבוע ולא משתנה. דוגמאות לתכונות או משתנים מסוימים הם מגדר, גובה או רמת שביעות רצון. משתנה המגדר יכול לקבל את האפשרויות/ערכים זכר, נקבה. המשתנה גובה יכול לקבל את הערכים מ0 והלאה בס"מ/מטרים וכד'. רמת שביעות רצון משירות או מוצר מסוים יכולה לקבל את הערכים מ1-5 (למשל) וכן הלאה.
באופן כללי, משתנים יכולים להתחלק לשתי קבוצות לפי המהות שלהם: איכותי וכמותי. משתנה איכותי הוא משתנה אשר ערכיו הם מילוליים או שהם מייצגים ערכים מילוליים, לדוגמא: נטייה פוליטית (ימין/שמאל), תוצאה בבדיקה קורונה (חיובי/שלילי) ואפילו מספר על חולצת שחקן כדורגל. משתנה כמותי לעומת זאת, הינו משתנה שערכיו באים לידי ביטוי במספרים לדוגמא: גובה, שכר, משקל, טמפ' ועוד. את החלוקה הזאת של המשתנים למהותם, אנו נחלק בשנית וכעת נסתכל על סולם המדידה שמשתנים איכותיים וכמותיים יכולים לקבל. סולמות המדידה הקיימים הם: שמי (נומינלי), סדר (אורדינלי), רווח (אינטרוולי) ומנה/יחס (רציונלי). בהמשך אתם תשימו לב כי כל סולם מדידה מתקדם יותר, "גונב" את התכונות של המשתנה הקודם אליו ומוסיף אליהן את התכונות שלו. אז בואו נתחיל בפירוט כל אחד מסולמות המדידה הקיימים.
סולם שמי
סולם מדידה שמי עוסק במתן שם או תווית מספרית שמייצגת שם לערכים מסוימים בתוך המשתנה. שלא כמו סולמות סדר, רווח או יחס/מנה, לסולם הנומינלי אין דירוג מובנה. לפיכך, לעתים לצורך ביצוע של ניתוחים סטטיסטיים, אנו נקודד את הערכים המילוליים של המשתנה לכדי מספרים. למשל: כאשר נקודד את ערכי המשתנה מגדר כזכר=0 ונקבה=1 (או להפך) או למשל נקודד נטייה פוליטית ימנית כ1 ושמאלנית כ2 וכן הלאה.
במקרים כאלה, אין משמעות מספרית לערכים אותם נבחר, למעט האפשרות לזהות ולהבחין בין אותן תוויות שבחרנו באופן שרירותי להעניק לערכי אותם משתנים. דוגמה נוספת יכולה להיות סוגי פירות, שבהם 'תפוח', 'בננה' ו'דובדבן' הם קטגוריות נפרדות ללא כל סדר. בשל כך, ניתן לבחור כל ערך מספרי שיבדיל בין הפירות הללו, כל עוד אותם ערכים מספריים יהיו שונים זה מזה.
כיוון שהערכים של משתנים בסולם מדידה שמי מבטאים תופעה מילולית, סולם זה יהיה משויך למשתנים איכותיים בלבד. בשל כך, מדד המרכז שנשתמש בו יהיה השכיח והניתוחים הסטטיסטיים שיתאימו לכך הם חי בריבוע או למדה בכדי לבדוק קשרים בין המשתנים האיכותיים הללו. על מנת לתאר את התפלגות הנתונים האיכותניים עבור משתנים שמיים, אנו נשתמש בתרשים עוגה שמתאר את השכיחות או השכיחות היחסית (אחוזים) עבור כל ערך של המשתנה, כפי שניתן לראות בתרשים מטה:
סולם סדר
מכיוון שהסולם האורדינאלי "מסדר" אובייקטים או מאורעות לפי סדר מסויים, בנוסף ליכולת להבחין בין הערכים השונים (כפי שיכולנו לעשות עם משתנה שמי), בסולם זה יש משמעות לסדר שבו נמצאים הערכים. ההיררכייה באה לידי ביטוי כך שמספר קטן או ערך מילולי אשר נמצא במקום הראשון, יאפיין פחות מהתכונה של המשתנה הנמדד והשני יאפיין יותר מהתכונה מהראשון וכך הלאה וכך הלאה. עם זאת, יש לשים לב כי אין משמעות לרווחים בין הערכים, אלא רק להיררכיה בה הם מסודרים.
לדוגמא, בסקר שביעות רצון של לקוחות, דירוגים כמו 'גרוע', 'בינוני', 'טוב' ו'מצוין' מאפשרים לנו לדעת איזה ערך של שביעות רצון היה גבוה יותר, אך לא מאפשר לנו לדעת ב"כמה" אותו ערך היה גבוה יותר. באופן דומה, רמות השכלה כמו יסודי, חטיבת ביניים, תיכון ומכללה מציינות התקדמות בחינוך, אך לא ניתן להבחין ב"כמות" ההבדל בין הרמות. מכיוון שסולם מדידה סדר ניתן לביטוי בעזרת ערכים מילוליים ומספריים, הוא יכול להיות גם משתנה איכותי (במידה וערכיו הסדורים הם מילוליים) וגם כמותי (במידה וערכיו הסדורים הם מספריים).
בדרך כלל, החציון ישמש כמדד המתאים ביותר לנטייה מרכזית לנתונים סידוריים בשל אופיו הדירוגי של המדד. בנוסף, מבחנים א-פרמטריים, שאינם מניחים על קיומה של התפלגות נורמלית, כגון מבחן מאן וויטני לבדיקת הבדלים או מתאם ספירמן לבדיקת קשרים בין משתנים בסולם זה. מבחינה וויזואלית, נתונים סידוריים מיוצגים לרוב באמצעות תרשימי עמודות או קווים, שיכולים לתאר חזותית את הסדר ואת התפלגות הקטגוריות. בעזרת תיאור גרפי זה, הגובה של כל קטגוריה מייצג את השכיחות של כל ערך במדגם והסדר שבהם הערכים ממוקמים מייצג את ההיררכיה ביניהם.
כפי שניתן לראות בגרף מטה, יש לנו תרשים עמודות המייצג את התוצאות של סקר שביעות רצון לקוחות. ציר ה-x, מציג את שלוש הקטגוריות של רמות שביעות רצון: 'גרוע', 'בינוני' ו'מצוין', והגובה של כל עמודה מייצג את שכיחות התגובות שהתקבלו עבור כל רמת שביעות רצון. על ידי השוואת הגבהים של העמודות, ניתן להבחין במהירות איזו רמת שביעות רצון קיבלה הכי הרבה תגובות ואיזו קיבלה הכי פחות.
סולם רווח
סולם רווח מתבסס על התכונות של קודמיו בכך שהוא משלב גם הבחנה בין הערכים וגם היררכיה ביניהם. כמו כן, הוא גם מוסיף את היכולת למדוד את ההבדלים ביניהם, אך חסרה לו נקודת אפס "אמיתית". כלומר, נקודת האפס של סולם זה אינה מייצגת היעדר כמות או תופעה, אלא נקודה שרירותית שבה הוחלט להתחיל למדוד את התופעה או המשתנה.
דוגמה קלאסית למשתנה בסולם רווח היא הטמפרטורה הנמדדת בצלזיוס: כך, ההבדל בין 10°C ל-20°C זהה להפרש בין 20°C ל-30°C. עם זאת, 0°C לא מעיד על היעדר טמפרטורה; זו רק עוד נקודה על הסקאלה שאמורה לייצג את הנקודה שבה המים קופאים, ובשל כך, לא ניתן להסיק על היחס בין הערכים. למשל, 6°C לא מצביע על טמפרטורה יותר חמה פי 2 מ-3°C, בדיוק כשם ש0°C לא מייצג טמפרטורה שהיא "פי 2 יותר קרה" מ2°C.
באופן דומה, בגובה פני הים, מדידה של 0 ס"מ אינה מעידה על היעדר גובה; במקרה הנוכחי, 0 ס"מ רק מייצג את נקודת הייחוס של פני הים. לפיכך, כל מדידה שלילית מתחת ל0, מייצגת רק את המרחק מתחת לאותו גובה פני ים. עבור נתונים בסולם רווח, המדדים המתאימים של נטייה מרכזית כוללים את הממוצע והחציון, בעוד שסטיית התקן והטווח יכולים לשמש כמדדים לפיזור. ניתוחים סטטיסטיים נפוצים המתאימים לנתוני מרווחים כוללים ANOVA, מבחני t , וניתוחי רגרסיה או מתאם פירסון. מבחינה גרפית, ניתן לייצג נתוני מרווחים באמצעות גרפי קווים, היסטוגרמות ותרשימי פיזור.
אם למשל יהיה ברצוננו להמחיש את הטמפרטורה, נוכל להשתמש בהיסטוגרמה כדי להראות את התדירות של טווחי טמפרטורות שונים שנצפו לאורך השנה. כל קו של ההיסטוגרמה מייצג טווח של טמפרטורות, והגובה של כל פס יציין את מספר הימים (או החודשים) שהטמפרטורות "נפלו" בטווח זה, כפי שניתן לראות בתרשים מטה:
סולם מנה
סולם המנה או סולם היחס הוא אחד מסולמות המדידה האינפורמטיביים ביותר המשמשים במחקר ובחיי היומיום. סולם זה מאפשר להבחין בין ערכים שונים (כמו משתנה שמי), להבין את ההיררכיה ביניהם (כמו משתנה סדר) ואת ההבדלים ביניהם (כמו משתנה רווח). החידוש של סולם זה הוא שכעת ניתן גם להבין את היחס בין הערכים של המשתנה המדובר.
שלא כמו סולמות אחרים, לסולם היחס יש נקודת אפס אמיתית/טבעית. כלומר בסולם זה הערך 'אפס' בסולם זה אכן מייצג את היעדר או התחלת התכונה או התופעה הנמדדת. מכיוון שכך, סולם זה לרוב אינו מכיל ערכים שליליים (שכן ערכים שליליים הם לא משהו שקיים בטבע). מאפיין זה מאפשר חישובים משמעותיים, כגון כפל או חילוק, על הנתונים.
דוגמאות נפוצות למשתנים הנמדדים בסולם יחס כוללות תכונות פיזיקליות כמו אורך, שטח, נפח ומשקל, כמו גם נתונים שניתנים לכימות כמו שכר או מספר המשתתפים בניסוי. מכיוון שנתוני סולם יחס הם מספריים, הם כמותיים מטבעם. עבור נתוני סולם יחס, הממוצע, החציון והשכיח יכולים כולם לשמש כמדדים של נטייה מרכזית.
כמו כן, הטווח , השונות וסטיית התקן, יוכלו לשמש כולם כמדדים לפיזור. בהתחשב באופי המספרי והרציף של נתוני מנה, ניתן ליישם מגוון רחב של ניתוחים סטטיסטיים, כולל מבחנים פרמטריים כמו מבחני ANOVA, מבחני t וניתוח רגרסיה. מבחינה גרפית, ניתן לייצג נתונים של משתנה בסולם יחס באמצעות היסטוגרמות, תרשימי קופסא (box plot), תרשימי פיזור וגרפי קווים, המספקים תיאור חזותי של התפלגות הנתונים.
לדוגמה, ניתן להשתמש בהיסטוגרמה כדי להציג את התפלגות השכיחות של המשכורות בחברה, תוך הדגשת מגמת המשכורות באמצעות מתיחת קו שנקרא פוליגון:
איך לבחור את הסולם המתאים
בעת בואנו לבחור את סולם המדידה המתאים ביותר, הבנת אופי הנתונים הינה חיונית מאוד. כך למשל, עבור תכונות כגון לאום, פרי מועדף או סוג מגורים (דירה, בית וכו'), הסולם הנומינלי יהיה הבחירה הנכונה.בניגוד לכך, מדידות כמו לחץ דם או טמפ' מתאימות בדרך כלל לסולמות הרווח או היחס/מנה. לעומת זאת, אם אנו בוחנים העדפות, כמו דירוג ספרים או סרטים אהובים, הסולם הסידורי הופך להיות רלוונטי.
לכן, כאשר ברצוננו להחליט מהו סולם המדידה המתאים, עלינו לשאול את עצמינו כמה שאלות: "האם המשתנה הוא איכותי או כמותי?" אם המשתנה הוא איכותי, אזי עלינו להבין האם מדובר בסולם שמי או סדר. במקרה כזה, אם ניתן לקבוע מי מבין הערכים יותר גדול מהשאר, הרי שמדובר במשתנה מסולם סדר – אחרת מדובר במשתנה נומינלי.
לעומת זאת, אם מדובר במשתנה כמותי, נרצה לדעת האם ניתן לדעת את היחס בין הערכים או פי כמה ערך אחר גדול מערך אחר. אם כן, הרי שמדובר במשתנה מסוג יחס/מנה, אחרת – מדובר במשתנה בסולם רווח. דרך נוספת להבחין בין שתי הסולמות הנ"ל היא לקבוע האם למשתנה יש נקודת אפס אמיתית שמייצגת היעדר התופעה הנמדדת. כפי שציינתי קודם, לרוב משתנים בעלי ערכים שליליים לא יוכלו להיות בסולם מנה, מה שמצביע על היעדר נקודת אפס אמיתית/טבעית.
למרות כל מה שציינו קודם, לפעמים ההחלטה באיזה סולם מדידה להשתמש עשויה להיות גם תלויה בחוקר או בשאלה עצמה. למשל, אם נסתכל על משתנה הישגים לימודיים; ניתן לסווג אותו במונחים סידוריים כמו תואר ראשון, שני דוקטורט וכו', מה שיהפוך אותו לסולם סדר.
לחילופין, ניתן לסווג את אותו משתנה על סמך מספר שנות הלימוד באופן המתאים לסולם היחס/מנה. במצבי קבלת החלטות כאלה, משיכה אל עבר סולמות הקרובים יותר אל סולם היחס/מנה היא לרוב יתרון בשל עומק המידע הרב יותר שהם מספקים.
לרוב, סולמות ברמות גבוהות יותר ניתן להפוך בקלות לרמות נמוכות יותר בעת הצורך, אך ההפך אינו תמיד הנכון. לדוגמה, אפשר לקבץ טמפרטורות לקטגוריות כמו 'קר', 'בינוני' ו'חם'. אבל אם תחילה רק נתייג את הטמפרטורות אל קטגוריות אלה, מבלי לציין את המעלות המדויקות, קביעת הטמפרטורה המדויקת מאוחר יותר תהיה בלתי אפשרית.
סיכום
לסיכום, הבנת המשתנים וסולם המדידה שלהם היא הבסיס לקביעת המשך הפעולה הסטטיסטית הרצויה. משתנים יכולים להיות מסווגים כאיכותיים או כמותיים. כמו כן, סולמות המדידה המגדירים משתנים אלו הם נומינליים, אורדינליים, מרווחים ויחס. הסולם הנומינלי מסווג ללא סדר אינהרנטי ומאפשר רק הבחנה בין הערכים, בעוד שסולם סדר מוסיף גם היררכיה ביניהם. סולם רווח מוסיף הבדלים עקביים בין הערכים המאפשר הבנה של הפרש בין הערכים, וסולמות יחס, המקיפים ביותר, מספקים נקודת אפס אמיתית מה שמאפשר הבנה של יחס (כפל) בין המשתנים.
בחירת סולם המדידה הנכון היא קריטית, מכיוון שהיא משפיעה באופן ישיר על מידת העומק והגמישות של הניתוח הסטטיסטי אותו תוכלו או לא לבצע בהמשך. כדי להבין טוב יותר סולמות מדידה וכיצד הם יכולים להנחות אותנו בבחירת המבחן הסטטיסטי הנכון, אתם מוזמנים לצפות בקורס מבוא לסטטיסטיקה שלנו שעובד בדיוק על בעיות אלו. הטבלה הבאה מציגה תקציר את סולמות המדידה לפי מדדי המרכז והפיזור המתאים לאותו סולם, כמו גם הייצוג הויזואלי המתאים שלו. כמו כן, בתרשים מטה תוכלו למצוא את החלוקה של סולמות המדידה לפי מהות המשתנה (איכותי או כמותי).
