מדדי מרכז

להיות תמיד במרכז – מדריך למדדי נטייה מרכזית (מדדי מרכז)

מהי נטייה מרכזית?

מדדים של נטייה מרכזית הם תקצירים סטטיסטיים המייצגים את נקודת המרכז או את הערך הטיפוסי של מערך נתונים מסוים. דוגמאות למדידות אלה כוללות את הממוצע, החציון והשכיח. נתונים סטטיסטיים אלה מציינים היכן נופלים רוב הערכים בהתפלגות והם מכונים גם מדדי המיקום המרכזי של התפלגות. אתם יכולים לחשוב על נטייה מרכזית כעל הנטייה של נקודות נתונים להתקבץ סביב ערך אמצעי מסוים.

בסטטיסטיקה, הממוצע, החציון והשכיח הם שלושת המדדים הנפוצים ביותר של נטייה מרכזית. כל אחד מהם מחשב את הנקודה המרכזית בשיטה אחרת. בחירת המדד הטוב ביותר לנטייה מרכזית תלויה בסוג הנתונים שברשותך. במאמר זה, אנו נחקור את הממוצע, החציון והשכיח כמדדים של נטייה מרכזית, נראה לך כיצד לחשב אותם וכיצד לקבוע איזה מהם מתאים לסט הנתונים שלך.

איתור מדדי הנטייה המרכזית

לפני שנעבור ונסביר כיצד מחשבים כל מדד ומדד, ברצוני שנבין קודם כל את ההיגיון מאחורי המושגים הללו, לפני החישובים שלהם. שלוש ההתפלגויות מטה מייצגות נתונים שונים. למרות שהצורות וסוג הנתונים שונים, אפשר למצוא את הנטייה המרכזית בכל אחד מהם. מדד הנטייה המרכזית ימוקם באזור בהתפלגות שבו נמצאים הערכים הנפוצים או השכיחים ביותר. 

כפי שהגרפים ממחישים, אפשר לראות היכן רוב הערכים נוטים להתרחש. בהמשך, נראה שככל שההתפלגות וסוג הנתונים משתנים, כך גם המדד הטוב ביותר לנטייה מרכזית משתנה. כתוצאה מכך, עליך לדעת את סוג הנתונים שברשותך ולייצג אותו בגרף, לפני שתבחר בין הממוצע, החציון והשכיח.

השפעת מדדי פיזור על מדדי המרכז

בין אם אתם משתמשים בממוצע, בחציון או בשכיח, הנטייה המרכזית היא רק מאפיין אחד של התפלגות. היבט נוסף הוא השונות סביב אותו ערך מרכזי. בעוד שמדדים של פיזור הם הנושא של מאמר אחר, מדד ההתפזרות של ההתפלגות מתאר כמה רחוק או קרוב נוטות נקודות הנתונים ליפול מהמרכז. הגרף שלהלן מראה כיצד התפלגויות עם אותה נטייה מרכזית (למשל, ממוצע = 50) יכולות להיות שונות למדי. ההתפלגות הכחולה מציגה התפלגות שמקובצת מאוד סביב הממוצע, בעוד שההתפלגות האדומה מפוזרת יותר. חשוב להבין שהנטייה המרכזית מציגה רק היבט אחד של התפלגות ולא יכול לספק תמונה שלמה לבדו.

חישוב מדדי המרכז

הממוצע

הממוצע הוא כנראה המדד לנטייה המרכזית שאתם הכי מכירים. החישוב שלו הוא פשוט מאוד: מחברים את כל הערכים ומחלקים במספר התצפיות במערך הנתונים:

חישוב הממוצע משלב את כל הערכים בנתונים. אם ישתנה ערך כלשהו, הממוצע ישתנה. עם זאת, הממוצע לא תמיד מאתר את מרכז הנתונים במדויק. שימו לב להיסטוגרמות מטה המציגות את הממוצע בהתפלגויות:

בהתפלגות סימטרית, הממוצע ממוקם במרכז באופן מדויק ולכן כאשר ההתפלגות היא סימטרית, הממוצע הוא המדד נטייה מרכזית הטוב ביותר לשימוש.

לעומת זאת, בהתפלגות מוטה, הממוצע יכול "לפספס". בהיסטוגרמה מעלה, ניתן לראות שהממוצע מתחיל ליפול מחוץ לאזור המרכז. בעיה זו מתרחשת מכיוון שלערכים חריגים השפעה מהותית על הממוצע. ערכים קיצוניים בהתפלגות עם זנב, מושכים את הממוצע מהמרכז. ככל שההתפלגות נעשית מוטה יותר, כך הממוצע נמשך רחוק יותר מהמרכז. כתוצאה מכך, במקרים כאלו, כאשר ההתפלגות היא א-סימטרית עדיף להשתמש בחציון כמדד לנטייה המרכזית. 

החציון

הערך החציוני במערך נתונים מפצל אותו לשניים וממוקם בדיוק בחצי ההתפלגות כך שבדיוק 50% מהערכים גדולים ממנו ו50% קטנים ממנו. בשל כך, על מנת למצוא את החציון, עלינו ראשית לסדר את סט הנתונים מהקטן לגדול, ולאחר מכן למצוא את נקודת הנתונים שיש לה מספר שווה של ערכים מעליה ומתחתיה. השיטה לאיתור החציון משתנה מעט בהתאם למספר מערך הנתונים (זוגי או אי-זוגי). 

בואו נראה כיצד מוצאים את החציון עבור שני המקרים סוגי מערך הנתונים:

עבור סט נתונים בעל מספר ערכים זוגי: 

עבור סט נתונים בעל מספר ערכים אי זוגי: 

שתי הנוסחאות מעלה מראות לנו כיצד ניתן לחשב עבור כל סט נתונים שונה.  עבור סט ערכים זוגי, החציון יהיה הממוצע בין שני הערכים האמצעיים, כפי שניתן לראות בנוסחה. כך למשל, עבור סט נתונים של N=200, החציון יהיה הערך שנמצא בין המיקום 100 למיקום ה101:

לעומת זאת, כאשר גודל המדגם הוא אי זוגי, למשל 203, החציון יהיה הערך שנמצא במיקום ה102 כפי שניתן לראות ע"י הצבה בנוסחה:

שימו לב: סטודנטים רבים מתבלבלים בין המיקום של החציון לערך שלו. למשל, במקרה מקודם, בעוד שמיקום החציון הוא 102 עבור סט ערכים אי זוגי, הערך שלו יהיה הערך המספרי שאותו X מקבל.

השפעת חריגים על הממוצע והחציון

לחריגים ונתונים מוטים  משפיעים באופן שונה על החציון ועל הממוצע.  אילו לא שינינו את הערכים האמצעיים בסדרה, (בניגוד לממוצע) החציון לא ישתנה. לעומת זאת, אילו הוספנו ערכים לסדרה, הערך החציוני ישתנה בהתאם לקיצוניות של הערכים שהוספנו. אילו הוספנו ערכים קיצוניים כלפי מעלה או מטה, אז החציון יגדל או יקטן , בהתאמה. אולם, אילו הוספנו ערכים אמצעיים ששווים לחציון, הוא לא ישתנה.  הממוצע לעומת זאת, תמיד יושפע מהוספת ערכים ששונים ממנו לסדרה של נתונים. מכיוון שהממוצע לוקח בחשבון את כל הערכים, והחציון מתחשב רק בערכים האמצעיים, ההשפעה על הממוצע תהיה אחרת מהחציון. בשל כך, בהתפלגויות מוטות או בעלי ערכים קיצוניים, החציון יהיה המדד המרכזי שמייצג טוב יותר את כל הערכים בסדרה.

לדוגמא, אם ניקח את סדרת הנתונים הבאה: 10,12,15,17,20 נראה שהממוצע של הערכים האלו הוא 14.8 והחציון (אשר נמצא במקום השלישי) שווה 15. אולם, נשנה את הערך הגדול ביותר בסדרה מ-20 ל100, בעוד שהממוצע כן ישתנה (יגדל), החציון לא ישתנה מכיוון שהוא עדיין שווה לערך הנמצא במקום השלישי בסדרה (15). 

השכיח

השכיח הוא הערך המופיע בתדירות הגבוהה ביותר במערך הנתונים, מה שהופך אותו לסוג שונה של מדד נטייה מרכזית מהממוצע או החציון. על מנת למצוא את השכיח, יש למיין את הערכים במערך הנתונים לפי ערכים מספריים או לפי קטגוריות, ולאחר מכן נזהה את הערך בעל השכיחות הגבוהה ביותר. למשל במערך הנתונים מטה, ניתן לראות שהערך 10 מופיע בשכיחות הגבוהה ביותר, מה שהופך אותו לשכיח:

בתרשים עמודות, השכיח יהיה העמודה הגבוהה ביותר, כפי שניתן לראות מטה:

לעומת זאת, אם לנתונים יש מספר ערכים אשר קורים בתדירות הגבוהה ביותר, תהיה לנו התפלגות רב או בי-מודאלית (רב שכיחית):

אם כל ערך חוזר על עצמו פעם אחת בלבד, אזי לסט הנתונים לא יהיה שכיח:

מציאת השכיח בתוך נתונים רציפים

כאשר אנו עוסקים בנתונים רציפים, לא סביר ששני ערכים או יותר יהיו שווים בדיוק מכיוון שיש מספר אינסופי של ערכים בין שני ערכים כלשהם. במילים אחרות, כאשר אנו עובדים עם הנתונים הרציפים הגולמיים, אל תתפלאו אם אין שכיח. לדוגמא, בנתונים הרציפים מטה, אין ערך שחוזר על עצמו יותר מפעם אחת, מה שמצביע על כך שאין למערך נתונים זה שכיח:

עם זאת, נוכל למצוא את השכיח עבור נתונים רציפים  ע"י איתור הערך המקסימלי (השיא) שממוקם בהתפלגות:

 

כפי שניתן לראות, ההתפלגות מציגה התפלגות עם שכיח של 6,000. התפלגות זו למשל, יכולה לתאר טוב את השכר בישראל. כפי שאתם רואים, השכר השכיח הוא כ-6,000 ₪ ורוב האוכ' מרוויחה באזורים האלה. ככל שהשכר הולך ועולה, פחות ופחות אנשים מתאימים לסכום המוצג על ציר ה-X.

אז מהו המדד הטוב ביותר לנטייה מרכזית - הממוצע, החציון או השכיח?

כמו  הרבה דברים בחיים, התשובה לשאלה הזו היא: תלוי. כאשר אנו עומדים בפני התפלגות סימטרית עם נתונים רציפים, הממוצע, החציון והשכיח שווים. אולם, במקרה זה, נוטים להשתמש בממוצע מכיוון שהוא כולל את כל הנתונים בחישובים. עם זאת, אם ההתפלגות מוטה, החציון הוא לרוב המדד הטוב ביותר לנטייה מרכזית. כאשר הנתונים הם סידוריים, החציון או השכיח הם בדרך כלל הבחירה הטובה ביותר. לעומת זאת, עבור נתונים קטגוריים, יש להשתמש בשכיח בלבד.

סיכום

לסיכום, מדדים של נטייה מרכזית, הכוללים את הממוצע, החציון והשכיח, מציעים פרספקטיבה מקיפה אל מערך הנתונים. כל אחד מהם מספק עדשה נפרדת שדרכה נוכל לפרש ולהבין את הדפוס הכללי של הנתונים שלנו. בעוד שהממוצע מתחשב בכל נקודת נתונים, הוא רגיש לחריגים ועל כן לא תמיד מייצג את המיקום המרכזי, במיוחד בהתפלגות מוטות. החציון, לעומת זאת, מחלק את הנתונים שלנו לשני חצאים שווים ועל כן אינו מושפע מערכי קיצון. זה הופך אותו לשימושי במיוחד בהבנת מערכי נתונים מוטים. השכיח, כשמו כן הוא, בהיותו הערך השכיח ביותר, מציע תובנה לגבי ההתרחשות הנפוצה ביותר בתוך הנתונים שלנו. 

בשביל הבנה מעמיקה יותר של מדדי מרכז ופיזור ופתירת תרגילים, אתם מוזמנים להירשם לקורס סטטיסטיקה א' שלנו.

כלי נגישות

Powered by - Wemake