סטטיסטיקה וניתוח נתונים
yuval bloch
מבחנים סטטיסטיים בפייתון: כלים להבנת נתונים
בשיעור האחרון הכרנו שני מבחנים סטטיסטיים נפוצים: מתאם פירסון (Pearson correlation) ומבחן T (t-test). שניהם ניתנים ליישום בקלות באמצעות ספריית SciPy בפייתון.
מהו מבחן סטטיסטי?
מבחן סטטיסטי עוזר לנו להבין האם דפוסים שאנו רואים בנתונים – כמו הבדלים בין קבוצות או קשרים בין משתנים – הם אמיתיים (מובהקים) או שפשוט הופיעו במקרה. התוצאה העיקרית של מבחן כזה היא p-value (ערך-p).
- ה-p-value מייצג את ההסתברות לקבל את התוצאות שקיבלנו, או תוצאות קיצוניות יותר, רק בגלל מזל, בהנחה שאין באמת הבדל או קשר.
- מובהקות סטטיסטית: אם ה-p-value נמוך מ-0.05 (סף מקובל), נאמר שהתוצאה מובהקת סטטיסטית. זה אומר שהסיכוי לראות את התוצאה במקרה הוא קטן מאוד, ולכן סביר להניח שיש כאן משהו אמיתי.
1. מתאם פירסון (Pearson Correlation)
מתאם פירסון מודד את החוזק והכיוון של הקשר הליניארי בין שני משתנים מספריים. הוא אומר לנו עד כמה הם נוטים לנוע יחד (באותו כיוון או בכיוונים מנוגדים) בצורה ישרה.
- דוגמה: האם יש קשר בין שעות השקעה בלימודים לבין הצלחה במבחן
שימוש בפייתון:
from scipy import stats
correlation_coefficient, p_value = stats.pearsonr(hours_studied, test_scores)
if p_value < 0.05:
print("Conclusion: There is a statistically significant relationship between hours studied and test scores.")
else:
print("Conclusion: There is no statistically significant relationship between hours studied and test scores.")
2. מבחן T (t-test)
מהו?
מבחן T בודק האם קיים הבדל מובהק סטטיסטית בממוצעים בין שתי קבוצות.
- לדוגמה: האם ממוצע הציונים של קבוצה א’ שונה משמעותית מממוצע הציונים של קבוצה ב'?
שימוש בפייתון:
from scipy import stats
t_statistic, p_value = stats.ttest_ind(group_a_scores, group_b_scores)
if p_value < 0.05:
print("Conclusion: There is a statistically significant difference between the test scores in the two groups.")
else:
print("Conclusion: There is no statistically significant difference between the test scores in the two groups.")
ניתוח נתוני פליטת זיהום אוויר גלובלי
בתרגיל זה, נחקור את נתוני פליטת הפחמן הדו-חמצני (CO2) לנפש במדינות שונות. ננסה לזהות את המדינות המובילות בפליטה ולבחון מאפיינים רלוונטיים, תוך שימוש במאגר הנתונים visualizing_global_co2_data
את מאגר הנתונים תוכלו להוריד מפה
שאלה 1: זיהוי מדינות מזהמות ומגמות פליטה
סעיף א’: הצגת עמודות הטבלה
הציגו את שמות כל העמודות הקיימות במאגר הנתונים. רשימה זו תעזור לכם לאתר את הנתונים הרלוונטיים בהמשך העבודה.
סעיף ב’: מציאת שמות המדינות
אתרו והציגו את שמות כל המדינות הייחודיות המופיעות במאגר הנתונים.
סעיף ג’: חמש המדינות המובילות בפליטת CO2 לנפש
מצאו את חמש המדינות שפולטות את הכמות הגבוהה ביותר של CO2 לנפש (per capita), בממוצע על פני כל השנים הזמינות. צרו טבלת נתונים חדשה שתכיל רק את הנתונים עבור חמש המדינות הללו, יחד עם העמודות הרלוונטיות ביותר לניתוח.
סעיף ד’: השוואת פליטות באמצעות Box Plot
צרו Box Plot (תרשים קופסה) אשר ישווה את התפלגות כמות פליטת ה-CO2 לנפש בקרב חמש המדינות שאיתרתם בסעיף הקודם. גרף זה יספק לכם תובנות ויזואליות לגבי הפיזור והחציון של נתוני הפליטה בכל אחת מהמדינות המובילות.
סעיף ה’: בדיקת מובהקות ההבדל בין קטאר לאיחוד האמירויות
התבוננות בגרף ה-Box Plot מסעיף ד’ עשויה לרמוז כי קטאר פולטת יותר co2 לנפש מאשר איחוד האמירויות. אולם, האם הבדל זה הוא מובהק סטטיסטית (כלומר, משקף הבדל אמיתי ולא מקרי)?
כדי לענות על שאלה זו, בצעו מבחן T (t-test) על נתוני פליטת ה-CO2 לנפש עבור קטאר ואיחוד האמירויות.
שימו לב: לפני ביצוע המבחן, ודאו שאתם מטפלים בערכים חסרים (NaN) בנתונים הרלוונטיים, מכיוון שמבחן T אינו יכול לפעול עם ערכים אלו.
סעיף ו’: מגמת פליטת CO2 לאורך זמן
נרצה לבחון כיצד התפתחה פליטת זיהום האוויר בחמש המדינות המזהמות ביותר (שמצאתם בסעיף ג’). השתמשו ב-Line Plot (תרשים קו) כדי להציג את השינוי בפליטת CO2 לנפש לאורך השנים עבור כל אחת מחמש המדינות הללו.
שאלה 2: הקשר בין עושר כלכלי לזיהום אוויר
ייתכן ששמתם לב שחמש המדינות המזהמות ביותר הן ברובן מדינות עשירות. בסעיפים הבאים תחקרו האם קשר זה בין עושר כלכלי לזיהום אוויר הוא מקרי או שיש לו בסיס מובהק.
סעיף א’: חישוב תוצר לנפש (GDP Per Capita)
כדי להגדיר את עושרה של מדינה, נשתמש בתוצר הלאומי הגולמי (GDP) לנפש. לשם כך, צרו עמודה חדשה בטבלה שערכה יהיה ה-GDP חלקי האוכלוסייה (population
).
סעיף ב’: סינון נתונים ובחירת שנה להשוואה הוגנת
כדי להשוות בין המדינות בצורה הוגנת, נבחר להתמקד בשנה ספציפית בה יש לנו את מרב המידע המלא. לשם כך, סננו את הנתונים כך שיישארו רק תצפיות בהן קיימים ערכים עבור כל המשתנים הבאים: gdp
, population
, ו-gas_co2_per_capita
.
סעיף ג’: מציאת השנה עם מרב הנתונים המלאים
בטבלה המסוננת מסעיף ב’, מצאו את השנה המופיעה עם המספר הגבוה ביותר של מדינות עם נתונים מלאים עבור שלושת המשתנים הנ"ל. צרו טבלת נתונים חדשה שתכיל רק את הנתונים עבור שנה זו. זו תהיה השנה שנשתמש בה להשוואה.
סעיף ד’: הצגה ויזואלית של הקשר (גרף נקודות)
ציירו גרף נקודות (Scatter Plot) שיציג את פליטת ה-CO2 לנפש מול התוצר לנפש (GDP per capita) עבור המדינות בשנה שנבחרה בסעיף ג’. האם נראה שיש קשר ויזואלי כלשהו בין המשתנים?
סעיף ה’: בדיקת מובהקות הקשר (מתאם פירסון)
השתמשו במבחן מתאם פירסון (Pearson correlation test) כדי לבדוק אם הקשר שנצפה בגרף הנקודות הוא מובהק סטטיסטית או מקרי