על אקונומטריקה ולמידה חישובית

היסטורית, כלכלנים הובילו את המחקר האמפירי במדעי החברה: שיטות שפותחו על ידי אקונומטריקאים הפכו עם הזמן שכיחות בספרויות הסוציולוגיה, מדע המדינה וכיוצא בזה. בד בבד, עם השנים, המחקר הכלכלי אימץ כלים מתחומים אחרים ותרם להם. הדוגמה המובהקת ביותר היא לדעתי תורת המשחקים, אשר אפשרה את ניסוחם של מודלים רבים בכל ענפי הכלכלה הקלסיים, ממימון עד מידול סטוכסטי. למעשה, דיוקנו של ג'ון נאש המנוח בולט בתמונה המופיעה בראש רשימת זוכי הנובל לכלכלה, על אף היותו מתמטיקאי.

בעשור האחרון מתחוללת מהפכה בכל הקשור לעושר בסיסי הנתונים, לזמינותם ולמספר תחומי העיסוק המשתמשים בהם ליצירת ידע, באקדמיה ומחוץ לה. הכלים הקיימים והנמצאים בשימוש במחקר הכלכלי פותחו רובם לפני כן: עד היום, ה-OLS המאֻבק והטוב נותר השיטה הנפוצה ביותר לניתוח כמותי של תופעות כלכליות. אולם, מסתבר שהם אינם תקפים לשאיבת אינפורמציה מבסיסי נתונים במבנים ובממדים עכשוויים. בפוסט זה, אני אנסה להסביר מדוע ולהציג את כדאיותה של חשיפת כלכלנים צעירים לספרות אחרת, אשר חוברה על ידי מדעני מחשבים וסטטיסטיקאים, ששמה למידה חישובית, או באנגלית, statistical learning או machine learning (נקצר ל-ML); אסכם בחוות דעתי באשר לכיווני מחקר כלכלי עתידיים.

נתונים כיום

ראשית, חשוב להכיר את ההתקדמויות בתחום הדטה שהוזכרו לעיל. אפשר לסווג את בסיסי הנתונים המצויות בשימוש בכלכלה לשלוש קטגוריות: סדרות עתיות (תצפיות של משתנה בודד על פני תקופות), חתכי רוחב (תצפיות של מספר משתנים בנקודת זמן יחידה) ונתוני לוח (מספר משתנים, מספר תקופות). זאת, כאשר שני אפיונים נתפסים בדרך כלל כברורים מאליהם: האחד, מספר המשתנים קטן ממספר התצפיות, השני, מספר התצפיות אינו גדול (במקרים הטובים, אלפים ספורים). תבנית זו עודכנה באופן דרמטי (Einav & Levin 2014Athey@EconTalk, Cross Validated):

 ממדי בסיסי הנתונים גדולים מבעבר: כאשר נמצאות ברשות חוקר מיליוני תצפיות, ביכולתו למדל תופעות באמצעות מספר גדול של משתנים ודאגה לעוצמה סטטיסטית הופכת משנית. כמו כן, רזולוציית הנתונים הולכת ועולה: microdata (נתונים שאינם אגרגטיביים) הופכים לנורמה בענפים רבים, מתיעודי מסחר עד פרטים דמוגרפיים; זה כמובן מעמיד מול מדעני החברה אפשרויות ניתוח ברמות עומק חדשות.
זמינות נתונים בזמן אמת: תאגידים רבים יודעים להפיק ערך מזרמי המידע השוטפים ללא הרף את שרתיהם. לעומת זאת, אין כך הדבר כיום במחקר הכלכלי, האקדמי ולמדיניות כאחד (זה מתחיל לחלחל). נוסף על כך, לנתונים שונים תדירויות עדכון שונות: מניות, צפיות ב-YouTube, הצעות מחיר ב-eBay, חישובי תוצר… חסרה ספרות כלכלית העוסקת בטיפול בנתונים מסוגים אלה.
סוגי משתנים חדשים: בראשם טקסט (דוא"ל, פוסטים ותגובות ברשתות חברתיות), נתונים גאוגרפיים (Waze, תמונות לוויין), קשרי משתמשים (רשימות של חברי Facebook ושל עוקבי Twitter)… עצם קיומם מציב אתגרים חדשים בפני אקונומטריקאים, בין היתר פיתוח שיטות לזיהוי אשכולות, למידול רשתות ולטיפול במתאמים מורכבים. למתעניינים, Barrios et al. 2012 סוללים מספר נתיבי מחקר אפשריים.

חיזוי והסבר

נתווה כעת מספר קווים מנחים באקונומטריקה וב-ML. לכלכלנים יש בדרך כלל שתי מטרות כאשר ניגשים לחקור תופעה. העיקרית, רכישת כושר פרשנות סיבתית לה: האם העלאת שכר המינימום גורמת לגידול שיעור האבטלה? כיצד הטלת מס חריג על בעלי מספר דירות משפיעה על שיווי המשקל בשוק השכירות? האם ובאיזו מידה הקטנת גודל כיתה משפרת את השיגי תלמידיה ואת תוחלת הכנסתם בעתיד? מיקוד שאלות אלו הוא זיהוי המנגנונים המשרים את התופעה, תוך נטרול גורמי הרעש סביבם. המשנית, הדמיית תסריטים אלטרנטיביים הקרויים counterfactuals: אילולא הועלה שכר המינימום, מה היה שיעור האבטלה? אם האינפלציה הייתה נמוכה באחוז, מה היה שיעור הצמיחה? בשונה מהשאלות הקודמות, המיקוד כאן הוא חיזוי. לעומת זאת, ספרות ה-ML מוקדשת רובה ככולה לחיזוי, תוך דחיקה החוצה של הממד ההרמנויטי: היא מספקת תחזיות, לא הסברים. למרבה האירוניה, נדמה שבאקדמיה, חקר הלמידה החישובית יותר האייקיאנית ממקבילו בכלכלה.

להבנתי, הבדלי תפיסה אלה הם פועל יוצא מאופיים השונה של יישומי השיטות: במדעי החברה, לפחות בזרמים הפוזיטיביסטיים שביניהם, עמם המחקר הכלכלי מזוהה, המניע הוא פענוח דינמיקה חברתית ולכן המבט פונה לעבר וסיבתיות היא המוקד. לכלכלנים עניין מועט בלבד בטיב ההתאמה של המודלים לנתונים, מכוון שאינם מעוניינים (או מתיימרים) להסביר את כל היבטי התופעות הנחקרות; למעשה, מקריבים לעתים התאמה למען הסקה סיבתית. מדגימים בכל קורס מבוא לאקונומטריקה שימוש במשתני עזר לאמידת השפעתם של שינויים במחירו של מוצר על מספר היחידות הנמכרות; מנגנון השוק הרי מלמד שבהינתן היצע קבוע, ככל שהביקוש למוצר גדל, מחירו עולה אף הוא, אולם במציאות התנאי מופר. על החוקר לשלוט אפוא בהיצע, באמצעות שאיבת מידע הזמין בגורמים המשפיעים עליו באופן עקיף, כגון מבנה השוק, שכר העבודה, מחירי חומרי הגלם וכדומה. שוב, עלות הפרוצדורה בטיב חיזויי מודל, המקשר בין הגדלת ביקוש לעליית מחירים. ההשקפה שהניבה את ניסוחם של מודלי חיזוי מורכבים בספרות ה-ML מנוגדת לזו שהוצגה לעיל: על פיה, אינפורמציה קודמת למידע. מדדי הערכת ביצועי המודלים הרווחים בה מהווים אינדיקציה נוספת לכך: רוב המבחנים בלמידה מונחית (קטגוריה של שיטות חיזוי הנבנות על סמך נתוני עבר, המפרטים הן את התופעה עצמה, המכונית ground truth, הן את הגורמים לה, בשונה מלמידה בלתי מונחית, שמטרתה זיהוי אשכולות בהעדר תופעה מיוחדת) הם מבוססי cross-validation, אשר מטרתו הבטחת יכולת הכללת תוצאותיו של מודל לבסיס נתונים חדש. למשל, אם ברצון חוקר לנבא הצלחה או כישלון של ניתוח כירורגי על סמך עברו הבריאותי של אדם, באפשרותו להרכיב מודל המבוסס נתוני עבר של בית חולים מסוים, אך עליו לבדוק את תפקודו של המודל ב-CV על רשמיו של בית חולים אחר כדי לוודא כי ההתאמה לראשון אינה מקרית, או אופיינית לו בלבד, תופעה הנקראת overfitting. במלים אחרות, מודל הוא טוב אם ורק אם לניבויו שיעורי הצלחה גבוהים.

הטיה ושונות

היסטורית, כתוצאה מהחתירה לזיהוי אפקטים סיבתיים, הספרות האקונומטרית התמקדה בפיתוח אומדים חסרי הטיה, המבטאים בהסתברות גבוהה את הקשרים האמתיים בין משתני המחקר, בהינתן מדגם גדול מספיק. רוב אומדים אלה פותרים בעיית אופטימיזציה שאינה מאלצת באופן מפורש את שונותם (המכמתת את רגישותם לקבלת מידע חדש) לקיים אף תכונה: היא נתפסת כמשנית והופכת חשובה רק אם חוסר ההטיה הוכח (לא, מבחן t אינו מספיק). לעומת זאת, שונות היא אבן פינה ב-ML; למעשה, אחת הפרדיגמות המרכזיות מכונית ה-bias/variance trade-off. קיים קשר אינטואיטיבי בינה לבין טיב חיזוי: אם אומד רגיש לקבלת תצפית חדשה, הרי שהוא אינו מסוגל לנבא את התוצאה המתאימה לה בביטחון. תובנה מעניינת: התאמה מושלמת ניתנת לקבלה בכל מדגם על ידי ניסוח פולינום בדרגה גבוהה מספיק (השתמשתי באתר הזה להפקת האיורים):

degree2
רגרסיה לינארית, פולינום מדרגה 2, 8 תצפיות.
degree7
רגרסיה לינארית, פולינום מדרגה 8, 8 תצפיות.
degree2onemore
רגרסיה לינארית, פולינום מדרגה 2, 9 תצפיות.
degree8onemore
רגרסיה לינארית, פולינום מדרגה 8, 9 תצפיות.

הפולינום במדרגה 2 אֵיתן להופעת התצפית הנוספת, כלומר שונותו נמוכה. מנגד, ניבוייו רחוקים מן התצפיות, כלומר הטייתו גבוהה. לפולינום מדרגה 8 שונות גבוהה והטיה אפסית: הוא מתאים בדיוק למדגם, אך אינו ניתן להכללה אל מחוץ לו–הופעת הנקודה הנוספת שינתה את צורתו מאוד. אפשר לסכם את התחלופה כך:

errorplot
רמת המורכבות האופטימלית מסומנת באדום.

ניסוחי בעיות האופטימיזציה שהוזכרו בפסקה הקודמת מאפיינים במפורש את השונות, בדרך כלל באמצעות מגבלות. שמם regularized regression והם נראים, למשל, כך:

\hat{\beta}=\arg\min_{\beta}\dfrac{1}{2}\left\Vert X\beta-y\right\Vert _{2}^{2}+\dfrac{\lambda}{2}\left\Vert \beta\right\Vert _{1}

עם X\in\mathbb{R}^{n\times p} מטריצת p המשתנים המסבירים, y\in\mathbb{R}^{n} וקטור המשתנה המוסבר ו-\lambda \in\mathbb{R} פרמטר. הניסוח המסוים המוצג נקרא LASSO ופותח על ידי Tibshirani 1996. החלפת הנורמה ב- \ell^{2} בריבוע מניבה ridge regression, שפותח על ידי Hoerl & Kennard 1970. משתמשים לעתים קרובות גם בשילוב ביניהם, תחת הכינוי elastic net, מאת Zou & Hastie 2005. לאומדים שהם מניבים תכונות סטטיסטיות רצויות מעבר לשונות (אולם הניתנות לקישור אליה): בהעדר אילוץ, אם p>n, כלומר אם מספר המשתנים המסבירים בהם מעוניין להשתמש החוקר על מנת להסביר תופעה עולה על מספר התצפיות הזמינות לו, אינסוף ערכים של \beta ממזערים את פונקציית המטרה (במלים אחרות, overfit למדגם). ככל ש-\lambda גדל (למתעניינים, ערכו נבחר ב-cross-validation), מספר המשתנים אשר השפעתם נאמדת כשונה מאפס קטֵּן ונפתרות בו בעת בעיות הקולינאריות והממדיות; זהו הגורם העיקרי לקוטן שונות הפתרון ביחס ל-OLS. הגורם השני לכך הוא צמצום ערכם המוחלט של כל האומדים. אין ארוחות חינם: עם צמצום האומדים, הפער בינם לבין ערך ההשפעה האמתי הולך וגדל; במלים אחרות, הולכת ומחריפה הטייתם. זו אותה התחלופה בה עסקנו קודם.

הפסקה הבאה תדון ברעיון באופן מעט יותר פורמלי ואפשר לדלג עליה מבלי להפריע למהלך הקריאה. נסמן את המשתנה המוסבר באוכלוסיה ב-y\in\mathbb{R}, את המסבירים, ב-x\in\mathbb{R}^{p} ואת פונקציית האמידה, המכונית ב-ML היפותזה, ב-h_{\beta}\left(X\right). כמו כן נגדיר \epsilon \sim \mathcal{N} (0,\sigma ^{2}). נרשום:

 y=h_{\beta}\left(x \right)+\epsilon

קל להראות שתוחלת הטעות הריבועית, \mathbb{E}\left[\left(y-h_{\hat{\beta}}\left(x\right)\right)^{2}\right], שווה ל-:

\left(\mathbb{E}\left[h_{\hat{\beta}}\left(x\right)\right]-h_{\beta}\left(x\right)\right)^{2}+\mathbb{E}\left[\left(h_{\hat{\beta}}\left(x\right)-\mathbb{E}\left[h_{\hat{\beta}}\left(x\right)\right]\right)^{2}\right]+\sigma^{2}

ביטוי זה הוא פירוק MSE לגורמים, משמאל לימין: ריבוע הטיית ההיפותזה ביחס לאמת, שונותה ושונות הטעות, עליה אין שליטה–אם נשווה אותם לקבוע, גידול בהטיה גורר קיטון בשונות ולהפך. האומד הוא \arg\min_{\beta}\mathrm{MSE}, המתקבל ב-CV. ישנם קריטריונים חלופיים ל-MSE, אולם בהמשך לפוסט הקודם, כדאי להיזכר מהיכן נובעת הכדאיות המיוחדת של השימוש ב-OLS: לא רק ממשפט Gauss-Markov, אלא גם מכך שאם הטעויות iid נורמלית, השיטה שקולה ל-MLE, אשר בעלת תכונות רצויות הן סטטיסטית הן רעיונית. נקודת תורפה היא שההנחה לפיה הצורה הפונקציונלית של המודל נכונה אינה מתקיימת; בנוסף, טעויות iid הן בדרך כלל בגדר חלום. היתרונות של אומד ה-LASSO על פני זה ה-OLS הופכים אם כן ברורים לחלוטין: ראשית, מאחר שסביר להניח כי האומד OLS בפועל אינו BLUE, מחירו של שימוש באומד אחר, בעל שונות נמוכה ממנו, הוא קטן. יתרה מזו, כפי שהוסבר לפני כן, ה-LASSO מניב מודל דליל (sparse) מכוון שלכל משתנה בו מוטמן מידע מיותר מותאם אומד אפס. לבסוף, נגדיר:

r(\beta)\equiv\mathbb{E}\left[\left(y-\beta^{\intercal}x\right)^{2}\right]

B_{k}\equiv\left\{ \beta\left|\left\Vert \beta\right\Vert _{1}\leq k\right.\right\} 

r(\beta_{*})\equiv\inf_{\beta\in B_{k}} r(\beta)

כאשר בקורס שני באקונומטריקה נלמד אי השוויון Cramér-Rao, ספרות ה-ML מדגישה את מזעורם של זמני חישוב ומדדי טעות על פני קיומן של תכונות כמו נורמליות אסימפטוטית ועקיבות; למשפטי Hoeffding ו-Chernoff ייצוג רחב בה. אפשר להראות בעזרתם שאם |y|\leq B ואם \max_{j} |x_{j}|\leq B, אז מתקיים בהסתברות לפחות 1-\delta:

r \left(\beta_{\mathrm{LASSO}}\right)\leq  r\left(\beta_{*}\right)+\sqrt{\dfrac{16\cdot\left(k+1\right)^{4}\cdot B^{2}}{n}\cdot\log\left(\dfrac{\sqrt{2}\cdot d}{\sqrt{\delta}}\right)}

כלומר, תחת הנחות חלשות, טעות אומד ה-LASSO חסומה מלמעלה באופן הדוק על ידי זו של האומד הלינארי הדליל הטוב ביותר. ההוכחה מופיעה ברשימות המעולות של Larry Wasserman. הזהירים ביותר יכולים להיצמד להמלצת הפרופסור בספרו החינמי וכנראה הטוב ביותר ללמידה עצמאית The Elements of Statistical Learning ולהשתמש ב-OLS על קבוצת המשתנים ששורדת את ה-shrinkage באמידת LASSO על מנת להקטין מעט את ההטיה (הערה שלי: זה שקול להחלפת הנורמה \ell^{1} ב-\ell^{0} בניסוח המקורי).

אפשר לחזור לקרוא.

אין ספק שכלכלנים מודעים לכך שמורכבות מודל רבה אינה רצויה. למרות זאת, אני סבור שחשוב ששיטות אמידה אלו יהפכו נפוצות יותר בספרות היישומית, מכוון ש-OLS מניב בדרך כלל מודלים עם הטיה גדולה על אף/בגלל שונותו הנמוכה. הכנתי אנימציה שממחישה (ומרדדת) את הבעיה:

wz_54r
בכל תמונה מתווספות 50 תצפיות. למרות הפיזור הרב, האומד נותר קבוע: אין ביכולת הפרוצדורה לקחת בחשבון את מורכבויות המדגם.

לחוסר הפורמליות המכה את האסטרטגיות האמפיריות של רוב הפרסומים האמפיריים בכלכלה יש השלכות אדירות: מתודולוגית, חוקרים רבים מאמינים שאיכות האמידה עולה לינארית עם גודל המדגם; אין בהכרח כך הדבר ולדעתי מתבזבזים משאבים רבים בחיפוש אחר תצפיות חדשות ומיותרות. בפן אחר, מדדי טיב התאמה למדגם והשוואות ad hoc בין ספציפיקציות משמשים עד היום לבחינת אמינות אמידה ולמה שנקרא robustness, כלומר אחידות תוצאות על פני וריאציות על הנחות ומשתני הבקרה. ספרות ה-ML ביססה מזמן כי על טיב ההתאמה להימדד מחוץ למדגם האמידה. לדעתי, CV ואמצעי סיסטמטיזציה דוגמת stepwise regression, PCA, AIC ו-BIC הם בסיסיים ושימושיים מכדי להישאר אזוטריים במדעי החברה (פירוט על כך ב-Castle et al. 2009); אין ספק שפרסומן של תוצאות רבות שאינן ניתנות לשכפול היה נמנע אם הם היו מקובלים. כל זאת, בלי להתייחס למודלים הראויים לגיחוך עליהם גופים ציבוריים מסתמכים לקביעת מדיניות.

כיוונים לעתיד במחקר הכלכלי

עד כה, הצגתי את אסכולות הכלכלה והלמידה החישובית כשונות ברמה המתודולוגית. כעת, אנסה להצביע על מספר רעיוניות השקה לעתיד. המחשבה במחקר הכלכלי מכוונת על ידי גורמים רבים: שיח עכשווי, מחקר מן העבר, ציפיות להכרה, הערכת סיכויי פרסום… ולצערי, זמינות נתונים: לעתים קרובות, מחקר מתבצע בעקבות מציאת בסיס נתונים עשיר, או רעיון ל-IV מעניין, על אף שטבעי היה שהמטרה תקדם לאמצעים. אם כן, אני צופה להתקדמויות בניתוחי השפעות הטרוגניות של טיפולים (בז'רגון, ניסויים כלכליים, למשל מימוש רפורמת מס חדשה), למשל על פני פלחי אוכלוסיה שונים ברמות הגאוגרפית, החברתית, התרבותית וכן הלאה, בליווי שקיעה בשימושים ב-L/ATE, שיטה הנועדת למדוד את השפעתו הממוצעת של טיפול, תוך הבנה כי זיהוי הטרוגני בלתי אפשרי בהינתן רזולוציית נתונים נמוכה.

בעיות כלכליות עוסקות בתופעות דיסקרטיות או בינריות, למשל הצטרפות לחברת ביטוח או בחירת אלטרנטיבה מתוך קבוצת מוצרים. השיטות הרווחות לניתוחן הן וריאציות על רגרסיה לוגיסטית, לרוב probit, conditional logit, ו-tobit. ענף ב-ML מתמסר לאותן סוגיות הסיווג והכלים השימושיים ביותר הם ה-support vector machine, רשתות הנוירונים וה-CART (עצי החלטה שפותחו על ידי Breiman et al. 1984) או הכללתם ל-random forests, עליהם נרחיב עתה. הרעיון ה-CART הוא מידול ההיבטים שאינם לינאריים בהשפעתו של משתנה מסוים על תוצאה, תוך פיצול בסיס הנתונים לתתי-מדגמים באופן איטרטיבי על מנת למזער פונקציית עלות. ריבוי הפיצולים מזכיר עלי עצים–משם השם. ביצועי החיזוי שלהם טובים בבעיות מורכבות ויתרונם הכלכלי על פני שאר השיטות שמיניתי היא נוחות פרשנות התוצאות. Random forests הם במהותם מיצוע פשוט על פני CART רבים ונתפסים כיום כאחת משיטות הרגרסיה העוצמתיות ביותר. כל עץ מוצמח על סמך תת-מדגם שונה, בדרך כלל bootstrapped, כאשר בכל עלה נבחר אוסף משתנים מסבירים אחר. החלטת הסיווג מתקבלת על פי הצבעת רוב לאחר הצמחת היער כולו. יתכן שאקונומטריקאים ייזכרו ברגרסיית kernel: ההבדל העיקרי בין שתי השיטות הוא אופן בחירת המשתנים החשובים להסבר התופעה, שבשיטה האחרונה נעשית על ידי החוקר, בניגוד ל-random forests מוכוונות הנתונים. עד שנה שעברה, נטייה חזקה לאמידה מוטית ואי התאמתה להסקה סיבתית חסמו את השיטה מהמחלקות לכלכלה. ב-2015, Wager & Athey הציעו גרסה עקיבה ונורמלית אסימפטוטית והתאמה להסקה סיבתית קרמה עור וגידים ב-Athey & Imbens 2015, אשר סביר להניח שתהפוך יקרת ערך ככל שממדי המדגמים הכלכליים יגדלו.

אני מקווה שהצלחתי לעניין אתכם בנושא. אישית, אני מתכנן לכתוב עליו תזה.

מודעות פרסומת

5 מחשבות על “על אקונומטריקה ולמידה חישובית

  1. שלום,
    ראשית כל, אני מברך כל מי שטורח לשבת ולכתוב בלוג בעברית על כלכלה. עלה והצלח.
    לעניין הדברים שכתבת, יש לי כמה השגות:

    1. "לדעתי, CV ואמצעי סיסטמטיזציה דוגמת stepwise regression, PCA, AIC ו-BIC הם בסיסיים ושימושיים מכדי להישאר אזוטריים במדעי החברה (פירוט על כך ב-Castle et al. 2009); אין ספק שפרסומן של תוצאות רבות שאינן ניתנות לשכפול היה נמנע אם הם היו מקובלים."

    המשפט הזה מראה על חוסר הבנה מסוים של התמריצים באקדמיה. אנשים בכלכלה רוצים להשיג פרסומים, ולא רוצים לשמוע על איזה שהוא כלי חדש שאם הם יריצו אותו יש סיכוי שהם יגלו שהמחקר שאליו הם הקדישו את השנתיים האחרונות הוא חסר ערך, ביחוד אם אף אחד מחבריהם ומהשופטים של המאמרים שלהם לא מכיר את אותו כלי חדש. אני בתור כלכלן אמפירי אשמח לשמוע יותר על כלים חדשים שמאפשרים לי לגלות עוד דברים, או להתמודד עם מצבים שבהם רגרסיות פשוט לא מובילות לתוצאה מובהקת או עם כל מני בעיות סלקציה וכו'.

    2. "לעתים קרובות, מחקר מתבצע בעקבות מציאת בסיס נתונים עשיר, או רעיון ל-IV מעניין, על אף שטבעי היה שהמטרה תקדם לאמצעים."

    לבחור מטרה ואז לחפש שיטה או בסיס נתונים או רעיון ל IV זו הדרך הבטוחה לדפוק את הראש בקיר ולא לכתוב שום מאמר. גם אני ניסיתי ללכת בדרך הזו בהתחלה, אבל הבעיה היא שמטרות נפלאות וסופר-חשובות יש המון, ורעיונות טובים ל IV או בסיסי נתונים חדשים יש ממש ממש מעט. לכן יותר הגיוני ללכת מהכיוון השני, וברגע שאתה מוצא רעיון ל IV או בסיס נתונים חדש לחשוב על המטרות שאתה יכול לגלות ביחד איתו. כמובן שאנשים לא מחפשים IV סתם ככה באקראי אלא בהתאם לאיזה שהוא תחום שמעניין אותם אבל בדרך כלל לא בהתאם לשאלת מחקר ספציפית.

    3. באופן כללי השפה שלך טכנית מדי. הרשומה הזו איננה מתאימה לקורא שאין לו לפחות תואר ראשון בכלכלה, אבל גם עבור מישהו כמוני שמכיר 90% מהמושגים שבהם השתמשת היא מרגישה טכנית ויבשה מדי. אם היית מסביר יותר על המושגים ועל המטרות היה ניתן להפנות אותה גם לאנשים שאין להם ידע בכלכלה.

    Liked by 2 אנשים

    1. תודה על הברכה ועל התגובה המנומקת. אני מסכים איתך לגמרי לגבי 1, זה פשוט מעט עצוב לי. זה כנראה נובע מהיותי מסטרנט תמים ומאמין שמחקר אקדמי נועד להרחיב את הידע הקיים ושהמחירים האישיים הגבוהים שיש ל"יושרה" נמוכים מהתועלת. יתכן מאוד שהבעיה נובעת מדדליינים מצד הגופים המעסיקים, אני מבין. בכל זאת, אני חושב שיש לחתור ליצירת קונצנזוס בכיוון הזה: סביר להניח שסטיות התקן של ווית' למשל הפכו כל כך פופולאריות לא רק בגלל הבעיה שהן פותרות, אלא כי התכנות הסטטיסטיות הרווחות גרמו לשימוש בהן להיות נוח מאוד. יש דו כיווניות ברורה, אבל יוזמה ומה שכתבתי קודם וכו'. לגבי הנקודה השנייה, לא התכוונתי לבקר את השיטה הזו אלא להדגים אותה למי שאינו מכיר אותו את תהליך העבודה במחקר הכלכלי. זה היה משפט מבוא להצגת הכיוון בו אני סבור שהספרות תתקדם: אם בסיסי נתונים עשירים יהפכו נפוצים (אין סיבה שזה לא יקרה), באופן טבעי אקונומטריקאים ינסחו שיטות שמנצלות את אותו העושר; מכאן אני מסיק שהמיקוד באמידת אפקטים ממוצעים ילך ויפחת.
      אני לוקח את ההערה השלישית לתשומת ליבי לפוסטים הבאים, שוב תודה.

      Liked by 1 person

      1. כן, גם לי זה היה עצוב בהתחלה כשהתחלתי לעבוד כעוזר מחקר וראיתי איך מחקרים נראים "מבפנים", אבל עם הזמן כשאתה עובד על מחקרים משלך אתה רואה עד כמה זה קשה לייצר משהו ראוי לפרסום. הבעיה הזו קיימת לא רק בכלכלה אלא בכל תחום באקדמיה, גם במדעים המדויקים לכאורה. היא נובעת מהתמריצים התחרותיים, מהעובדה שבאקדמיה ישנם מעטים שזוכים להרבה מאוד כסף וכבוד ורבים שלא זוכים לכלום.

        אבל, יחד עם זאת, עם הזמן אתה מבין שכולם גם מודעים לתמריצים האלו ולאיך שמחקרים נראים מבפנים, ולכן מחקרים שמגיעים לסמינרים ולז'ורנלים טובים עוברים הרבה מאוד ביקורות והרבה מאוד התקפות. כלכלן אולי יכול לעבוד על לא-כלכלנים עם כל מני מילים יפות כמו "רגרסיה" או "מודל מתמטי", אבל הוא לא יכול לעבוד על כלכלנים. אז מה שמתפרסם בז'ורנלים הטובים הוא כן ברמה גבוהה, ובאופן כללי תמיד רצוי להסתכל על הספרות כולה ולא על מחקר יחיד כדי להסיק מסקנות מדיניות. הספרות כולה כן בהחלט מרחיבה את הידע הקיים, למרות ההשפעה של תמריצים על יושרה מדעית.

        לגבי בסיסי נתונים גדולים, הייתי שמח לדעת יותר על שיטות שמסוגלות לנצל את העושר הזה. יש איזה שהוא פער קבוע בין אקונומטריקאים לבין כלכלנים אמפיריים כמוני וחשוב לכל צד להבין את הצרכים והיכולות של הצד השני. אני נגיד חוקר כל מני דברים שקשורים לתיעוש, הון אנושי, ילודה וגורמים נוספים בארצות הברית של המאה ה-19, ויש לי בסיסי נתונים ענקיים. יש בסיס נתונים מ 1880 שכולל את כל תושבי ארצות הברית באותה השנה, עשרות מיליוני אנשים עם מאות משתנים. אבל בסופו של דבר המחקר שלי מנסה לחפש קשרים סיבתיים, ולכן הכלים הם רגרסיות ו-IV ודברים סטנדרטיים כאלו. ממה שכתבת לא הבנתי כיצד כלים חדשים יכולים לעזור לי כחוקר.

        אהבתי

  2. אהלן רודי,
    יוזמה יפה, אבל:
    1. הפוסט די מבולגן. בניית הפוסט לא טובה מבחינת תתי הפרקים. למשל, בטוח לא היית צריך להתחיל עם העובדה שיש הרבה נתונים בחוץ, כי זה קשור לפיתרון הבעיה שאתה מציג לפני שהצגת אותה. גם החלק שמדבר על מחקר כלכלי וכל ML לא בנוי טוב.
    2. תכלס, לא כל כך הבנתי מהפוסט איך אפשר לנצל ML במחקר כלכלי, ואני בוגר תואר שני בתחום, פלוס קורס ML בקורסרה. הזכרת את המודלים בצורה מאוד כללית, מבלי לתת דוגמאות לשימושים בהם ולסיבה שהם פותרים את הבעיה שכביכול קיימת במודלים הקיימים.

    אהבתי

    1. היי ערן,
      תודה על התגובה. אני אכן לא השקעתי יותר מדי זמן במבנה הפוסט, בזמנו. אני לוקח את ההערה לתשומת ליבי.
      לגבי שאלתך, על קצה המזלג, יש הרבה מאוד סיבות לכך שהספרות ML יכולה להיות שימושית בכלכלה, אבל העיקרית מביניהן היא שהשיטות הקיימות אינן מסוגלות להתמודד עם מדגמים רחבים, או פשוט לנצל את העושר של מדגמים גדולים באופן כללי. אחד המקורות לכך הוא בעיית ה- model selection.
      אני מתכנן לכתוב פוסט על הנושאים האלה במיקוד על regularized regression מתישהו, כנראה בפברואר (שנה ב' של התואר השני לא משאירה לי יותר מדי זמן לעסוק בזה…), שם אתן דוגמאות פרקטיות.
      רודי

      אהבתי

להשאיר תגובה

הזינו את פרטיכם בטופס, או לחצו על אחד מהאייקונים כדי להשתמש בחשבון קיים:

הלוגו של WordPress.com

אתה מגיב באמצעות חשבון WordPress.com שלך. לצאת מהמערכת / לשנות )

תמונת Twitter

אתה מגיב באמצעות חשבון Twitter שלך. לצאת מהמערכת / לשנות )

תמונת Facebook

אתה מגיב באמצעות חשבון Facebook שלך. לצאת מהמערכת / לשנות )

תמונת גוגל פלוס

אתה מגיב באמצעות חשבון Google+ שלך. לצאת מהמערכת / לשנות )

מתחבר ל-%s