על אקונומטריקה ולמידה חישובית

היסטורית, כלכלנים הובילו את המחקר האמפירי במדעי החברה: שיטות שפותחו על ידי אקונומטריקאים הפכו עם הזמן שכיחות בספרויות הסוציולוגיה, מדע המדינה וכיוצא בזה. בד בבד, עם השנים, המחקר הכלכלי אימץ כלים מתחומים אחרים ותרם להם. הדוגמה המובהקת ביותר היא לדעתי תורת המשחקים, אשר אפשרה את ניסוחם של מודלים רבים בכל ענפי הכלכלה הקלסיים, ממימון עד מידול סטוכסטי. למעשה, דיוקנו של ג'ון נאש המנוח בולט בתמונה המופיעה בראש רשימת זוכי הנובל לכלכלה, על אף היותו מתמטיקאי.

בעשור האחרון מתחוללת מהפכה בכל הקשור לעושר בסיסי הנתונים, לזמינותם ולמספר תחומי העיסוק המשתמשים בהם ליצירת ידע, באקדמיה ומחוץ לה. הכלים הקיימים והנמצאים בשימוש במחקר הכלכלי פותחו רובם לפני כן: עד היום, ה-OLS המאֻבק והטוב נותר השיטה הנפוצה ביותר לניתוח כמותי של תופעות כלכליות. אולם, מסתבר שהם אינם תקפים לשאיבת אינפורמציה מבסיסי נתונים במבנים ובממדים עכשוויים. בפוסט זה, אני אנסה להסביר מדוע ולהציג את כדאיותה של חשיפת כלכלנים צעירים לספרות אחרת, אשר חוברה על ידי מדעני מחשבים וסטטיסטיקאים, ששמה למידה חישובית, או באנגלית, statistical learning או machine learning (נקצר ל-ML); אסכם בחוות דעתי באשר לכיווני מחקר כלכלי עתידיים.

נתונים כיום

ראשית, חשוב להכיר את ההתקדמויות בתחום הדטה שהוזכרו לעיל. אפשר לסווג את בסיסי הנתונים המצויות בשימוש בכלכלה לשלוש קטגוריות: סדרות עתיות (תצפיות של משתנה בודד על פני תקופות), חתכי רוחב (תצפיות של מספר משתנים בנקודת זמן יחידה) ונתוני לוח (מספר משתנים, מספר תקופות). זאת, כאשר שני אפיונים נתפסים בדרך כלל כברורים מאליהם: האחד, מספר המשתנים קטן ממספר התצפיות, השני, מספר התצפיות אינו גדול (במקרים הטובים, אלפים ספורים). תבנית זו עודכנה באופן דרמטי (Einav & Levin 2014Athey@EconTalk, Cross Validated):

 ממדי בסיסי הנתונים גדולים מבעבר: כאשר נמצאות ברשות חוקר מיליוני תצפיות, ביכולתו למדל תופעות באמצעות מספר גדול של משתנים ודאגה לעוצמה סטטיסטית הופכת משנית. כמו כן, רזולוציית הנתונים הולכת ועולה: microdata (נתונים שאינם אגרגטיביים) הופכים לנורמה בענפים רבים, מתיעודי מסחר עד פרטים דמוגרפיים; זה כמובן מעמיד מול מדעני החברה אפשרויות ניתוח ברמות עומק חדשות.
זמינות נתונים בזמן אמת: תאגידים רבים יודעים להפיק ערך מזרמי המידע השוטפים ללא הרף את שרתיהם. לעומת זאת, אין כך הדבר כיום במחקר הכלכלי, האקדמי ולמדיניות כאחד (זה מתחיל לחלחל). נוסף על כך, לנתונים שונים תדירויות עדכון שונות: מניות, צפיות ב-YouTube, הצעות מחיר ב-eBay, חישובי תוצר… חסרה ספרות כלכלית העוסקת בטיפול בנתונים מסוגים אלה.
סוגי משתנים חדשים: בראשם טקסט (דוא"ל, פוסטים ותגובות ברשתות חברתיות), נתונים גאוגרפיים (Waze, תמונות לוויין), קשרי משתמשים (רשימות של חברי Facebook ושל עוקבי Twitter)… עצם קיומם מציב אתגרים חדשים בפני אקונומטריקאים, בין היתר פיתוח שיטות לזיהוי אשכולות, למידול רשתות ולטיפול במתאמים מורכבים. למתעניינים, Barrios et al. 2012 סוללים מספר נתיבי מחקר אפשריים.

חיזוי והסבר

נתווה כעת מספר קווים מנחים באקונומטריקה וב-ML. לכלכלנים יש בדרך כלל שתי מטרות כאשר ניגשים לחקור תופעה. העיקרית, רכישת כושר פרשנות סיבתית לה: האם העלאת שכר המינימום גורמת לגידול שיעור האבטלה? כיצד הטלת מס חריג על בעלי מספר דירות משפיעה על שיווי המשקל בשוק השכירות? האם ובאיזו מידה הקטנת גודל כיתה משפרת את השיגי תלמידיה ואת תוחלת הכנסתם בעתיד? מיקוד שאלות אלו הוא זיהוי המנגנונים המשרים את התופעה, תוך נטרול גורמי הרעש סביבם. המשנית, הדמיית תסריטים אלטרנטיביים הקרויים counterfactuals: אילולא הועלה שכר המינימום, מה היה שיעור האבטלה? אם האינפלציה הייתה נמוכה באחוז, מה היה שיעור הצמיחה? בשונה מהשאלות הקודמות, המיקוד כאן הוא חיזוי. לעומת זאת, ספרות ה-ML מוקדשת רובה ככולה לחיזוי, תוך דחיקה החוצה של הממד ההרמנויטי: היא מספקת תחזיות, לא הסברים. למרבה האירוניה, נדמה שבאקדמיה, חקר הלמידה החישובית יותר האייקיאנית ממקבילו בכלכלה.

להבנתי, הבדלי תפיסה אלה הם פועל יוצא מאופיים השונה של יישומי השיטות: במדעי החברה, לפחות בזרמים הפוזיטיביסטיים שביניהם, עמם המחקר הכלכלי מזוהה, המניע הוא פענוח דינמיקה חברתית ולכן המבט פונה לעבר וסיבתיות היא המוקד. לכלכלנים עניין מועט בלבד בטיב ההתאמה של המודלים לנתונים, מכוון שאינם מעוניינים (או מתיימרים) להסביר את כל היבטי התופעות הנחקרות; למעשה, מקריבים לעתים התאמה למען הסקה סיבתית. מדגימים בכל קורס מבוא לאקונומטריקה שימוש במשתני עזר לאמידת השפעתם של שינויים במחירו של מוצר על מספר היחידות הנמכרות; מנגנון השוק הרי מלמד שבהינתן היצע קבוע, ככל שהביקוש למוצר גדל, מחירו עולה אף הוא, אולם במציאות התנאי מופר. על החוקר לשלוט אפוא בהיצע, באמצעות שאיבת מידע הזמין בגורמים המשפיעים עליו באופן עקיף, כגון מבנה השוק, שכר העבודה, מחירי חומרי הגלם וכדומה. שוב, עלות הפרוצדורה בטיב חיזויי מודל, המקשר בין הגדלת ביקוש לעליית מחירים. ההשקפה שהניבה את ניסוחם של מודלי חיזוי מורכבים בספרות ה-ML מנוגדת לזו שהוצגה לעיל: על פיה, אינפורמציה קודמת למידע. מדדי הערכת ביצועי המודלים הרווחים בה מהווים אינדיקציה נוספת לכך: רוב המבחנים בלמידה מונחית (קטגוריה של שיטות חיזוי הנבנות על סמך נתוני עבר, המפרטים הן את התופעה עצמה, המכונית ground truth, הן את הגורמים לה, בשונה מלמידה בלתי מונחית, שמטרתה זיהוי אשכולות בהעדר תופעה מיוחדת) הם מבוססי cross-validation, אשר מטרתו הבטחת יכולת הכללת תוצאותיו של מודל לבסיס נתונים חדש. למשל, אם ברצון חוקר לנבא הצלחה או כישלון של ניתוח כירורגי על סמך עברו הבריאותי של אדם, באפשרותו להרכיב מודל המבוסס נתוני עבר של בית חולים מסוים, אך עליו לבדוק את תפקודו של המודל ב-CV על רשמיו של בית חולים אחר כדי לוודא כי ההתאמה לראשון אינה מקרית, או אופיינית לו בלבד, תופעה הנקראת overfitting. במלים אחרות, מודל הוא טוב אם ורק אם לניבויו שיעורי הצלחה גבוהים.

הטיה ושונות

היסטורית, כתוצאה מהחתירה לזיהוי אפקטים סיבתיים, הספרות האקונומטרית התמקדה בפיתוח אומדים חסרי הטיה, המבטאים בהסתברות גבוהה את הקשרים האמתיים בין משתני המחקר, בהינתן מדגם גדול מספיק. רוב אומדים אלה פותרים בעיית אופטימיזציה שאינה מאלצת באופן מפורש את שונותם (המכמתת את רגישותם לקבלת מידע חדש) לקיים אף תכונה: היא נתפסת כמשנית והופכת חשובה רק אם חוסר ההטיה הוכח (לא, מבחן t אינו מספיק). לעומת זאת, שונות היא אבן פינה ב-ML; למעשה, אחת הפרדיגמות המרכזיות מכונית ה-bias/variance trade-off. קיים קשר אינטואיטיבי בינה לבין טיב חיזוי: אם אומד רגיש לקבלת תצפית חדשה, הרי שהוא אינו מסוגל לנבא את התוצאה המתאימה לה בביטחון. תובנה מעניינת: התאמה מושלמת ניתנת לקבלה בכל מדגם על ידי ניסוח פולינום בדרגה גבוהה מספיק (השתמשתי באתר הזה להפקת האיורים):

degree2
רגרסיה לינארית, פולינום מדרגה 2, 8 תצפיות.
degree7
רגרסיה לינארית, פולינום מדרגה 8, 8 תצפיות.
degree2onemore
רגרסיה לינארית, פולינום מדרגה 2, 9 תצפיות.
degree8onemore
רגרסיה לינארית, פולינום מדרגה 8, 9 תצפיות.

הפולינום במדרגה 2 אֵיתן להופעת התצפית הנוספת, כלומר שונותו נמוכה. מנגד, ניבוייו רחוקים מן התצפיות, כלומר הטייתו גבוהה. לפולינום מדרגה 8 שונות גבוהה והטיה אפסית: הוא מתאים בדיוק למדגם, אך אינו ניתן להכללה אל מחוץ לו–הופעת הנקודה הנוספת שינתה את צורתו מאוד. אפשר לסכם את התחלופה כך:

errorplot
רמת המורכבות האופטימלית מסומנת באדום.

ניסוחי בעיות האופטימיזציה שהוזכרו בפסקה הקודמת מאפיינים במפורש את השונות, בדרך כלל באמצעות מגבלות. שמם regularized regression והם נראים, למשל, כך:

\hat{\beta}=\arg\min_{\beta}\dfrac{1}{2}\left\Vert X\beta-y\right\Vert _{2}^{2}+\dfrac{\lambda}{2}\left\Vert \beta\right\Vert _{1}

עם X\in\mathbb{R}^{n\times p} מטריצת p המשתנים המסבירים, y\in\mathbb{R}^{n} וקטור המשתנה המוסבר ו-\lambda \in\mathbb{R} פרמטר. הניסוח המסוים המוצג נקרא LASSO ופותח על ידי Tibshirani 1996. החלפת הנורמה ב- \ell^{2} בריבוע מניבה ridge regression, שפותח על ידי Hoerl & Kennard 1970. משתמשים לעתים קרובות גם בשילוב ביניהם, תחת הכינוי elastic net, מאת Zou & Hastie 2005. לאומדים שהם מניבים תכונות סטטיסטיות רצויות מעבר לשונות (אולם הניתנות לקישור אליה): בהעדר אילוץ, אם p>n, כלומר אם מספר המשתנים המסבירים בהם מעוניין להשתמש החוקר על מנת להסביר תופעה עולה על מספר התצפיות הזמינות לו, אינסוף ערכים של \beta ממזערים את פונקציית המטרה (במלים אחרות, overfit למדגם). ככל ש-\lambda גדל (למתעניינים, ערכו נבחר ב-cross-validation), מספר המשתנים אשר השפעתם נאמדת כשונה מאפס קטֵּן ונפתרות בו בעת בעיות הקולינאריות והממדיות; זהו הגורם העיקרי לקוטן שונות הפתרון ביחס ל-OLS. הגורם השני לכך הוא צמצום ערכם המוחלט של כל האומדים. אין ארוחות חינם: עם צמצום האומדים, הפער בינם לבין ערך ההשפעה האמתי הולך וגדל; במלים אחרות, הולכת ומחריפה הטייתם. זו אותה התחלופה בה עסקנו קודם.

הפסקה הבאה תדון ברעיון באופן מעט יותר פורמלי ואפשר לדלג עליה מבלי להפריע למהלך הקריאה. נסמן את המשתנה המוסבר באוכלוסיה ב-y\in\mathbb{R}, את המסבירים, ב-x\in\mathbb{R}^{p} ואת פונקציית האמידה, המכונית ב-ML היפותזה, ב-h_{\beta}\left(X\right). כמו כן נגדיר \epsilon \sim \mathcal{N} (0,\sigma ^{2}). נרשום:

 y=h_{\beta}\left(x \right)+\epsilon

קל להראות שתוחלת הטעות הריבועית, \mathbb{E}\left[\left(y-h_{\hat{\beta}}\left(x\right)\right)^{2}\right], שווה ל-:

\left(\mathbb{E}\left[h_{\hat{\beta}}\left(x\right)\right]-h_{\beta}\left(x\right)\right)^{2}+\mathbb{E}\left[\left(h_{\hat{\beta}}\left(x\right)-\mathbb{E}\left[h_{\hat{\beta}}\left(x\right)\right]\right)^{2}\right]+\sigma^{2}

ביטוי זה הוא פירוק MSE לגורמים, משמאל לימין: ריבוע הטיית ההיפותזה ביחס לאמת, שונותה ושונות הטעות, עליה אין שליטה–אם נשווה אותם לקבוע, גידול בהטיה גורר קיטון בשונות ולהפך. האומד הוא \arg\min_{\beta}\mathrm{MSE}, המתקבל ב-CV. ישנם קריטריונים חלופיים ל-MSE, אולם בהמשך לפוסט הקודם, כדאי להיזכר מהיכן נובעת הכדאיות המיוחדת של השימוש ב-OLS: לא רק ממשפט Gauss-Markov, אלא גם מכך שאם הטעויות iid נורמלית, השיטה שקולה ל-MLE, אשר בעלת תכונות רצויות הן סטטיסטית הן רעיונית. נקודת תורפה היא שההנחה לפיה הצורה הפונקציונלית של המודל נכונה אינה מתקיימת; בנוסף, טעויות iid הן בדרך כלל בגדר חלום. היתרונות של אומד ה-LASSO על פני זה ה-OLS הופכים אם כן ברורים לחלוטין: ראשית, מאחר שסביר להניח כי האומד OLS בפועל אינו BLUE, מחירו של שימוש באומד אחר, בעל שונות נמוכה ממנו, הוא קטן. יתרה מזו, כפי שהוסבר לפני כן, ה-LASSO מניב מודל דליל (sparse) מכוון שלכל משתנה בו מוטמן מידע מיותר מותאם אומד אפס. לבסוף, נגדיר:

r(\beta)\equiv\mathbb{E}\left[\left(y-\beta^{\intercal}x\right)^{2}\right]

B_{k}\equiv\left\{ \beta\left|\left\Vert \beta\right\Vert _{1}\leq k\right.\right\} 

r(\beta_{*})\equiv\inf_{\beta\in B_{k}} r(\beta)

כאשר בקורס שני באקונומטריקה נלמד אי השוויון Cramér-Rao, ספרות ה-ML מדגישה את מזעורם של זמני חישוב ומדדי טעות על פני קיומן של תכונות כמו נורמליות אסימפטוטית ועקיבות; למשפטי Hoeffding ו-Chernoff ייצוג רחב בה. אפשר להראות בעזרתם שאם |y|\leq B ואם \max_{j} |x_{j}|\leq B, אז מתקיים בהסתברות לפחות 1-\delta:

r \left(\beta_{\mathrm{LASSO}}\right)\leq  r\left(\beta_{*}\right)+\sqrt{\dfrac{16\cdot\left(k+1\right)^{4}\cdot B^{2}}{n}\cdot\log\left(\dfrac{\sqrt{2}\cdot d}{\sqrt{\delta}}\right)}

כלומר, תחת הנחות חלשות, טעות אומד ה-LASSO חסומה מלמעלה באופן הדוק על ידי זו של האומד הלינארי הדליל הטוב ביותר. ההוכחה מופיעה ברשימות המעולות של Larry Wasserman. הזהירים ביותר יכולים להיצמד להמלצת הפרופסור בספרו החינמי וכנראה הטוב ביותר ללמידה עצמאית The Elements of Statistical Learning ולהשתמש ב-OLS על קבוצת המשתנים ששורדת את ה-shrinkage באמידת LASSO על מנת להקטין מעט את ההטיה (הערה שלי: זה שקול להחלפת הנורמה \ell^{1} ב-\ell^{0} בניסוח המקורי).

אפשר לחזור לקרוא.

אין ספק שכלכלנים מודעים לכך שמורכבות מודל רבה אינה רצויה. למרות זאת, אני סבור שחשוב ששיטות אמידה אלו יהפכו נפוצות יותר בספרות היישומית, מכוון ש-OLS מניב בדרך כלל מודלים עם הטיה גדולה על אף/בגלל שונותו הנמוכה. הכנתי אנימציה שממחישה (ומרדדת) את הבעיה:

wz_54r
בכל תמונה מתווספות 50 תצפיות. למרות הפיזור הרב, האומד נותר קבוע: אין ביכולת הפרוצדורה לקחת בחשבון את מורכבויות המדגם.

לחוסר הפורמליות המכה את האסטרטגיות האמפיריות של רוב הפרסומים האמפיריים בכלכלה יש השלכות אדירות: מתודולוגית, חוקרים רבים מאמינים שאיכות האמידה עולה לינארית עם גודל המדגם; אין בהכרח כך הדבר ולדעתי מתבזבזים משאבים רבים בחיפוש אחר תצפיות חדשות ומיותרות. בפן אחר, מדדי טיב התאמה למדגם והשוואות ad hoc בין ספציפיקציות משמשים עד היום לבחינת אמינות אמידה ולמה שנקרא robustness, כלומר אחידות תוצאות על פני וריאציות על הנחות ומשתני הבקרה. ספרות ה-ML ביססה מזמן כי על טיב ההתאמה להימדד מחוץ למדגם האמידה. לדעתי, CV ואמצעי סיסטמטיזציה דוגמת stepwise regression, PCA, AIC ו-BIC הם בסיסיים ושימושיים מכדי להישאר אזוטריים במדעי החברה (פירוט על כך ב-Castle et al. 2009); אין ספק שפרסומן של תוצאות רבות שאינן ניתנות לשכפול היה נמנע אם הם היו מקובלים. כל זאת, בלי להתייחס למודלים הראויים לגיחוך עליהם גופים ציבוריים מסתמכים לקביעת מדיניות.

כיוונים לעתיד במחקר הכלכלי

עד כה, הצגתי את אסכולות הכלכלה והלמידה החישובית כשונות ברמה המתודולוגית. כעת, אנסה להצביע על מספר רעיוניות השקה לעתיד. המחשבה במחקר הכלכלי מכוונת על ידי גורמים רבים: שיח עכשווי, מחקר מן העבר, ציפיות להכרה, הערכת סיכויי פרסום… ולצערי, זמינות נתונים: לעתים קרובות, מחקר מתבצע בעקבות מציאת בסיס נתונים עשיר, או רעיון ל-IV מעניין, על אף שטבעי היה שהמטרה תקדם לאמצעים. אם כן, אני צופה להתקדמויות בניתוחי השפעות הטרוגניות של טיפולים (בז'רגון, ניסויים כלכליים, למשל מימוש רפורמת מס חדשה), למשל על פני פלחי אוכלוסיה שונים ברמות הגאוגרפית, החברתית, התרבותית וכן הלאה, בליווי שקיעה בשימושים ב-L/ATE, שיטה הנועדת למדוד את השפעתו הממוצעת של טיפול, תוך הבנה כי זיהוי הטרוגני בלתי אפשרי בהינתן רזולוציית נתונים נמוכה.

בעיות כלכליות עוסקות בתופעות דיסקרטיות או בינריות, למשל הצטרפות לחברת ביטוח או בחירת אלטרנטיבה מתוך קבוצת מוצרים. השיטות הרווחות לניתוחן הן וריאציות על רגרסיה לוגיסטית, לרוב probit, conditional logit, ו-tobit. ענף ב-ML מתמסר לאותן סוגיות הסיווג והכלים השימושיים ביותר הם ה-support vector machine, רשתות הנוירונים וה-CART (עצי החלטה שפותחו על ידי Breiman et al. 1984) או הכללתם ל-random forests, עליהם נרחיב עתה. הרעיון ה-CART הוא מידול ההיבטים שאינם לינאריים בהשפעתו של משתנה מסוים על תוצאה, תוך פיצול בסיס הנתונים לתתי-מדגמים באופן איטרטיבי על מנת למזער פונקציית עלות. ריבוי הפיצולים מזכיר עלי עצים–משם השם. ביצועי החיזוי שלהם טובים בבעיות מורכבות ויתרונם הכלכלי על פני שאר השיטות שמיניתי היא נוחות פרשנות התוצאות. Random forests הם במהותם מיצוע פשוט על פני CART רבים ונתפסים כיום כאחת משיטות הרגרסיה העוצמתיות ביותר. כל עץ מוצמח על סמך תת-מדגם שונה, בדרך כלל bootstrapped, כאשר בכל עלה נבחר אוסף משתנים מסבירים אחר. החלטת הסיווג מתקבלת על פי הצבעת רוב לאחר הצמחת היער כולו. יתכן שאקונומטריקאים ייזכרו ברגרסיית kernel: ההבדל העיקרי בין שתי השיטות הוא אופן בחירת המשתנים החשובים להסבר התופעה, שבשיטה האחרונה נעשית על ידי החוקר, בניגוד ל-random forests מוכוונות הנתונים. עד שנה שעברה, נטייה חזקה לאמידה מוטית ואי התאמתה להסקה סיבתית חסמו את השיטה מהמחלקות לכלכלה. ב-2015, Wager & Athey הציעו גרסה עקיבה ונורמלית אסימפטוטית והתאמה להסקה סיבתית קרמה עור וגידים ב-Athey & Imbens 2015, אשר סביר להניח שתהפוך יקרת ערך ככל שממדי המדגמים הכלכליים יגדלו.

אני מקווה שהצלחתי לעניין אתכם בנושא. אישית, אני מתכנן לכתוב עליו תזה.

Rationality and the winner's curse

Classical economic theory generally considers behavior as rational, and processes empirical observations into theoretical frameworks under the infamous rationality assumptions¹, which essentially boil down to the imposition of a "revealed preferences" constraint on the actions of the agent at stake. In layman terms, this means that whenever one acts, one does so in an optimal fashion, in one's own eyes, thereby revealing what his or her preferences are. For instance, if one orders a cup of tea instead of the coffee alternative, we may learn that he or she favors the former over the latter, assuming no budget concern from either choice. One may extrapolate this characterization to more concrete scenarios: for instance, a CEO is expected to manage his or her company in an optimal fashion, which is equivalent to stating that firms maximize profit given their knowledge of competition, costs, and profitability prospects. A practical example is the following: governments often publish auctions, say, for the realization of real estate projects. Any number of competitors may step in and compete for the rights to carry out the construction; common sense informs us that the auction's participants have a good reason to be such, namely, cash expectations. Surely the winner must earn profit… well, it turns out not always to be the case. We will come back to this later.

The revealed preferences axiom has its limits. To realize this, it suffices to examine a most mundane situation: grocery shopping. Thousands of goods lie on most supermarkets' shelves. To select the best cart, one should optimize the division of the weekly budget given the available products, their prices, and of course personal requirements. Assuming 1000 different products and a binary "buy/do not buy" choice for each one of them would imply the comparison of 2^{1000} baskets, which is lies far beyond the computing power of a human brain (and of anything else, for that matter). This suggests the use of heuristic rules in decision making, such as the following:

  • One knows whether lavender-scented parquet cleaners are needed or not, at any given time; whenever it is not the case, they are not considered at all.
  • One does not select the best achievable basket, but a reasonably good one, according to some threshold. By this, I mean that, denoting a basket b and a utility function u(b), one does not select \arg\max_{b} u(b) but rather some \tilde{b}\in\left\{ b|u\left(b\right)>\underline{u}\right\}, with \underline{u} said minimal threshold.

A whole branch of economic research deals with what is called, in academic jargon, "bounded rationality," which expands on such concepts². In practice, optimization problems should arise whenever information is not complete, that is, when the agents make decisions under uncertainty, since humans generally fail at accounting for probabilistic world states. Empirically, to our purposes, an interesting phenomenon stems from such calculation errors: the winner's curse, which roughly states that in auctions, winners exhibit a tendency to bet more than what winning is worth to him or her.

Going back to the construction rights auction helps providing some intuition for the result. Assume that the government sells the construction rights to the highest bidder at the proposed price (i.e., conducts a "first-price auction") and that, for the sake of simplicity, construction firms usually know how to correctly assess the expected revenue from a project, as well as the costs it implies, due to their wide knowledge of the market. Along those lines, profitability should display low variation across the players: the industry being complex, all competitors would be experts, yielding aggressive competition. All bids are submitted "sealed:" they are private information to each one of the bidders. Under our settings, the average bid should lie near the actual profitability of the project. It is straightforward to conclude that the winner is likely to be at a loss: the average being close the the true value implies that the winner overbids.

We finally present a simple game theoretic example (which may safely be skipped).
Let a Bayesian game G have common value payoffs v\left(t_{1},t_{2}\right)=\beta_{1}t_{1}+\beta_{2}t_{2} with t_{i} the type of firm i, i\in{1,2} (which easily generalizes), \beta_{i}>0. The type denotes the perceived profitability, is uniformly distributed in [0,1]^{2}, and v simply denotes some weighted average of these subjective appraisals.
Suppose \beta_{1}=\beta_{2}=100  and consider the strategy s_{i}\left(t_{i}\right)=100t_{i} . If t_{i}=0.1 , s_{i}\left(t_{i}\right)=10 , and \mathbb{E}[v|t_{1}=0.1]=100\cdot0.1+100\cdot\mathbb{E}[t_{2}]=60 . An error that firm 1 might make would be to compute the expected revenue conditional on its own type, omitting the critical conditioning on winning (that is, on offering the highest price), in which case, given that \mathbb{E}[v|t_{1}]=60  and that s_{2}\left(t_{2}\right)=100\cdot t_{2} (denoting a_{1} its strategy): \arg\max_{a_{1}}\Pr\left(a_{1}>s_{2}\left(t_{2}\right)\right)\cdot\left(60-a_{1}\right) = 30 .  Yet, it would be misguided for firm 1 to bid s_{1}=30100\cdot 0.1+100\cdot\mathbb{E}[t_{2}|t_{2}<0.3]=25<30, thus losing 5.

The central tenet here is the common value: if there is large variance in the assessments the firms make, there is no reason the highest bid would not be worthwhile.

_________________________________________________________________

¹ While this is absolutely contingent on our discussion, it constitutes a good opportunity to sneak in the Mas-Colell, Winston & Green (1995), section 1.B reference for curious non-academics who which to enhance their orthodoxy-bashing apparatus. The exposition provided thereby is clear and critical enough to reference Kahneman & Tversky (1984) outright.

² A good introduction to this subject is Kahneman's Nobel lecture (2002). A more in-depth reference is Rubinstein's Modeling bounded rationality (1999).

מטא-ביקורת בונה על אקונומטריקה

שתי ביקורות נפוצות בקרב סטודנטים על אקונומטריקה כפי שהיא נלמדת בקורסי תואר ראשון הן חוסר המציאותיות של ההנחות המאפשרות אמידה ובפרט של לינאריות משוואת האמידה. על אף שהביקורות הללו אינן שגויות כשלעצמן, חלקן אינן מוצדקות מכוון שבקיצור, אמידת מודל אינו ניסיון להסביר את המציאות באופן גורף אלא קשר מסוים בין שני משתנים, או שתי תופעות, ותו לא.

אקונומטריקאים בדרך כלל עובדים עם מדגם של תצפיות שלכל אחת מהן הצורה \left\{ \mathbf{x}_{i},y_{i}\right\}, עם \mathbf{x}_{i}=\left(x_{1i}\ x_{2i}\ ...\ x_{ki}\right)  וקטור של משתנים (למשל גיל, השכלה, מצב משפחתי וכדומה). הבחירה במילה "מדגם" אינה מקרית: הצעד הראשון לכיוון הסבר הקשרים הפועלים ביסוד הנתונים הנצפים הוא ההנחה שקיים מרחב הסתברות, שנגדיר כעת, כך שהמדגם הוא למעשה אוסף של ריאליזציות אקראיות של משתנים מקריים \left(\mathbf{X}_{i},Y_{i}\right)  בעלי התפלגות משותפת מסוימת. מרחב הסתברות הוא שלשה \left(\Omega,\mathcal{F},\mathbb{P}\right) \Omega  קרוי מרחב מדגם: קבוצה המונה את כל התוצאות האפשריות של ניסוי. למשל, אם נתייחס להטלה יחידה של קובייה רגילה, מרחב המדגם יהיה \Omega=\left\{ \left\{ 1\ is\ obtained\right\} ,\left\{ 2\ is\ obtained\right\} ,...,\left\{ 6\ is\ obtained\right\} \right\}  . חוקר יכול להגדיר \Omega  כרצונו במסגרת מערך ניסוי יחיד: במקום המספר שהקוביה מציגה אחרי זריקה, אפשר לבחור את מספר הסיבובים השלמים שהיא עושה סביב עצמה עד שנעצרת (במקרה זה, \Omega=\mathbb{Z}_{+} ). \mathcal{F}  הוא סיגמא-אלגברה: קבוצה הכוללת כל רצף של תוצאות אפשריות של אפס, אחד, או יותר איטרציות של הניסוי (שתוצאות כל אחת מהן שייכות כולן ל- \Omega ). נכנה את איברים של \mathcal{F}  מאורעות ונגדיר למשל \mathcal{F}=2^{\Omega}: כל תתי הקבוצות של \Omega , קבוצה ריקה ו-\Omega  עצמו. נמדוד את ההסתברות שמאורע התרחש באמצעות מידת הסתברות \mathbb{P} , פונקציה שמחזירה מספר בין 0 ל-1 לכל מאורע ב-\mathcal{F} . נשים לב ש-\Omega  ולכן גם \mathcal{F} אינן כוללת מספרים אלא תיאורים של תוצאות: תפקידו של משתנה מקרי הוא לשייך ערך מספרי לכל מאורע. בדוגמא שלנו, נרשום \mathbf{X}:\Omega\rightarrow\left\{ 1,2,...,6\right\}  , כלומר \mathbf{X}  לוקח איבר ב-\Omega  ומשייך לו מספר בין 1 ל-6. אם היינו מגדירים את \Omega  באופן אחר, למשל כך שבנוסף למספר שהתקבל היה נקלט מספר הסיבובים השלמים שהקוביה עשתה סביב עצמה ואת מספר השעות שעברו מאז חצות בזמן ביצוע הניסוי, היינו מקבלים  \mathbf{X}:\Omega\rightarrow\left\{ 1,...,6\right\} \times\mathbb{Z}_{+}\times\left\{ 0,...,23\right\}  . נדגיש שתי נקודות חשובות: \Omega  הוא אמירה פוזיטיבית על העולם, שתלויה בפרשנות המציאות של החוקר ובחוויתו. בניגוד לו, \mathbb{P}  הוא עצמו אמירה אובייקטיבית בהנתן \Omega . המדגם עצמו מושפע משיטת הדגימה שנבחרה.

עד כאן, תאוריה סטטיסטית טהורה; נעבור לתוכן כלכלי (יותר). גישה בסיסית באקונומטריקה היא הנחת הקיום של משוואה מהצורה הבאה:

 y=\mathbf{x}\cdot\beta+\varepsilon  

עם \beta\in\mathbb{R}^{k}  וקטור של פרמטרים שתפקידם לבצע סילום של \mathbf{x}\in\mathbb{R}^{k}  כך שהמכפלה תניב את y\in\mathbb{R} , כאשר \varepsilon\in\mathbb{R}  הוא הפרעה אקראית להתאמה מושלמת (שנהוג לפרש כמשתנים בלתי נצפים שגם משפיעים על y  אך אינם נשלטים במודל); במלים אחרות, \varepsilon  אנכי למרחב שפורש \mathbf{x} . ההנחה החזקה ביותר כאן אינה הלינאריות כשלעצמה, אלא קיומו של \beta  כזה, הרי הוא גורר קיום קשר קבוע בין \mathbf{x}  לבין y  וסטייה מקרית לחלוטין בינהם. כמו כן, אם \mathbf{x}  אכן רלוונטי ומספיק להסביר את y , קשה לטעון שהיכולת לסכום את סך הסילומים של האיברים של \mathbf{x}  מופרכת. הבעיה אם כן פשוטה: \beta  אינו יודע, אך ניתן לאמידה בתנאי שתהליך איסוף הנתונים נעשה כהלכה, כלומר באופן רנדומלי. נראה כיצד במשך.

באופן כללי יותר, אפשר לנסח:

y=m\left(\mathbf{x};\beta\right)+\varepsilon

עם m:\mathbb{R}^{2k}\rightarrow\mathbb{R}  פונקציית ההתאמה, שאינה בהכרח לינארית. עלינו להבין מהו הקשר על מנת לפתח תהליך אמידה: יש להבחין בין הערך המספרי של \beta , לבין הסיבה לכך שהוא קיבל את ערך כזה, שאינה נובעת רק מ-m . סיבה אפשרית יכולה להיות שבהנתן m , הפרמטר \beta ממזער את הסטיות בערך מוחלט בין \mathbf{x}  לבין y , או את הסטיות הריבועית, או משהו אחר. את פונקציה הזו נסמן \ell , עבור loss. אזי אפשר להעריך את m  עצמו על ידי \hat{m}  כך:

(1)\qquad\hat{m} = \arg\min_{m:\mathbb{R}^{2k}\rightarrow\mathbb{R}}\sum_{i=1}^{n}\ell\left(y_{i}-m\left(\mathbf{x}_{i};\beta\right)\right)

עבור מדגם מגודל n. הבחירה של \ell  היא בעייה בפני עצמה ולא ניכנס אליה כאן. הבעיה היא שאין אנו יודעים מהו ערכו של \beta  ולעומת זאת עדיין מעוניינים להניח את קיומו (הרי ביטול ההנחה היה מאפשר לאמוד את m ), כי איבר מסוים בו הוא התוכן הכלכלי בגללו מבצעים מחקר: השפעה של משתנה מסוים x_{j}\in\mathbb{R}  על y . המוטיבציה היא כוח פרשנות, לא כוח הסבר: הצדקה מעט גסה לנוכחות שאר האיברים של \mathbf{x}  במשוואה הוא שהם צפויים להשפיע על y  אף הם ובד בבד להיות מתואמים עם x_{j}  ולכן, כאשר מפקחים עליהם, "מנקים" מ- \beta_{j}  את השפעתם, כדי להשאיר בו את הקשר הסיבתי בין x_{j}  ל-y בלבד. כמובן שקיום קשר כזה הוא גם הנחה, אבל לא הנחה נוספת: הוא למעשה תוצאה מקיום הצורה הפונקציונלית m\left(\mathbf{x};\beta\right) . מה עושים? בפשטות, מניחים מהי m  א-פריורי. נוכל אם כן לאמוד את \beta  על ידי \hat{\beta}

\hat{\beta}=\arg\min_{\beta}\sum_{i=1}^{n}\ell\left(y_{i}-m\left(\mathbf{x}_{i};\beta\right)\right)

בחזרה ל-\ell . מסתבר שיש לצורה \ell\left(\cdot\right)=\cdot^{2}  תכונות מאוד רצויות מבחינה אקונומטרית. לא נעמיק לגבי המוטיבציה העומדת מאחורי בחירה זו (אפשר למצוא הצדקה מפרושת בטקסטבוק החינמי והמעולה של ברוס האנסן¹), אבל נאמר בקצרה שתחת תנאים מסוימים, הדימיון בין \hat{\beta}  ל-\beta  יגדל יחד עם מספר התצפיות. בעיית האופטימיזציה היא:

 (2)\qquad\hat{\beta}=\arg\min_{\beta}\sum_{i=1}^{n}\left(y_{i}-m\left(\mathbf{x}_{i};\beta\right)\right)^{2}

אחד התנאים הנ"ל הוא שהתצפיות יהיו .i.i.d: הן בלתי תלויות זו בזו ונובעות מאותה ההתפלגות. במלים, התוצאה של ניסוי בודד אינה מושפעת מתוצאות הניסויים האחרים. זו הנחה שאינה סבירה במיוחד ושניתנת לביטול, אולם היא בדרך כלל נעשית על מנת להקל על האמידה, בהתחשב בכך שאפשר לפצות את חוסר המציאותיות באמצעות שיטת אמידה מתאימה ובעיקר מודעות לו. נשים לב שלא היינו צריכים את ההנחה i.i.d. על מנת לאמוד את (1) או (2). במקרה הראשון, מספיק היה לוותר על הנחת קיומו של \beta  על מנת להסביר את הקשר בין \mathbf{x}  לבין y באמצעות פונקציה ללא פרמטרים. ההסבר היה אמין כל עוד, כאמור, התצפיות היו נאספות באופן רנדומלי, אבל יהיה קשה לזהות את ההשפעה של איבר בודד של \mathbf{x}  על y . מנגד, ההנחה נדרשת על מנת להבטיח תוצאות אמינות ב-(2), שיהיו מפורטות יותר. קיימות שיטות מתקדמות יותר המאפשרות להחליש את ההנחה .i.i.d, אבל הן מחליפות אותה במגבלות אחרות.

לסיכום, נפנה למאמר Policy analysis with incredible certitude של צ'רלס מנסקי², בו הוא מציע את הפשרה הבאה:

“An analyst can resolve the tension between the credibility and power of assumptions by posing alternative assumptions of varying credibility and determining the conclusions that follow in each case.”


¹  http://www.ssc.wisc.edu/~bhansen/econometrics/

²  http://economics.wustl.edu/files/economics/imce/policy_certitude_tlk.pdf