Q1 2023: Miscellanea (playlist)

Usare i numeri ciecamente: la fallacia di McNamara

Due note brevi sulla fallacia di McNamara (segretario della difesa USA durante la guerra in Vietnam), spesso riassunta come “fallacia quantitativa”

“the facts which count best count most". [I fatti che si contano meglio sono quelli che contano di più]

Spesso è figlia delle organizzazioni, ma colpisce (duro) individui e decisioni. Come fare a riprodurla? Ecco un tutorial (preso da qui):

As reported by Smith, Yankelovich describes the fallacy as follows:

  • “The first step is to measure whatever can be easily measured. This is okay as far as it goes.
  • The second step is to disregard that which can’t be measured or give it an arbitrary quantitative value. This is artificial and misleading.
  • The third step is to presume that what can’t be measured easily really isn’t very important. This is blindness.
  • The fourth step is to say that what can’t be easily measured really doesn’t exist. This is suicide.”

Fare previsioni, per…

Ci sono due tipi di previsioni: quelle riguardanti fenomeni conoscibili e inconoscibili. Non c’è accezione mistica in questa categorizzazione (al più gnoseologica) quanto osservazione che sempre il processo di generazione dei dati non può essere descritto nella sua interezza.

Una checklist in 4 punti è fornita da Hyndman: può essere utile a orientarsi tra problemi che si prestano a stime accurate (conoscibili) e gli altri. La predicibilità di un evento o una quantità dipende da molti fattori, tra cui:

  1. quanto a fondo capiamo i fattori che contribuiscono ad esso;
  2. quanti dati sono disponibili;
  3. quanto il futuro è simile al passato;
  4. se la previsione stessa può influenzare ciò che stiamo tentanto di prevedere.

Ciò che osserviamo nei sistemi economici è - con mio grande disappunto - parte dell’inconoscibile: spesso a causa dei motivi pratici di cui sopra. Se volete sapere perchè, ne ha parlato questa settimana Fabio Scacciavillani (economista, appunto), in podcast.

Curiosamente, ho letto recentemente il libro “Solar Power Finance Without the Jargon”, di Jenny Chase. Il libro affronta, nel contesto specifico, il problema della stima di diverse quantità relative all’energia rinnovabile e racconta come è cambiato il mondo dell’energia solare in pochi anni. L’autrice riporta storie di vita vissuta che ricordano quanto i quattro fattori di cui sopra siano sistematicamente violati (3: ops, un paese non ha prorogato gli incentivi sul fotovoltaico: quanto costeranno i pannelli l’anno prossimo?).

Un’altra cosa che vale la pena ricordare è che le predizioni possono servire per pianificare a lungo termine o addirittura per aiutare la compresione dei fenomeni - piu che descriverli federlmente:

You can also play with the inputs and look at what happens. Models are for avoiding blunders and understanding the world, not for predicting it.

Mi chiedo se non dovremmo usare due vocaboli diversi per previsioni di diversa natura. Manterrei il termine previsioni (prae-vedere) per ciò che ci si aspetta di quantificare con accuratezza punterei su presagi per il resto. Attenzione a non svilire il ruolo dei “presagi”: farsi domande sul mondo di domani è importantissimo nella vita (e nel business) e ci insegna a confrontarci con la complessità della realtà.

Chiudo con il grafico dei presagi delle installazioni di fotovoltaico, tratto dal libro di cui sopra e con il grafico delle previsioni di inflazione della ECB dell’anno scorso. Chi sa fare di meglio si accomodi, per me è la prova che fare previsioni è difficile.

pv

inflation

Covariates, exogenous and endogenous variables

Il vocabolario è importante, alcune definizioni che riporto dal glossario di stata:

Covariate. A covariate is a variable appearing on the right-hand side (RHS) of a model. Covariates can be exogenous or endogenous, but when the term is used without qualification, it usually means exogenous covariate. Covariates are also known as explanatory variables.

exogenous covariate. An exogenous covariate is a covariate that is uncorrelated with the error term in the model.

endogenous covariate. An endogenous covariate is a covariate appearing in a model 1) that is correlated with omitted variables that also affect the outcome; 2) that is measured with error;

  1. that is affected by the dependent variable; or 4) that is correlated with the model’s error.

Il manuale si fa più interessante. Per il modello: $$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + e,$$

le variabili ${x_1}$ e $x_2$ sono dette covariate esogene se:

  1. Non ci sono variabili omesse (confounding) correlate con $x_1$ o $x_2$,
  2. $x_1$, $x_2$ possono essere misurate senza errore,
  3. non c’è causazione inversa (feedback loop?), i.e. $x_1$, $x_2$ influenzano $y$ ma viceversa
  4. $x_1$, $x_2$ non sono correlati con $e$.

Strictu sensu, le covariate esogene dipendono dalle ipotesi che facciamo (e verifichiamo ex-post) più che dalla realtà che spesso violerà le 4 assunzioni di cui sopra. Un singolo evento può essere totalmente esogeno a un sistema ma una variabile più raramente lo sarà, su lunghi periodi di osservazione.

Le variabili strumentali sono una soluzione (ma ce ne sono altre)

Come provano a risolvere il problema gli economisti? Con variabili strumentali (esempio: $z_3$ correlata con la variabile endogena $w_i$ al RHS, ma non con l’outcome $y$ - se non attraverso il suo effetto su $x_i$ medesimo). Approfondimenti sugli esempi di stata 12. Ancora meglio, Sachin Date parla nel dettaglio della natura delle variabili esogene/endogene e delle variabili strumentali