Regressió lineal matemàtica

Tenc un problema matemàtic (!): tothom sap que donats N punts: (x_1, y_1), \ldots, (x_N, y_N), podem trobar y=ax+b una recta que minimitza els quadrats de les distàncies de les y: l’anomenada recta de regressió (per mínims quadrats) de Y sobre X.

El problema que té aquesta recta és que, encara que les dades siguin creixents i que tothom esperi tenir valors esperats majors que els valors que es tenen, de vegades passa que \hat{y} = a\hat{x} + b < y_N amb \hat{x} > y_N; el que molts de cops no té sentit si y representa mesures creixents.

Per evitar això, me deman si existeix (estic segur que sí, el problema és trobar-la ;-) ) una recta de regressió creixent si les dades són creixents, és a dir, y = ax+b tal que \hat{y} > y_N si \hat{x} > x_N i que, òbviament, minimitzi \sum_{i = 1}^N (\hat{y}_i - y_i)^2

4 comentaris

  1. cesc:

    Hola Xavi,
    la veritat és que no crec que aquesta recta de regresió creixent teva sigui sempre una bona solució. A banda de donar massa importància a (x_N, y_N) (per què no imposar que si \tilde{x}> x_k aleshores \tilde{y}>x_k per a tot k?), també pots estar donant massa importància a una observació errònia: pensa en (1,1), (2,2), (3,3), (4,4), (5,5), (6,6) (8,7).

    Però en tot cas, pots trobar (o almenys aproximar) el que cerques de la manera següent. Cerques ax+b tal que
    a(x_N+t)+b>y_N per a tot t>0, és a dir, at+b>(y_N-ax_N) per a tot t>0. Això és equivalent a b\geq y_N-ax_N, és a dir, b=(y_N-ax_N)+c^2 per a quqalque $\latex c$.

    Així doncs, el que cercam és a i c tals que si
    \tilde{y}(x)=ax+y_N-ax_N+c^2 =a(x-x_N)+y_N+c^2,
    el valor de \sum(\tilde{y}(x_i)-x_i)^2 sigui mínim. Levat del fet que aquí la c surt elevada al quadrat, és un problema d’optimització que si no es pot resoldre, es podrà aproximar.

  2. cesc:

    Quin desastre! Què malament que queda el latex als comentaris! En fi… En tot cas, veig que he fet un error, que volieu, en aquestes hores! He suposat que a>0 (no more latex), suposo que si les dades son creixent la recta serà creixent. En el pitjor dels casos, substitueix a per a^2 i segur que tindrà pendent positiva.

  3. Xavi (Bordoy):

    Gràcies, Xesc, pels comentaris.
    Miraré si trob els valors de a i c.
    La setmana passada vaig intentar trobat una solució al problema i me va sortir que no tenia solució, encara que no record quines assumpcions vaig fer, i ara mateix no ho tenc a mà.

    Ho cercaré a veure què vaig fer i ho comentaré, i compararé amb la teva proposta.

    I sí, som conscient de què donc molta importància al darrer valor, però realment per moltes dades (per exemple la despesa en investigació, població a una zona geogràfica, etc. depenen molt fortament del darrer valor i sempre creixen)

    Ja diré coses…

    Gràcies de nou

  4. Xavi (Bordoy):

    Xesc, et diré que a mi m’ha sortit que no existeix aquesta recta. Bé, de fet, la recta y = a(x-x_{N+1}) + y_N + c^2 (impòs que y(x_{N+1}) > y_N trobava la condició y(x) > y_N per x > x_N massa forta). Me surt que a ha és negatiu el que clarament no va, ja que hem dit que els y_i són creixents.

    Si vols la demostració la tenc.

    Gràcies.

Deixa un comentari