DiplomaDe10 Blog Regresia liniară simplă în SPSS

Regresia liniară simplă în SPSS

Regresia liniară simplă

Regresia liniară simplă sau bivariată studiază relaţia dintre două variabile continue, cu scopul de a prezice valorile variabilei dependente pornind de la valorile variabilei independente. Ecuaţia regresiei liniare simple se scrie în felul următor:

                     (43.1)

unde este variabila dependentă, x este variabila independentă, b0 este termenul liber sau constanta, b1 este coeficientul de regresie, iar ε este valoarea reziduală sau de perturbaţie. Această valoare apare din cauza faptului că relaţia dintre variabilele dependentă şi independentă nu este una exactă, deterministă, ci una stochastică (unei valori a lui x îi pot corespunde mai multe valori ale lui y, fiecare având o anume probabilitate de apariţie). Variabila reziduală “capturează” toate influenţele asupra variabilei dependente care nu sunt explicate prin intermediul variabilei independente. Se observă uşor că se poate scrie:

 (43.2)

Expresia din paranteză este valoarea estimată a variabilei dependente y, notată de obicei cu  . Aşadar avem:

               (43.3)

Prin urmare, valoarea reziduală este diferenţa dintre valoarea reală (observată) şi cea estimată a variabilei dependente. Coeficienţii ecuaţiei de regresie (43.1) se estimează prin minimizarea sumei pătratelor valorilor reziduale pentru toate cazurile (metoda celor mai mici pătrate).

Analiza de regresie simplă se foloseşte în două scopuri. Primul dintre ele, de natură practică, este prognozarea valorii variabilei dependente atunci când se cunoaşte valoarea variabilei independente. De exemplu, dacă avem o ecuaţie de regresie liniară care descrie relaţia dintre vânzările unei companii şi bugetul alocat promovării, vom putea spune, cu un anumit nivel de încredere, în ce interval se va situa volumul vânzărilor dacă bugetul promoţional este stabilit la 125000 euro.

Al doilea scop pentru care se foloseşte regresia simplă este acela de a determina dacă şi în ce măsură variaţiile (modificările) variabilei independente antrenează modificări ale variabilei dependente. Cu alte cuvinte, regresia simplă poate măsura mărimea efectului variabilei independente asupra celei dependente. 

Acest lucru ne este util atunci când dorim să construim sau să verificăm o teorie privind relaţia dintre cele două variabile. De exemplu: cum este influenţată productivitatea angajaţilor de mărimea pachetului salarial?

Condiţiile care trebuie îndeplinite pentru a asigura validitatea rezultatelor unei analize de regresie simple sunt următoarele:

  1. Ambele variabile (dependentă şi independentă) sunt numerice.
  2. Relaţia dintre variabile este aproximativ liniară.
  3. Nu există valori extreme semnificative în seria de date.
  4. Erorile sunt independente. Cu alte cuvinte, nu există nici un fel de corelaţie între variabila de eroare şi variabila independentă.
  5. Variabila dependentă are aceeaşi varianţă pentru toate valorile variabilei independente (condiţia de homoscedasticitate).
  6. Variabila reziduală este distribuită aproximativ normal.

De precizat că analiza de regresie este suficient de robustă la încălcarea uşoară a uneia sau chiar a mai multora din aceste condiţii. Totuşi, dacă încălcările sunt grave, este posibil ca rezultatele analizei să fie afectate şi să ne conducă la concluzii eronate.

Să presupunem că participăm la un studiu având drept obiect relaţia dintre notele obţinute de studenţi la examene şi coeficientul de inteligenţă al acestora. Studiul se desfăşoară pe un eşantion de 182 studenţi, care au fost supuşi la un test de inteligenţă cu câteva zile înaintea unui examen. Atât rezultatele testului (coeficienţii de inteligenţă) cât şi notele de la examen (de la 1 la 10, cu două zecimale) au fost înregistrate în baza de date din care prezentăm mai jos un fragment:

Vom folosi analiza de regresie simplă pentru a modela relaţia dintre cele două variabile. Nota la examen (nota) este, desigur, variabila dependentă, iar variabila independentă este coeficientul de inteligenţă (iq).

Vom verifica mai întâi ipotezele 2 şi 3 de mai sus, după care vom rula analiza de regresie, în cursul căreia vom verifica şi celelalte ipoteze.

Singura modalitate de a stabili dacă relaţia dintre variabile este una aproximativ liniară este cea grafică. Trebuie aşadar să construim o diagramă de tip nor de puncte, plasând variabila independentă pe abscisă şi variabila dependentă pe ordonată. Diagrama se prezintă după cum urmează:

Se observă că norul de puncte tinde a se “grupa” în jurul unei linii drepte. Aşadar, putem considera că relaţia dintre variabilele noastre este liniară.

În situaţia în  care relaţia dintre variabile nu poate fi considerată liniară, putem fie utiliza o analiză de regresie neliniară, fie încerca să transformăm una dintre variabile cu scopul de a ajunge la o relaţie de tip liniar.

Prin inspectarea graficului din figura 43.2 putem detecta şi eventualele valori extreme din seria de date. Acestea sunt reprezentate de punctele izolate, aflate foarte departe de nor. Întrucât pe diagrama noastră nu se observă nici un astfel de punct, putem trage concluzia că nu par a exista valori extreme. Aşadar, şi cea de-a treia condiţie de mai sus este verificată.

 Desigur, există şi o metodă mai precisă de a identifica outlierii, cu ajutorul valorilor reziduale standardizate. Vom prezenta această metodă puţin mai jos.

 Acum putem apela procedura de analiză, prin comanda Analyze>Regression>Linear:

În fereastra de dialog principală introducem variabila nota în câmpul Dependent, iar variabila iq în fereastra Independent(s):

Fig. 43.4. Caseta de dialog a regresiei liniare

            Apăsăm apoi butonul Statistics. În caseta de dialog corespunzătoare sunt deja selectate opţiunile Estimates (pentru estimarea coeficienţilor de regresie) şi Model fit (pentru estimarea intensităţii legăturii dintre variabile). În afară de acestea vom mai selecta următoarele opţiuni:

  • Confidence intervals, prin care cerem programului să calculeze un interval de încredere al coeficienţilor de regresie, cu un nivel de încredere de 95%
  • Durbin-Watson, reprezentând testul de verificare a independenţei erorilor (vezi condiţia 4 de mai sus)
  • Casewise diagnostics, prin care cerem programului afişarea tuturor cazurilor pentru care valorile reziduale se găsesc la o distanţă mai mare de trei abateri standard faţă de medie (această opţiune este utilă pentru detectarea valorilor extreme).

La final caseta de dialog va arăta astfel:

Revenim la caseta de dialog principală şi apăsăm butonul Plots. În noua casetă de dialog introducem variabila ZRESID (valorile reziduale standardizate) în câmpul Y şi variabila ZPRED (valorile estimate standardizate ale variabilei dependente) în câmpul X. Aşadar, programul va construi o diagramă nor de tip nor de puncte cu aceste variabile. În plus, vom selecta şi opţiunile Histogram şi Normal probability plot. La sfârşit caseta de dialog trebuie să arate în felul următor:

Revenim la caseta de dialog principală şi apăsăm butonul Save. În noua casetă de dialog vom selecta o singură opţiune, Standardized, în chenarul Residuals:

Toate opţiunile necesare au fost selectate; putem apăsa acum butonul OK pentru a rula analiza de regresie.

Înainte de a interpreta rezultatele analizei, vom verifica ultimele trei condiţii din lista de mai sus. Vom începe cu cea mai importantă dintre ele, cea a independenţei erorilor, pentru care am cerut programului să calculeze testul Durbin-Watson. Rezultatul acestui test se găseşte în ultima coloană a tabelului numit Model Summary:

Testul Durbin-Watson ia valori cuprinse între 0 şi 4. Pentru a putea considera că ipoteza independenţei erorilor este satisfăcută, este necesar ca valoarea testului să fie situată între 1.5 şi 2.5 (în principiu, cu cât este mai aproape de 2, cu atât mai bine). Observăm că în cazul nostru valoarea este de 2.187, suficient de apropiată de 2. Putem afirma aşadar că variabila reziduală şi variabila independentă nu sunt corelate.

Dacă ipoteza de independenţă a erorilor nu este respectată, regresia liniară nu este o metodă potrivită pentru studierea relaţiilor dintre variabile. În acest caz ar trebui să apelăm la alte tehnici, cum ar fi analiza seriilor de timp. 

Pentru a verifica ipoteza de homoscedasticitate trebuie să inspectăm diagrama din figura 43.9:

Această diagramă prezintă distribuţia valorilor reziduale standardizate în functie de valorile estimate ale variabilei dependente, tot standardizate. Regula de decizie este aici următoarea: dacă norul de puncte este răspândit uniform pe suprafaţa graficului, fără a se aglomera într-o parte sau alta, atunci putem spune că ipoteza de homoscedasticitate este respectată. În cazul nostru punctele sunt împrăştiate relativ uniform, aşadar vom admite faptul că avem de-a face cu o situaţie destul de clară de homoscedasticitate.

Ce putem face dacă ne confruntăm cu o situaţie de heteroscedasticitate (cu alte cuvinte, dacă ipoteza homoscedasticităţii este încalcată)? Există două soluţii posibile. Prima este transformarea datelor în speranţa de a ajunge la homoscedasticitate. A doua constă în executarea unei analize de regresie prin metoda celor mai mici pătrate ponderate. Această tehnică avansată nu este tratată în cartea de faţă. Cititorul interesat o poate găsi, de exemplu, în cartea lui Boris Constantin, Analiza regresională (Editura Tehnopres, 2013), la pagina 131.

A rămas o singură ipoteză, cea a normalităţii distribuţiei variabilei reziduale. În figura de mai jos putem examina histograma acestei variabile, din care se observă că distribuţia ei se apropie foarte mult de curba normală:

La aceeaşi concluzie se ajunge studiind graficul P-P pentru variabila reziduală, în figura următoare:

Se constată că punctele urmează cu destulă fidelitate diagonala graficului, indicând astfel o distribuţie aproximativ normală a variabilei.

Desigur, nu întotdeauna reprezentările grafice sunt la fel de concludente; de aceea se recomandă să apelăm şi la o metodă numerică pentru a testa ipoteza de normalitate. Exact în acest scop am cerut programului să salveze într-o variabilă valorile standardizate ale erorilor. Această variabilă a fost adăugată la finalul bazei de date, după cum se vede în figura de mai jos:

           Rezultatul testului de normalitate Shapiro-Wilk pentru variabila ZRE_1 se găseşte în figura 43.12:

F43.13. Testul de normalitate pentru variabila reziduală

Întrucât avem Sig.>0.05, vom trage concluzia că variabila reziduală este distribuită aproximativ normal.

Soluţiile la care putem apela atunci când este încălcată ipoteza distribuţiei normale a variabilei reziduale sunt explicate în capitolul 17.

O ultimă precizare apropo de detectarea valorilor extreme: înainte de executarea analizei am cerut programului un diagnostic al cazurilor, pentru a identifica situaţiile în care există valori reziduale foarte îndepărtate de medie (opţiunea Casewise diagnostics). Întrucât printre tabelele de output ale analizei nu se găseşte nici unul intitulat Casewise Diagnostics, vom deduce că astfel de cazuri nu există. Aşadar, concluzia la care am ajuns prin examinarea graficului din figura 43.2 se confirmă: în seria noastră de date nu se găsesc valori extreme.

Dacă analiza ne demonstrează existenţa unor valori extreme semnificative, în capitolul 18 putem găsi o serie de soluţii posibile pentru această problemă.

Să trecem acum la interpretarea rezultatelor propriu-zise ale analizei de regresie.

Primul rezultat care ne interesează este coeficientul de determinare la modelului, notat cu R2, care se găseşte în coloana Adjusted R Square din tabelul Model Summary (vezi figura 43.8). Acest coeficient ia valori în intervalul [0, 1] şi ne arată proporţia în care variaţia variabilei dependente este explicată de variaţia variabilei independente. Aşadar, coeficientul de determinare este un indicator al mărimii efectului pentru analiza de regresie.

În cazul nostru, coeficientul de determinare este de 0.789, sau 78.9%. Aşadar, nota la examen este determinată în proporţie de 79% de coeficientul de inteligenţă a studentului şi în proporţie de 21% de alte variabile, neluate în considerare în acest model. Putem spune că influenţa variabilei “coeficient de inteligenţă” este una puternică, întrucât mărimea efectului este în jur de 0.8 (vezi tabelul 28.1).

Să examinăm în continuare rezultatele testului F din figura de mai jos:

Fig. 43.14. Rezultatul testului F

Testul F ne spune dacă există cel puţin un coeficient de regresie semnificativ diferit de zero. Întrucât valoarea Sig. este mai mică decât 0.0005, putem trage următoarea concluzie: coeficientul b1 este semnificativ diferit de zero. Aşadar, regresia liniară realizează o estimare mai bună a variabilei dependente decât cea oferită de simpla medie artimetică a acestei variabile.

Coeficienţii de regresie ai modelului se găsesc în tabelul ce urmează:

Fig. 43.15. Tabelul coeficienţilor de regresie

În coloana B sunt afişate valorile coeficienţilor, iar în coloanele t şi Sig. se găsesc rezultatele testului t pentru coeficienţi. Testul t ne spune dacă respectivul coeficient este semnificativ diferit de zero. Dacă unul dintre coeficienţii de regresie nu este diferit de zero, înseamnă că respectiva variabilă dependentă nu are practic nici un efect asupra variabilei independente (este redundantă). Precizăm că testul de semnificaţie este mai puţin important în cazul termenului liber, întrucât acest termen nu se interpretează.

În cazul nostru, atât pentru termenul liber (denumit în tabel Constant) cât şi pentru coeficientul variabilei iq avem Sig.<0.0005; deci ambii coeficienţi sunt statistic semnificativi. Cu alte cuvinte, putem generaliza rezultatele acestei analize de regresie la întreaga populaţie de studenţi din care provine eşantionul.

Ecuaţia noastră de regresie se va scrie astfel:

(43.4)

Am omis, pentru simplificare, variabila reziduală ε.

Coeficientul 0.131 al variabilei independente iq se interpretează astfel: o variaţie cu o unitate a coeficientului de inteligenţă determină o variaţie cu 0.13 puncte a notei la examen. Altfel spus, un punct în plus la coeficientul de inteligenţă aduce în medie un spor de circa 13 sutimi la notă, sau 10 puncte în plus la coeficientul de inteligenţă determină în medie un spor de 1.30 puncte la notă.

Pe baza ecuaţiei (43.4) putem prezice cu aproximaţie nota pe care o va obţine un student având un coeficient de inteligenţă dat. De exemplu, un student cu un coeficient de inteligenţă de 100 va obţine probabil nota 6.98, după cum arată calculul de mai jos:

Programul a afişat, în ultimele două coloane ale tabelului Coefficients, şi intervalele de încredere pentru fiecare coeficient în populaţia totală, cu un nivel de încredere de 95%. Mai interesant pentru noi este intervalul de încredere pentru coeficientul variabilei independente, şi anume (0.121, 0.141). Aşadar putem afirma, cu un nivel de încredere de 95%, că 10 puncte în plus la coeficientul de inteligenţă determină o creştere a notei cu o valoare cuprinsă între 1.21 şi 1.41 puncte.

Întrucât în realitate evoluţia unui fenomen este adesea determinată de mai multe influenţe, nu doar de una singură, o modalitate mai bună de a explica relaţiile dintre variabilele continue o constituie regresia liniară multiplă, cu două sau mai multe variabile independente. Vom studia în detaliu acest tip de regresie în capitolul ce urmează.

Vrei să știi cum să faci analizele în SPSS, hai în programul Diplomade10…

Îți voi arăta cum poți să scrii cu ușurință lucrarea, pentru că îți pun la dispoziție tot ce ai nevoie într-un singur program de scriere academică, în care găsești explicații, exemple concrete și pași de acțiune.

În plus, parcurgerea programului nu necesită timp, pentru că atunci când întâmpini o problemă… găsești toate informațiile într-un singur loc… nu mai trebuie să stai să le cauți singur(ă)…

De asemenea, poți accesa programul în orice moment dorești din zi și noapte, pentru că am explicat toți pașii de scrierea lucrării cu exemple concrete sub forma unor materiale video și text.

La toate acestea se adaugă îndrumarea mea directă, prin e-mail sau telefon.

Dacă ai nevoie de ajutor ca să-ți finalizezi lucrarea, hai în programul Diplomade10.

Singurul program din România dedicat scrierii academice pentru studenți.

Îți ofer toată experiența mea de profesor și cercetător științific, ca să ai o lucrare scrisă corect și interesantă din punct de vedere științific.

Îți ofer tot sprijinul meu în calitate de expert, materiale de calitate și indicațiile de scriere de care ai nevoie… ca să-ți duci la bun sfârșit lucrarea…

Totul sub forma unui plan personalizat.

Hai în programul Diplomade10, ca să-ți scrii cea mai bună lucrare.

Apasă pe butonul albastru pentru mai multe detalii.

Despre Lorena

Salut,

Sunt Lorena și sunt primul coach de scriere academică din România.

Sunt doctor în economie și am finalizat și un program de postdoctorat la o universitate de renume.

Din 2021 am devenit fondatoarea Diplomade10.ro.

Am fondat această școală pentru a-i ajuta pe studenți, masteranzi și doctoranzi să scape de teama de ce vor scrie în lucrare și mai ales cum vor scrie.

Este nevoie să evoluăm în domeniul cercetării, să venim cu noi soluții pentru a face o lume mai bună.

Dacă ai orice nelămuriri, te rog să-mi scrii. 

Lasă un mesaj

Your email address will not be published. Required fields are marked *

Alte postări asemănătoare