Găsiți online parametrii dependenței liniare prin metoda celor mai mici pătrate. Analiză de regresie liniară pe perechi

Aproximăm funcția printr-un polinom de gradul 2. Pentru a face acest lucru, calculăm coeficienții sistemului normal de ecuații:

, ,

Să compunem un sistem normal de cele mai mici pătrate, care are forma:

Soluția sistemului este ușor de găsit:, , .

Astfel, polinomul de gradul II se găsește: .

Referință teoretică

Înapoi la pagină<Введение в вычислительную математику. Примеры>

Exemplul 2. Aflarea gradului optim al unui polinom.

Înapoi la pagină<Введение в вычислительную математику. Примеры>

Exemplul 3. Derivarea unui sistem normal de ecuații pentru găsirea parametrilor unei dependențe empirice.

Să derivăm un sistem de ecuații pentru determinarea coeficienților și funcțiilor , care efectuează aproximarea rădăcină pătrată medie a funcției date în raport cu punctele. Compuneți o funcție și scrie pentru ea conditie necesara extremum:

Atunci sistemul normal va lua forma:

Am obținut un sistem liniar de ecuații pentru parametrii necunoscuți și care este ușor de rezolvat.

Referință teoretică

Înapoi la pagină<Введение в вычислительную математику. Примеры>

Exemplu.

Date experimentale despre valorile variabilelor Xși la sunt date în tabel.

Ca urmare a alinierii lor, funcția

Folosind metoda celor mai mici pătrate, aproximați aceste date cu o dependență liniară y=ax+b(găsiți parametri Ași b). Aflați care dintre cele două linii este mai bună (în sensul metodei celor mai mici pătrate) aliniază datele experimentale. Faceți un desen.

Esența metodei celor mai mici pătrate (LSM).

Problema este de a găsi coeficienții de dependență liniară pentru care funcția a două variabile Ași bia cea mai mică valoare. Adică având în vedere datele Ași b suma abaterilor pătrate ale datelor experimentale de la linia dreaptă găsită va fi cea mai mică. Acesta este punctul întreg al metodei celor mai mici pătrate.

Astfel, soluția exemplului se reduce la găsirea extremului unei funcții a două variabile.

Derivarea formulelor pentru găsirea coeficienților.

Se compilează și se rezolvă un sistem de două ecuații cu două necunoscute. Găsirea derivatelor parțiale ale funcțiilor prin variabile Ași b, echivalăm aceste derivate cu zero.

Rezolvăm sistemul de ecuații rezultat prin orice metodă (de exemplu metoda de substitutie sau metoda lui Cramer) și obțineți formule pentru găsirea coeficienților folosind metoda celor mai mici pătrate (LSM).

Cu date Ași b funcţie ia cea mai mică valoare. Dovada acestui fapt este dată mai jos în textul de la sfârșitul paginii.

Aceasta este întreaga metodă a celor mai mici pătrate. Formula pentru găsirea parametrului A conține sumele , , , și parametrul n este cantitatea de date experimentale. Se recomandă ca valorile acestor sume să fie calculate separat.

Coeficient b găsit după calcul A.

Este timpul să ne amintim de exemplul original.

Soluţie.

În exemplul nostru n=5. Completam tabelul pentru comoditatea calculării sumelor care sunt incluse în formulele coeficienților necesari.

Valorile din al patrulea rând al tabelului se obțin prin înmulțirea valorilor celui de-al 2-lea rând cu valorile celui de-al 3-lea rând pentru fiecare număr i.

Valorile din al cincilea rând al tabelului se obțin prin pătrarea valorilor din al doilea rând pentru fiecare număr i.

Valorile ultimei coloane a tabelului sunt sumele valorilor de pe rânduri.

Folosim formulele metodei celor mai mici pătrate pentru a găsi coeficienții Ași b. Înlocuim în ele valorile corespunzătoare din ultima coloană a tabelului:

Prin urmare, y=0,165x+2,184 este linia dreaptă de aproximare dorită.

Rămâne să aflăm care dintre rânduri y=0,165x+2,184 sau aproximează mai bine datele originale, adică să facă o estimare folosind metoda celor mai mici pătrate.

Estimarea erorii metodei celor mai mici pătrate.

Pentru a face acest lucru, trebuie să calculați sumele abaterilor pătrate ale datelor originale din aceste linii și , o valoare mai mică corespunde unei linii care aproximează mai bine datele originale în ceea ce privește metoda celor mai mici pătrate.

De la , apoi linia y=0,165x+2,184 aproximează mai bine datele originale.

Ilustrare grafică a metodei celor mai mici pătrate (LSM).

Totul arată grozav în topuri. Linia roșie este linia găsită y=0,165x+2,184, linia albastră este , punctele roz sunt datele originale.

Pentru ce este, pentru ce sunt toate aceste aproximări?

Eu personal folosesc pentru a rezolva probleme de netezire a datelor, probleme de interpolare și extrapolare (în exemplul original, vi se poate cere să găsiți valoarea valorii observate y la x=3 sau când x=6 conform metodei MNC). Dar vom vorbi mai multe despre asta mai târziu într-o altă secțiune a site-ului.

Începutul paginii

Dovada.

Așa că atunci când este găsit Ași b funcția ia cea mai mică valoare, este necesar ca în acest moment matricea formei pătratice a diferenţialului de ordinul doi pentru funcţie a fost pozitiv definit. Să arătăm.

Diferenţialul de ordinul doi are forma:

Acesta este

Prin urmare, matricea formei pătratice are forma

iar valorile elementelor nu depind de Ași b.

Să arătăm că matricea este definită pozitivă. Acest lucru necesită ca unghiul minori să fie pozitiv.

Minor unghiular de ordinul întâi . Inegalitatea este strictă, deoarece punctele nu coincid. Acest lucru va fi implicat în cele ce urmează.

Minor unghiular de ordinul doi

Să demonstrăm asta metoda de inductie matematica.

Concluzie: valori găsite Ași b corespund celei mai mici valori a funcției , prin urmare, sunt parametrii doriti pentru metoda celor mai mici pătrate.

A înțeles vreodată?
Comandați o soluție

Începutul paginii

Elaborarea unei prognoze folosind metoda celor mai mici pătrate. Exemplu de rezolvare a problemei

Extrapolarea este o metoda cercetare științifică, care se bazează pe distribuția tendințelor trecute și prezente, modele, relații cu dezvoltarea viitoare a obiectului de prognoză. Metodele de extrapolare includ metoda mediei mobile, metoda netezirii exponențiale, metoda celor mai mici pătrate.

Esență metoda celor mai mici pătrate constă în minimizarea sumei abaterilor pătrate dintre valorile observate şi cele calculate. Valorile calculate se găsesc în funcție de ecuația selectată - ecuația de regresie. Cu cât distanța dintre valorile reale și cele calculate este mai mică, cu atât prognoza este mai precisă pe baza ecuației de regresie.

Analiza teoretică a esenței fenomenului studiat, a cărui modificare este afișată printr-o serie temporală, servește drept bază pentru alegerea unei curbe. Considerații despre natura creșterii nivelurilor seriei sunt uneori luate în considerare. Deci, dacă creșterea producției este de așteptat într-o progresie aritmetică, atunci netezirea este efectuată în linie dreaptă. Dacă se dovedește că creșterea este exponențială, atunci netezirea trebuie făcută în funcție de funcția exponențială.

Formula de lucru a metodei celor mai mici pătrate : Y t+1 = a*X + b, unde t + 1 este perioada de prognoză; Уt+1 – indicator prezis; a și b sunt coeficienți; X este un simbol al timpului.

Coeficienții a și b se calculează după următoarele formule:

unde, Uf - valorile reale ale seriei de dinamică; n este numărul de niveluri din seria temporală;

Netezirea seriilor de timp prin metoda celor mai mici pătrate servește la reflectarea tiparelor de dezvoltare a fenomenului studiat. În exprimarea analitică a unei tendințe, timpul este considerat ca o variabilă independentă, iar nivelurile seriei acționează în funcție de această variabilă independentă.

Dezvoltarea unui fenomen nu depinde de câți ani au trecut de la punctul de plecare, ci de ce factori au influențat dezvoltarea lui, în ce direcție și cu ce intensitate. Din aceasta rezultă clar că dezvoltarea unui fenomen în timp apare ca urmare a acțiunii acestor factori.

Stabilirea corectă a tipului de curbă, tipul de dependență analitică de timp este una dintre cele mai dificile sarcini ale analizei pre-predictive. .

Alegerea tipului de funcție care descrie tendința, ai cărui parametri sunt determinați prin metoda celor mai mici pătrate, este în majoritatea cazurilor empirică, prin construirea unui număr de funcții și compararea lor între ele în funcție de valoarea rădăcinii. eroare pătratică medie, calculată prin formula:

unde Uf - valorile reale ale seriei de dinamică; Ur – valorile calculate (netezite) ale seriei de timp; n este numărul de niveluri din seria temporală; p este numărul de parametri definiți în formulele care descriu tendința (tendința de dezvoltare).

Dezavantajele metodei celor mai mici pătrate :

  • atunci când se încearcă descrierea fenomenului economic studiat folosind o ecuație matematică, prognoza va fi precisă pentru o perioadă scurtă de timp și ecuația de regresie ar trebui recalculată pe măsură ce devin disponibile noi informații;
  • complexitatea selecției ecuației de regresie, care poate fi rezolvată folosind programe de calculator standard.

Un exemplu de utilizare a metodei celor mai mici pătrate pentru a dezvolta o prognoză

O sarcină . Există date care caracterizează nivelul șomajului în regiune, %

  • Construiți o prognoză a ratei șomajului în regiune pentru lunile noiembrie, decembrie, ianuarie, folosind metodele: medie mobilă, netezire exponențială, cele mai mici pătrate.
  • Calculați erorile din prognozele rezultate folosind fiecare metodă.
  • Comparați rezultatele obținute, trageți concluzii.

Soluția celor mai mici pătrate

Pentru rezolvare, vom alcătui un tabel în care vom face calculele necesare:

ε = 28,63/10 = 2,86% exactitatea prognozeiînalt.

Concluzie : Compararea rezultatelor obţinute în calcule metoda mediei mobile , netezire exponenţială și metoda celor mai mici pătrate, putem spune că eroarea relativă medie în calcule prin metoda de netezire exponențială se încadrează în 20-50%. Aceasta înseamnă că precizia predicției în acest caz este doar satisfăcătoare.

În primul și al treilea caz, acuratețea prognozei este mare, deoarece eroarea relativă medie este mai mică de 10%. Dar metoda mediei mobile a făcut posibilă obținerea unor rezultate mai fiabile (prognoză pentru noiembrie - 1,52%, prognoză pentru decembrie - 1,53%, prognoză pentru ianuarie - 1,49%), deoarece eroarea relativă medie la utilizarea acestei metode este cea mai mică - 1 ,13%.

Metoda celor mai mici pătrate

Alte articole conexe:

Lista surselor utilizate

  1. Recomandări științifice și metodologice privind problemele diagnosticării riscurilor sociale și prognozării provocărilor, amenințărilor și consecințelor sociale. Universitatea Socială de Stat din Rusia. Moscova. 2010;
  2. Vladimirova L.P. Prognoza si planificare in conditii de piata: Proc. indemnizatie. M .: Editura „Dashkov and Co”, 2001;
  3. Novikova N.V., Pozdeeva O.G. Prognoza economie nationala: Ajutor didactic. Ekaterinburg: Editura Ural. stat economie universitate, 2007;
  4. Slutskin L.N. Curs MBA în previziunea afacerilor. Moscova: Alpina Business Books, 2006.

Programul MNE

Introduceți datele

Date și aproximare y = a + b x

i- numărul punctului experimental;
x i- valoarea parametrului fix la punct i;
y eu- valoarea parametrului măsurat în punct i;
ω i- greutate de măsurare la punct i;
y i, calc.- diferenţa dintre valoarea măsurată şi valoarea calculată din regresie y la punct i;
S x i (x i)- estimarea erorii x i la măsurare y la punct i.

Date și aproximare y = k x

i x i y eu ω i y i, calc. Δy i S x i (x i)

Faceți clic pe diagramă

Manual de utilizare pentru programul online MNC.

În câmpul de date, introduceți pe fiecare linie separată valorile lui `x` și `y` la un punct experimental. Valorile trebuie separate prin spații albe (spațiu sau tab).

A treia valoare poate fi greutatea punctului lui `w`. Dacă greutatea punctului nu este specificată, atunci aceasta este egală cu unu. În majoritatea covârșitoare a cazurilor, ponderile punctelor experimentale sunt necunoscute sau necalculate; toate datele experimentale sunt considerate echivalente. Uneori, ponderile din intervalul de valori studiat nu sunt cu siguranță echivalente și pot fi chiar calculate teoretic. De exemplu, în spectrofotometrie, greutățile pot fi calculate folosind formule simple, deși practic toată lumea neglijează acest lucru pentru a reduce costurile cu forța de muncă.

Datele pot fi lipite prin clipboard dintr-o foaie de calcul dintr-o suită de birou, cum ar fi Excel din Microsoft Office sau Calc din Open Office. Pentru a face acest lucru, în foaia de calcul, selectați intervalul de date de copiat, copiați în clipboard și inserați datele în câmpul de date de pe această pagină.

Pentru a calcula prin metoda celor mai mici pătrate, sunt necesare cel puțin două puncte pentru a determina doi coeficienți `b` - tangenta unghiului de înclinare a dreptei și `a` - valoarea tăiată de linia dreaptă pe `y ` axa.

Pentru a estima eroarea coeficienților de regresie calculați, este necesar să setați numărul de puncte experimentale la mai mult de două.

Metoda celor mai mici pătrate (LSM).

Cum mai multa cantitate puncte experimentale, cu atât estimarea statistică a coeficienților este mai exactă (datorită scăderii coeficientului Student) și estimarea mai apropiată de estimarea eșantionului general.

Obținerea valorilor la fiecare punct experimental este adesea asociată cu costuri semnificative ale forței de muncă, prin urmare, se efectuează adesea un număr compromis de experimente, ceea ce oferă o estimare digerabilă și nu duce la costuri excesive ale forței de muncă. De regulă, numărul de puncte experimentale pentru o dependență liniară a celor mai mici pătrate cu doi coeficienți este ales în regiunea de 5-7 puncte.

O scurtă teorie a celor mai mici pătrate pentru dependența liniară

Să presupunem că avem un set de date experimentale sub formă de perechi de valori [`y_i`, `x_i`], unde `i` este numărul unei măsurători experimentale de la 1 la `n`; `y_i` - valoarea valorii măsurate în punctul `i`; `x_i` - valoarea parametrului pe care îl setăm în punctul `i`.

Un exemplu este operarea legii lui Ohm. Schimbând tensiunea (diferența de potențial) între secțiunile circuitului electric, măsurăm cantitatea de curent care trece prin această secțiune. Fizica ne oferă dependența găsită experimental:

„I=U/R”,
unde `I` - puterea curentului; `R` - rezistenta; `U` - tensiune.

În acest caz, `y_i` este valoarea curentului măsurat, iar `x_i` este valoarea tensiunii.

Ca un alt exemplu, luați în considerare absorbția luminii de către o soluție a unei substanțe în soluție. Chimia ne dă formula:

`A = εl C`,
unde „A” este densitatea optică a soluției; `ε` - transmitanța soluției; `l` - lungimea drumului când lumina trece printr-o cuvă cu o soluție; `C` este concentrația substanței dizolvate.

În acest caz, `y_i` este densitatea optică măsurată `A`, iar `x_i` este concentrația substanței pe care am stabilit-o.

Vom lua în considerare cazul în care eroarea relativă în setarea lui `x_i` este mult mai mică decât eroarea relativă în măsurarea lui `y_i`. Vom presupune, de asemenea, că toate valorile măsurate ale lui `y_i` sunt aleatorii și distribuite normal, de exemplu. respectă legea distribuției normale.

În cazul unei dependențe liniare a lui `y` de `x`, putem scrie dependența teoretică:
`y = a + bx`.

Din punct de vedere geometric, coeficientul `b` denotă tangenta pantei dreptei la axa `x`, iar coeficientul `a` - valoarea lui `y` în punctul de intersecție a dreptei cu ` axa y` (cu `x = 0`).

Aflarea parametrilor dreptei de regresie.

În experiment, valorile măsurate ale lui `y_i` nu pot sta exact pe linia teoretică din cauza erorilor de măsurare, care sunt întotdeauna inerente în viata reala. Prin urmare, o ecuație liniară trebuie reprezentată printr-un sistem de ecuații:
`y_i = a + b x_i + ε_i` (1),
unde `ε_i` este eroarea de măsurare necunoscută a lui `y` în al `i`-lea experiment.

Dependența (1) se mai numește regresie, adică dependenţa celor două mărimi una faţă de alta cu semnificaţie statistică.

Sarcina restabilirii dependenței este de a găsi coeficienții `a` și `b` din punctele experimentale [`y_i`, `x_i`].

Pentru a găsi coeficienții `a` și `b` se folosește de obicei metoda celor mai mici pătrate(MNK). Este un caz special al principiului maximului probabilitate.

Să rescriem (1) ca `ε_i = y_i - a - b x_i`.

Apoi suma erorilor pătrate va fi
`Φ = sum_(i=1)^(n) ε_i^2 = sum_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

Principiul metodei celor mai mici pătrate este de a minimiza suma (2) în raport cu parametrii `a` și `b`.

Minimul este atins atunci când derivatele parțiale ale sumei (2) față de coeficienții `a` și `b` sunt egale cu zero:
`frac(partial Φ)(partial a) = frac(partial sum_(i=1)^(n) (y_i - a - b x_i)^2)(partial a) = 0`
`frac(partial Φ)(partial b) = frac(partial sum_(i=1)^(n) (y_i - a - b x_i)^2)(partial b) = 0`

Extinderea derivatelor, obținem un sistem de două ecuații cu două necunoscute:
`sum_(i=1)^(n) (2a + 2bx_i - 2y_i) = sum_(i=1)^(n) (a + bx_i - y_i) = 0`
`sum_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

Deschidem parantezele și transferăm sumele independente de coeficienții doriti în cealaltă jumătate, obținem un sistem de ecuații liniare:
`sum_(i=1)^(n) y_i = a n + b sum_(i=1)^(n) bx_i`
`sum_(i=1)^(n) x_iy_i = o sumă_(i=1)^(n) x_i + b sum_(i=1)^(n) x_i^2`

Rezolvând sistemul rezultat, găsim formule pentru coeficienții `a` și `b`:

`a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 - sum_(i=1)^(n) x_i sum_(i=1)^(n) ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n sum_(i=1)^(n) x_iy_i - sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 - (sum_(i=1)^(n) x_i)^2)` (3.2)

Aceste formule au soluții când `n > 1` (linia poate fi trasă folosind cel puțin 2 puncte) și când determinantul `D = n sum_(i=1)^(n) x_i^2 — (sum_(i= 1) )^(n) x_i)^2 != 0`, adică. când punctele `x_i` din experiment sunt diferite (adică când linia nu este verticală).

Estimarea erorilor în coeficienții dreptei de regresie

Pentru o estimare mai precisă a erorii în calcularea coeficienților `a` și `b`, este de dorit un număr mare de puncte experimentale. Când `n = 2`, este imposibil să se estimeze eroarea coeficienților, deoarece linia de aproximare va trece în mod unic prin două puncte.

Eroare variabilă aleatorie`V` este definit legea acumulării erorilor
`S_V^2 = sum_(i=1)^p (frac(partial f)(partial z_i))^2 S_(z_i)^2`,
unde `p` este numărul de parametri `z_i` cu eroare `S_(z_i)` care afectează eroarea `S_V`;
`f` este o funcție de dependență a lui `V` pe `z_i`.

Să scriem legea cumulării erorilor pentru eroarea coeficienților `a` și `b`
`S_a^2 = sum_(i=1)^(n)(frac(partial a)(partial y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(partial a) )(partial x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(partial a)(partial y_i))^2 `,
`S_b^2 = sum_(i=1)^(n)(frac(parțial b)(parțial y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(parțial b) )(parțial x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(parțial b)(parțial y_i))^2 `,
deoarece `S_(x_i)^2 = 0` (am făcut anterior o rezervă că eroarea lui `x` este neglijabilă).

`S_y^2 = S_(y_i)^2` - eroarea (varianță, abatere standard pătrată) în dimensiunea `y`, presupunând că eroarea este uniformă pentru toate valorile `y`.

Înlocuind formulele de calcul „a” și „b” în expresiile rezultate, obținem

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 - x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) „(4.2)

În majoritatea experimentelor reale, valoarea lui `Sy` nu este măsurată. Pentru a face acest lucru, este necesar să se efectueze mai multe măsurători (experimente) paralele la unul sau mai multe puncte ale planului, ceea ce crește timpul (și eventual costul) experimentului. Prin urmare, de obicei se presupune că abaterea lui `y` de la linia de regresie poate fi considerată aleatorie. Estimarea varianței „y” în acest caz este calculată prin formula.

`S_y^2 = S_(y, rest)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

Divizorul `n-2` apare deoarece am redus numărul de grade de libertate datorită calculului a doi coeficienți pentru același eșantion de date experimentale.

Această estimare se mai numește și varianța reziduală relativă la dreapta de regresie `S_(y, rest)^2`.

Evaluarea semnificației coeficienților se realizează după criteriul Studentului

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Dacă criteriile calculate `t_a`, `t_b` sunt mai mici decât criteriile de tabel `t(P, n-2)`, atunci se consideră că coeficientul corespunzător nu este semnificativ diferit de zero cu o probabilitate dată `P`.

Pentru a evalua calitatea descrierii unei relații liniare, puteți compara `S_(y, rest)^2` și `S_(bar y)` relativ la medie folosind criteriul Fisher.

`S_(bar y) = frac(sum_(i=1)^n (y_i - bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i=) 1)^n y_i) /n)^2) (n-1)` - eșantion estimare a varianței lui `y` față de medie.

Pentru a evalua eficacitatea ecuației de regresie pentru descrierea dependenței, se calculează coeficientul Fisher
`F = S_(bar y) / S_(y, rest)^2`,
care este comparat cu coeficientul Fisher tabelar `F(p, n-1, n-2)`.

Dacă `F > F(P, n-1, n-2)`, diferența dintre descrierea dependenței `y = f(x)` folosind ecuația de regresie și descrierea folosind media este considerată semnificativă statistic cu probabilitate `P`. Acestea. regresia descrie dependența mai bine decât răspândirea lui `y` în jurul mediei.

Faceți clic pe diagramă
pentru a adăuga valori la tabel

Metoda celor mai mici pătrate. Metoda celor mai mici pătrate înseamnă determinarea parametrilor necunoscuți a, b, c, dependența funcțională acceptată

Metoda celor mai mici pătrate înseamnă determinarea unor parametri necunoscuți a, b, c,... dependenta functionala acceptata

y = f(x,a,b,c,...),

care ar furniza un minim al pătratului mediu (varianta) erorii

, (24)

unde x i , y i - mulţime de perechi de numere obţinute din experiment.

Deoarece condiția pentru extremul unei funcții a mai multor variabile este condiția ca derivatele sale parțiale să fie egale cu zero, atunci parametrii a, b, c,... sunt determinate din sistemul de ecuații:

; ; ; … (25)

Trebuie amintit că metoda celor mai mici pătrate este folosită pentru a selecta parametrii după forma funcției y = f(x) definit.

Dacă din considerente teoretice este imposibil să tragem concluzii despre care ar trebui să fie formula empirică, atunci trebuie să ne ghidăm după reprezentări vizuale, în primul rând o reprezentare grafică a datelor observate.

În practică, cel mai adesea limitat la următoarele tipuri de funcții:

1) liniară ;

2) a pătratică .

Este utilizat pe scară largă în econometrie sub forma unei interpretări economice clare a parametrilor săi.

Regresia liniară se reduce la găsirea unei ecuații de formă

sau

Tip ecuație permite valorile parametrilor date X au valori teoretice ale caracteristicii efective, substituind valorile reale ale factorului în ea X.

Construirea unei regresii liniare se reduce la estimarea parametrilor ei − Ași în. Estimările parametrilor de regresie liniară pot fi găsite prin diferite metode.

Abordarea clasică a estimării parametrilor de regresie liniară se bazează pe cele mai mici pătrate(MNK).

LSM permite obținerea unor astfel de estimări ale parametrilor Ași în, sub care suma abaterilor pătrate ale valorilor reale ale trăsăturii rezultate (y) din calculat (teoretic) minim minim:

Pentru a găsi minimul unei funcții, este necesar să se calculeze derivatele parțiale în raport cu fiecare dintre parametri. Ași bși echivalează-le cu zero.

Notăm cu S, atunci:

Transformând formula, obținem următorul sistem de ecuații normale pentru estimarea parametrilor Ași în:

Rezolvând sistemul de ecuații normale (3.5) fie prin metoda eliminării succesive a variabilelor, fie prin metoda determinanților, găsim estimările parametrilor dorite. Ași în.

Parametru în numit coeficient de regresie. Valoarea acestuia arată modificarea medie a rezultatului cu o modificare a factorului cu o unitate.

Ecuația de regresie este întotdeauna completată cu un indicator al etanșeității conexiunii. Când se utilizează regresia liniară, coeficientul de corelație liniară acționează ca un astfel de indicator. Există diverse modificări ale formulei coeficientului de corelație liniară. Unele dintre ele sunt enumerate mai jos:

După cum știți, coeficientul de corelație liniară este în limitele: -1 1.

Pentru a evalua calitatea selecției unei funcții liniare, se calculează pătratul

Un coeficient de corelație liniară numit coeficient de determinare. Coeficientul de determinare caracterizează proporția varianței caracteristicii efective y, explicată prin regresie, în varianța totală a trăsăturii rezultate:

În consecință, valoarea 1 - caracterizează proporția de dispersie y, cauzate de influenţa altor factori neluaţi în considerare în model.

Întrebări pentru autocontrol

1. Esența metodei celor mai mici pătrate?

2. Câte variabile oferă o regresie pe perechi?

3. Ce coeficient determină strânsoarea legăturii dintre modificări?

4. În ce limite se determină coeficientul de determinare?

5. Estimarea parametrului b în analiza corelației-regresiune?

1. Christopher Dougherty. Introducere în econometrie. - M.: INFRA - M, 2001 - 402 p.

2. S.A. Borodich. Econometrie. Minsk LLC „Noi cunoștințe” 2001.


3. R.U. Rahmetov Curs scurtîn econometrie. Tutorial. Almaty. 2004. -78s.

4. I.I. Eliseeva.Econometrie. - M.: „Finanțe și statistică”, 2002

5. Revista lunară de informare și analitică.

Modele economice neliniare. Modele de regresie neliniară. Conversie variabilă.

Modele economice neliniare..

Conversie variabilă.

coeficient de elasticitate.

Dacă există relații neliniare între fenomenele economice, atunci acestea sunt exprimate folosind funcțiile neliniare corespunzătoare: de exemplu, o hiperbolă echilaterală , parabole de gradul doi etc.

Există două clase de regresii neliniare:

1. Regresii care sunt neliniare în raport cu variabilele explicative incluse în analiză, dar liniare în raport cu parametrii estimați, de exemplu:

Polinoame de diferite grade - , ;

Hiperbola echilaterală - ;

Funcția semilogaritmică - .

2. Regresii care sunt neliniare în parametrii estimați, de exemplu:

Putere -;

Demonstrativ -;

Exponenţial - .

Suma totală a abaterilor pătrate ale valorilor individuale ale atributului rezultat la din valoarea medie este cauzată de influența multor factori. Împărțim condiționat întregul set de motive în două grupuri: factorul x studiatși alti factori.

Dacă factorul nu afectează rezultatul, atunci linia de regresie de pe grafic este paralelă cu axa Ohși

Atunci întreaga dispersie a atributului rezultat se datorează influenței altor factori și suma totală a abaterilor pătrate va coincide cu reziduul. Dacă alți factori nu afectează rezultatul, atunci ai legat Cu X funcțional, iar suma reziduală a pătratelor este zero. În acest caz, suma abaterilor pătrate explicate prin regresie este aceeași cu suma totală a pătratelor.

Deoarece nu toate punctele câmpului de corelație se află pe linia de regresie, împrăștierea lor are loc întotdeauna ca datorită influenței factorului X, adică regresie la pe X,şi cauzate de acţiunea altor cauze (variaţie inexplicabilă). Adecvarea liniei de regresie pentru prognoză depinde de ce parte din variația totală a trăsăturii laține seama de variația explicată

Evident, dacă suma abaterilor pătrate datorate regresiei este mai mare decât suma reziduală a pătratelor, atunci ecuația de regresie este semnificativă statistic și factorul X are un impact semnificativ asupra rezultatului. y.

, adică cu numărul de libertate de variație independentă a caracteristicii. Numărul de grade de libertate este legat de numărul de unități ale populației n și de numărul de constante determinate din aceasta. În raport cu problema studiată, numărul de grade de libertate ar trebui să arate câte abateri independente de la P

Evaluarea semnificației ecuației de regresie în ansamblu este dată cu ajutorul lui F- Criteriul lui Fisher. În acest caz, se propune o ipoteză nulă că coeficientul de regresie este egal cu zero, adică. b= 0 și, prin urmare, factorul X nu afectează rezultatul y.

Calculul direct al criteriului F este precedat de o analiză a varianței. Centrală este expansiunea sumei totale a abaterilor pătrate ale variabilei la din valoarea medie laîn două părți - „explicat” și „neexplicat”:

Suma totală a abaterilor pătrate;

Suma pătratelor abaterii explicată prin regresie;

Suma reziduală a abaterii pătrate.

Orice sumă a abaterilor pătrate este legată de numărul de grade de libertate , adică cu numărul de libertate de variație independentă a caracteristicii. Numărul de grade de libertate este raportat la numărul de unități de populație n si cu numarul de constante determinate din acesta. În raport cu problema studiată, numărul de grade de libertate ar trebui să arate câte abateri independente de la P posibil este necesar pentru a forma o sumă dată de pătrate.

Dispersia pe grad de libertateD.

Raporturi F (criteriul F):

Dacă ipoteza nulă este adevărată, atunci factorul și variațiile reziduale nu diferă unul de celălalt. Pentru H 0, este necesară o infirmare, astfel încât varianța factorului să depășească de câteva ori rezidualul. Statisticianul englez Snedecor a dezvoltat tabele de valori critice F-relaţii la diferite niveluri de semnificaţie ale ipotezei nule şi un număr diferit de grade de libertate. Valoarea tabelului F-criteriul este valoarea maximă a raportului varianțelor care poate apărea dacă acestea diverge aleatoriu pentru un anumit nivel de probabilitate a prezenței unei ipoteze nule. Valoarea calculată F-relația este recunoscută ca de încredere dacă o este mai mare decât cea tabelară.

În acest caz, ipoteza nulă despre absența unei relații de trăsături este respinsă și se face o concluzie despre semnificația acestei relații: F fapt > F tabel H 0 este respins.

Dacă valoarea este mai mică decât tabelul F fapt ‹, tabel F, atunci probabilitatea ipotezei nule este mai mare decât un nivel dat și nu poate fi respinsă fără riscul serios de a trage o concluzie greșită despre prezența unei relații. În acest caz, ecuația de regresie este considerată nesemnificativă statistic. N o nu se abate.

Eroarea standard a coeficientului de regresie

Pentru a evalua semnificația coeficientului de regresie, valoarea acestuia este comparată cu eroarea sa standard, adică se determină valoarea reală t-Testul studentului: care este apoi comparat cu valoarea tabelului la un anumit nivel de semnificație și cu numărul de grade de libertate ( n- 2).

Eroare standard parametru A:

Semnificația coeficientului de corelație liniară este verificată pe baza mărimii erorii coeficient de corelație r:

Varianta totală a unei caracteristici X:

Regresia liniară multiplă

Construirea modelului

Regresie multiplă este o regresie a unei caracteristici eficiente cu doi sau mai mulți factori, adică un model al formei

Regresia poate da un rezultat bun în modelare dacă influența altor factori care afectează obiectul de studiu poate fi neglijată. Comportamentul variabilelor economice individuale nu poate fi controlat, adică nu este posibil să se asigure egalitatea tuturor celorlalte condiții pentru evaluarea influenței unui factor studiat. În acest caz, ar trebui să încercați să identificați influența altor factori introducându-i în model, adică să construiți o ecuație de regresie multiplă: y = a+b 1 x 1 +b 2 +…+b p x p + .

Scopul principal al regresiei multiple este de a construi un model cu un număr mare de factori, determinând în același timp influența fiecăruia dintre ei în mod individual, precum și impactul lor cumulativ asupra indicatorului modelat. Specificarea modelului include două domenii de întrebări: selecția factorilor și alegerea tipului de ecuație de regresie

Eu sunt un programator. Am făcut cel mai mare salt din cariera mea când am învățat să spun: "Eu nu înțeleg nimic!" Acum nu mi-e rușine să-i spun luminatorului științei că el îmi ține o prelegere, că nu înțeleg despre ce îmi vorbește, luminatorul. Și este foarte greu. Da, este greu și jenant să recunoști că nu știi. Cui îi place să recunoască că nu știe elementele de bază ale ceva-acolo. În virtutea profesiei mele, trebuie să asist la un număr mare de prezentări și prelegeri, unde, mărturisesc, în marea majoritate a cazurilor îmi este somnoros, pentru că nu înțeleg nimic. Și nu înțeleg pentru că problema uriașă a situației actuale în știință constă în matematică. Se presupune că toți elevii sunt familiarizați cu absolut toate domeniile matematicii (ceea ce este absurd). Să recunoști că nu știi ce este un derivat (că acesta este puțin mai târziu) este păcat.

Dar am învățat să spun că nu știu ce este înmulțirea. Da, nu știu ce este o subalgebră peste o algebră Lie. Da, nu știu de ce sunt necesare ecuații patratice în viață. Apropo, dacă ești sigur că știi, atunci avem despre ce să vorbim! Matematica este o serie de trucuri. Matematicienii încearcă să încurce și să intimideze publicul; unde nu există confuzie, nici reputație, nici autoritate. Da, este prestigios să vorbești într-un limbaj cel mai abstract posibil, ceea ce este un nonsens în sine.

Știți ce este un derivat? Cel mai probabil îmi veți spune despre limita relației de diferență. În primul an de matematică la Universitatea de Stat din Sankt Petersburg, Viktor Petrovici Khavin mă definit derivată ca coeficient al primului termen al seriei Taylor al funcției la punctul (a fost o gimnastică separată pentru a determina seria Taylor fără derivate). Am râs multă vreme de această definiție, până am înțeles în sfârșit despre ce este vorba. Derivata nu este altceva decât o măsură a cât de mult funcția pe care o diferențiem este similară cu funcția y=x, y=x^2, y=x^3.

Acum am onoarea de a preda studenți care frică matematică. Dacă ți-e frică de matematică - suntem pe drum. De îndată ce încerci să citești ceva text și ți se pare că este prea complicat, atunci știi că este prost scris. Susțin că nu există o singură zonă a matematicii despre care să nu se poată vorbi despre „pe degete” fără a pierde acuratețea.

Provocare viitoare: Mi-am instruit studenții să înțeleagă ce este un controler liniar-quadratic. Nu fi timid, pierde trei minute din viața ta, urmărește linkul. Dacă nu înțelegi nimic, atunci suntem pe drum. Nici eu (matematician-programator profesionist) nu am inteles nimic. Și vă asigur că asta se poate rezolva „pe degete”. Momentan nu știu ce este, dar vă asigur că vom reuși să ne dăm seama.

Așadar, prima prelegere pe care o voi ține studenților mei după ce vor alerga la mine îngroziți cu cuvintele că un controler liniar-quadratic este un bug teribil pe care nu îl vei stăpâni niciodată în viața ta este metodele celor mai mici pătrate. Puteți rezolva ecuații liniare? Dacă citiți acest text, atunci cel mai probabil nu.

Deci, având în vedere două puncte (x0, y0), (x1, y1), de exemplu, (1,1) și (3,2), sarcina este de a găsi ecuația unei drepte care trece prin aceste două puncte:

ilustrare

Această linie dreaptă ar trebui să aibă o ecuație ca următoarea:

Aici alfa și beta ne sunt necunoscute, dar două puncte ale acestei linii sunt cunoscute:

Puteți scrie această ecuație sub formă de matrice:

Aici ar trebui să facem o digresiune lirică: ce este o matrice? O matrice nu este altceva decât o matrice bidimensională. Acesta este un mod de stocare a datelor, nu ar trebui să i se mai acorde valori. Depinde de noi cum să interpretăm exact o anumită matrice. Periodic, o voi interpreta ca o mapare liniară, periodic ca o formă pătratică și uneori pur și simplu ca un set de vectori. Toate acestea vor fi clarificate în context.

Să înlocuim matricele specifice cu reprezentarea lor simbolică:

Apoi (alfa, beta) pot fi găsite cu ușurință:

Mai precis pentru datele noastre anterioare:

Ceea ce duce la următoarea ecuație a unei drepte care trece prin punctele (1,1) și (3,2):

Bine, totul este clar aici. Și să găsim ecuația unei drepte care trece prin Trei puncte: (x0,y0), (x1,y1) și (x2,y2):

Oh-oh-oh, dar avem trei ecuații pentru două necunoscute! Matematicianul standard va spune că nu există o soluție. Ce va spune programatorul? Și va rescrie mai întâi sistemul anterior de ecuații în următoarea formă:

În cazul nostru, vectorii i, j, b sunt tridimensionali, prin urmare, (în cazul general) nu există o soluție pentru acest sistem. Orice vector (alfa\*i + beta\*j) se află în planul acoperit de vectorii (i, j). Dacă b nu aparține acestui plan, atunci nu există soluție (egalitatea în ecuație nu poate fi atinsă). Ce să fac? Să căutăm un compromis. Să notăm prin e(alfa, beta) cum exact nu am atins egalitatea:

Și vom încerca să minimizăm această eroare:

De ce un pătrat?

Căutăm nu doar minimul normei, ci și minimul pătratului normei. De ce? Punctul minim în sine coincide, iar pătratul dă o funcție netedă (o funcție pătratică a argumentelor (alfa,beta)), în timp ce doar lungimea dă o funcție sub formă de con, nediferențiabilă la punctul minim. Brr. Square este mai convenabil.

Evident, eroarea este minimizată atunci când vectorul e ortogonală cu planul acoperit de vectori iși j.

Ilustrare

Cu alte cuvinte: căutăm o dreaptă astfel încât suma pătratelor lungimii distanțelor de la toate punctele la această dreaptă să fie minimă:

UPDATE: aici am un jamb, distanța până la linie trebuie măsurată pe verticală, nu proiecție ortografică. Acest comentator este corect.

Ilustrare

Cu cuvinte complet diferite (atenție, prost formalizate, dar ar trebui să fie clar pe degete): luăm toate liniile posibile între toate perechile de puncte și căutăm linia medie între toate:

Ilustrare

O altă explicație pe degete: atașăm un arc între toate punctele de date (aici avem trei) și linia pe care o căutăm, iar linia stării de echilibru este exact ceea ce căutăm.

Forma cuadratică minimă

Deci, având în vedere vectorul b iar planul acoperit de coloanele-vectori ai matricei A(în acest caz (x0,x1,x2) și (1,1,1)), căutăm un vector e cu un pătrat minim de lungime. Evident, minimul este realizabil doar pentru vector e, ortogonal cu planul acoperit de coloanele-vectori ai matricei A:

Cu alte cuvinte, căutăm un vector x=(alfa, beta) astfel încât:

Vă reamintesc că acest vector x=(alfa, beta) este minimul funcției pătratice ||e(alfa, beta)||^2:

Aici este util să ne amintim că matricea poate fi interpretată la fel ca și forma pătratică, de exemplu, matricea de identitate ((1,0),(0,1)) poate fi interpretată ca o funcție a x^2 + y ^2:

formă pătratică

Toată această gimnastică este cunoscută sub numele de regresie liniară.

Ecuația Laplace cu condiția la limită Dirichlet

Acum, cea mai simplă problemă reală: există o anumită suprafață triangulată, este necesar să o neteziți. De exemplu, să încărcăm modelul feței mele:

Commit-ul original este disponibil. Pentru a minimiza dependențele externe, am luat codul programului meu de redare software, deja pe Habré. Pentru a rezolva sistemul liniar, folosesc OpenNL , este un solutor grozav, dar este foarte greu de instalat: trebuie să copiați două fișiere (.h + .c) în folderul proiectului. Toată netezirea se face prin următorul cod:

Pentru (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&face = fețe[i]; pentru (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

Coordonatele X, Y și Z sunt separabile, le netezesc separat. Adică rezolv trei sisteme de ecuații liniare, fiecare cu același număr de variabile ca numărul de vârfuri din modelul meu. Primele n rânduri ale matricei A au doar un 1 pe rând, iar primele n rânduri ale vectorului b au coordonatele modelului original. Adică, fac legătura între noua poziție de vârf și vechea poziție de vârf - cele noi nu ar trebui să fie prea departe de cele vechi.

Toate rândurile ulterioare ale matricei A (faces.size()*3 = numărul de muchii ale tuturor triunghiurilor din grilă) au o apariție de 1 și o apariție de -1, în timp ce vectorul b are componente zero opuse. Aceasta înseamnă că am pus un arc pe fiecare margine a rețelei noastre triunghiulare: toate marginile încearcă să obțină același vârf ca punctele lor de început și de sfârșit.

Încă o dată: toate nodurile sunt variabile și nu se pot abate departe de poziția lor inițială, dar în același timp încearcă să devină asemănătoare între ele.

Iată rezultatul:

Totul ar fi bine, modelul este cu adevărat netezit, dar s-a îndepărtat de marginea inițială. Hai sa schimbam putin codul:

Pentru (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

În matricea noastră A, pentru vârfurile care sunt pe margine, nu adaug un rând din categoria v_i = verts[i][d], ci 1000*v_i = 1000*verts[i][d]. Ce se schimbă? Și asta schimbă forma noastră pătratică a erorii. Acum, o singură abatere de la partea de sus la margine va costa nu o unitate, ca înainte, ci 1000 * 1000 de unități. Adică am atârnat un arc mai puternic pe vârfurile extreme, soluția preferă să le întindă pe altele mai puternic. Iată rezultatul:

Să dublăm puterea arcurilor dintre vârfuri:
nlCoeficient(față[ j ], 2); nlCoeficient(față[(j+1)%3], -2);

Este logic că suprafața a devenit mai netedă:

Și acum chiar de o sută de ori mai puternic:

Ce este asta? Imaginează-ți că am scufundat un inel de sârmă în apă cu săpun. Drept urmare, pelicula de săpun rezultată va încerca să aibă cea mai mică curbură posibil, atingând aceeași margine - inelul nostru de sârmă. Este exact ceea ce am obținut fixând chenarul și cerând o suprafață netedă în interior. Felicitări, tocmai am rezolvat ecuația Laplace cu condițiile la limită Dirichlet. Suna bine? Dar, de fapt, un singur sistem de ecuații liniare de rezolvat.

Ecuația Poisson

Să avem un alt nume grozav.

Să presupunem că am o imagine ca aceasta:

Toată lumea este bună, dar nu-mi place scaunul.

Am tăiat poza în jumătate:



Și voi alege un scaun cu mâinile mele:

Apoi voi trage tot ce este alb în mască în partea stângă a imaginii și, în același timp, voi spune pe parcursul întregii imagini că diferența dintre doi pixeli vecini ar trebui să fie egală cu diferența dintre doi pixeli vecini ai imaginii. imagine dreapta:

Pentru (int i=0; i

Iată rezultatul:

Exemplu din viața reală

În mod deliberat nu am făcut rezultate lins, pentru că. Am vrut doar să arăt exact cum poți aplica metodele celor mai mici pătrate, acesta este un cod de antrenament. Să dau acum un exemplu din viață:

Am o serie de fotografii cu mostre de țesături precum aceasta:

Sarcina mea este să fac texturi fără sudură din fotografii de această calitate. În primul rând, caut (automat) un model care se repetă:

Dacă decupez acest patrulater chiar aici, atunci din cauza distorsiunilor, marginile nu vor converge, iată un exemplu de model repetat de patru ori:

Text ascuns

Iată un fragment în care cusătura este clar vizibilă:

Prin urmare, nu voi tăia de-a lungul unei linii drepte, iată linia de tăiere:

Text ascuns

Și iată modelul repetat de patru ori:

Text ascuns

Și fragmentul său pentru a fi mai clar:

Deja mai bine, tăierea nu a mers în linie dreaptă, ocolind tot felul de bucle, dar totuși cusătura este vizibilă datorită iluminării neuniforme din fotografia originală. Aici vine în ajutor metoda celor mai mici pătrate pentru ecuația Poisson. Iată rezultatul final după alinierea luminii:

Textura s-a dovedit perfect fără sudură și toate acestea automat dintr-o fotografie de o calitate foarte mediocră. Nu vă fie frică de matematică, căutați explicații simple și veți avea noroc la inginerie.

Exemplu.

Date experimentale despre valorile variabilelor Xși la sunt date în tabel.

Ca urmare a alinierii lor, funcția

Folosind metoda celor mai mici pătrate, aproximați aceste date cu o dependență liniară y=ax+b(găsiți parametri Ași b). Aflați care dintre cele două linii este mai bună (în sensul metodei celor mai mici pătrate) aliniază datele experimentale. Faceți un desen.

Esența metodei celor mai mici pătrate (LSM).

Problema este de a găsi coeficienții de dependență liniară pentru care funcția a două variabile Ași b ia cea mai mică valoare. Adică având în vedere datele Ași b suma abaterilor pătrate ale datelor experimentale de la linia dreaptă găsită va fi cea mai mică. Acesta este punctul întreg al metodei celor mai mici pătrate.

Astfel, soluția exemplului se reduce la găsirea extremului unei funcții a două variabile.

Derivarea formulelor pentru găsirea coeficienților.

Se compilează și se rezolvă un sistem de două ecuații cu două necunoscute. Găsirea derivatelor parțiale ale funcțiilor prin variabile Ași b, echivalăm aceste derivate cu zero.

Rezolvăm sistemul de ecuații rezultat prin orice metodă (de exemplu metoda de substitutie sau metoda lui Cramer) și obțineți formule pentru găsirea coeficienților folosind metoda celor mai mici pătrate (LSM).

Cu date Ași b funcţie ia cea mai mică valoare. Dovada acestui fapt este dată sub textul de la sfârșitul paginii.

Aceasta este întreaga metodă a celor mai mici pătrate. Formula pentru găsirea parametrului A conține sumele ,, și parametrul n- cantitatea de date experimentale. Se recomandă ca valorile acestor sume să fie calculate separat. Coeficient b găsit după calcul A.

Este timpul să ne amintim de exemplul original.

Soluţie.

În exemplul nostru n=5. Completam tabelul pentru comoditatea calculării sumelor care sunt incluse în formulele coeficienților necesari.

Valorile din al patrulea rând al tabelului se obțin prin înmulțirea valorilor celui de-al 2-lea rând cu valorile celui de-al 3-lea rând pentru fiecare număr i.

Valorile din al cincilea rând al tabelului se obțin prin pătrarea valorilor din al doilea rând pentru fiecare număr i.

Valorile ultimei coloane a tabelului sunt sumele valorilor de pe rânduri.

Folosim formulele metodei celor mai mici pătrate pentru a găsi coeficienții Ași b. Înlocuim în ele valorile corespunzătoare din ultima coloană a tabelului:

Prin urmare, y=0,165x+2,184 este linia dreaptă de aproximare dorită.

Rămâne să aflăm care dintre rânduri y=0,165x+2,184 sau aproximează mai bine datele originale, adică să facă o estimare folosind metoda celor mai mici pătrate.

Estimarea erorii metodei celor mai mici pătrate.

Pentru a face acest lucru, trebuie să calculați sumele abaterilor pătrate ale datelor originale din aceste linii și , o valoare mai mică corespunde unei linii care aproximează mai bine datele originale în ceea ce privește metoda celor mai mici pătrate.

De la , apoi linia y=0,165x+2,184 aproximează mai bine datele originale.

Ilustrare grafică a metodei celor mai mici pătrate (LSM).

Totul arată grozav în topuri. Linia roșie este linia găsită y=0,165x+2,184, linia albastră este , punctele roz sunt datele originale.

În practică, la modelarea diferitelor procese - în special, economice, fizice, tehnice, sociale - aceste sau acele metode de calculare a valorilor aproximative ale funcțiilor din valorile lor cunoscute în unele puncte fixe sunt utilizate pe scară largă.

Probleme de aproximare a funcțiilor de acest fel apar adesea:

    la construirea unor formule aproximative pentru calcularea valorilor cantităților caracteristice procesului studiat conform datelor tabelare obținute în urma experimentului;

    în integrarea numerică, diferențierea, rezolvarea ecuațiilor diferențiale etc.;

    dacă este necesar să se calculeze valorile funcțiilor în punctele intermediare ale intervalului considerat;

    la determinarea valorilor cantităților caracteristice procesului în afara intervalului considerat, în special la prognoză.

Dacă, pentru a modela un anumit proces specificat de un tabel, se construiește o funcție care descrie aproximativ acest proces pe baza metodei celor mai mici pătrate, aceasta va fi numită funcție de aproximare (regresie), iar sarcina de a construi funcții de aproximare va fi însăși fi o problemă de aproximare.

Acest articol discută posibilitățile pachetului MS Excel pentru rezolvarea unor astfel de probleme, în plus, sunt prezentate metode și tehnici de construire (creare) regresii pentru funcții date tabelar (care stă la baza analizei de regresie).

Există două opțiuni pentru a construi regresii în Excel.

    Adăugarea regresiilor selectate (linii de tendință) la o diagramă construită pe baza unui tabel de date pentru caracteristica procesului studiat (disponibilă numai dacă este construită o diagramă);

    Folosind funcțiile statistice încorporate ale foii de lucru Excel, care vă permite să obțineți regresii (linii de tendință) direct din tabelul de date sursă.

Adăugarea liniilor de tendință la o diagramă

Pentru un tabel de date care descrie un anumit proces și reprezentat printr-o diagramă, Excel are un instrument eficient de analiză a regresiei care vă permite să:

    construiți pe baza metodei celor mai mici pătrate și adăugați la diagramă cinci tipuri de regresii care modelează procesul studiat cu diferite grade de acuratețe;

    adăugați o ecuație a regresiei construite la diagramă;

    determinați gradul de conformitate a regresiei selectate cu datele afișate pe diagramă.

Pe baza datelor din diagramă, Excel vă permite să obțineți tipuri de regresii liniare, polinomiale, logaritmice, exponențiale, exponențiale, care sunt date de ecuația:

y = y(x)

unde x este o variabilă independentă, care ia adesea valorile unei secvențe de numere naturale (1; 2; 3; ...) și produce, de exemplu, o numărătoare inversă a timpului procesului studiat (caracteristici) .

1 . Regresia liniară este bună la modelarea caracteristicilor care cresc sau descresc la o rată constantă. Acesta este cel mai simplu model al procesului studiat. Este construit după ecuația:

y=mx+b

unde m este tangenta pantei regresiei liniare la axa x; b - coordonata punctului de intersecție al regresiei liniare cu axa y.

2 . O linie de tendință polinomială este utilă pentru descrierea caracteristicilor care au mai multe extreme distincte (maxime și minime). Alegerea gradului polinomului este determinată de numărul de extreme ale caracteristicii studiate. Astfel, un polinom de gradul doi poate descrie bine un proces care are un singur maxim sau minim; polinom de gradul al treilea - nu mai mult de două extreme; polinom de gradul al patrulea - nu mai mult de trei extreme etc.

În acest caz, linia de tendință este construită în conformitate cu ecuația:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

unde coeficienții c0, c1, c2,... c6 sunt constante ale căror valori sunt determinate în timpul construcției.

3 . Linia de tendință logaritmică este utilizată cu succes în modelarea caracteristicilor, ale căror valori se modifică rapid la început, apoi se stabilizează treptat.

y = c ln(x) + b

4 . Linia de tendință a puterii dă rezultate bune dacă valorile dependenței studiate sunt caracterizate de o schimbare constantă a ratei de creștere. Un exemplu de astfel de dependență poate servi ca un grafic al mișcării accelerate uniform a mașinii. Dacă există valori zero sau negative în date, nu puteți utiliza o linie de tendință de putere.

Este construit conform ecuației:

y = cxb

unde coeficienții b, c sunt constante.

5 . Ar trebui utilizată o linie de tendință exponențială dacă rata de modificare a datelor crește continuu. Pentru datele care conțin valori zero sau negative, acest tip de aproximare nu este, de asemenea, aplicabil.

Este construit conform ecuației:

y=cebx

unde coeficienții b, c sunt constante.

La selectarea unei linii de tendință, Excel calculează automat valoarea lui R2, care caracterizează acuratețea aproximării: cu cât valoarea R2 este mai aproape de unul, cu atât linia de tendință aproximează mai fiabil procesul studiat. Dacă este necesar, valoarea lui R2 poate fi întotdeauna afișată pe diagramă.

Determinat prin formula:

Pentru a adăuga o linie de tendință la o serie de date:

    activați graficul construit pe baza seriei de date, adică faceți clic în zona diagramei. Elementul Chart va apărea în meniul principal;

    după ce faceți clic pe acest articol, pe ecran va apărea un meniu, în care ar trebui să selectați comanda Adăugare linie de tendință.

Aceleași acțiuni sunt ușor de implementat dacă treceți cu mouse-ul peste graficul corespunzător uneia dintre seriile de date și faceți clic dreapta; în meniul contextual care apare, selectați comanda Adăugare linie de tendință. Caseta de dialog Trendline va apărea pe ecran cu fila Tip deschisă (Fig. 1).

După aceea ai nevoie de:

În fila Tip, selectați tipul de linie de tendință necesar (Liniar este selectat implicit). Pentru tipul Polinom, în câmpul Grad, specificați gradul polinomului selectat.

1 . Câmpul Built on Series listează toate seriile de date din diagrama în cauză. Pentru a adăuga o linie de tendință la o anumită serie de date, selectați numele acesteia în câmpul Construit pe serie.

Dacă este necesar, accesând fila Parametri (Fig. 2), puteți seta următorii parametri pentru linia de tendință:

    schimbați numele liniei de tendință în câmpul Numele curbei de aproximare (netezite).

    setați numărul de perioade (înainte sau înapoi) pentru prognoză în câmpul Prognoză;

    afișați ecuația liniei de tendință în zona graficului, pentru care ar trebui să activați caseta de selectare Afișați ecuația pe diagramă;

    afișați valoarea fiabilității aproximării R2 în zona diagramei, pentru care ar trebui să activați caseta de selectare, plasați valoarea fiabilității aproximării (R^2) pe diagramă;

    setați punctul de intersecție al liniei de tendință cu axa Y, pentru care ar trebui să activați caseta de selectare Intersecția curbei cu axa Y într-un punct;

    faceți clic pe butonul OK pentru a închide caseta de dialog.

Există trei moduri de a începe editarea unei linii de tendințe deja construite:

    utilizați comanda Selected trend line din meniul Format, după ce ați selectat trend line;

    selectați comanda Format Trendline din meniul contextual, care este apelată făcând clic dreapta pe trendline;

    făcând dublu clic pe linia de tendință.

Pe ecran va apărea caseta de dialog Format Trendline (Fig. 3), care conține trei file: View, Type, Parameters, iar conținutul ultimelor două coincide complet cu file similare din caseta de dialog Trendline (Fig. 1-2). ). În fila Vizualizare, puteți seta tipul de linie, culoarea și grosimea acesteia.

Pentru a șterge o linie de tendință deja construită, selectați linia de tendință de șters și apăsați tasta Ștergere.

Avantajele instrumentului de analiză de regresie considerată sunt:

    ușurința relativă de a trasa o linie de tendință pe diagrame fără a crea un tabel de date pentru aceasta;

    o listă destul de largă de tipuri de linii de tendință propuse, iar această listă include cele mai frecvent utilizate tipuri de regresie;

    posibilitatea de a prezice comportamentul procesului studiat pentru un număr arbitrar (de bun simț) de pași înainte, precum și înapoi;

    posibilitatea de a obține ecuația liniei de tendință într-o formă analitică;

    posibilitatea, dacă este necesar, de a obține o evaluare a fiabilității aproximării.

Dezavantajele includ următoarele puncte:

    construirea unei linii de tendință se realizează numai dacă există o diagramă construită pe o serie de date;

    procesul de generare a serii de date pentru caracteristica studiată pe baza ecuațiilor liniei de tendință obținute pentru aceasta este oarecum aglomerat: ecuațiile de regresie necesare sunt actualizate cu fiecare modificare a valorilor seriei de date originale, dar numai în zona graficului , în timp ce seria de date formată pe baza vechii tendințe a ecuației de linie, rămâne neschimbată;

    În rapoartele PivotChart, când modificați vizualizarea diagramei sau raportul PivotTable asociat, liniile de tendință existente nu sunt păstrate, așa că trebuie să vă asigurați că aspectul raportului corespunde cerințelor dumneavoastră înainte de a desena linii de tendință sau de a formata în alt mod raportul PivotChart.

Liniile de tendință pot fi adăugate la seriile de date prezentate pe diagrame, cum ar fi un grafic, histogramă, diagrame cu zone plate nenormalizate, diagrame cu bare, împrăștiere, cu bule și bursiere.

Nu puteți adăuga linii de tendință la seriile de date din diagramele 3D, Standard, Radar, Pie și Donut.

Utilizarea funcțiilor Excel încorporate

Excel oferă, de asemenea, un instrument de analiză de regresie pentru trasarea liniilor de tendință în afara zonei diagramei. O serie de funcții de foi de lucru statistice pot fi utilizate în acest scop, dar toate vă permit să construiți doar regresii liniare sau exponențiale.

Excel are mai multe funcții pentru construirea regresiei liniare, în special:

    TENDINŢĂ;

  • PANTĂ și TĂIERE.

Precum și câteva funcții pentru construirea unei linii de tendință exponențială, în special:

    LGRFPaprox.

Trebuie remarcat faptul că tehnicile de construire a regresiilor folosind funcțiile TREND și GROWTH sunt practic aceleași. Același lucru se poate spune despre perechea de funcții LINEST și LGRFPRIBL. Pentru aceste patru funcții, atunci când se creează un tabel de valori, sunt utilizate caracteristici Excel, cum ar fi formulele matrice, ceea ce aglomerează oarecum procesul de construire a regresiilor. De asemenea, observăm că construcția unei regresii liniare, în opinia noastră, este cel mai ușor de implementat folosind funcțiile SLOPE și INTERCEPT, unde prima dintre ele determină panta regresiei liniare, iar a doua determină segmentul tăiat de regresie. pe axa y.

Avantajele instrumentului de funcții încorporate pentru analiza regresiei sunt:

    un proces destul de simplu de același tip de formare a serii de date ale caracteristicii studiate pentru toate funcțiile statistice încorporate care stabilesc linii de tendință;

    o tehnică standard pentru construirea liniilor de tendință pe baza seriei de date generate;

    capacitatea de a prezice comportamentul procesului studiat pentru numărul necesar de pași înainte sau înapoi.

Și dezavantajele includ faptul că Excel nu are funcții încorporate pentru crearea altor tipuri (cu excepția liniilor liniare și exponențiale) de linii de tendință. Această împrejurare nu permite adesea alegerea unui model suficient de precis al procesului studiat, precum și obținerea de previziuni apropiate de realitate. În plus, atunci când se utilizează funcțiile TREND și GROW, ecuațiile liniilor de tendință nu sunt cunoscute.

Trebuie remarcat faptul că autorii nu și-au stabilit scopul articolului de a prezenta cursul analizei regresiei cu diferite grade de completitudine. Sarcina sa principală este de a arăta capacitățile pachetului Excel în rezolvarea problemelor de aproximare folosind exemple specifice; să demonstreze ce instrumente eficiente are Excel pentru a construi regresii și prognoză; ilustrează cât de ușor pot fi rezolvate astfel de probleme chiar și de către un utilizator care nu are cunoștințe profunde despre analiza regresiei.

Exemple de rezolvare a unor probleme specifice

Luați în considerare soluția unor probleme specifice utilizând instrumentele enumerate ale pachetului Excel.

Sarcina 1

Cu un tabel de date privind profitul unei întreprinderi de transport cu motor pentru perioada 1995-2002. trebuie să faci următoarele.

    Construiți o diagramă.

    Adăugați în diagramă linii de tendință liniare și polinomiale (pătratice și cubice).

    Folosind ecuațiile liniei de tendință, obțineți date tabelare despre profitul întreprinderii pentru fiecare linie de tendință pentru 1995-2004.

    Faceți o prognoză de profit pentru întreprindere pentru 2003 și 2004.

Rezolvarea problemei

    În intervalul de celule A4:C11 din foaia de lucru Excel, introducem foaia de lucru prezentată în Fig. patru.

    După ce am selectat intervalul de celule B4:C11, construim o diagramă.

    Activăm graficul construit și, conform metodei descrise mai sus, după selectarea tipului de linie de tendință în caseta de dialog Linie de tendință (vezi Fig. 1), adăugăm alternativ linii de tendință liniare, pătratice și cubice graficului. În aceeași casetă de dialog, deschideți fila Parametri (vezi Fig. 2), în câmpul Numele curbei de aproximare (netezite), introduceți numele trendului adăugat, iar în câmpul Forecast forward for: periods, setați valoarea 2, deoarece este planificat să se facă o prognoză de profit pentru doi ani înainte. Pentru a afișa ecuația de regresie și valoarea de fiabilitate a aproximării R2 în zona diagramei, activați casetele de selectare Afișați ecuația pe ecran și plasați valoarea de fiabilitate a aproximării (R^2) pe diagramă. Pentru o mai bună percepție vizuală, schimbăm tipul, culoarea și grosimea liniilor de tendință trasate, pentru care folosim fila View din caseta de dialog Trend Line Format (vezi Fig. 3). Graficul rezultat cu linii de tendință adăugate este prezentat în fig. 5.

    Pentru a obține date tabelare privind profitul întreprinderii pentru fiecare linie de tendință pentru anii 1995-2004. Să folosim ecuațiile liniilor de tendință prezentate în fig. 5. Pentru a face acest lucru, în celulele din intervalul D3:F3, introduceți informații textuale despre tipul liniei de tendință selectate: Tendință liniară, Tendință patratică, Tendință cubică. Apoi, introduceți formula de regresie liniară în celula D4 și, folosind marcatorul de umplere, copiați această formulă cu referințe relative la intervalul de celule D5:D13. Trebuie remarcat faptul că fiecare celulă cu o formulă de regresie liniară din intervalul de celule D4:D13 are ca argument o celulă corespunzătoare din intervalul A4:A13. În mod similar, pentru regresia pătratică, intervalul de celule E4:E13 este umplut, iar pentru regresia cubică, intervalul de celule F4:F13 este umplut. Astfel, s-a făcut o prognoză a profitului întreprinderii pentru anii 2003 și 2004. cu trei tendinţe. Tabelul de valori rezultat este prezentat în fig. 6.

Sarcina 2

    Construiți o diagramă.

    Adăugați în grafic linii de tendință logaritmice, exponențiale și exponențiale.

    Deduceți ecuațiile liniilor de tendință obținute, precum și valorile fiabilității aproximării R2 pentru fiecare dintre ele.

    Folosind ecuațiile liniei de tendință, obțineți date tabelare despre profitul întreprinderii pentru fiecare linie de tendință pentru 1995-2002.

    Faceți o prognoză a profitului pentru afaceri pentru 2003 și 2004 folosind aceste linii de tendință.

Rezolvarea problemei

Urmând metodologia dată în rezolvarea problemei 1, obținem o diagramă cu linii de tendință logaritmice, exponențiale și exponențiale adăugate (Fig. 7). În plus, folosind ecuațiile liniei de tendință obținute, completăm tabelul de valori pentru profitul întreprinderii, inclusiv valorile prezise pentru 2003 și 2004. (Fig. 8).

Pe fig. 5 și fig. se poate observa că modelul cu tendință logaritmică corespunde celei mai mici valori a fiabilității aproximării

R2 = 0,8659

Cele mai mari valori ale lui R2 corespund modelelor cu tendință polinomială: pătratică (R2 = 0,9263) și cubică (R2 = 0,933).

Sarcina 3

Cu un tabel de date privind profitul unei întreprinderi de transport auto pe perioada 1995-2002, prezentat în sarcina 1, trebuie să efectuați următorii pași.

    Obțineți serii de date pentru linii de tendințe liniare și exponențiale folosind funcțiile TREND și GROW.

    Folosind funcțiile TREND și GROWTH, faceți o prognoză a profitului pentru întreprindere pentru 2003 și 2004.

    Pentru datele inițiale și seria de date primite, construiți o diagramă.

Rezolvarea problemei

Să folosim foaia de lucru a sarcinii 1 (vezi Fig. 4). Să începem cu funcția TREND:

    selectați intervalul de celule D4:D11, care trebuie completat cu valorile funcției TREND corespunzătoare datelor cunoscute despre profitul întreprinderii;

    apelați comanda Funcție din meniul Inserare. În caseta de dialog Function Wizard care apare, selectați funcția TREND din categoria Statistical, apoi faceți clic pe butonul OK. Aceeași operațiune poate fi efectuată prin apăsarea butonului (funcția de inserare) din bara de instrumente standard.

    În caseta de dialog Function Arguments care apare, introduceți intervalul de celule C4:C11 în câmpul Known_values_y; în câmpul Known_values_x - intervalul de celule B4:B11;

    pentru a face din formula introdusă o formulă matrice, utilizați combinația de taste + + .

Formula pe care am introdus-o în bara de formule va arăta astfel: =(TREND(C4:C11;B4:B11)).

Ca rezultat, intervalul de celule D4:D11 este umplut cu valorile corespunzătoare ale funcției TREND (Fig. 9).

Pentru a face o prognoză a profitului companiei pentru 2003 și 2004. necesar:

    selectați intervalul de celule D12:D13, unde vor fi introduse valorile prezise de funcția TREND.

    apelați funcția TREND și în caseta de dialog Function Arguments care apare, introduceți în câmpul Known_values_y - intervalul de celule C4:C11; în câmpul Known_values_x - intervalul de celule B4:B11; iar în câmpul New_values_x - intervalul de celule B12:B13.

    transformați această formulă într-o formulă matrice folosind comanda rapidă de la tastatură Ctrl + Shift + Enter.

    Formula introdusă va arăta astfel: =(TREND(C4:C11;B4:B11;B12:B13)), iar intervalul de celule D12:D13 va fi completat cu valorile prezise ale funcției TREND (vezi Fig. 9).

În mod similar, o serie de date este completată folosind funcția GROWTH, care este utilizată în analiza dependențelor neliniare și funcționează exact la fel ca omologul său liniar TREND.

Figura 10 prezintă tabelul în modul de afișare a formulei.

Pentru datele inițiale și seria de date obținute, diagrama prezentată în fig. unsprezece.

Sarcina 4

Cu tabelul de date privind primirea cererilor de prestari servicii de catre serviciul de dispecerat al intreprinderii de transport auto pentru perioada de la 1 la 11 zi a lunii in curs, trebuie efectuate urmatoarele actiuni.

    Obține serii de date pentru regresia liniară: folosind funcțiile SLOPE și INTERCEPT; folosind funcția LINEST.

    Preluați o serie de date pentru regresie exponențială folosind funcția LYFFPRIB.

    Folosind funcțiile de mai sus, faceți o prognoză despre primirea cererilor către serviciul de expediere pentru perioada 12-14 a lunii în curs.

    Pentru seriile de date originale și primite, construiți o diagramă.

Rezolvarea problemei

Rețineți că, spre deosebire de funcțiile TREND și GROW, niciuna dintre funcțiile enumerate mai sus (SLOPE, INTERCEPTION, LINEST, LGRFPRIB) nu sunt regresii. Aceste funcții joacă doar un rol auxiliar, determinând parametrii de regresie necesari.

Pentru regresiile liniare și exponențiale construite folosind funcțiile SLOPE, INTERCEPT, LINEST, LGRFPRIB, aspectul ecuațiilor acestora este întotdeauna cunoscut, spre deosebire de regresiile liniare și exponențiale corespunzătoare funcțiilor TREND și GROWTH.

1 . Să construim o regresie liniară care are ecuația:

y=mx+b

folosind funcțiile SLOPE și INTERCEPT, panta regresiei m fiind determinată de funcția SLOPE, iar termenul constant b - de funcția INTERCEPT.

Pentru a face acest lucru, efectuăm următoarele acțiuni:

    introduceți tabelul sursă în intervalul de celule A4:B14;

    valoarea parametrului m va fi determinată în celula C19. Selectați din categoria Statistică funcția Pantă; introduceți intervalul de celule B4:B14 în câmpul cunoscute_valori_y și intervalul de celule A4:A14 în câmpul cunoscute_valori_x. Formula va fi introdusă în celula C19: =SLOPE(B4:B14;A4:A14);

    folosind o metodă similară, se determină valoarea parametrului b din celula D19. Și conținutul său va arăta astfel: = INTERCEPT(B4:B14;A4:A14). Astfel, valorile parametrilor m și b, necesari pentru construirea unei regresii liniare, vor fi stocate, respectiv, în celulele C19, D19;

    apoi introducem formula de regresie liniară în celula C4 sub forma: = $ C * A4 + $ D. În această formulă, celulele C19 și D19 sunt scrise cu referințe absolute (adresa celulei nu ar trebui să se schimbe cu o posibilă copiere). Semnul de referință absolut $ poate fi tastat fie de la tastatură, fie folosind tasta F4, după plasarea cursorului pe adresa celulei. Folosind mânerul de umplere, copiați această formulă în intervalul de celule C4:C17. Obținem seria de date dorită (Fig. 12). Datorită faptului că numărul de solicitări este un întreg, ar trebui să setați formatul numărului în fila Număr a ferestrei Format de celule cu numărul de zecimale la 0.

2 . Acum să construim o regresie liniară dată de ecuația:

y=mx+b

folosind funcția LINEST.

Pentru asta:

    introduceți funcția LINEST ca formulă matrice în intervalul de celule C20:D20: =(LINEST(B4:B14;A4:A14)). Ca rezultat, obținem valoarea parametrului m în celula C20 și valoarea parametrului b în celula D20;

    introduceți formula în celula D4: =$C*A4+$D;

    copiați această formulă folosind marcatorul de umplere în intervalul de celule D4:D17 și obțineți seria de date dorită.

3 . Construim o regresie exponențială care are ecuația:

cu ajutorul funcției LGRFPRIBL, se realizează în mod similar:

    în intervalul de celule C21:D21, introduceți funcția LGRFPRIBL ca formulă matrice: =( LGRFPRIBL (B4:B14;A4:A14)). În acest caz, valoarea parametrului m va fi determinată în celula C21, iar valoarea parametrului b va fi determinată în celula D21;

    se introduce formula în celula E4: =$D*$C^A4;

    folosind marcatorul de umplere, această formulă este copiată în intervalul de celule E4:E17, unde va fi localizată seria de date pentru regresia exponențială (vezi Fig. 12).

Pe fig. 13 prezintă un tabel în care putem vedea funcțiile pe care le folosim cu intervalele de celule necesare, precum și formulele.

Valoare R 2 numit coeficient de determinare.

Sarcina de a construi o dependență de regresie este de a găsi vectorul coeficienților m ai modelului (1) la care coeficientul R ia valoarea maximă.

Pentru a evalua semnificația lui R, se folosește testul F Fisher, calculat prin formula

Unde n- dimensiunea eșantionului (număr de experimente);

k este numărul de coeficienți ai modelului.

Dacă F depășește o anumită valoare critică pentru date nși kși nivelul de încredere acceptat, atunci valoarea lui R este considerată semnificativă. Tabelele cu valorile critice ale lui F sunt date în cărțile de referință despre statistica matematică.

Astfel, semnificația lui R este determinată nu numai de valoarea sa, ci și de raportul dintre numărul de experimente și numărul de coeficienți (parametri) modelului. Într-adevăr, raportul de corelație pentru n=2 pentru un model liniar simplu este 1 (prin 2 puncte din plan, puteți desena întotdeauna o singură linie dreaptă). Cu toate acestea, dacă datele experimentale sunt variabile aleatoare, o astfel de valoare a lui R ar trebui să fie de încredere cu mare grijă. De obicei, pentru a obține un R semnificativ și o regresie fiabilă, se urmărește să se asigure că numărul de experimente depășește semnificativ numărul de coeficienți ai modelului (n>k).

Pentru a construi un model de regresie liniară, trebuie să:

1) pregătiți o listă de n rânduri și m coloane care conțin datele experimentale (coloana care conține valoarea de ieșire Y trebuie să fie primul sau ultimul din listă); de exemplu, să luăm datele sarcinii anterioare, adăugând o coloană numită „numărul perioadei”, numerotând numerele de perioade de la 1 la 12. (acestea vor fi valorile X)

2) accesați meniul Date/Data Analysis/Regression

Dacă elementul „Analiza datelor” din meniul „Instrumente” lipsește, atunci ar trebui să accesați elementul „Suplimente” din același meniu și să bifați caseta „Pachet de analiză”.

3) în caseta de dialog „Regresie”, setați:

intervalul de intrare Y;

intervalul de intrare X;

interval de ieșire - celula din stânga sus a intervalului în care vor fi plasate rezultatele calculului (se recomandă plasarea acesteia pe o nouă foaie de lucru);

4) faceți clic pe „Ok” și analizați rezultatele.

Esența metodei celor mai mici pătrate este în găsirea parametrilor modelului de tendință care descrie cel mai bine tendința de dezvoltare a oricărui fenomen aleatoriu în timp sau spațiu (o tendință este o linie care caracterizează tendința acestei dezvoltări). Sarcina metodei celor mai mici pătrate (OLS) este de a găsi nu doar un model de tendință, ci de a găsi cel mai bun sau optim model. Acest model va fi optim dacă suma abaterilor pătrate dintre valorile reale observate și valorile de tendință calculate corespunzătoare este minimă (cea mai mică):

unde este abaterea standard dintre valoarea reală observată

și valoarea de tendință calculată corespunzătoare,

Valoarea reală (observată) a fenomenului studiat,

Valoarea estimată a modelului de tendință,

Numărul de observații ale fenomenului studiat.

MNC este rareori folosit pe cont propriu. De regulă, cel mai adesea este folosit doar ca tehnică necesară în studiile de corelație. Trebuie amintit că baza informațională a LSM poate fi doar o serie statistică de încredere, iar numărul de observații nu trebuie să fie mai mic de 4, în caz contrar, procedurile de netezire ale LSM-ului își pot pierde bunul simț.

Setul de instrumente OLS este redus la următoarele proceduri:

Prima procedură. Se dovedește dacă există vreo tendință de a schimba atributul rezultat atunci când factorul-argument selectat se schimbă sau, cu alte cuvinte, dacă există o legătură între " la " și " X ».

A doua procedură. Se stabilește care linie (traiectorie) este cel mai în măsură să descrie sau să caracterizeze această tendință.

A treia procedură.

Exemplu. Să presupunem că avem informații despre randamentul mediu de floarea soarelui pentru ferma studiată (Tabelul 9.1).

Tabelul 9.1

Numărul de observație

Productivitate, c/ha

Întrucât nivelul tehnologiei în producția de floarea soarelui în țara noastră nu s-a schimbat foarte mult în ultimii 10 ani, înseamnă că, cel mai probabil, fluctuațiile de producție în perioada analizată au depins foarte mult de fluctuațiile condițiilor meteo și climatice. Este adevarat?

Prima procedură MNC. Se testează ipoteza despre existența unei tendințe de modificare a randamentului de floarea-soarelui în funcție de modificările condițiilor meteo și climatice pe parcursul celor 10 ani analizați.

În acest exemplu, pentru „ y » este indicat să luați randamentul de floarea soarelui, iar pentru « X » este numărul anului observat în perioada analizată. Testarea ipotezei despre existența oricărei relații între " X " și " y » se poate face in doua moduri: manual si cu ajutorul programelor de calculator. Desigur, odată cu disponibilitatea tehnologiei informatice, această problemă se rezolvă de la sine. Dar, pentru a înțelege mai bine setul de instrumente OLS, este recomandabil să testați ipoteza despre existența unei relații între " X " și " y » manual, când sunt la îndemână doar un pix și un calculator obișnuit. În astfel de cazuri, ipoteza existenței unei tendințe este cel mai bine verificată vizual prin locația imaginii grafice a seriei temporale analizate - câmpul de corelație:

Câmpul de corelație din exemplul nostru este situat în jurul unei linii care crește încet. Acest lucru în sine indică existența unei anumite tendințe în schimbarea producției de floarea soarelui. Este imposibil să vorbim despre prezența oricărei tendințe doar atunci când câmpul de corelare arată ca un cerc, un cerc, un nor strict vertical sau strict orizontal sau este format din puncte împrăștiate aleatoriu. În toate celelalte cazuri, este necesar să se confirme ipoteza existenței unei relații între " X " și " y și continuă cercetarea.

A doua procedură MNC. Se determină care linie (traiectorie) este cel mai în măsură să descrie sau să caracterizeze tendința modificărilor producției de floarea-soarelui pentru perioada analizată.

Odată cu disponibilitatea tehnologiei informatice, selectarea tendinței optime are loc automat. Cu prelucrarea „manuală”, alegerea funcției optime se realizează, de regulă, într-un mod vizual - prin locația câmpului de corelare. Adică, în funcție de tipul de diagramă, este selectată ecuația liniei, care se potrivește cel mai bine tendinței empirice (la traiectoria reală).

După cum știți, în natură există o mare varietate de dependențe funcționale, așa că este extrem de dificil să analizați vizual chiar și o mică parte din ele. Din fericire, în practica economică reală, majoritatea relațiilor pot fi descrise cu acuratețe fie printr-o parabolă, fie printr-o hiperbolă, fie printr-o linie dreaptă. În acest sens, cu opțiunea „manual” de selectare a celei mai bune funcții, te poți limita doar la aceste trei modele.

Hiperbolă:

Parabola de ordinul doi: :

Este ușor de observat că în exemplul nostru, tendința de modificare a randamentului de floarea-soarelui pe parcursul celor 10 ani analizați este cel mai bine caracterizată printr-o linie dreaptă, astfel încât ecuația de regresie va fi o ecuație în linie dreaptă.

A treia procedură. Se calculează parametrii ecuației de regresie care caracterizează această linie sau, cu alte cuvinte, se determină o formulă analitică care descrie cel mai bun model de tendință.

Găsirea valorilor parametrilor ecuației de regresie, în cazul nostru, parametrii și , este nucleul LSM. Acest proces se reduce la rezolvarea unui sistem de ecuații normale.

(9.2)

Acest sistem de ecuații este destul de ușor de rezolvat prin metoda Gauss. Amintiți-vă că, ca urmare a soluției, în exemplul nostru, se găsesc valorile parametrilor și. Astfel, ecuația de regresie găsită va avea următoarea formă: