온라인에서 최소 제곱법으로 선형 종속성의 매개변수를 찾습니다. 선형 쌍별 회귀 분석

우리는 2차 다항식으로 함수를 근사합니다. 이를 위해 정규 방정식 시스템의 계수를 계산합니다.

, ,

다음과 같은 형식의 최소 제곱의 일반 시스템을 구성해 보겠습니다.

시스템 솔루션은 쉽게 찾을 수 있습니다., , .

따라서 2차 다항식은 다음과 같이 발견됩니다.

이론적 배경

페이지로 돌아가기<Введение в вычислительную математику. Примеры>

실시예 2. 다항식의 최적 차수 찾기.

페이지로 돌아가기<Введение в вычислительную математику. Примеры>

실시예 3. 경험적 의존성의 매개변수를 찾기 위한 일반 방정식 시스템의 유도.

계수와 함수를 결정하기 위한 방정식 시스템을 유도해 보겠습니다. , 포인트에 대해 주어진 함수의 제곱 평균 제곱근 근사를 수행합니다. 함수 작성 그리고 그녀를 위해 쓰기 필요조건극한:

그러면 일반 시스템은 다음과 같은 형식을 취합니다.

우리는 미지의 매개변수에 대한 선형 방정식 시스템을 얻었으며 이는 쉽게 풀 수 있습니다.

이론적 배경

페이지로 돌아가기<Введение в вычислительную математику. Примеры>

예시.

변수 값에 대한 실험 데이터 엑스그리고 ~에표에 나와 있습니다.

정렬의 결과로 기능은

사용 최소제곱법, 선형 종속성을 사용하여 이러한 데이터를 근사화합니다. y=ax+b(옵션 찾기 그리고 ). (최소 자승법의 의미에서) 두 선 중 어느 것이 실험 데이터를 정렬하는 것이 더 나은지 알아내십시오. 그림을 그리십시오.

최소제곱법(LSM)의 핵심.

문제는 두 변수의 함수에 대한 선형 종속 계수를 찾는 것입니다. 그리고 가장 작은 값을 취합니다. 즉, 주어진 데이터 그리고 발견된 직선에서 실험 데이터의 편차 제곱의 합이 가장 작습니다. 이것이 최소제곱법의 핵심입니다.

따라서 예제의 솔루션은 두 변수의 함수의 극한값을 찾는 것으로 축소됩니다.

계수를 찾기 위한 공식 유도.

두 개의 미지수가 있는 두 개의 방정식 시스템이 컴파일되고 해결됩니다. 함수의 편도함수 찾기 변수에 의한 그리고 , 우리는 이러한 파생 상품을 0으로 동일시합니다.

어떤 방법으로든 결과 방정식 시스템을 풉니다(예: 대체 방법또는 Cramer의 방법)을 사용하여 최소 자승법(LSM)을 사용하여 계수를 찾는 공식을 얻습니다.

데이터와 함께 그리고 기능 가장 작은 값을 취합니다. 이 사실에 대한 증거는 페이지 끝에 있는 텍스트 아래에 나와 있습니다.

이것이 전체 최소제곱법입니다. 매개변수를 찾는 공식 합계 , , 및 매개변수를 포함합니다. N실험 데이터의 양입니다. 이 합계의 값은 별도로 계산하는 것이 좋습니다.

계수 계산 후 발견 .

원래의 예를 기억할 때입니다.

해결책.

우리의 예에서 n=5. 필요한 계수의 공식에 포함된 금액을 계산하기 쉽도록 표를 채웁니다.

표의 네 번째 행의 값은 두 번째 행의 값에 각 숫자에 대한 세 번째 행의 값을 곱하여 얻습니다. .

표의 다섯 번째 행의 값은 각 숫자에 대한 두 번째 행의 값을 제곱하여 얻습니다. .

테이블의 마지막 열의 값은 행에 있는 값의 합계입니다.

최소 제곱법의 공식을 사용하여 계수를 찾습니다. 그리고 . 우리는 테이블의 마지막 열에서 해당 값을 대체합니다.

따라서, y=0.165x+2.184원하는 근사 직선입니다.

어떤 라인이 있는지 알아내는 것이 남아 있습니다. y=0.165x+2.184또는 최소 제곱 방법을 사용하여 추정하기 위해 원래 데이터에 더 잘 근사합니다.

최소제곱법의 오차 추정.

이렇게 하려면 이 선에서 원본 데이터의 편차 제곱합을 계산해야 합니다. 그리고 , 더 작은 값은 최소 제곱 방법의 관점에서 원래 데이터에 더 잘 근사하는 선에 해당합니다.

이후, 그 라인 y=0.165x+2.184원본 데이터에 더 가깝습니다.

최소 자승법(LSM)의 그래픽 그림.

차트에서 모든 것이 멋지게 보입니다. 빨간선은 찾은 줄 y=0.165x+2.184, 파란색 선은 , 분홍색 점은 원본 데이터입니다.

그것은 무엇을 위한 것이며, 이 모든 근사치는 무엇을 위한 것입니까?

저는 개인적으로 데이터 평활화 문제, 보간 및 외삽 문제를 해결하는 데 사용합니다(원래 예에서는 관찰된 값의 값을 찾도록 요청할 수 있습니다. 와이~에 x=3또는 언제 x=6 MNC 방법에 따라). 그러나 나중에 사이트의 다른 섹션에서 이에 대해 더 자세히 이야기할 것입니다.

페이지 상단

증거.

그래서 발견했을 때 그리고 함수가 가장 작은 값을 취하는 경우, 이 지점에서 함수에 대한 2차 미분의 2차 형식 행렬이 필요합니다. 긍정적으로 확정되었다. 보여줍시다.

2차 미분의 형식은 다음과 같습니다.

그건

따라서 이차 형식의 행렬은 다음과 같은 형식을 갖습니다.

요소의 값은 다음에 의존하지 않습니다. 그리고 .

행렬이 양의 정부호임을 보여줍시다. 이를 위해서는 앵글 마이너가 양수여야 합니다.

1차 앵귤러 마이너 . 점이 일치하지 않기 때문에 부등식이 엄격합니다. 이것은 다음 내용에서 암시됩니다.

2차 앵귤러 마이너

그것을 증명하자 수학적 귀납법.

결론: 찾은 값 그리고 함수의 가장 작은 값에 해당 , 따라서 최소 제곱법에 대해 원하는 매개변수입니다.

이제까지 이해?
솔루션 주문

페이지 상단

최소 자승법을 사용한 예측 개발. 문제 해결 예

외삽 방법이다 과학적 연구, 과거와 현재의 경향, 패턴, 예측 개체의 미래 발전과의 관계의 분포를 기반으로 합니다. 외삽 방법에는 다음이 포함됩니다. 이동 평균법, 지수 평활법, 최소 자승법.

본질 최소제곱법 관찰된 값과 계산된 값 사이의 제곱 편차의 합을 최소화하는 것으로 구성됩니다. 계산 된 값은 선택한 방정식 - 회귀 방정식에 따라 찾습니다. 실제 값과 계산된 값 사이의 거리가 작을수록 회귀 방정식을 기반으로 한 예측이 더 정확합니다.

연구 중인 현상의 본질에 대한 이론적 분석, 즉 시계열로 표시되는 변화는 곡선을 선택하는 기준이 됩니다. 계열 수준의 성장 특성에 대한 고려 사항이 때때로 고려됩니다. 따라서 산술적 진행으로 출력의 증가가 예상되면 평활이 직선으로 수행됩니다. 성장이 지수적이라는 것이 밝혀지면 지수 함수에 따라 평활화를 수행해야 합니다.

최소 제곱법의 작동 공식 : Y t+1 = a*X + b, 여기서 t + 1은 예측 기간입니다. Уt+1 – 예측 지표; a 및 b는 계수입니다. X는 시간의 상징입니다.

계수 및 b는 다음 공식에 따라 계산됩니다.

어디서, Uf - 일련의 역학의 실제 값; n은 시계열의 레벨 수입니다.

최소 자승법에 의한 시계열의 평활화는 연구 중인 현상의 발달 패턴을 반영하는 역할을 합니다. 추세의 분석적 표현에서 시간은 독립변수로 간주되고 계열의 수준은 이 독립변수의 함수로 작용합니다.

현상의 발달은 시작점으로부터 몇 년이 지났는가에 달려 있지 않고, 어떤 요인이 그 발달에 어떤 방향으로 어떤 강도로 영향을 미쳤는가에 달려 있습니다. 이로부터 시간에 따른 현상의 발전이 이러한 요인의 작용의 결과로 나타나는 것이 분명합니다.

곡선 유형을 올바르게 설정하고 시간에 대한 분석 종속 유형은 사전 예측 분석에서 가장 어려운 작업 중 하나입니다. .

매개변수가 최소 자승법에 의해 결정되는 경향을 설명하는 함수 유형의 선택은 대부분의 경우 경험적이며, 다수의 함수를 구성하고 제곱 평균 값으로 서로 비교합니다. -공식에 의해 계산된 제곱 오차:

어디서 Uf - 일련의 역학의 실제 값; Ur - 시계열의 계산된(평활화된) 값. n은 시계열의 레벨 수입니다. p는 추세(발전 추세)를 설명하는 공식에 정의된 매개변수의 수입니다.

최소제곱법의 단점 :

  • 수학 방정식을 사용하여 연구 중인 경제 현상을 설명하려고 할 때 예측은 짧은 시간 동안 정확할 것이며 새로운 정보가 제공되면 회귀 방정식을 다시 계산해야 합니다.
  • 표준 컴퓨터 프로그램을 사용하여 해결할 수 있는 회귀 방정식 선택의 복잡성.

예측을 개발하기 위해 최소 자승법을 사용하는 예

작업 . 이 지역의 실업률을 나타내는 데이터가 있습니다. %

  • 이동 평균, 지수 평활, 최소 제곱 등의 방법을 사용하여 11월, 12월, 1월의 지역 실업률 예측을 작성합니다.
  • 각 방법을 사용하여 결과 예측의 오류를 계산합니다.
  • 얻은 결과를 비교하고 결론을 도출하십시오.

최소제곱해

솔루션을 위해 필요한 계산을 수행할 테이블을 컴파일합니다.

ε = 28.63/10 = 2.86% 예측 정확도높은.

결론 : 계산에서 얻은 결과 비교 이동 평균법 , 지수 평활화 그리고 최소자승법의 경우 지수평활법에 의한 계산의 평균 상대오차는 20~50% 이내라고 할 수 있다. 이것은 이 경우 예측 정확도가 만족할만 함을 의미합니다.

첫 번째와 세 번째 경우 평균 상대 오차가 10% 미만이므로 예측 정확도가 높습니다. 그러나 이동 평균 방법을 사용하면 이 방법을 사용할 때의 평균 상대 오차가 가장 작기 때문에 보다 안정적인 결과를 얻을 수 있었습니다(11월 예측 - 1.52%, 12월 예측 - 1.53%, 1월 예측 - 1.49%). ,13%.

최소제곱법

기타 관련 기사:

사용된 소스 목록

  1. 사회적 위험을 진단하고 도전, 위협 및 사회적 결과를 예측하는 문제에 대한 과학적 및 방법론적 권장 사항. 러시아 국가 사회 대학. 모스크바. 2010년;
  2. 블라디미로바 L.P. 시장 상황 예측 및 계획: Proc. 용돈. M .: 출판사 "Dashkov and Co", 2001;
  3. Novikova N.V., Pozdeeva O.G. 예측 국가 경제: 교재. 예카테린부르크: 우랄 출판사. 상태 경제 대학, 2007;
  4. Slutskin L.N. 비즈니스 예측의 MBA 과정. 모스크바: Alpina Business Books, 2006.

다국적 기업 프로그램

데이터 입력

데이터 및 근사치 y = a + b x

- 실험 포인트의 수;
엑스 나- 점에서 고정 매개변수의 값 ;
야 나- 지점에서 측정된 매개변수의 값 ;
ω 나- 포인트 측정 무게 ;
y 나, 계산.- 측정값과 회귀분석에서 계산된 값의 차이 와이그 시점에 ;
Sxi(xi)- 오차 추정 엑스 나측정할 때 와이그 시점에 .

데이터 및 근사치 y = k x

엑스 나 야 나 ω 나 y 나, 계산. Δy 나는 Sxi(xi)

차트를 클릭하세요

MNC 온라인 프로그램의 사용자 매뉴얼.

데이터 필드에 하나의 실험 지점에서 'x'와 'y'의 값을 각 개별 라인에 입력합니다. 값은 공백(공백 또는 탭)으로 구분해야 합니다.

세 번째 값은 `w`의 포인트 가중치가 될 수 있습니다. 포인트 가중치를 지정하지 않으면 1과 같습니다. 압도적인 대다수의 경우, 실험 포인트의 가중치를 알 수 없거나 계산되지 않습니다. 모든 실험 데이터는 동등한 것으로 간주됩니다. 때때로 연구된 값 범위의 가중치는 확실히 동일하지 않으며 이론적으로 계산할 수도 있습니다. 예를 들어, 분광광도법에서 무게는 간단한 공식을 사용하여 계산할 수 있지만 기본적으로 모든 사람이 인건비를 줄이기 위해 이를 무시합니다.

Microsoft Office의 Excel 또는 Open Office의 Calc와 같은 Office 제품군 스프레드시트의 클립보드를 통해 데이터를 붙여넣을 수 있습니다. 이렇게 하려면 스프레드시트에서 복사할 데이터 범위를 선택하고 클립보드에 복사한 다음 데이터를 이 페이지의 데이터 필드에 붙여넣습니다.

최소 자승법으로 계산하려면 직선 경사각의 탄젠트인 'b'와 'y'에서 직선으로 잘린 값인 'a'를 결정하기 위해 최소한 두 점이 필요합니다. ` 축.

계산된 회귀계수의 오차를 추정하기 위해서는 실험점의 개수를 2개 이상으로 설정해야 한다.

최소제곱법(LSM).

어떻게 더 많은 양실험 포인트가 많을수록 계수의 통계적 추정치가 더 정확하고(스튜던트 계수의 감소로 인해) 추정치가 일반 표본의 추정치에 더 가깝습니다.

각 실험 지점에서 값을 얻는 것은 종종 상당한 노동 비용과 관련이 있으므로 소화 가능한 추정치를 제공하고 과도한 노동 비용으로 이어지지 않는 절충안 수의 실험이 종종 수행됩니다. 일반적으로 2개의 계수가 있는 선형 최소 자승 종속성에 대한 실험 포인트의 수는 5-7 포인트 영역에서 선택됩니다.

선형 종속성을 위한 최소 제곱에 대한 간략한 이론

값 쌍[`y_i`, `x_i`]의 형태로 실험 데이터 세트가 있다고 가정합니다. 여기서 `i`는 1에서 `n`까지의 한 실험 측정의 수입니다. 'y_i' - 'i' 지점에서 측정된 값의 값. `x_i` - `i` 지점에서 설정한 매개변수의 값입니다.

예는 옴의 법칙의 작동입니다. 전기 회로 섹션 간의 전압(전위차)을 변경하여 이 섹션을 통과하는 전류의 양을 측정합니다. 물리학은 실험적으로 발견된 의존성을 제공합니다.

'I=U/R',
여기서 'I' - 현재 강도; 'R' - 저항; 'U' - 전압.

이 경우 'y_i'는 측정된 전류 값이고 'x_i'는 전압 값입니다.

또 다른 예로서, 용액에 있는 물질의 용액에 의한 빛의 흡수를 고려하십시오. 화학은 다음 공식을 제공합니다.

'A = εlC',
여기서 'A'는 용액의 광학 밀도입니다. `ε` - 용질 투과율; `l` - 빛이 용액과 함께 큐벳을 통과할 때의 경로 길이. 'C'는 용질의 농도입니다.

이 경우 'y_i'는 측정된 광학 밀도 'A'이고 'x_i'는 우리가 설정한 물질의 농도입니다.

'x_i' 설정의 상대 오차가 'y_i' 측정의 상대 오차보다 훨씬 작은 경우를 고려할 것입니다. 또한 'y_i'의 모든 측정된 값은 무작위이고 정규 분포를 따른다고 가정합니다. 정규분포법칙을 따른다.

`x`에 대한 `y`의 선형 종속성의 경우 이론적 종속성을 작성할 수 있습니다.
`y = a + bx`.

기하학적인 관점에서, 계수 'b'는 'x'축에 대한 선의 경사각 탄젠트를 나타내며, 계수 'a'는 교차점에서 'y'의 값입니다. `y` 축이 있는 선(`x = 0`의 경우).

회귀선의 매개변수를 찾습니다.

실험에서 'y_i'의 측정값은 항상 내재되어 있는 측정 오차로 인해 이론적인 선에 정확히 놓일 수 없습니다. 실생활. 따라서 선형 방정식은 다음과 같은 연립방정식으로 표현되어야 합니다.
`y_i = a + b x_i + ε_i` (1),
여기서 'ε_i'는 'i'번째 실험에서 'y'의 알려지지 않은 측정 오차입니다.

의존성 (1)은 또한 회귀, 즉. 통계적으로 유의미한 서로에 대한 두 수량의 의존성.

종속성을 복원하는 작업은 실험 지점 [`y_i`, `x_i`]에서 계수 `a`와 `b`를 찾는 것입니다.

계수 'a'와 'b'를 찾기 위해 일반적으로 사용됩니다. 최소제곱법(MNK). 최대우도 원칙의 특수한 경우입니다.

(1)을 `ε_i = y_i - a - b x_i`로 다시 작성해 보겠습니다.

그러면 제곱 오차의 합은 다음과 같습니다.
`Φ = sum_(i=1)^(n) ε_i^2 = sum_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

최소제곱법의 원리는 매개변수 `a`와 `b`에 대한 합(2)을 최소화하는 것입니다..

최소값은 계수 'a'와 'b'에 대한 합(2)의 편도함수가 0일 때 도달합니다.
`frac(부분 Φ)(부분 a) = frac(부분 합_(i=1)^(n) (y_i - a - b x_i)^2)(부분 a) = 0`
`frac(부분 Φ)(부분 b) = frac(부분 합_(i=1)^(n) (y_i - a - b x_i)^2)(부분 b) = 0`

도함수를 확장하면 두 개의 미지수가 있는 두 개의 방정식 시스템을 얻습니다.
`sum_(i=1)^(n) (2a + 2bx_i - 2y_i) = sum_(i=1)^(n) (a + bx_i - y_i) = 0`
`sum_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

대괄호를 열고 원하는 계수와 무관한 합계를 나머지 절반으로 전송하면 선형 방정식 시스템을 얻습니다.
`sum_(i=1)^(n) y_i = a n + b sum_(i=1)^(n) bx_i`
`sum_(i=1)^(n) x_iy_i = a sum_(i=1)^(n) x_i + b sum_(i=1)^(n) x_i^2`

결과 시스템을 풀면 계수 `a`와 `b`에 대한 공식을 찾을 수 있습니다.

`a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 - sum_(i=1)^(n) x_i sum_(i=1)^(n ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n sum_(i=1)^(n) x_iy_i - sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 - (sum_(i=1)^(n) x_i)^2)` (3.2)

이 공식은 `n > 1`(최소 2개의 점을 사용하여 선을 그릴 수 있음) 및 행렬식이 `D = n sum_(i=1)^(n) x_i^2 — (sum_(i= 1)일 때 해를 갖습니다. )^(n) x_i)^2 != 0`, 즉 실험의 'x_i' 지점이 다를 때(즉, 선이 수직이 아닌 경우).

회귀선 계수의 오차 추정

계수 'a'와 'b'를 계산할 때 오차를 보다 정확하게 추정하기 위해서는 많은 수의 실험 포인트가 바람직합니다. `n = 2`일 때 계수의 오차를 추정하는 것은 불가능합니다. 왜냐하면 근사선은 두 점을 고유하게 통과합니다.

오류 랜덤 변수'V'가 정의됨 오차 누적 법칙
`S_V^2 = sum_(i=1)^p (frac(부분 f)(부분 z_i))^2 S_(z_i)^2`,
여기서 `p`는 `S_V` 오류에 영향을 주는 `S_(z_i)` 오류가 있는 `z_i` 매개변수의 수입니다.
'f'는 'z_i'에 대한 'V'의 종속성 함수입니다.

계수 'a'와 'b'의 오차에 대한 오차 누적 법칙을 작성해 보겠습니다.
`S_a^2 = sum_(i=1)^(n)(frac(부분 a)(부분 y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(부분 a) )(부분 x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(부분 a)(부분 y_i))^2 `,
`S_b^2 = sum_(i=1)^(n)(frac(부분 b)(부분 y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(부분 b) )(부분 x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(부분 b)(부분 y_i))^2 `,
왜냐하면 `S_(x_i)^2 = 0`(우리는 이전에 `x`의 오류가 무시할 수 있다고 예약했습니다).

`S_y^2 = S_(y_i)^2` - 모든 `y` 값에 대해 오류가 균일하다고 가정할 때 `y` 차원의 오류(분산, 제곱 표준 편차)입니다.

결과 표현식에 `a`와 `b`를 계산하는 공식을 대입하면 다음을 얻습니다.

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 - x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

대부분의 실제 실험에서 'Sy' 값은 측정되지 않습니다. 이렇게 하려면 계획의 하나 또는 여러 지점에서 여러 병렬 측정(실험)을 수행해야 하므로 실험 시간(및 비용)이 증가합니다. 따라서 일반적으로 회귀선에서 'y'의 편차는 무작위로 간주될 수 있다고 가정합니다. 이 경우 분산 추정값 'y'는 공식에 의해 계산됩니다.

`S_y^2 = S_(y, rest)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

제수 'n-2'는 동일한 실험 데이터 샘플에 대해 두 개의 계수를 계산하여 자유도를 줄였기 때문에 나타납니다.

이 추정값은 회귀선 `S_(y, rest)^2`에 대한 잔차 분산이라고도 합니다.

계수의 중요성 평가는 학생 기준에 따라 수행됩니다.

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

계산된 기준 't_a', 't_b'가 테이블 기준 't(P, n-2)'보다 작으면 해당 계수는 주어진 확률 'P'에서 0과 크게 다르지 않은 것으로 간주됩니다.

선형 관계에 대한 설명의 품질을 평가하려면 Fisher 기준을 사용하여 평균을 기준으로 `S_(y, rest)^2`와 `S_(bar y)`를 비교할 수 있습니다.

`S_(bar y) = frac(sum_(i=1)^n (y_i - bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i=) 1)^n y_i) /n)^2) (n-1)` - 평균에 대한 'y' 분산의 표본 추정치입니다.

종속성을 설명하기 위한 회귀 방정식의 효율성을 평가하기 위해 피셔 계수가 계산됩니다.
`F = S_(막대 y) / S_(y, 나머지)^2`,
이는 표 형식의 피셔 계수 'F(p, n-1, n-2)'와 비교됩니다.

'F > F(P, n-1, n-2)'인 경우 회귀식을 사용한 종속성 설명 'y = f(x)'와 평균을 사용한 설명의 차이는 확률로 통계적으로 유의한 것으로 간주됩니다. '피'. 저것들. 회귀는 평균 주위의 'y'의 확산보다 종속성을 더 잘 설명합니다.

차트를 클릭하세요
테이블에 값을 추가하려면

최소제곱법. 최소 제곱법은 미지의 매개변수 a, b, c, 허용되는 기능적 종속성의 결정을 의미합니다.

최소 제곱법은 알려지지 않은 매개변수의 결정을 의미합니다. , b, c,…허용되는 기능적 의존성

y = f(x,a,b,c,…),

오차의 평균 제곱(분산)의 최소값을 제공합니다.

, (24)

어디서 x 나는 , y 나는 - 실험에서 얻은 숫자 쌍의 집합입니다.

여러 변수의 함수의 극값에 대한 조건은 편도함수가 0과 같은 조건이므로 매개변수 , b, c,…방정식 시스템에서 결정됩니다.

; ; ; … (25)

최소 제곱 방법은 함수 형식 다음에 매개변수를 선택하는 데 사용된다는 점을 기억해야 합니다. y = f(x)한정된.

이론적 고려에서 경험적 공식이 무엇인지에 대한 결론을 도출하는 것이 불가능하다면 시각적 표현, 주로 관찰된 데이터의 그래픽 표현에 의해 안내되어야 합니다.

실제로 다음 유형의 기능으로 대부분 제한됩니다.

1) 선형 ;

2) 이차 a .

매개 변수에 대한 명확한 경제적 해석의 형태로 계량 경제학에서 널리 사용됩니다.

선형 회귀는 다음 형식의 방정식을 찾는 것으로 축소됩니다.

또는

유형 방정식 주어진 매개변수 값을 허용합니다. 엑스요인의 실제 값을 대체하여 유효 기능의 이론적 값을 갖습니다. 엑스.

선형 회귀를 구축하는 것은 매개변수를 추정하는 것입니다. 그리고 안에.선형 회귀 매개변수 추정값은 다양한 방법으로 찾을 수 있습니다.

선형 회귀 매개변수를 추정하는 고전적인 접근 방식은 다음을 기반으로 합니다. 최소제곱(MNK).

LSM을 사용하면 이러한 매개변수 추정치를 얻을 수 있습니다. 그리고 안에,결과 특성의 실제 값의 제곱 편차의 합 (와이)계산된(이론적) 최소:

함수의 최소값을 찾으려면 각 매개변수에 대한 편도함수를 계산해야 합니다. 그리고 그리고 그것들을 0과 동일시하십시오.

S로 표시한 다음:

공식을 변환하면 매개 변수를 추정하기 위해 다음과 같은 정규 방정식 시스템을 얻습니다. 그리고 안에:

변수의 연속 제거 방법 또는 결정자 방법으로 정규 방정식(3.5) 시스템을 풀면 원하는 매개변수 추정값을 찾습니다. 그리고 안에.

매개변수 안에회귀 계수라고 합니다. 그 값은 요인이 1단위 변할 때 결과의 평균 변화를 나타냅니다.

회귀 방정식은 항상 긴밀한 관계의 지표로 보완됩니다. 선형 회귀를 사용할 때 선형 상관 계수가 이러한 지표 역할을 합니다. 선형 상관 계수 공식의 다양한 수정 사항이 있습니다. 그 중 일부는 다음과 같습니다.

아시다시피 선형 상관 계수는 한계 내에 있습니다. -1 1.

선형 함수 선택의 품질을 평가하기 위해 제곱이 계산됩니다.

선형 상관 계수라고 하는 결정 계수 .결정 계수는 유효 기능의 분산 비율을 특성화합니다. 와이,결과 특성의 총 분산에서 회귀로 설명:

따라서 값 1 - 분산 비율을 특성화 와이,모델에서 고려되지 않은 다른 요인의 영향으로 인해 발생합니다.

자제를 위한 질문

1. 최소제곱법의 본질은?

2. 쌍별 회귀를 제공하는 변수는 몇 개입니까?

3. 변화 사이의 연결 강도를 결정하는 계수는 무엇입니까?

4. 결정 계수는 어떤 한계 내에서 결정됩니까?

5. 상관회귀분석에서 매개변수 b의 추정은?

1. 크리스토퍼 도허티. 계량경제학 입문. - M.: INFRA - M, 2001 - 402 p.

2. S.A. 보로딕. 계량 경제학. 민스크 LLC "새로운 지식" 2001.


3. 루. 라흐메토프 짧은 코스계량경제학에서. 지도 시간. 알마티. 2004. -78s.

4. 아이.아이. Eliseeva. 계량 경제학. - M.: "금융 및 통계", 2002

5. 월간 정보 및 분석 잡지.

비선형 경제 모델. 비선형 회귀 모델. 변수 변환.

비선형 경제 모델..

변수 변환.

탄성 계수.

경제 현상 사이에 비선형 관계가 있는 경우 해당 비선형 함수를 사용하여 표현됩니다. 예를 들어, 등변 쌍곡선 , 2차 포물선 등

비선형 회귀에는 두 가지 클래스가 있습니다.

1. 분석에 포함된 설명 변수에 대해서는 비선형이지만 추정된 매개변수에 대해서는 선형 회귀입니다. 예를 들면 다음과 같습니다.

다양한 차수의 다항식 - , ;

등변 쌍곡선 - ;

세미로그 함수 - .

2. 추정된 매개변수에서 비선형 회귀, 예:

힘 - ;

시범 -;

지수 - .

결과 속성의 개별 값 제곱 편차의 총합 ~에평균값에서 많은 요인의 영향으로 인해 발생합니다. 우리는 조건부로 전체 이유 세트를 두 그룹으로 나눕니다. 연구된 요인 x그리고 다른 요인.

요인이 결과에 영향을 미치지 않으면 그래프의 회귀선이 축에 평행합니다. 그리고

그러면 결과 속성의 전체 분산은 다른 요인의 영향으로 인해 발생하며 편차 제곱의 총합은 잔차와 일치합니다. 다른 요인이 결과에 영향을 미치지 않으면 당신은 묶여와 함께 엑스기능적으로, 그리고 잔차 제곱합은 0입니다. 이 경우 회귀로 설명되는 편차 제곱합의 합은 총 제곱합과 같습니다.

상관 필드의 모든 점이 회귀선에 있는 것은 아니므로 요인의 영향으로 인해 항상 분산이 발생합니다. 엑스, 즉 회귀 ~에~에 엑스,다른 원인의 작용으로 인해 발생합니다(설명되지 않는 변동). 예측에 대한 회귀선의 적합성은 특성의 전체 변동 중 어느 부분에 따라 달라집니다. ~에설명된 변동을 설명

분명히 회귀로 인한 편차 제곱합이 잔차 제곱합보다 크면 회귀 방정식이 통계적으로 유의하고 요인이 엑스결과에 상당한 영향을 미칩니다. 와이.

, 즉, 피쳐의 독립 변형의 자유도입니다. 자유도의 수는 모집단 n의 단위 수와 이로부터 결정되는 상수의 수와 관련이 있습니다. 연구 중인 문제와 관련하여 자유도의 수는

회귀 방정식 전체의 중요성에 대한 평가는 다음을 통해 제공됩니다. 에프- 피셔의 기준. 이 경우 회귀 계수가 0과 같다는 귀무 가설이 제시됩니다. b= 0, 따라서 요인 엑스결과에 영향을 미치지 않습니다 와이.

F-기준의 직접 계산은 분산 분석이 선행됩니다. 그 중심에는 변수의 편차 제곱의 총합 확장이 있습니다. ~에평균값에서 ~에"설명된"과 "설명되지 않은" 두 부분으로:

제곱 편차의 총합

회귀로 설명되는 편차의 제곱합입니다.

제곱 편차의 잔차 합계입니다.

제곱 편차의 합은 자유도 수와 관련이 있습니다. , 즉, 피쳐의 독립 변형의 자유도입니다. 자유도의 수는 인구 단위의 수와 관련이 있습니다. N그리고 그것으로부터 결정된 상수의 수로. 연구 중인 문제와 관련하여 자유도의 수는 가능한 제곱합을 형성하는 데 필요합니다.

자유도당 산포.

F 비율(F 기준):

귀무가설이 참인 경우, 그러면 요인과 잔차 분산이 서로 다르지 않습니다. H 0 의 경우 요인 분산이 잔차를 몇 배 초과하도록 반박이 필요합니다. 영국 통계학자 Snedecor는 임계값 표를 개발했습니다. 에프- 귀무 가설의 다양한 유의 수준과 다양한 자유도에서의 관계. 테이블 값 에프-기준은 귀무 가설이 존재할 확률의 주어진 수준에 대해 무작위로 발산하는 경우 발생할 수 있는 분산 비율의 최대값입니다. 계산된 값 에프- o가 표보다 크면 관계가 신뢰할 수 있는 것으로 인식됩니다.

이 경우 기능의 관계가 없다는 귀무 가설이 기각되고 이 관계의 중요성에 대한 결론이 내려집니다. F 팩트 > F 테이블 H 0은 거부됩니다.

값이 테이블보다 작은 경우 F 팩트 ‹, F 테이블인 경우 귀무 가설의 확률은 주어진 수준보다 높으며 관계의 존재에 대해 잘못된 결론을 도출할 심각한 위험 없이 귀무 가설을 기각할 수 없습니다. 이 경우 회귀 방정식은 통계적으로 유의하지 않은 것으로 간주됩니다. 아니오 일탈하지 않습니다.

회귀 계수의 표준 오차

회귀 계수의 중요성을 평가하기 위해 그 값을 표준 오차와 비교합니다. 즉, 실제 값이 결정됩니다. - 스튜던트 테스트 : 어느 정도 유의수준에서 표의 값과 자유도( N- 2).

매개변수 표준 오차 :

오차의 크기에 따라 선형상관계수의 유의성을 확인한다. 상관 계수 아르 자형:

기능의 총 분산 엑스:

다중 선형 회귀

모델 빌딩

다중 회귀두 개 이상의 요인, 즉 다음 형식의 모델이 있는 유효 기능의 회귀입니다.

회귀분석은 연구대상에 영향을 미치는 다른 요인들의 영향을 무시할 수 있다면 모델링에서 좋은 결과를 줄 수 있다. 개별 경제 변수의 행동은 통제할 수 없습니다. 즉, 연구 중인 한 요인의 영향을 평가하기 위해 다른 모든 조건의 평등을 보장할 수 없습니다. 이 경우 모델에 다른 요인을 도입하여 다른 요인의 영향을 식별해야 합니다. 즉, 다중 회귀 방정식을 작성합니다. y = a+b 1 x 1 +b 2 +…+b p x p + .

다중 회귀의 주요 목표는 여러 요인으로 모델을 구축하는 동시에 각 요인의 영향과 모델링된 지표에 대한 누적 영향을 결정하는 것입니다. 모델 사양에는 요인 선택과 회귀 방정식 유형 선택의 두 가지 질문 영역이 포함됩니다.

저는 컴퓨터 프로그래머입니다. 나는 다음과 같이 말하는 법을 배웠을 때 내 경력에서 가장 큰 도약을 했다. "나는 아무것도 이해하지 못한다!"이제 나는 과학계의 권위자에게 그가 나에게 강의를 하고 있다고 말하는 것이 부끄럽지 않습니다. 그 저명인사는 저에게 무슨 말을 하는지 이해하지 못합니다. 그리고 그것은 매우 어렵습니다. 예, 당신이 모른다는 것을 인정하는 것은 어렵고 부끄러운 일입니다. 자신이 무언가의 기본을 모른다는 것을 인정하고 싶어하는 사람이 있습니다. 직업상 나는 많은 프레젠테이션과 강의에 참석해야 합니다. 고백하건대, 대부분의 경우 나는 아무것도 이해하지 못하기 때문에 졸음을 느낍니다. 그리고 현재 과학계의 가장 큰 문제는 수학에 있기 때문에 이해가 되지 않습니다. 그것은 모든 학생들이 수학의 모든 영역에 절대적으로 익숙하다고 가정합니다(이것은 터무니없는 일입니다). 파생 상품이 무엇인지 모른다는 사실을 인정하는 것은 부끄러운 일입니다.

그러나 나는 곱셈이 무엇인지 모른다고 말하는 법을 배웠습니다. 예, 나는 거짓말 대수에 대한 대수학이 무엇인지 모릅니다. 네, 인생에서 이차방정식이 왜 필요한지 모르겠습니다. 그건 그렇고, 당신이 알고 있다고 확신한다면 우리는 이야기 할 것이 있습니다! 수학은 트릭의 연속입니다. 수학자들은 대중을 혼란스럽게 하고 위협하려고 합니다. 혼란도, 명성도, 권위도 없는 곳. 예, 가능한 가장 추상적인 언어로 말하는 것은 권위 있는 일입니다.

파생상품이 뭔지 아세요? 아마도 당신은 차이 관계의 한계에 대해 나에게 말할 것입니다. 상트페테르부르크 주립대학교 수학 1학년 때 Viktor Petrovich Khavin은 한정된점에서 함수의 테일러 급수 첫 번째 항의 계수로서의 미분(미분 없이 테일러 급수를 결정하는 것은 별도의 체조였습니다). 나는 마침내 그것이 무엇에 관한 것인지 이해할 때까지 이 정의를 오랫동안 웃었다. 도함수는 우리가 미분하는 함수가 y=x, y=x^2, y=x^3 함수와 얼마나 유사한지를 측정하는 것에 불과합니다.

나는 지금 학생들을 강의하는 영광을 두려움수학. 당신이 수학을 두려워한다면 - 우리는 길을 가고 있습니다. 어떤 텍스트를 읽으려고 하고 너무 복잡하다고 생각되자마자 그것이 잘못 쓰여졌다는 것을 알게 됩니다. 나는 정확성을 잃지 않고 "손가락으로"에 대해 말할 수없는 수학의 단일 영역이 없다고 주장합니다.

가까운 미래에 대한 도전: 나는 학생들에게 선형-2차 제어기가 무엇인지 이해하도록 지시했습니다. 부끄러워하지 말고 인생의 3분을 낭비하지 말고 링크를 따라가세요. 당신이 아무것도 이해하지 못한다면, 우리는 가는 중입니다. 나(전문 수학자-프로그래머)도 아무것도 이해하지 못했다. 그리고 나는 이것이 "손가락으로" 분류될 수 있다고 장담합니다. 현재로서는 그것이 무엇인지 모르지만, 우리가 그것을 알아낼 수 있을 것이라고 확신합니다.

그래서, 선형-2차 제어기는 당신의 인생에서 절대 마스터하지 못할 끔찍한 버그라는 말로 공포에 질려 저에게 달려온 제 학생들에게 첫 번째 강의는 최소제곱법. 선형 방정식을 풀 수 있습니까? 당신이 이 글을 읽고 있다면 아마 그렇지 않을 것입니다.

따라서 두 점 (x0, y0), (x1, y1), 예를 들어 (1,1) 및 (3,2)가 주어졌을 때 작업은 이 두 점을 통과하는 직선의 방정식을 찾는 것입니다.

삽화

이 직선은 다음과 같은 방정식을 가져야 합니다.

여기에서 알파와 베타는 우리에게 알려지지 않았지만 이 선의 두 점은 알려져 있습니다.

이 방정식을 행렬 형식으로 작성할 수 있습니다.

여기서 우리는 서정적인 탈선을 해야 합니다. 행렬이란 무엇입니까? 행렬은 2차원 배열일 뿐입니다. 이것은 데이터를 저장하는 방법이며 더 이상 값을 부여해서는 안됩니다. 특정 행렬을 정확히 해석하는 방법은 우리에게 달려 있습니다. 주기적으로 선형 매핑으로, 주기적으로 2차 형식으로, 때로는 단순히 벡터 집합으로 해석합니다. 이것은 모두 문맥에서 명확해질 것입니다.

특정 행렬을 기호 표현으로 교체해 보겠습니다.

그런 다음 (알파, 베타)를 쉽게 찾을 수 있습니다.

보다 구체적으로 이전 데이터:

이는 점 (1,1)과 (3,2)를 통과하는 직선의 다음 방정식으로 이어집니다.

자, 여기에서 모든 것이 명확합니다. 그리고 통과하는 직선의 방정식을 구합시다. 점: (x0,y0), (x1,y1) 및 (x2,y2):

오-오-오, 하지만 두 개의 미지수에 대한 세 개의 방정식이 있습니다! 표준 수학자는 답이 없다고 말할 것입니다. 프로그래머는 뭐라고 할까요? 그리고 그는 먼저 이전 방정식 시스템을 다음 형식으로 다시 작성할 것입니다.

우리의 경우 벡터 i, j, b는 3차원이므로 (일반적으로) 이 시스템에 대한 솔루션이 없습니다. 모든 벡터(alpha\*i + beta\*j)는 벡터(i, j)에 걸쳐 있는 평면에 있습니다. b가 이 평면에 속하지 않으면 솔루션이 없습니다(방정식의 평등을 달성할 수 없음). 무엇을 할까요? 타협점을 찾아보자. 로 나타내자 e(알파, 베타)정확히 우리가 평등을 달성하지 못한 방법:

그리고 우리는 이 오류를 최소화하려고 노력할 것입니다:

왜 사각형인가?

우리는 표준의 최소값뿐만 아니라 표준의 제곱의 최소값을 찾고 있습니다. 왜요? 최소점 자체가 일치하고 제곱은 부드러운 함수(인수(알파,베타)의 2차 함수)를 제공하는 반면 길이만 원뿔 형태의 함수를 제공하며 최소점에서 미분할 수 없습니다. 브르. 스퀘어가 더 편리합니다.

분명히 오류는 벡터가 다음과 같을 때 최소화됩니다. 이자형벡터에 걸쳐 있는 평면에 직교 그리고 제이.

삽화

즉, 모든 점에서 이 선까지의 거리의 제곱 길이의 합이 최소가 되는 선을 찾고 있습니다.

업데이트: 여기에 잼이 있습니다. 선까지의 거리는 직교 투영이 아닌 수직으로 측정해야 합니다. 이 댓글이 맞습니다.

삽화

완전히 다른 말로 (조심스럽게, 제대로 형식화되지 않았지만 손가락으로 명확해야 함) 모든 점 쌍 사이에 가능한 모든 선을 취하고 모두 사이의 평균 선을 찾습니다.

삽화

손가락에 대한 또 다른 설명: 우리는 모든 데이터 포인트(여기서 3개 있음)와 우리가 찾고 있는 선 사이에 스프링을 연결하고 평형 상태의 선은 정확히 우리가 찾고 있는 것입니다.

최소 이차 형식

따라서 주어진 벡터 및 행렬의 열 벡터에 의해 확장되는 평면 (이 경우 (x0,x1,x2) 및 (1,1,1)) 벡터를 찾고 있습니다. 이자형길이의 최소 제곱으로. 분명히 최소값은 벡터에 대해서만 달성할 수 있습니다. 이자형, 행렬의 열-벡터에 의해 확장되는 평면에 직교 :

즉, 다음과 같은 벡터 x=(alpha, beta)를 찾고 있습니다.

이 벡터 x=(alpha, beta)는 이차 함수 ||e(alpha, beta)||^2의 최소값임을 상기시킵니다.

여기서 행렬은 2차 형식뿐만 아니라 해석될 수 있다는 점을 기억하는 것이 유용합니다. 예를 들어 단위 행렬((1,0),(0,1))은 x^2 + y의 함수로 해석될 수 있습니다. ^2:

이차 형태

이 모든 체조는 선형 회귀로 알려져 있습니다.

디리클레 경계 조건이 있는 라플라스 방정식

이제 가장 간단한 실제 문제입니다. 특정 삼각형 표면이 있으므로 이를 부드럽게 해야 합니다. 예를 들어 내 얼굴 모델을 로드해 보겠습니다.

원본 커밋을 사용할 수 있습니다. 외부 종속성을 최소화하기 위해 이미 Habré에 있는 소프트웨어 렌더러의 코드를 가져왔습니다. 선형 시스템을 풀기 위해 저는 OpenNL을 사용합니다. 이것은 훌륭한 솔버이지만 설치하기가 매우 어렵습니다. 두 개의 파일(.h + .c)을 프로젝트 폴더에 복사해야 합니다. 모든 평활화는 다음 코드로 수행됩니다.

(int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&얼굴 = 얼굴[i]; for (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

X, Y 및 Z 좌표는 분리 가능하며, 저는 별도로 매끄럽게 합니다. 즉, 각각 내 모델의 꼭짓점 수와 동일한 수의 변수를 사용하여 세 가지 선형 방정식 시스템을 풉니다. 행렬 A의 처음 n개 행에는 행당 하나의 1만 있고 벡터 b의 처음 n개 행에는 원래 모델 좌표가 있습니다. 즉, 나는 새로운 정점 위치와 이전 정점 위치 사이에 스프링을 묶습니다. 새로운 정점은 이전 정점에서 너무 멀리 떨어져 있으면 안 됩니다.

행렬 A의 모든 후속 행(faces.size()*3 = 그리드에 있는 모든 삼각형의 모서리 수)에는 1이 한 번 발생하고 -1이 한 번 발생하는 반면, 벡터 b는 반대 구성 요소가 0입니다. 이것은 내가 삼각형 메쉬의 각 가장자리에 스프링을 놓았다는 것을 의미합니다. 모든 가장자리는 시작점과 끝점과 같은 정점을 얻으려고 합니다.

다시 한 번: 모든 정점은 변수이며 원래 위치에서 멀리 벗어날 수 없지만 동시에 서로 유사해지도록 노력합니다.

결과는 다음과 같습니다.

모든 것이 잘 될 것이고, 모델은 정말 부드러워졌지만 원래 가장자리에서 멀어졌습니다. 코드를 약간 변경해 보겠습니다.

(int i=0; 나는<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

행렬 A에서 가장자리에 있는 꼭짓점에 대해 v_i = verts[i][d] 범주의 행이 아니라 1000*v_i = 1000*verts[i][d]를 추가합니다. 그것은 무엇을 변경합니까? 그리고 이것은 오류의 2차 형태를 변경합니다. 이제 가장자리의 상단에서 단일 편차는 이전과 같이 1단위가 아니라 1000 * 1000단위가 됩니다. 즉, 우리는 극단 정점에 더 강한 스프링을 걸고 솔루션은 다른 정점을 더 강하게 늘리는 것을 선호합니다. 결과는 다음과 같습니다.

정점 사이의 스프링 강도를 두 배로 합시다.
nlCoefficient(면[j], 2); nlCoefficient(면[(j+1)%3], -2);

표면이 더 부드러워진 것은 논리적입니다.

이제 100배 더 강력해졌습니다.

이게 뭐야? 와이어 링을 비눗물에 담갔다고 상상해 보십시오. 결과적으로 결과 비누 필름은 가능한 한 최소 곡률을 갖도록 노력하여 동일한 경계인 와이어 링에 닿습니다. 이것은 경계를 수정하고 내부에 매끄러운 표면을 요청하여 얻은 것과 정확히 같습니다. 축하합니다. Dirichlet 경계 조건으로 라플라스 방정식을 풀었습니다. 멋진데? 그러나 사실, 풀어야 할 단 하나의 선형 방정식 시스템입니다.

푸아송 방정식

멋진 이름을 하나 더 지어봅시다.

다음과 같은 이미지가 있다고 가정해 보겠습니다.

다 좋은데 의자가 맘에 안들어요.

나는 그림을 반으로 자른다.



그리고 손으로 의자를 선택합니다.

그런 다음 마스크에서 흰색인 모든 것을 그림의 왼쪽으로 드래그하고 동시에 전체 그림 전체에 걸쳐 두 개의 인접한 픽셀의 차이는 오른쪽 이미지:

(int i=0; 나는

결과는 다음과 같습니다.

실생활의 예

나는 의도적으로 결과를 핥지 않았기 때문에. 최소 제곱법을 적용하는 방법을 정확히 보여주고 싶었습니다. 이것은 훈련 코드입니다. 이제 삶의 예를 들어보겠습니다.

다음과 같은 직물 샘플 사진이 많이 있습니다.

내 임무는 이 품질의 사진에서 매끄러운 질감을 만드는 것입니다. 먼저 (자동으로) 반복되는 패턴을 찾습니다.

여기에서 이 사각형을 잘라내면 왜곡으로 인해 가장자리가 수렴되지 않습니다. 다음은 네 번 반복되는 패턴의 예입니다.

숨겨진 텍스트

다음은 이음새가 명확하게 보이는 부분입니다.

따라서 직선을 따라 자르지 않을 것입니다. 절단선은 다음과 같습니다.

숨겨진 텍스트

다음은 네 번 반복되는 패턴입니다.

숨겨진 텍스트

그리고 그것을 더 명확하게하기 위해 그 단편 :

이미 더 나은 점은 컷이 모든 종류의 컬을 우회하여 직선으로 가지 않았지만 원본 사진의 조명이 고르지 않기 때문에 여전히 솔기가 보입니다. 이것은 푸아송 방정식에 대한 최소제곱법이 구출되는 곳입니다. 조명 정렬 후의 최종 결과는 다음과 같습니다.

질감은 완벽하게 매끄럽고 매우 평범한 품질의 사진에서 이 모든 것이 자동으로 나타납니다. 수학을 두려워하지 말고 간단한 설명을 찾으면 공학에서 운이 좋을 것입니다.

예시.

변수 값에 대한 실험 데이터 엑스그리고 ~에표에 나와 있습니다.

정렬의 결과로 기능은

사용 최소제곱법, 선형 종속성을 사용하여 이러한 데이터를 근사화합니다. y=ax+b(옵션 찾기 그리고 ). (최소 자승법의 의미에서) 두 선 중 어느 것이 실험 데이터를 정렬하는 것이 더 나은지 알아내십시오. 그림을 그리십시오.

최소제곱법(LSM)의 핵심.

문제는 두 변수의 함수에 대한 선형 종속 계수를 찾는 것입니다. 그리고 가장 작은 값을 취합니다. 즉, 주어진 데이터 그리고 발견된 직선에서 실험 데이터의 편차 제곱의 합이 가장 작습니다. 이것이 최소제곱법의 핵심입니다.

따라서 예제의 솔루션은 두 변수의 함수의 극한값을 찾는 것으로 축소됩니다.

계수를 찾기 위한 공식 유도.

두 개의 미지수가 있는 두 개의 방정식 시스템이 컴파일되고 해결됩니다. 함수의 편도함수 찾기 변수에 의한 그리고 , 우리는 이러한 파생 상품을 0으로 동일시합니다.

어떤 방법으로든 결과 방정식 시스템을 풉니다(예: 대체 방법또는 크래머의 방법) 최소 자승법(LSM)을 사용하여 계수를 찾기 위한 공식을 얻습니다.

데이터와 함께 그리고 기능 가장 작은 값을 취합니다. 이 사실의 증거가 주어진다. 페이지 끝의 텍스트 아래.

이것이 전체 최소제곱법입니다. 매개변수를 찾는 공식 합계, , 및 매개변수를 포함합니다. N- 실험 데이터의 양. 이 합계의 값은 별도로 계산하는 것이 좋습니다. 계수 계산 후 발견 .

원래의 예를 기억할 때입니다.

해결책.

우리의 예에서 n=5. 필요한 계수의 공식에 포함된 금액을 계산하기 쉽도록 표를 채웁니다.

표의 네 번째 행의 값은 두 번째 행의 값에 각 숫자에 대한 세 번째 행의 값을 곱하여 얻습니다. .

표의 다섯 번째 행의 값은 각 숫자에 대한 두 번째 행의 값을 제곱하여 얻습니다. .

테이블의 마지막 열의 값은 행에 있는 값의 합계입니다.

최소 제곱법의 공식을 사용하여 계수를 찾습니다. 그리고 . 우리는 테이블의 마지막 열에서 해당 값을 대체합니다.

따라서, y=0.165x+2.184원하는 근사 직선입니다.

어떤 라인이 있는지 알아내는 것이 남아 있습니다. y=0.165x+2.184또는 최소 제곱 방법을 사용하여 추정하기 위해 원래 데이터에 더 잘 근사합니다.

최소제곱법의 오차 추정.

이렇게 하려면 이 선에서 원본 데이터의 편차 제곱합을 계산해야 합니다. 그리고 , 더 작은 값은 최소 제곱 방법의 관점에서 원래 데이터에 더 잘 근사하는 선에 해당합니다.

이후, 그 라인 y=0.165x+2.184원본 데이터에 더 가깝습니다.

최소 자승법(LSM)의 그래픽 그림.

차트에서 모든 것이 멋지게 보입니다. 빨간선은 찾은 줄 y=0.165x+2.184, 파란색 선은 , 분홍색 점은 원본 데이터입니다.

실제로 경제적, 물리적, 기술적, 사회적 등 다양한 프로세스를 모델링할 때 일부 고정점에서 알려진 값에서 함수의 대략적인 값을 계산하는 하나 또는 다른 방법이 널리 사용됩니다.

이러한 종류의 함수를 근사하는 문제는 종종 다음과 같이 발생합니다.

    실험 결과 얻은 표 데이터에 따라 연구중인 프로세스의 특성량 값을 계산하기위한 대략적인 공식을 구성 할 때;

    수치 적분, 미분, 미분 방정식 풀기 등

    고려 된 간격의 중간 지점에서 함수 값을 계산해야하는 경우;

    특히 예측할 때 고려중인 간격을 벗어난 프로세스의 특성 수량 값을 결정할 때.

테이블에 지정된 특정 프로세스를 모델링하기 위해 최소 제곱법을 기반으로 이 프로세스를 대략적으로 설명하는 함수를 구성하면 근사 함수(회귀)라고 하며 근사 함수를 구성하는 작업 자체는 근사 문제가 된다.

이 기사에서는 이러한 문제를 해결하기 위한 MS Excel 패키지의 가능성에 대해 설명하고, 회귀 분석의 기초가 되는 표 형식으로 주어진 함수에 대한 회귀를 구성(생성)하는 방법과 기술을 제공합니다.

Excel에서 회귀를 작성하기 위한 두 가지 옵션이 있습니다.

    연구된 프로세스 특성에 대한 데이터 테이블을 기반으로 구축된 차트에 선택된 회귀(추세선) 추가(차트가 구축된 경우에만 사용 가능)

    원본 데이터 테이블에서 직접 회귀(추세선)를 얻을 수 있는 Excel 워크시트의 기본 제공 통계 기능을 사용합니다.

차트에 추세선 추가

특정 프로세스를 설명하고 다이어그램으로 표시되는 데이터 테이블의 경우 Excel에는 다음을 수행할 수 있는 효과적인 회귀 분석 도구가 있습니다.

    최소 제곱 방법을 기반으로 구축하고 다양한 정확도로 연구 중인 프로세스를 모델링하는 5가지 유형의 회귀를 다이어그램에 추가합니다.

    구성된 회귀의 방정식을 다이어그램에 추가합니다.

    차트에 표시된 데이터와 선택한 회귀의 준수 정도를 결정합니다.

차트 데이터를 기반으로 Excel을 사용하면 방정식으로 제공되는 선형, 다항식, 로그, 지수, 지수 유형의 회귀를 얻을 수 있습니다.

y = y(x)

여기서 x는 종종 자연수 시퀀스의 값(1, 2, 3, ...)을 취하는 독립 변수이며, 예를 들어 연구 중인 프로세스의 시간 카운트다운(특성)을 생성합니다. .

1 . 선형 회귀는 일정한 비율로 증가하거나 감소하는 특성을 모델링하는 데 적합합니다. 이것은 연구 중인 프로세스의 가장 간단한 모델입니다. 다음 방정식에 따라 작성됩니다.

y=mx+b

여기서 m은 x축에 대한 선형 회귀 기울기의 접선입니다. b - 선형 회귀와 y축의 교차점 좌표.

2 . 다항식 추세선은 몇 가지 뚜렷한 극단(최고 및 최저)이 있는 특성을 설명하는 데 유용합니다. 다항식 차수의 선택은 연구 중인 특성의 극값 수에 의해 결정됩니다. 따라서 2차 다항식은 최대값 또는 최소값이 하나만 있는 프로세스를 잘 설명할 수 있습니다. 3차 다항식 - 2개 이하의 극값; 4차 다항식 - 3개 이하의 극값 등

이 경우 추세선은 다음 방정식에 따라 작성됩니다.

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

여기서 계수 c0, c1, c2, ... c6은 건설 중에 값이 결정되는 상수입니다.

3 . 대수 추세선은 특성을 모델링하는 데 성공적으로 사용되며 값은 처음에는 빠르게 변하다가 점차 안정화됩니다.

y = c ln(x) + b

4 . 검정력 추세선은 연구된 종속성의 값이 성장률의 지속적인 변화를 특징으로 하는 경우 좋은 결과를 제공합니다. 이러한 의존성의 예는 자동차의 균일하게 가속된 움직임의 그래프 역할을 할 수 있습니다. 데이터에 0 또는 음수 값이 있으면 전력 추세선을 사용할 수 없습니다.

다음 방정식에 따라 작성됩니다.

y = cxb

여기서 계수 b, c는 상수입니다.

5 . 데이터의 변화율이 지속적으로 증가하는 경우 지수 추세선을 사용해야 합니다. 0 또는 음수 값을 포함하는 데이터의 경우 이러한 종류의 근사값도 적용할 수 없습니다.

다음 방정식에 따라 작성됩니다.

y=cebx

여기서 계수 b, c는 상수입니다.

추세선을 선택할 때 Excel은 근사의 정확성을 특징으로 하는 R2 값을 자동으로 계산합니다. R2 값이 1에 가까울수록 추세선은 연구 중인 프로세스를 더 안정적으로 근사합니다. 필요한 경우 R2 값을 다이어그램에 항상 표시할 수 있습니다.

공식에 의해 결정:

데이터 시리즈에 추세선을 추가하려면:

    데이터 시리즈를 기반으로 작성된 차트를 활성화합니다. 즉, 차트 영역 내를 클릭합니다. 차트 항목이 주 메뉴에 나타납니다.

    이 항목을 클릭하면 화면에 추세선 추가 명령을 선택해야 하는 메뉴가 나타납니다.

데이터 시리즈 중 하나에 해당하는 그래프 위에 마우스를 놓고 마우스 오른쪽 버튼을 클릭하면 동일한 작업이 쉽게 구현됩니다. 나타나는 상황에 맞는 메뉴에서 추세선 추가 명령을 선택합니다. 유형 탭이 열린 화면에 추세선 대화 상자가 나타납니다(그림 1).

그 후에는 다음이 필요합니다.

유형 탭에서 필요한 추세선 유형을 선택합니다(선형이 기본적으로 선택됨). 다항식 유형의 경우 차수 필드에서 선택한 다항식의 차수를 지정합니다.

1 . 기본 계열 필드에는 해당 차트의 모든 데이터 계열이 나열됩니다. 특정 데이터 계열에 추세선을 추가하려면 기본 계열 필드에서 해당 이름을 선택합니다.

필요한 경우 매개변수 탭(그림 2)으로 이동하여 추세선에 대해 다음 매개변수를 설정할 수 있습니다.

    근사(평활) 곡선 이름 필드에서 추세선 이름을 변경합니다.

    예측 필드에서 예측에 대한 기간 수(앞으로 또는 뒤로)를 설정합니다.

    차트 영역에 추세선의 방정식을 표시합니다. 체크박스를 활성화해야 차트에 방정식을 표시

    다이어그램 영역에 근사 신뢰도 R2의 값을 표시합니다. 확인란을 활성화해야 하는 경우 다이어그램에 근사 신뢰도(R^2) 값을 입력합니다.

    추세선과 Y축의 교차점을 설정합니다. 여기서 Y축과 곡선의 교차 확인란을 선택해야 합니다.

    확인 버튼을 클릭하여 대화 상자를 닫습니다.

이미 구축된 추세선 편집을 시작하는 세 가지 방법이 있습니다.

    추세선을 선택한 후 형식 메뉴에서 선택한 추세선 명령을 사용합니다.

    추세선을 마우스 오른쪽 버튼으로 클릭하여 호출되는 상황에 맞는 메뉴에서 추세선 형식 명령을 선택합니다.

    추세선을 두 번 클릭하여

보기, 유형, 매개변수의 세 가지 탭이 포함된 추세선 형식 대화 상자가 화면에 나타납니다(그림 3). 마지막 두 개의 내용은 추세선 대화 상자의 유사한 탭과 완전히 일치합니다(그림 1-2 ). 보기 탭에서 선 종류, 색상 및 두께를 설정할 수 있습니다.

이미 구성된 추세선을 삭제하려면 삭제할 추세선을 선택하고 Delete 키를 누릅니다.

고려된 회귀 분석 도구의 장점은 다음과 같습니다.

    데이터 테이블을 만들지 않고도 차트에 추세선을 그리는 것이 상대적으로 쉽습니다.

    제안된 추세선 유형의 상당히 광범위한 목록이며 이 목록에는 가장 일반적으로 사용되는 회귀 유형이 포함됩니다.

    임의의(상식 범위 내에서) 전진 및 후진 단계에 대해 연구 중인 프로세스의 동작을 예측할 가능성;

    분석 형태로 추세선의 방정식을 얻을 가능성;

    필요한 경우 근사치의 신뢰성 평가를 얻을 수 있는 가능성.

단점은 다음과 같은 점을 포함합니다.

    추세선의 구성은 일련의 데이터를 기반으로 하는 차트가 있는 경우에만 수행됩니다.

    얻은 추세선 방정식을 기반으로 연구 중인 특성에 대한 데이터 시리즈를 생성하는 프로세스는 다소 복잡합니다. 원하는 회귀 방정식은 원래 데이터 시리즈 값이 변경될 때마다 업데이트되지만 차트 영역 내에서만 업데이트됩니다. , 기존 라인 방정식 추세를 기반으로 형성된 데이터 시리즈는 변경되지 않은 상태로 유지됩니다.

    피벗 차트 보고서에서 차트 보기 또는 연결된 피벗 테이블 보고서를 변경할 때 기존 추세선이 유지되지 않으므로 추세선을 그리거나 피벗 차트 보고서의 서식을 지정하기 전에 보고서 레이아웃이 요구 사항을 충족하는지 확인해야 합니다.

그래프, 히스토그램, 평면 비정규화 영역 차트, 막대, 분산형, 거품형 및 주식형 차트와 같은 차트에 표시되는 데이터 시리즈에 추세선을 추가할 수 있습니다.

3차원, 표준, 방사형, 원형 ​​및 도넛형 차트의 데이터 계열에는 추세선을 추가할 수 없습니다.

기본 제공 Excel 함수 사용

Excel은 또한 차트 영역 외부에 추세선을 그리기 위한 회귀 분석 도구를 제공합니다. 이를 위해 여러 통계 워크시트 함수를 사용할 수 있지만 모두 선형 또는 지수 회귀만 작성할 수 있습니다.

Excel에는 특히 다음과 같은 선형 회귀 작성을 위한 몇 가지 기능이 있습니다.

    경향;

  • 슬로프 및 컷.

특히 지수 추세선을 구성하기 위한 여러 기능:

    LGRFP대략.

TREND 및 GROWTH 함수를 사용하여 회귀를 구성하는 기술은 실질적으로 동일합니다. LINEST 및 LGRFPRIBL 기능 쌍에 대해서도 마찬가지입니다. 이 네 가지 함수의 경우 값 테이블을 만들 때 배열 수식과 같은 Excel 기능이 사용되어 회귀 작성 프로세스가 다소 복잡합니다. 우리는 또한 선형 회귀의 구성이 SLOPE 및 INTERCEPT 함수를 사용하여 구현하는 것이 가장 쉬운 것으로 생각합니다. 여기서 첫 번째는 선형 회귀의 기울기를 결정하고 두 번째는 회귀에 의해 절단된 세그먼트를 결정합니다. y축에.

회귀 분석을 위한 내장 함수 도구의 장점은 다음과 같습니다.

    추세선을 설정하는 모든 내장 통계 기능에 대해 연구 중인 특성의 데이터 시리즈와 동일한 유형의 매우 단순한 프로세스.

    생성된 데이터 시리즈를 기반으로 추세선을 구성하는 표준 기술;

    앞으로 또는 뒤로 필요한 단계 수에 대해 연구 중인 프로세스의 동작을 예측하는 능력.

그리고 단점은 Excel에 다른 유형의 추세선(선형 및 지수 제외)을 생성하기 위한 기본 제공 기능이 없다는 점입니다. 이러한 상황에서는 연구 중인 프로세스의 충분히 정확한 모델을 선택하고 현실에 가까운 예측을 얻을 수 없는 경우가 많습니다. 또한 TREND 및 GROW 기능을 사용할 때 추세선의 방정식을 알 수 없습니다.

저자는 다양한 수준의 완전성으로 회귀 분석 과정을 제시하기 위해 기사의 목표를 설정하지 않았다는 점에 유의해야 합니다. 주요 작업은 특정 예제를 사용하여 근사 문제를 해결하는 Excel 패키지의 기능을 보여주는 것입니다. 회귀 및 예측을 구축하기 위해 Excel에 어떤 효과적인 도구가 있는지 보여줍니다. 회귀 분석에 대한 깊은 지식이 없는 사용자도 이러한 문제를 비교적 쉽게 해결할 수 있음을 보여줍니다.

특정 문제 해결의 예

Excel 패키지의 나열된 도구를 사용하여 특정 문제의 솔루션을 고려하십시오.

작업 1

1995-2002년 자동차 운송 기업의 이익에 대한 데이터 표. 다음을 수행해야 합니다.

    차트를 작성합니다.

    차트에 선형 및 다항식(2차 및 3차) 추세선을 추가합니다.

    추세선 방정식을 사용하여 1995-2004년의 각 추세선에 대한 기업 이익에 대한 표 형식 데이터를 얻습니다.

    2003년과 2004년 기업의 이익을 예측합니다.

문제의 해결책

    Excel 워크시트의 A4:C11 셀 범위에 그림 1과 같은 워크시트를 입력합니다. 넷.

    B4:C11 셀 범위를 선택하고 차트를 작성합니다.

    구성된 차트를 활성화하고 위에서 설명한 방법을 사용하여 추세선 대화 상자(그림 1 참조)에서 추세선 유형을 선택한 후 차트에 선형, 2차 및 3차 추세선을 교대로 추가합니다. 동일한 대화 상자에서 매개변수 탭(그림 2 참조)을 열고 근사(평활) 곡선 이름 필드에 추가할 추세의 이름을 입력하고 예측 기간: 기간 필드에 다음을 설정합니다. 값 2, 앞으로 2년 동안의 이익 예측을 할 계획이기 때문입니다. 다이어그램 영역에 회귀 방정식과 근사 신뢰도 R2 값을 표시하려면 화면에 방정식 표시 확인란을 선택하고 다이어그램에 근사 신뢰도(R^2) 값을 배치합니다. 더 나은 시각적 인식을 위해 플롯된 추세선의 유형, 색상 및 두께를 변경합니다. 이에 대해 추세선 형식 대화 상자의 보기 탭을 사용합니다(그림 3 참조). 추세선이 추가된 결과 차트는 그림 1에 나와 있습니다. 5.

    1995-2004년의 각 추세선에 대한 기업 이익에 대한 표 형식 데이터를 얻으려면. 그림에 제시된 추세선의 방정식을 사용합시다. 5. 이렇게 하려면 D3:F3 범위의 셀에 선형 추세, 2차 추세, 3차 추세와 같이 선택한 추세선 유형에 대한 텍스트 정보를 입력합니다. 그런 다음 D4 셀에 선형 회귀 수식을 입력하고 채우기 마커를 사용하여 D5:D13 셀 범위에 대한 상대 참조와 함께 이 수식을 복사합니다. D4:D13 셀 범위의 선형 회귀 공식이 있는 각 셀에는 A4:A13 범위의 해당 셀이 인수로 포함됩니다. 마찬가지로 2차 회귀의 경우 셀 범위 E4:E13이 채워지고 3차 회귀의 경우 셀 범위 F4:F13이 채워집니다. 따라서 2003년과 2004년 기업의 이익에 대한 예측이 이루어졌습니다. 세 가지 트렌드와 함께. 결과 값 표가 그림 1에 나와 있습니다. 6.

작업 2

    차트를 작성합니다.

    차트에 로그, 지수 및 지수 추세선을 추가합니다.

    얻은 추세선의 방정식과 각각에 대한 근사 신뢰도 R2 값을 유도하십시오.

    추세선 방정식을 사용하여 1995-2002년 동안 각 추세선에 대한 기업 이익에 대한 표 형식 데이터를 얻습니다.

    이 추세선을 사용하여 2003년과 2004년 사업에 대한 이익 예측을 하십시오.

문제의 해결책

문제 1을 풀 때 주어진 방법론에 따라 로그, 지수 및 지수 추세선이 추가된 다이어그램을 얻습니다(그림 7). 또한 얻은 추세선 방정식을 사용하여 2003년과 2004년의 예측 값을 포함하여 기업의 이익을 위한 값 표를 채웁니다. (그림 8).

무화과에. 5 및 그림. 대수 경향이 있는 모델이 근사 신뢰도의 가장 낮은 값에 해당함을 알 수 있습니다.

R2 = 0.8659

R2의 가장 높은 값은 2차(R2 = 0.9263) 및 3차(R2 = 0.933)인 다항식 추세가 있는 모델에 해당합니다.

작업 3

작업 1에 제공된 1995-2002년 자동차 운송 기업의 이익에 대한 데이터 테이블을 사용하여 다음 단계를 수행해야 합니다.

    TREND 및 GROW 함수를 사용하여 선형 및 지수 추세선에 대한 데이터 시리즈를 가져옵니다.

    TREND 및 GROWTH 함수를 사용하여 2003년과 2004년 기업의 이익을 예측합니다.

    초기 데이터 및 수신 데이터 계열에 대해 다이어그램을 구성합니다.

문제의 해결책

작업 1의 워크시트를 사용합시다(그림 4 참조). TREND 함수부터 시작하겠습니다.

    기업의 이익에 대한 알려진 데이터에 해당하는 TREND 함수의 값으로 채워야 하는 D4:D11 셀 범위를 선택합니다.

    삽입 메뉴에서 기능 명령을 호출합니다. 표시되는 함수 마법사 대화 상자의 통계 범주에서 TREND 함수를 선택한 다음 확인 버튼을 클릭합니다. 표준 도구 모음의 버튼(삽입 기능)을 눌러 동일한 작업을 수행할 수 있습니다.

    표시되는 함수 인수 대화 상자에서 Known_values_y 필드에 C4:C11 셀 범위를 입력합니다. Known_values_x 필드에서 - 셀 범위 B4:B11;

    입력한 수식을 배열 수식으로 만들려면 + + 키 조합을 사용합니다.

수식 입력줄에 입력한 수식은 =(TREND(C4:C11;B4:B11))과 같습니다.

결과적으로 D4:D11 셀의 범위는 TREND 함수의 해당 값으로 채워집니다(그림 9).

2003년과 2004년 회사의 이익을 예측하기 위해. 필요한:

    TREND 함수에 의해 예측된 값이 입력될 D12:D13 셀의 범위를 선택합니다.

    TREND 함수를 호출하고 나타나는 함수 인수 대화 상자에서 Known_values_y 필드에 입력하십시오 - 셀 범위 C4:C11; Known_values_x 필드에서 - 셀 범위 B4:B11; 및 New_values_x 필드에서 - 셀 범위 B12:B13.

    키보드 단축키 Ctrl + Shift + Enter를 사용하여 이 수식을 배열 수식으로 바꿉니다.

    입력한 수식은 =(TREND(C4:C11;B4:B11;B12:B13))과 같으며 D12:D13 셀의 범위는 TREND 함수의 예측 값으로 채워집니다(그림 11 참조). 9).

유사하게, 데이터 시리즈는 비선형 종속성 분석에 사용되며 선형 대응 TREND와 정확히 동일하게 작동하는 GROWTH 함수를 사용하여 채워집니다.

그림 10은 공식 표시 모드의 테이블을 보여줍니다.

초기 데이터와 획득한 데이터 계열에 대해 그림 1에 표시된 다이어그램. 열하나.

작업 4

당월 1일부터 11일까지의 기간 동안 자동차 운송 기업의 파견 서비스에 의한 서비스 신청 접수 데이터 테이블을 사용하여 다음 작업을 수행해야 합니다.

    선형 회귀에 대한 데이터 시리즈 얻기: SLOPE 및 INTERCEPT 함수 사용; LINEST 기능을 사용하여

    LYFFPRIB 함수를 사용하여 지수 회귀에 대한 데이터 시리즈를 검색합니다.

    위의 기능을 이용하여 당월 12일부터 14일까지 파견서비스 신청 접수를 예측합니다.

    원본 및 수신 데이터 계열에 대해 다이어그램을 구성합니다.

문제의 해결책

TREND 및 GROW 함수와 달리 위에 나열된 함수(SLOPE, INTERCEPTION, LINEST, LGRFPRIB)는 회귀가 아닙니다. 이러한 기능은 필요한 회귀 매개변수를 결정하는 보조 역할만 합니다.

함수 SLOPE, INTERCEPT, LINEST, LGRFPRIB를 사용하여 작성된 선형 및 지수 회귀의 경우 함수 TREND 및 GROWTH에 해당하는 선형 및 지수 회귀와 달리 방정식의 모양이 항상 알려져 있습니다.

1 . 다음 방정식이 있는 선형 회귀를 작성해 보겠습니다.

y=mx+b

SLOPE 및 INTERCEPT 함수를 사용하여 회귀 m의 기울기는 SLOPE 함수에 의해 결정되고 상수 항 b는 INTERCEPT 함수에 의해 결정됩니다.

이를 위해 다음 작업을 수행합니다.

    A4:B14 셀 범위에 원본 테이블을 입력합니다.

    매개변수 m의 값은 C19 셀에서 결정됩니다. 통계 범주에서 기울기 기능을 선택합니다. known_values_y 필드에 B4:B14 셀 범위를 입력하고 known_values_x 필드에는 A4:A14 셀 범위를 입력합니다. 수식은 C19 셀에 입력됩니다. =SLOPE(B4:B14;A4:A14);

    유사한 방법을 사용하여 셀 D19의 매개변수 b 값이 결정됩니다. 그리고 그 내용은 다음과 같을 것입니다: = INTERCEPT(B4:B14;A4:A14). 따라서 선형 회귀를 구성하는 데 필요한 매개 변수 m 및 b의 값은 각각 C19, D19 셀에 저장됩니다.

    그런 다음 C4 셀에 = $ C * A4 + $ D 형식으로 선형 회귀 공식을 입력합니다. 이 수식에서 셀 C19 및 D19는 절대 참조로 작성됩니다(셀 주소는 복사할 때 변경되지 않아야 함). 절대 참조 기호 $는 셀 주소에 커서를 놓은 후 키보드에서 또는 F4 키를 사용하여 입력할 수 있습니다. 채우기 핸들을 사용하여 이 수식을 C4:C17 셀 범위에 복사합니다. 원하는 데이터 시리즈를 얻습니다(그림 12). 요청 수가 정수이기 때문에 셀 서식 창의 숫자 탭에서 소수점 이하 자릿수를 0으로 설정해야 합니다.

2 . 이제 다음 방정식으로 주어진 선형 회귀를 작성해 보겠습니다.

y=mx+b

LINEST 기능을 사용하여

이를 위해:

    C20:D20: =(LINEST(B4:B14;A4:A14)) 셀 범위에 LINEST 함수를 배열 수식으로 입력합니다. 결과적으로 셀 C20의 매개변수 m 값과 셀 D20의 매개변수 b 값을 얻습니다.

    D4 셀에 수식 입력: =$C*A4+$D;

    채우기 마커를 사용하여 이 수식을 D4:D17 셀 범위에 복사하고 원하는 데이터 계열을 가져옵니다.

3 . 다음 방정식을 갖는 지수 회귀를 작성합니다.

LGRFPRIBL 기능의 도움으로 유사하게 수행됩니다.

    셀 C21:D21 범위에서 배열 수식으로 LGRFPRIBL 함수를 입력합니다. =( LGRFPRIBL (B4:B14;A4:A14)). 이 경우 매개변수 m의 값은 셀 C21에서 결정되고 매개변수 b의 값은 셀 D21에서 결정됩니다.

    수식은 셀 E4에 입력됩니다. =$D*$C^A4;

    채우기 마커를 사용하여 이 수식은 E4:E17 셀 범위에 복사되며, 여기서 지수 회귀 데이터 계열이 위치하게 됩니다(그림 12 참조).

무화과에. 13은 필요한 셀 범위와 함께 사용하는 함수와 수식을 볼 수 있는 표를 보여줍니다.

아르 자형 2 ~라고 불리는 결정 계수.

회귀 종속성을 구성하는 작업은 계수 R이 최대값을 취하는 모델(1)의 계수 m 벡터를 찾는 것입니다.

R의 유의성을 평가하기 위해 Fisher의 F-검정이 사용되며 다음 공식으로 계산됩니다.

어디 N- 표본 크기(실험 횟수);

k는 모델 계수의 수입니다.

F가 데이터에 대한 임계값을 초과하는 경우 N그리고 케이허용된 신뢰 수준이면 R 값이 유의한 것으로 간주됩니다. F의 임계 값 표는 수학 통계에 대한 참고서에 나와 있습니다.

따라서 R의 중요성은 값뿐만 아니라 실험 횟수와 모델의 계수(매개변수) 수 간의 비율에 의해 결정됩니다. 실제로 단순 선형 모델의 경우 n=2에 대한 상관 비율은 1입니다(평면의 2개 점을 통해 항상 단일 직선을 그릴 수 있음). 그러나 실험 데이터가 랜덤 변수인 경우 이러한 R 값은 매우 신중하게 신뢰해야 합니다. 일반적으로 유의미한 R과 신뢰할 수 있는 회귀를 얻기 위해 실험 수가 모델 계수의 수(n>k)를 크게 초과하도록 하는 것을 목표로 합니다.

선형 회귀 모델을 작성하려면 다음을 수행해야 합니다.

1) 실험 데이터를 포함하는 n개의 행과 m개의 열 목록을 준비합니다(출력 값을 포함하는 열 와이목록의 첫 번째 또는 마지막이어야 함); 예를 들어, 이전 작업의 데이터를 가져와 "기간 번호"라는 열을 추가하고 1에서 12까지 기간 번호를 매깁니다. 엑스)

2) 메뉴 데이터/데이터 분석/회귀로 이동

"도구" 메뉴의 "데이터 분석" 항목이 누락된 경우 동일한 메뉴의 "추가 기능" 항목으로 이동하여 "분석 패키지" 상자를 선택해야 합니다.

3) "회귀" 대화 상자에서 다음을 설정합니다.

입력 간격 Y;

입력 간격 X;

출력 간격 - 계산 결과가 배치될 간격의 왼쪽 상단 셀(새 워크시트에 배치하는 것이 좋습니다)

4) "확인"을 클릭하고 결과를 분석합니다.

최소제곱법의 핵심은 시간 또는 공간에서 임의의 현상의 발전 경향을 가장 잘 설명하는 경향 모델의 매개변수를 찾는 데 있어(추세는 이러한 발전의 경향을 특징짓는 선입니다). 최소 자승법(OLS)의 임무는 일부 추세 모델을 찾는 것이 아니라 최적 또는 최적의 모델을 찾는 것입니다. 이 모델은 관찰된 실제 값과 해당 계산된 추세 값 사이의 제곱 편차의 합이 최소(가장 작음)인 경우에 최적입니다.

관찰된 실제 값 사이의 표준 편차는 어디입니까?

해당 계산된 추세 값,

연구 중인 현상의 실제(관찰) 값,

추세 모델의 추정값,

연구 중인 현상의 관찰 횟수입니다.

MNC는 자체적으로 거의 사용되지 않습니다. 일반적으로 상관 관계 연구에서 필요한 기술로만 사용되는 경우가 가장 많습니다. LSM의 정보 기반은 신뢰할 수 있는 통계 시리즈일 수 있으며 관찰 횟수는 4개 이상이어야 합니다. 그렇지 않으면 LSM의 평활화 절차가 상식을 잃을 수 있습니다.

OLS 툴킷은 다음 절차로 축소됩니다.

첫 번째 절차. 선택된 요인-인수가 변경될 때 결과 속성을 변경하는 경향이 전혀 없는지, 즉 " ~에 " 그리고 " 엑스 ».

두 번째 절차. 이 추세를 가장 잘 설명하거나 특성화할 수 있는 선(궤적)이 결정됩니다.

세 번째 절차.

예시. 연구 중인 농장의 평균 해바라기 수확량에 대한 정보가 있다고 가정합니다(표 9.1).

표 9.1

관찰 번호

생산성, c/ha

우리나라의 해바라기 생산 기술 수준은 지난 10년 동안 크게 변하지 않았기 때문에 분석 기간의 수확량 변동이 날씨 및 기후 조건의 변동에 크게 의존했을 가능성이 큽니다. 사실이야?

첫 번째 MNC 절차. 분석된 10년 동안 기상 및 기후 조건의 변화에 ​​따른 해바라기 수확량 변화의 추세가 존재한다는 가설이 검증되고 있다.

이 예에서 " 와이 » 해바라기의 수확량을 취하는 것이 좋습니다. « 엑스 »는 분석 기간에서 관찰된 연도의 수입니다. " 사이의 관계가 존재한다는 가설 테스트 엑스 " 그리고 " 와이 » 수동 및 컴퓨터 프로그램의 도움으로 두 가지 방법으로 수행할 수 있습니다. 물론 컴퓨터 기술의 가용성으로 이 문제는 저절로 해결됩니다. 그러나 OLS 툴킷을 더 잘 이해하기 위해서는 " 엑스 " 그리고 " 와이 » 손에 펜과 일반 계산기만 있을 때 수동으로. 이러한 경우 추세의 존재 가설은 분석된 시계열의 그래픽 이미지 위치인 상관 필드를 통해 시각적으로 가장 잘 확인됩니다.

이 예에서 상관 필드는 천천히 증가하는 선 주위에 있습니다. 이것은 그 자체로 해바라기 수확량의 변화에 ​​일정한 경향이 있음을 나타냅니다. 상관 필드가 원, 원, 엄격한 수직 또는 엄격한 수평 구름처럼 보이거나 무작위로 흩어져있는 점으로 구성된 경우에만 추세의 존재에 대해 말하는 것은 불가능합니다. 다른 모든 경우에는 "사이의 관계가 존재한다는 가설을 확인해야 합니다. 엑스 " 그리고 " 와이 그리고 연구를 계속합니다.

두 번째 MNC 절차. 분석된 기간 동안 해바라기 수확량 변화 추세를 가장 잘 설명하거나 특성화할 수 있는 선(궤적)이 결정됩니다.

컴퓨터 기술의 가용성으로 최적의 추세가 자동으로 선택됩니다. "수동" 처리를 통해 최적 기능의 선택은 일반적으로 상관 필드의 위치에 따라 시각적인 방식으로 수행됩니다. 즉, 차트의 종류에 따라 실증적 경향(실제 궤적)에 가장 적합한 선의 방정식이 선택된다.

아시다시피 자연에는 매우 다양한 기능적 종속성이 있으므로 그 중 작은 부분이라도 시각적으로 분석하는 것은 매우 어렵습니다. 다행히도 실제 경제 관행에서 대부분의 관계는 포물선, 쌍곡선 또는 직선으로 정확하게 설명될 수 있습니다. 이와 관련하여 최상의 기능을 선택하기 위한 "수동" 옵션을 사용하면 이 세 가지 모델로만 제한할 수 있습니다.

쌍곡선:

2차 포물선: :

우리의 예에서 분석된 10년 동안 해바라기 수확량 변화의 추세가 직선으로 가장 잘 특징지어지기 때문에 회귀 방정식은 직선 방정식이 될 것임을 쉽게 알 수 있습니다.

세 번째 절차. 이 선을 특징짓는 회귀 방정식의 매개변수가 계산됩니다. 즉, 최상의 추세 모델을 설명하는 분석 공식이 결정됩니다.

회귀 방정식의 매개 변수 값을 찾는 것, 우리의 경우 매개 변수 및 , LSM의 핵심입니다. 이 과정은 정규 방정식 시스템을 푸는 것으로 축소됩니다.

(9.2)

이 방정식 시스템은 가우스 방법으로 아주 쉽게 풀 수 있습니다. 우리의 예에서 솔루션의 결과로 매개 변수의 값이 발견되었음을 상기하십시오. 따라서 찾은 회귀 방정식은 다음과 같은 형식을 갖습니다.