За оценка се използва регресионен анализ. Регресионният анализ е статистически метод за изследване на зависимостта на случайна променлива от променливи
При статистическото моделиране регресионният анализ е изследване, използвано за оценка на връзката между променливите. Това математически методвключва разнообразие от други техники за моделиране и анализиране на множество променливи, където фокусът е върху връзката между зависима променлива и една или повече независими променливи. По-конкретно, регресионният анализ ни помага да разберем как се променя типичната стойност на зависима променлива, ако една от независимите променливи се промени, докато другите независими променливи остават фиксирани.
Във всички случаи целевата оценка е функция на независимите променливи и се нарича регресионна функция. В регресионния анализ също е от интерес да се характеризира промяната в зависимата променлива като функция на регресията, която може да бъде описана с помощта на вероятностно разпределение.
Проблеми на регресионния анализ
The статистически методизследването се използва широко за прогнозиране, където използването му има значително предимство, но понякога може да доведе до илюзия или фалшиви връзки, така че се препоръчва да се използва внимателно в споменатия въпрос, тъй като например корелацията не означава причинно-следствена връзка.
Разработени са голям брой методи за регресионен анализ, като линейна и обикновена регресия на най-малките квадрати, които са параметрични. Тяхната същност е, че регресионната функция се дефинира от гледна точка на краен брой неизвестни параметри, които се оценяват от данните. Непараметричната регресия позволява нейната функция да лежи в определен набор от функции, които могат да бъдат безкрайномерни.
Като статистически изследователски метод регресионният анализ на практика зависи от формата на процеса на генериране на данни и от това как той се свързва с регресионния подход. Тъй като истинската форма на генериране на процеса на данни обикновено е неизвестно число, регресионният анализ на данните често зависи до известна степен от предположенията за процеса. Тези предположения понякога могат да бъдат тествани, ако има достатъчно налични данни. Регресионните модели често са полезни дори когато предположенията са умерено нарушени, въпреки че може да не работят с максимална ефективност.
В по-тесен смисъл регресията може да се отнася конкретно до оценката на променливите на непрекъснатия отговор, за разлика от променливите на дискретния отговор, използвани в класификацията. Случаят на непрекъснатата изходна променлива се нарича още метрична регресия, за да се разграничи от свързаните проблеми.
История
Повечето ранна формарегресиите са за всички известен методнай-малки квадрати. Той е публикуван от Лежандр през 1805 г. и Гаус през 1809 г. Лежандр и Гаус прилагат метода към проблема за определяне от астрономически наблюдения на орбитите на телата около Слънцето (главно комети, но по-късно и новооткрити малки планети). Гаус публикува по-нататъшно развитие на теорията на най-малките квадрати през 1821 г., включително версия на теоремата на Гаус-Марков.
Терминът "регресия" е въведен от Франсис Галтън през 19 век, за да опише биологичен феномен. Идеята беше, че височината на потомците от тази на техните предци има тенденция да регресира надолу към нормалната средна стойност. За Галтън регресията има само това биологично значение, но по-късно работата му е продължена от Удни Йоли и Карл Пиърсън и е приведена в по-общ статистически контекст. В работата на Юл и Пиърсън съвместното разпределение на отговора и обяснителните променливи се приема за Гаусово. Това предположение е отхвърлено от Фишер в статии от 1922 и 1925 г. Фишър предположи, че условното разпределение на променливата на отговора е гаусово, но съвместното разпределение не е необходимо да бъде. В това отношение предложението на Фишер е по-близо до формулировката на Гаус от 1821 г. Преди 1970 г. понякога отнемаше до 24 часа, за да се получи резултатът от регресионен анализ.
Методите за регресионен анализ продължават да бъдат област на активно изследване. През последните десетилетия бяха разработени нови методи за стабилна регресия; регресии, включващи корелирани отговори; регресионни методи, които приспособяват Различни видовелипсва информация; непараметрична регресия; Байесови регресионни методи; регресии, при които предикторните променливи се измерват с грешка; регресия с повече предиктори, отколкото наблюдения, и причинно-следствени изводи с регресия.
Регресионни модели
Моделите за регресионен анализ включват следните променливи:
- Неизвестни параметри, обозначени като бета, които могат да бъдат скалар или вектор.
- Независими променливи, X.
- Зависими променливи, Y.
Различните области на науката, където се използва регресионен анализ, използват различни термини вместо зависими и независими променливи, но във всички случаи регресионният модел свързва Y с функция на X и β.
Приближението обикновено се записва като E(Y | X) = F(X, β). За да се извърши регресионен анализ, трябва да се определи вида на функцията f. По-рядко се основава на знания за връзката между Y и X, които не разчитат на данни. Ако такива знания не са налични, тогава гъвкави или удобна формаЕ.
Зависима променлива Y
Нека сега приемем, че векторът на неизвестните параметри β има дължина k. За да извърши регресионен анализ, потребителят трябва да предостави информация за зависимата променлива Y:
- Ако се наблюдават N точки от данни във формата (Y, X), където N< k, большинство класически подходине може да се извърши регресионен анализ, тъй като системата от уравнения, които определят регресионния модел като недоопределен, няма достатъчно количестводанни за възстановяване на β.
- Ако се наблюдава точно N = K и функцията F е линейна, тогава уравнението Y = F(X, β) може да бъде решено точно, а не приблизително. Това се равнява на решаване на набор от N-уравнения с N-неизвестни (елементи β), които имат уникално решение, стига X да е линейно независим. Ако F е нелинейно, може да няма решение или може да съществуват много решения.
- Най-честата ситуация е, когато се наблюдават N > точки от данни. В този случай в данните има достатъчно информация за оценка на уникална стойност за β, която най-добре отговаря на данните, и регресионен модел, при който приложението към данните може да се разглежда като свръхопределена система в β.
В последния случай регресионният анализ предоставя инструменти за:
- Намиране на решение за неизвестните параметри β, което например ще минимизира разстоянието между измерената и прогнозираната стойност на Y.
- При определени статистически допускания, регресионният анализ използва излишна информация, за да предостави статистическа информация за неизвестните параметри β и прогнозираните стойности на зависимата променлива Y.
Необходим брой независими измервания
Да разгледаме регресионен модел, който има три неизвестни параметъра: β 0 , β 1 и β 2 . Да предположим, че експериментаторът прави 10 измервания на една и съща стойност на вектора X на независимата променлива. В този случай регресионният анализ не дава уникален набор от стойности. Най-доброто, което можете да направите, е да оцените средната стойност и стандартно отклонениезависима променлива Y. По същия начин, измерване на две различни значения X, можете да получите достатъчно данни за регресия с две неизвестни, но не и с три или повече неизвестни.
Ако измерванията на експериментатора са направени при три различни стойности на независимия променлив вектор X, тогава регресионният анализ ще предостави уникален набор от оценки за трите неизвестни параметъра в β.
В случай на обща линейна регресия горното твърдение е еквивалентно на изискването матрицата X T X да е обратима.
Статистически предположения
Когато броят на измерванията N е по-голям от броя на неизвестните параметри k и грешките на измерване ε i , тогава, като правило, излишната информация, съдържаща се в измерванията, се разпространява и използва за статистически прогнози по отношение на неизвестните параметри. Тази излишна информация се нарича регресивна степен на свобода.
Основни допускания
Класическите допускания за регресионен анализ включват:
- Вземането на проби е представително за прогнозиране на изводи.
- Членът на грешката е случайна променлива със средна стойност нула, която зависи от обяснителните променливи.
- Независимите променливи се измерват без грешки.
- Като независими променливи (предиктори), те са линейно независими, т.е. не е възможно да се изрази нито един предиктор като линейна комбинация от останалите.
- Грешките са некорелирани, т.е. ковариационната матрица на грешката на диагоналите и всеки ненулев елемент е дисперсията на грешката.
- Дисперсията на грешката е постоянна в наблюденията (хомоскедастичност). Ако не, тогава могат да се използват претеглени най-малки квадрати или други методи.
Тези достатъчни условия за оценка на най-малките квадрати имат необходимите свойства; по-специално, тези допускания означават, че оценките на параметрите ще бъдат обективни, последователни и ефективни, особено когато се вземат предвид в класа на линейните оценители. Важно е да се отбележи, че доказателствата рядко отговарят на условията. Тоест, методът се използва дори ако предположенията не са верни. Отклонението от предположенията понякога може да се използва като мярка за това колко полезен е моделът. Много от тези предположения могат да бъдат облекчени с по-напреднали методи. Докладите за статистически анализ обикновено включват анализ на тестове върху примерни данни и методология за полезността на модела.
Освен това променливите в някои случаи се отнасят до стойности, измерени в точки. Възможно е да има пространствени тенденции и пространствени автокорелации в променливи, които нарушават статистическите допускания. Географската претеглена регресия е единственият метод, който се занимава с такива данни.
Характеристика на линейната регресия е, че зависимата променлива, която е Yi, е линейна комбинация от параметри. Например простата линейна регресия използва една независима променлива, x i, и два параметъра, β 0 и β 1, за моделиране на n-точки.
При множествената линейна регресия има множество независими променливи или техни функции.
Когато се вземе произволна извадка от съвкупност, нейните параметри позволяват да се получи примерен линеен регресионен модел.
IN този аспектНай-популярен е методът на най-малките квадрати. Използва се за получаване на оценки на параметри, които минимизират сумата на квадратите на остатъците. Този вид минимизиране (което е типично за линейната регресия) на тази функция води до набор от нормални уравнения и набор от линейни уравнения с параметри, които се решават, за да се получат оценки на параметрите.
При по-нататъшното предположение, че грешката на популацията обикновено се разпространява, изследователят може да използва тези стандартни оценки на грешката, за да създаде доверителни интервали и да проведе тестове на хипотези относно нейните параметри.
Нелинеен регресионен анализ
Пример, при който функцията не е линейна по отношение на параметрите, показва, че сумата от квадрати трябва да бъде минимизирана с помощта на итеративна процедура. Това въвежда много усложнения, които определят разликите между линейните и нелинейните методи на най-малките квадрати. Следователно резултатите от регресионния анализ при използване на нелинеен метод понякога са непредсказуеми.
Изчисляване на мощността и размера на извадката
Като цяло няма последователни методи по отношение на броя на наблюденията спрямо броя на независимите променливи в модела. Първото правило е предложено от Добра и Хардин и изглежда като N = t^n, където N е размерът на извадката, n е броят на независимите променливи, а t е броят наблюдения, необходими за постигане на желаната точност, ако моделът имаше само една независима променлива. Например, изследовател изгражда линеен регресионен модел, използвайки набор от данни, който съдържа 1000 пациенти (N). Ако изследователят реши, че са необходими пет наблюдения за точно дефиниране на линията (m), тогава максималният брой независими променливи, които моделът може да поддържа, е 4.
Други методи
Въпреки че параметрите на регресионния модел обикновено се оценяват с помощта на метода на най-малките квадрати, има други методи, които се използват много по-рядко. Например, това са следните методи:
- Байесови методи (например байесова линейна регресия).
- Процентна регресия, използвана за ситуации, при които намаляването на процентните грешки се счита за по-подходящо.
- Най-малките абсолютни отклонения, което е по-стабилно при наличие на отклонения, водещи до квантилна регресия.
- Изискване на непараметрична регресия голямо количествонаблюдения и изчисления.
- Показател за дистанционно обучение, който се научава да намира смислен показател за разстояние в дадено входно пространство.
Софтуер
Всички основни пакети за статистически софтуер извършват регресионен анализ на най-малките квадрати. просто линейна регресияи множественият регресионен анализ може да се използва в някои приложения за електронни таблици, както и в някои калкулатори. Въпреки че много статистически софтуерни пакети могат да извършват различни видове непараметрична и стабилна регресия, тези методи са по-малко стандартизирани; прилагат различни софтуерни пакети различни методи. Специализирана регресия софтуере разработен за използване в области като анализ на изследване и невроизобразяване.
Регресионният анализ изследва зависимостта на определено количество от друго количество или няколко други количества. Регресионният анализ се използва главно в средносрочното прогнозиране, както и в дългосрочното прогнозиране. Средносрочните и дългосрочните периоди позволяват да се идентифицират промените в бизнес средата и да се вземе предвид въздействието на тези промени върху изследвания показател.
За да извършите регресионен анализ, трябва:
наличие на годишни данни по изследваните показатели,
наличието на еднократни прогнози, т.е. такива прогнози, които не се коригират с пристигането на нови данни.
Регресионният анализ обикновено се извършва за обекти, които имат сложен, многофакторен характер, като обем на инвестициите, печалба, обеми на продажби и др.
При нормативен метод за прогнозиранеопределят се начините и сроковете за постигане на възможните състояния на явлението, взето за цел. Става въпрос за прогнозиране на постигането на желаните състояния на феномен въз основа на предварително определени норми, идеали, стимули и цели. Тази прогноза отговаря на въпроса: по какви начини можете да постигнете това, което искате? Нормативният метод се използва по-често за програмни или целеви прогнози. Използват се както количественото изражение на стандарта, така и определена скала от възможности на функцията за оценка
В случай на използване на количествен израз, например физиологични и рационални норми на потребление на отделни хранителни и нехранителни продукти, разработени от специалисти за различни групи от населението, е възможно да се определи нивото на потребление на тези стоки за годините, предхождащи постигането на определената норма. Такива изчисления се наричат интерполация. Интерполацията е метод за изчисляване на индикатори, липсващи в динамичната серия на явление въз основа на установена връзка. Като се вземе действителната стойност на индикатора и стойността на неговите стандарти крайни членовединамична серия, можете да определите стойностите на стойностите в тази серия. Следователно интерполацията се счита за нормативен метод. Дадената по-рано формула (4), използвана при екстраполация, може да се използва при интерполация, където y вече няма да характеризира действителните данни, а стандартния индикатор.
В случай на използване на скала (поле, спектър) в нормативния метод, възможностите на функцията за оценка, т.е. функцията за разпределение на предпочитанията, показват приблизително следната градация: нежелателно - по-малко желателно - по-желателно - най-желателно - оптимално ( стандарт).
Методът на нормативното прогнозиране помага да се разработят препоръки за повишаване на нивото на обективност и следователно ефективността на решенията.
Моделиране, може би най-сложният метод за прогнозиране. Математическото моделиране означава описание на икономическо явление чрез математически формули, уравнения и неравенства. Математическият апарат трябва точно да отразява прогнозния фон, въпреки че е доста трудно да се отрази напълно цялата дълбочина и сложност на прогнозирания обект. Терминът "модел" произлиза от латинска дума modelus, което означава "мярка". Следователно би било по-правилно моделирането да се разглежда не като метод за прогнозиране, а като метод за изследване на подобно явление с помощта на модел.
В широк смисъл моделите са заместители на обекта на изследване, които са подобни на него по такъв начин, че позволяват да се получат нови знания за обекта. Моделът трябва да се разглежда като математическо описание на обект. В този случай моделът се определя като явление (обект, настройка), което е в някакво съответствие с изучавания обект и може да го замени в процеса на изследване, представяйки информация за обекта.
С повече тясно разбиранеВ модела той се разглежда като обект на прогнозиране, неговото изследване позволява да се получи информация за възможните състояния на обекта в бъдеще и начините за постигане на тези състояния. В този случай целта на прогнозния модел е да получи информация не за обекта като цяло, а само за бъдещите му състояния. След това, когато се изгражда модел, може да е невъзможно директно да се провери съответствието му с обекта, тъй като моделът представлява само бъдещото му състояние, а самият обект може в момента да отсъства или да има различно съществуване.
Моделите могат да бъдат материални или идеални.
Икономиката използва идеални модели. Най-напредналият идеален модел за количествено описание на социално-икономически (икономически) феномен е математически модел, използващ числа, формули, уравнения, алгоритми или графично представяне. Използвайки икономически модели, те определят:
зависимост между различни икономически показатели;
различни видове ограничения, наложени върху индикаторите;
критерии за оптимизиране на процеса.
Смислено описание на даден обект може да бъде представено под формата на неговата формализирана диаграма, която показва какви параметри и първоначална информация трябва да се съберат, за да се изчислят необходимите количества. Математическият модел, за разлика от формализираната схема, съдържа специфични числени данни, които характеризират обекта.Разработването на математически модел до голяма степен зависи от разбирането на прогнозиста за същността на моделирания процес. Въз основа на идеите си той излага работна хипотеза, с помощта на която се създава аналитичен запис на модела под формата на формули, уравнения и неравенства. В резултат на решаването на системата от уравнения се получават конкретни параметри на функцията, които описват изменението на желаните променливи във времето.
Редът и последователността на работата като елемент от организацията на прогнозирането се определя в зависимост от използвания метод на прогнозиране. Обикновено тази работа се извършва на няколко етапа.
Етап 1 - прогнозна ретроспекция, т.е. установяване на прогнозния обект и прогнозния фон. Работата на първия етап се извършва в следната последователност:
формиране на описание на обект в миналото, което включва предпрогнозен анализ на обекта, оценка на неговите параметри, тяхната значимост и взаимовръзки,
идентифициране и оценка на източниците на информация, процедурата и организацията на работа с тях, събиране и разполагане на ретроспективна информация;
поставяне на изследователски цели.
Изпълнявайки задачите на прогнозната ретроспекция, прогнозистите изследват историята на развитието на обекта и прогнозния фон, за да получат систематично описание на тях.
Етап 2 - прогнозна диагностика, по време на която се изследва систематично описание на прогнозния обект и прогнозния фон, за да се идентифицират тенденциите в тяхното развитие и да се изберат модели и методи за прогнозиране. Работата се извършва в следната последователност:
разработване на модел на прогнозния обект, включително формализирано описание на обекта, проверка на степента на адекватност на модела към обекта;
избор на методи за прогнозиране (основни и спомагателни), разработване на алгоритъм и работни програми.
Етап 3 - защита, т.е. процесът на екстензивно развитие на прогнозата, включващ: 1) изчисляване на прогнозираните параметри за даден предварителен период; 2) синтез на отделни компоненти на прогнозата.
Етап 4 - оценка на прогнозата, включително нейната проверка, т.е. определяне на степента на надеждност, точност и валидност.
В хода на търсенето и оценката, въз основа на предходните етапи, се решават проблемите на прогнозирането и неговата оценка.
Посочените етапи са приблизителни и зависят от основния метод за прогнозиране.
Прогнозните резултати се изготвят под формата на сертификат, доклад или друг материал и се представят на клиента.
При прогнозирането може да се посочи степента на отклонение на прогнозата от действителното състояние на обекта, което се нарича прогнозна грешка, която се изчислява по формулата:
;
;
.
(9.3)
Източници на грешки при прогнозирането
Основните източници могат да бъдат:
1. Просто прехвърляне (екстраполация) на данни от миналото към бъдещето (например компанията няма други възможности за прогноза освен 10% ръст на продажбите).
2. Невъзможността за точно определяне на вероятността от събитие и неговото въздействие върху обекта на изследване.
3. Непредвидени трудности (разрушителни събития), засягащи изпълнението на плана, например внезапно уволнение на ръководителя на отдел продажби.
Като цяло, точността на прогнозирането се увеличава с натрупването на опит в прогнозирането и усъвършенстването на методите му.
След като корелационният анализ разкри наличието на статистически връзки между променливите и оцени степента на тяхната близост, обикновено се преминава към математическо описание специфичен типзависимости с помощта на регресионен анализ. За тази цел се избира клас функции, който свързва резултантния индикатор y и аргументите x 1, x 2, ..., x k, избират се най-информативните аргументи, оценки на неизвестните стойности на параметрите на комуникационното уравнение се изчисляват и свойствата на полученото уравнение се анализират.
Функцията f(x 1, x 2,..., x k), описваща зависимостта на средната стойност на резултантната характеристика y от дадените стойности на аргументите, се нарича регресионна функция (уравнение). Терминът "регресия" (лат. -regression - отстъпление, връщане към нещо) е въведен от английския психолог и антрополог Ф. Галтън и се свързва изключително със спецификата на един от първите конкретни примери, в които се използва това понятие. Така, обработвайки статистически данни във връзка с анализа на наследствеността на височината, Ф. Галтън установи, че ако бащите се отклоняват от средната височина на всички бащи с x инча, тогава техните синове се отклоняват от средната височина на всички синове с по-малко от x инча. Установената тенденция беше наречена „регресия към средната стойност“. Оттогава терминът "регресия" е широко използван в статистическата литература, въпреки че в много случаи той не характеризира точно понятието статистическа зависимост.
За точното описание на регресионното уравнение е необходимо да се знае законът на разпределение на ефективния показател y. В статистическата практика човек обикновено трябва да се ограничи до търсенето на подходящи приближения за неизвестната истинска регресионна функция, тъй като изследователят няма точни познания за условния закон за разпределение на вероятностите на анализирания резултатен показател y за дадени стойности на аргумент x.
Нека разгледаме връзката между истинската f(x) = M(y1x), регресията на модела? и регресионна оценка y. Нека ефективният индикатор y е свързан с аргумента x чрез връзката:
където е случайна променлива, която има нормален закон на разпределение и Me = 0 и D e = y 2. Истинската регресионна функция в този случай има формата: f (x) = M(y/x) = 2x 1,5.
Нека приемем, че не знаем точната форма на истинското регресионно уравнение, но имаме девет наблюдения на двуизмерна случайна променлива, свързана с връзката yi = 2x1.5 + e, и представена на фиг. 1
Снимка 1 - Взаимна договореностистина f(x) и теоретична? регресионни модели
Разположението на точките на фиг. 1 ни позволява да се ограничим до класа на линейните зависимости на формата? = в 0 + в 1 x. Използвайки метода на най-малките квадрати, намираме оценката на регресионното уравнение y = b 0 + b 1 x. За сравнение, на фиг. 1 показва графики на истинската регресионна функция y = 2x 1.5, теоретичната апроксимираща регресионна функция? = в 0 + в 1 x.
Тъй като сме допуснали грешка при избора на класа на регресионната функция, а това е доста често срещано явление в практиката на статистическите изследвания, нашите статистически изводи и оценки ще се окажат погрешни. И без значение колко увеличаваме обема на наблюденията, нашата примерна оценка y няма да бъде близка до истинската регресионна функция f(x). Ако бяхме избрали правилно класа на регресионните функции, тогава неточността в описанието на f(x) с помощта на? може да се обясни само с ограничения на извадката.
С цел на най-доброто възстановяваневъз основа на първоначалните статистически данни на условната стойност на ефективния показател y(x) и неизвестната регресионна функция f(x) = M(y/x) най-често се използват следните критерии за адекватност (функции на загуба).
Метод на най-малките квадрати. Според него квадратът на отклонението на наблюдаваните стойности на ефективния показател y, (i = 1,2,..., n) от моделните стойности,? = f(x i), където x i е стойността на аргументния вектор в i-то наблюдение: ?(y i - f(x i) 2 > min. Получената регресия се нарича средноквадратичен корен.
Метод на най-малките модули. Съгласно него се минимизира сумата от абсолютните отклонения на наблюдаваните стойности на ефективния показател от модулните стойности. И получаваме,? = f(x i), средна абсолютна средна регресия? |y i - f(x i)| > мин.
Регресионният анализ е метод за статистически анализ на зависимостта на случайна променлива y от променливи x j = (j = 1,2,..., k), разглеждани в регресионния анализ като не случайни променливи, независимо от истинския закон на разпределение x j.
Обикновено се приема, че случайна променлива y има нормален закон на разпределение с условно очакване y, което е функция на аргументите x/ (/ = 1, 2,..., k) и постоянна дисперсия y 2, независима от аргументите.
Като цяло моделът на линейния регресионен анализ има формата:
Y = Y к j=0 V йц й(х 1 , х 2 . . .. ,х к)+E
където q j е някаква функция на своите променливи - x 1, x 2. . .. ,x k, E е случайна променлива с нулево математическо очакване и дисперсия y 2.
При регресионния анализ типът на регресионното уравнение се избира въз основа на физическата природа на изследваното явление и резултатите от наблюдението.
Оценките на неизвестните параметри на регресионното уравнение обикновено се намират с помощта на метода на най-малките квадрати. По-долу ще се спрем на този проблем по-подробно.
Уравнение на двумерна линейна регресия. Нека приемем, въз основа на анализа на изследваното явление, че „средно“ y е линейна функция на x, т.е. има регресионно уравнение
y=M(y/x)=in 0 + in 1 x)
където M(y1x) е условното математическо очакване на случайната променлива y за дадено x; при 0 и при 1 - неизвестни параметри на генералната съвкупност, които трябва да бъдат оценени въз основа на резултатите от извадкови наблюдения.
Да предположим, че за да се оценят параметри при 0 и при 1, се взема извадка с размер n от двумерна съвкупност (x, y), където (x, y,) е резултатът от i-тото наблюдение (i = 1 , 2,..., n) . В този случай моделът на регресионния анализ има формата:
y j = в 0 + в 1 x+e j.
където e j са независими нормално разпределени случайни променливи с нулево математическо очакване и дисперсия y 2, т.е. M e j. = 0;
D e j .= y 2 за всички i = 1, 2,..., n.
Според метода на най-малките квадрати, като оценки на неизвестните параметри при 0 и при 1, трябва да се вземат такива стойности на характеристиките на извадката b 0 и b 1, които минимизират сумата от квадратните отклонения на стойностите на резултата характеристика на i от условното математическо очакване? аз
Ще разгледаме методологията за определяне на влиянието на маркетинговите характеристики върху печалбата на предприятието, като използваме примера на седемнадесет типични предприятия със средни размери и показатели за икономическа дейност.
При решаването на проблема бяха взети предвид следните характеристики, идентифицирани като най-значими (важни) в резултат на анкетното проучване:
* иновационна дейностпредприятия;
* планиране асортимента на произвежданата продукция;
* формиране на ценова политика;
* връзки с обществеността;
* система за продажби;
* система за стимулиране на служителите.
Въз основа на система от сравнения по фактори бяха изградени квадратни матрици на съседство, в които стойностите на относителните приоритети бяха изчислени за всеки фактор: иновативна дейност на предприятието, планиране на асортимента от продукти, формиране на ценова политика, реклама , връзки с обществеността, система за продажби, система за стимулиране на служителите.
Оценките на приоритетите за фактора „връзка с обществеността“ са получени в резултат на проучване на специалисти от предприятията. Приемат се следните обозначения: > (по-добро), > (по-добро или същото), = (същото),< (хуже или одинаково), <
След това беше решен проблемът с цялостната оценка на маркетинговото ниво на предприятието. При изчисляване на показателя беше определена значимостта (теглото) на разглежданите частични характеристики и беше решен проблемът за линейната конволюция на частичните показатели. Обработката на данните се извършва с помощта на специално разработени програми.
След това се изчислява цялостна оценка на маркетинговото ниво на предприятието - маркетинговият коефициент, който е въведен в таблица 1. Освен това таблицата включва показатели, характеризиращи предприятието като цяло. Данните в таблицата ще се използват за извършване на регресионен анализ. Полученият атрибут е печалба. Наред с маркетинговия коефициент като факторни характеристики са използвани следните показатели: обем на брутната продукция, стойност на дълготрайните активи, брой служители, коефициент на специализация.
Таблица 1 - Изходни данни за регресионен анализ
Според данните от таблицата и въз основа на фактори с най-значими стойности на коефициентите на корелация бяха конструирани регресионни функции на зависимостта на печалбата от факторите.
Регресионното уравнение в нашия случай ще приеме формата:
Количественото влияние на разгледаните по-горе фактори върху размера на печалбата се показва от коефициентите на регресионното уравнение. Те показват колко хиляди рубли се променя стойността му, когато факторната характеристика се промени с една единица. Както следва от уравнението, увеличаването на коефициента на маркетинговия микс с една единица води до увеличение на печалбата с 1547,7 хиляди рубли. Това предполага, че подобряването на маркетинговите дейности има огромен потенциал за подобряване на икономическите резултати на предприятията.
При изучаване на маркетинговата ефективност най-интересният и най-важен фактор е факторът Х5 – маркетинговият коефициент. В съответствие с теорията на статистиката предимството на съществуващото уравнение за множествена регресия е възможността да се оцени изолираното влияние на всеки фактор, включително маркетинговия фактор.
Резултатите от регресионния анализ имат по-широко приложение, отколкото за изчисляване на параметрите на уравнението. Критерият за класифициране (Kef) на предприятията като относително по-добри или относително по-лоши се основава на относителния показател на резултата:
където Y facti е действителната стойност на i-то предприятие, хиляди рубли;
Y изчислено - размерът на печалбата на i-тото предприятие, получен чрез изчисление с помощта на регресионното уравнение
По отношение на проблема, който се решава, стойността се нарича „коефициент на ефективност“. Дейността на предприятието може да се счита за ефективна в случаите, когато стойността на коефициента е по-голяма от единица. Това означава, че действителната печалба е по-голяма от средната печалба в извадката.
Действителните и очакваните стойности на печалбата са представени в табл. 2.
Таблица 2 - Анализ на получената характеристика в регресионния модел
Анализът на таблицата показва, че в нашия случай дейността на предприятия 3, 5, 7, 9, 12, 14, 15, 17 за разглеждания период може да се счита за успешна.
Методът на регресионния анализ се използва за определяне на технико-икономическите параметри на продуктите, принадлежащи към конкретна параметрична серия, за да се изградят и изравнят ценностни връзки. Този метод се използва за анализиране и обосноваване на съотношенията на нивото и цените на продуктите, характеризиращи се с наличието на един или повече технически и икономически параметри, които отразяват основните потребителски свойства. Регресионният анализ ни позволява да намерим емпирична формула, която описва зависимостта на цената от техническите и икономически параметри на продуктите:
P=f(X1X2,...,Xn),
където P е стойността на единичната цена на продукта, rub.; (X1, X2, ... Xn) - технически и икономически параметри на продуктите.
Методът на регресионния анализ - най-модерният от използваните нормативно-параметрични методи - е ефективен при извършване на изчисления, базирани на използването на съвременни информационни технологии и системи. Приложението му включва следните основни стъпки:
- определяне на класификационни параметрични групи на продуктите;
- избор на параметри, които най-много влияят върху цената на продукта;
- избор и обосновка на формата на връзка между ценовите промени при промяна на параметрите;
- изграждане на система от нормални уравнения и изчисляване на регресионни коефициенти.
Основната квалификационна група продукти, чиято цена подлежи на изравняване, е параметрична серия, в рамките на която продуктите могат да бъдат групирани в различни дизайни в зависимост от тяхното приложение, условия на работа и изисквания и др. При формиране на параметрични серии се използват автоматични методи за класификация могат да се използват, които позволяват разграничаване на хомогенни групи от общата маса на продуктите. Изборът на технически и икономически параметри се извършва въз основа на следните основни изисквания:
- избраните параметри включват параметри, записани в стандарти и технически спецификации; в допълнение към техническите параметри (мощност, товароносимост, скорост и др.) се използват показатели за серийност на продукта, коефициенти на сложност, унификация и др.;
- наборът от избрани параметри трябва достатъчно пълно да характеризира конструктивните, технологичните и експлоатационните свойства на продуктите, включени в серията, и да има доста тясна връзка с цената;
- параметрите не трябва да са взаимозависими.
За да изберете технически и икономически параметри, които значително влияят на цената, се изчислява матрица от коефициенти на двойка корелация. Въз основа на големината на коефициентите на корелация между параметрите може да се съди за близостта на тяхната връзка. В същото време корелация, близка до нула, показва незначително влияние на параметъра върху цената. Окончателният избор на технически и икономически параметри се извършва в процеса на поетапен регресионен анализ с помощта на компютърна техника и подходящи стандартни програми.
В ценовата практика се използва следният набор от функции:
линеен
P = ao + alXl + ... + antXn,
линейна мощност
P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)
обратен логаритъм
P = a0 + a1: В X1 + ... + an: В Xn,
мощност
P = a0 (X1^a1) (X2^a2) .. (Xn^an)
показателен
P = e^(a1+a1X1+...+anXn)
хиперболичен
P = ao + a1:X1 + a2:X2 + ... + ap:Xn,
където P е изравняване на цените; X1 X2,..., Xn - стойността на технико-икономическите параметри на продуктите от серията; a0, a1 ..., аn - изчислени коефициенти на регресионното уравнение.
В практическата работа по ценообразуването, в зависимост от формата на връзката между цените и технико-икономическите параметри, могат да се използват други регресионни уравнения. Типът функция на връзката между цена и набор от технически и икономически параметри може да бъде предварително зададен или автоматично избран по време на компютърна обработка. Тясността на корелацията между цената и набора от параметри се оценява чрез стойността на коефициента на множествена корелация. Близостта му до един показва тясна връзка. С помощта на регресионното уравнение се получават изравнени (изчислени) ценови стойности за продукти от дадена параметрична серия. За да се оценят резултатите от изравняването, се изчисляват относителните стойности на отклонението на изчислените ценови стойности от действителните:
Tsr = Rf - Rr: R x 100
където Рф, Рр - действителни и калкулирани цени.
Стойността на CR не трябва да надвишава 8-10%. В случай на значителни отклонения на изчислените стойности от действителните, е необходимо да се изследват:
- правилността на формирането на параметрична серия, тъй като тя може да съдържа продукти, които по своите параметри се различават рязко от другите продукти в серията. Те трябва да бъдат изключени;
- правилен подбор на технически и икономически параметри. Възможен е набор от параметри, който е слабо свързан с цената. В този случай е необходимо да продължите търсенето и избора на параметри.
Процедурата и методологията за провеждане на регресионен анализ, намиране на неизвестни параметри на уравнението и икономическа оценка на получените резултати се извършват в съответствие с изискванията на математическата статистика.
Какво е регресия?
Разгледайте две непрекъснати променливи x=(x 1, x 2, .., x n), y=(y 1, y 2, ..., y n).
Нека поставим точките върху двуизмерна точкова диаграма и кажем, че имаме линейна връзка, ако данните са апроксимирани с права линия.
Ако вярваме в това гзависи от х, и промени в гса причинени именно от промени в х, можем да определим линията на регресия (регресия гНа х), което най-добре описва линейната връзка между тези две променливи.
Статистическата употреба на думата регресия идва от явлението, известно като регресия към средната стойност, приписвано на сър Франсис Галтън (1889).
Той показа, че въпреки че високите бащи са склонни да имат високи синове, средният ръст на синовете е по-нисък от този на техните високи бащи. Средният ръст на синовете "регресира" и се "премести назад" към средния ръст на всички бащи в населението. Така средно високите бащи имат по-ниски (но все пак доста високи) синове, а ниските бащи имат по-високи (но все още доста ниски) синове.
Регресионна линия
Математическо уравнение, което оценява проста (по двойки) линейна регресионна линия:
хнаречена независима променлива или предиктор.
Y- зависима променлива или променлива на отговора. Това е стойността, която очакваме г(средно), ако знаем стойността х, т.е. е "предвидената стойност" г»
- а- свободен член (пресечна точка) на линията за оценка; това е смисъла Y, Кога х=0(Фиг. 1).
- b- наклон или градиент на прогнозната линия; представлява сумата, с която Yсе увеличава средно, ако увеличим хза една единица.
- аИ bсе наричат регресионни коефициенти на оценената линия, въпреки че този термин често се използва само за b.
Линейната регресия по двойки може да бъде разширена, за да включва повече от една независима променлива; в този случай е известен като множествена регресия.
Фиг. 1. Линия на линейна регресия, показваща пресечната точка a и наклона b (количеството Y нараства, когато x се увеличава с една единица)
Метод на най-малките квадрати
Извършваме регресионен анализ, използвайки извадка от наблюдения, където аИ b- извадкови оценки на истинските (общи) параметри, α и β, които определят линейната регресионна линия в популацията (генерална популация).
Най-простият метод за определяне на коефициентите аИ bе метод на най-малките квадрати(MNC).
Напасването се оценява чрез разглеждане на остатъците (вертикалното разстояние на всяка точка от линията, напр. остатък = наблюдавано г- предсказано г, Ориз. 2).
Линията на най-добро прилягане е избрана така, че сумата от квадратите на остатъците да е минимална.
Ориз. 2. Линия на линейна регресия с изобразени остатъци (вертикални пунктирани линии) за всяка точка.
Предположения за линейна регресия
Така че за всяка наблюдавана стойност остатъкът е равен на разликата и съответната прогнозирана стойност.Всеки остатък може да бъде положителен или отрицателен.
Можете да използвате остатъци, за да тествате следните допускания зад линейната регресия:
- Остатъците обикновено се разпределят със средна стойност нула;
Ако предположенията за линейност, нормалност и/или постоянна дисперсия са съмнителни, можем да трансформираме или изчислим нова регресионна линия, за която тези предположения са изпълнени (например да използваме логаритмична трансформация и т.н.).
Аномални стойности (отклонения) и точки на влияние
„Влиятелно“ наблюдение, ако е пропуснато, променя една или повече оценки на параметрите на модела (т.е. наклон или пресечна точка).
Отклонение (наблюдение, което е в противоречие с повечето стойности в набор от данни) може да бъде "влиятелно" наблюдение и може лесно да бъде открито визуално чрез проверка на двумерна диаграма на разсейване или остатъчна диаграма.
Както за извънредни стойности, така и за „влиятелни“ наблюдения (точки) се използват модели, както със, така и без тяхното включване, като се обръща внимание на промените в оценките (регресионни коефициенти).
Когато извършвате анализ, не трябва автоматично да отхвърляте отклонения или точки на влияние, тъй като простото им игнориране може да повлияе на получените резултати. Винаги изучавайте причините за тези отклонения и ги анализирайте.
Хипотеза за линейна регресия
При конструирането на линейна регресия се тества нулевата хипотеза, че общият наклон на регресионната линия β е равен на нула.
Ако наклонът на линията е нула, няма линейна зависимост между и: промяната не засяга
За да тествате нулевата хипотеза, че истинският наклон е нула, можете да използвате следния алгоритъм:
Изчислете тестовата статистика, равна на съотношението , което е обект на разпределение със степени на свобода, където стандартната грешка на коефициента
,
- оценка на дисперсията на остатъците.
Обикновено, ако се достигне нивото на значимост, нулевата хипотеза се отхвърля.
където е процентната точка на разпределението със степени на свобода, което дава вероятността за двустранен тест
Това е интервалът, който съдържа общия наклон с вероятност от 95%.
За големи извадки, да речем, можем да приближим със стойност от 1,96 (т.е. тестовата статистика ще има тенденция да бъде нормално разпределена)
Оценка на качеството на линейната регресия: коефициент на детерминация R 2
Поради линейната връзка и ние очакваме това да се промени като
и го наречете вариация, която се дължи или се обяснява с регресия. Остатъчната вариация трябва да бъде възможно най-малка.
Ако това е вярно, тогава по-голямата част от вариацията ще бъде обяснена с регресия и точките ще лежат близо до линията на регресия, т.е. линията пасва добре на данните.
Пропорцията на общата дисперсия, която се обяснява с регресия, се нарича коефициент на детерминация, обикновено изразен като процент и означен R 2(в сдвоената линейна регресия това е количеството r 2, квадрат на корелационния коефициент), ви позволява субективно да оцените качеството на регресионното уравнение.
Разликата представлява процентът на дисперсията, който не може да бъде обяснен с регресия.
Няма официален тест за оценка; трябва да разчитаме на субективна преценка, за да определим съответствието на регресионната линия.
Прилагане на регресионна линия към прогнозата
Можете да използвате регресионна линия, за да предвидите стойност от стойност в най-крайния край на наблюдавания диапазон (никога не екстраполирайте извън тези граници).
Ние прогнозираме средната стойност на наблюдаемите величини, които имат определена стойност, като включим тази стойност в уравнението на регресионната линия.
Така че, ако прогнозираме като Използвайте тази прогнозирана стойност и нейната стандартна грешка, за да оцените доверителния интервал за истинската средна съвкупност.
Повтарянето на тази процедура за различни стойности ви позволява да конструирате доверителни граници за този ред. Това е лентата или зоната, която съдържа истинската линия, например при 95% ниво на сигурност.
Прости планове за регресия
Простите регресионни проекти съдържат един непрекъснат предиктор. Ако има 3 наблюдения с предикторни стойности P, като 7, 4 и 9, и дизайнът включва ефект от първи ред P, тогава проектната матрица X ще бъде
и регресионното уравнение, използващо P за X1 е
Y = b0 + b1 P
Ако един прост регресионен дизайн съдържа ефект от по-висок порядък върху P, като квадратичен ефект, тогава стойностите в колона X1 в проектната матрица ще бъдат повишени на втора степен:
и уравнението ще приеме формата
Y = b0 + b1 P2
Сигма-ограничени и свръхпараметризирани методи за кодиране не се прилагат за прости регресионни дизайни и други дизайни, съдържащи само непрекъснати предиктори (защото просто няма категорични предиктори). Независимо от избрания метод на кодиране, стойностите на непрекъснатите променливи се увеличават съответно и се използват като стойности за X променливите. В този случай не се извършва прекодиране. Освен това, когато описвате регресионни планове, можете да пропуснете разглеждането на проектната матрица X и да работите само с регресионното уравнение.
Пример: Прост регресионен анализ
Този пример използва данните, представени в таблицата:
Ориз. 3. Таблица с изходни данни.
Данни, събрани от сравнение на преброяванията от 1960 г. и 1970 г. в произволно избрани 30 окръга. Имената на окръгите са представени като имена на наблюдения. Информацията за всяка променлива е представена по-долу:
Ориз. 4. Таблица с променливи спецификации.
Изследователски проблем
За този пример ще бъде анализирана връзката между нивото на бедност и степента, която прогнозира процента на семействата, които са под прага на бедността. Следователно ще третираме променлива 3 (Pt_Poor) като зависима променлива.
Можем да изложим хипотеза: промените в числеността на населението и процента на семействата, които са под прага на бедността, са свързани. Изглежда разумно да се очаква, че бедността води до миграция навън, така че ще има отрицателна корелация между процента на хората под прага на бедността и промяната на населението. Следователно ще третираме променлива 1 (Pop_Chng) като променлива за прогнозиране.
Вижте резултатите
Коефициенти на регресия
Ориз. 5. Коефициенти на регресия на Pt_Poor върху Pop_Chng.
В пресечната точка на реда Pop_Chng и колоната Param. нестандартизираният коефициент за регресията на Pt_Poor върху Pop_Chng е -0,40374. Това означава, че за всяка единица намаление на населението има увеличение на нивото на бедност от 0,40374. Горната и долната (по подразбиране) 95% доверителни граници за този нестандартизиран коефициент не включват нула, така че регресионният коефициент е значим на ниво p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.
Променливо разпределение
Коефициентите на корелация могат да бъдат значително надценени или подценени, ако в данните присъстват големи отклонения. Нека проучим разпределението на зависимата променлива Pt_Poor по области. За да направим това, нека изградим хистограма на променливата Pt_Poor.
Ориз. 6. Хистограма на променливата Pt_Poor.
Както можете да видите, разпределението на тази променлива се различава значително от нормалното разпределение. Въпреки това, въпреки че дори два окръга (двете десни колони) имат по-висок процент семейства, които са под прага на бедността, отколкото се очаква при нормално разпределение, те изглеждат „в рамките на обхвата“.
Ориз. 7. Хистограма на променливата Pt_Poor.
Тази преценка е донякъде субективна. Основното правило е, че отклоненията трябва да се вземат предвид, ако наблюдението (или наблюденията) не попадат в интервала (средно ± 3 пъти стандартното отклонение). В този случай си струва да повторите анализа със и без извънредни стойности, за да сте сигурни, че те нямат голям ефект върху корелацията между членовете на популацията.
Точкова диаграма
Ако една от хипотезите е a priori за връзката между дадени променливи, тогава е полезно да я тествате върху графиката на съответната диаграма на разсейване.
Ориз. 8. Точкова диаграма.
Точковата диаграма показва ясна отрицателна корелация (-.65) между двете променливи. Той също така показва 95% доверителен интервал за регресионната линия, т.е. има 95% вероятност регресионната линия да лежи между двете пунктирани криви.
Критерии за значимост
Ориз. 9. Таблица, съдържаща критерии за значимост.
Тестът за регресионния коефициент Pop_Chng потвърждава, че Pop_Chng е тясно свързан с Pt_Poor, p<.001 .
Долен ред
Този пример показа как да се анализира прост регресионен дизайн. Бяха представени и интерпретации на нестандартизирани и стандартизирани регресионни коефициенти. Обсъжда се значението на изучаването на разпределението на отговора на зависима променлива и се демонстрира техника за определяне на посоката и силата на връзката между предиктор и зависима променлива.