За оценка се прилага регресионен анализ. Регресионен анализ - статистически метод за изследване на зависимостта на случайна величина от променливи
При статистическото моделиране регресионният анализ е изследване, използвано за оценка на връзката между променливите. Това математически методвключва много други методи за моделиране и анализ на множество променливи, когато фокусът е върху връзката между зависима променлива и една или повече независими променливи. По-конкретно, регресионният анализ ви помага да разберете как се променя типичната стойност на зависимата променлива, ако една от независимите променливи се промени, докато другите независими променливи остават фиксирани.
Във всички случаи целевият резултат е функция на независимите променливи и се нарича регресионна функция. В регресионния анализ също е от интерес да се характеризира промяната в зависимата променлива като функция на регресията, която може да бъде описана с помощта на вероятностно разпределение.
Задачи на регресионния анализ
The статистически методизследването се използва широко за прогнозиране, където използването му има значително предимство, но понякога може да доведе до илюзия или фалшива връзка, така че се препоръчва да се използва внимателно в този въпрос, тъй като например корелацията не означава причинно-следствена връзка .
Разработени са голям брой методи за извършване на регресионен анализ, като линейна и обикновена регресия на най-малките квадрати, които са параметрични. Тяхната същност е, че регресионната функция се дефинира от гледна точка на краен брой неизвестни параметри, които се оценяват от данните. Непараметричната регресия позволява нейната функция да лежи в определен набор от функции, които могат да бъдат безкрайномерни.
Като статистически изследователски метод регресионният анализ на практика зависи от формата на процеса на генериране на данни и от това как той се свързва с регресионния подход. Тъй като истинската форма на генериране на процеса на данни обикновено е неизвестно число, регресионният анализ на данните често зависи до известна степен от предположенията за процеса. Тези предположения понякога могат да бъдат тествани, ако има достатъчно налични данни. Регресионните модели често са полезни дори когато предположенията са умерено нарушени, въпреки че може да не се представят по най-добрия начин.
В по-тесен смисъл регресията може да се отнася конкретно до оценката на променливите на непрекъснатия отговор, за разлика от променливите на дискретния отговор, използвани в класификацията. Случаят на непрекъсната изходна променлива се нарича още метрична регресия, за да се разграничи от свързани проблеми.
История
Повечето ранна формарегресията е всичко известен методнай-малки квадрати. Той е публикуван от Лежандр през 1805 г. и Гаус през 1809 г. Лежандр и Гаус прилагат метода към проблема за определяне от астрономически наблюдения на орбитите на телата около Слънцето (главно комети, но по-късно и новооткрити малки планети). Гаус публикува по-нататъшно развитие на теорията на най-малките квадрати през 1821 г., включително вариант на теоремата на Гаус-Марков.
Терминът "регресия" е въведен от Франсис Галтън през 19 век, за да опише биологичен феномен. Изводът беше, че растежът на потомците от растежа на предците, като правило, регресира до нормалната средна стойност. За Галтън регресията има само това биологично значение, но по-късно работата му е възприета от Удни Йоли и Карл Пиърсън и е отнесена към по-общ статистически контекст. В работата на Юл и Пиърсън съвместното разпределение на отговора и обяснителните променливи се счита за Гаусово. Това предположение е отхвърлено от Фишер в документите от 1922 и 1925 г. Фишър предположи, че условното разпределение на променливата на отговора е гаусово, но съвместното разпределение не е необходимо да бъде. В това отношение предложението на Фишър е по-близо до формулировката на Гаус от 1821 г. Преди 1970 г. понякога отнемаше до 24 часа, за да се получи резултатът от регресионен анализ.
Методите за регресионен анализ продължават да бъдат област на активно изследване. През последните десетилетия бяха разработени нови методи за стабилна регресия; регресии, включващи корелирани отговори; регресионни методи, съдържащи Различни видовелипсва информация; непараметрична регресия; Байесови регресионни методи; регресии, при които предикторните променливи се измерват с грешка; регресии с повече предиктори, отколкото наблюдения и причинно-следствени изводи с регресия.
Регресионни модели
Моделите за регресионен анализ включват следните променливи:
- Неизвестни параметри, обозначени като бета, които могат да бъдат скалар или вектор.
- Независими променливи, X.
- Зависими променливи, Y.
В различни области на науката, където се прилага регресионен анализ, се използват различни термини вместо зависими и независими променливи, но във всички случаи регресионният модел свързва Y с функция на X и β.
Приближението обикновено е във формата E (Y | X) = F (X, β). За да се извърши регресионен анализ, трябва да се определи формата на функцията f. По-рядко се основава на знания за връзката между Y и X, които не разчитат на данни. Ако такива знания не са налични, тогава гъвкави или удобна формаЕ.
Зависима променлива Y
Нека сега приемем, че векторът на неизвестните параметри β има дължина k. За да извърши регресионен анализ, потребителят трябва да предостави информация за зависимата променлива Y:
- Ако се наблюдават N точки от данни във формата (Y, X), където N< k, большинство класически подходине може да се извърши регресионен анализ, тъй като системата от уравнения, които определят регресионния модел като недоопределен, няма достатъчноданни за възстановяване на β.
- Ако се наблюдава точно N = K и функцията F е линейна, тогава уравнението Y = F(X, β) може да бъде решено точно, а не приблизително. Това се свежда до решаване на набор от N-уравнения с N-неизвестни (елементите на β), които имат уникално решение, стига X да е линейно независим. Ако F е нелинейно, решение може да не съществува или може да има много решения.
- Най-често срещаната ситуация е, когато има N > точки към данните. В този случай има достатъчно информация в данните, за да се оцени уникалната стойност за β, която най-добре отговаря на данните, а регресионният модел, когато се прилага към данните, може да се разглежда като отменена система в β.
В последния случай регресионният анализ предоставя инструменти за:
- Намиране на решение за неизвестни параметри β, което например ще минимизира разстоянието между измерената и прогнозираната стойност на Y.
- При определени статистически допускания, регресионният анализ използва излишна информация, за да предостави статистическа информация за неизвестните параметри β и прогнозираните стойности на зависимата променлива Y.
Необходим брой независими измервания
Да разгледаме регресионен модел, който има три неизвестни параметъра: β 0 , β 1 и β 2 . Да приемем, че експериментаторът прави 10 измервания на една и съща стойност на независимата променлива на вектора X. В този случай регресионният анализ не дава уникален набор от стойности. Най-доброто нещо, което трябва да направите, е да оцените средната стойност и стандартно отклонениезависима променлива Y. По същия начин, измерване на две различни стойности X, можете да получите достатъчно данни за регресия с две неизвестни, но не и за три или повече неизвестни.
Ако измерванията на експериментатора бяха направени при три различни стойности на независимата векторна променлива X, тогава регресионният анализ ще предостави уникален набор от оценки за трите неизвестни параметъра в β.
В случай на обща линейна регресия горното твърдение е еквивалентно на изискването матрицата X T X да е обратима.
Статистически предположения
Когато броят на измерванията N е по-голям от броя на неизвестните параметри k и грешките на измерване ε i , тогава, като правило, тогава излишната информация, съдържаща се в измерванията, се разпределя и използва за статистически прогнози по отношение на неизвестни параметри. Този излишък от информация се нарича степен на свобода на регресията.
Основни предположения
Класическите допускания за регресионен анализ включват:
- Вземането на проби е представително за прогнозиране на изводи.
- Грешката е случайна променлива със средна стойност нула, която зависи от обяснителните променливи.
- Независимите променливи се измерват без грешки.
- Като независими променливи (предиктори), те са линейно независими, т.е. не е възможно да се изрази нито един предиктор като линейна комбинация от останалите.
- Грешките са некорелирани, т.е. ковариационната матрица на грешката на диагоналите и всеки ненулев елемент е дисперсията на грешката.
- Дисперсията на грешката е постоянна в наблюденията (хомоскедастичност). Ако не, тогава могат да се използват претеглени най-малки квадрати или други методи.
Тези достатъчни условия за оценка на най-малките квадрати имат изискваните свойства, по-специално тези допускания означават, че оценките на параметрите ще бъдат обективни, последователни и ефективни, особено когато се вземат предвид в класа на линейните оценки. Важно е да се отбележи, че действителните данни рядко отговарят на условията. Тоест, методът се използва дори ако предположенията не са верни. Отклонението от предположенията понякога може да се използва като мярка за това колко полезен е моделът. Много от тези предположения могат да бъдат облекчени с по-напреднали методи. Докладите за статистически анализ обикновено включват анализ на тестове спрямо примерни данни и методология за полезността на модела.
В допълнение, променливите в някои случаи се отнасят до стойности, измерени в точки. Възможно е да има пространствени тенденции и пространствени автокорелации в променливи, които нарушават статистическите допускания. Географската претеглена регресия е единственият метод, който се занимава с такива данни.
При линейната регресия характеристиката е, че зависимата променлива, която е Y i , е линейна комбинация от параметри. Например, при проста линейна регресия, n-точковото моделиране използва една независима променлива, x i, и два параметъра, β 0 и β 1.
При множествената линейна регресия има няколко независими променливи или техните функции.
При произволна извадка от популация, нейните параметри позволяват да се получи извадка от линеен регресионен модел.
IN този аспектНай-популярен е методът на най-малките квадрати. Той предоставя оценки на параметри, които минимизират сумата от квадратите на остатъците. Този вид минимизиране (което е типично за линейната регресия) на тази функция води до набор от нормални уравнения и набор от линейни уравнения с параметри, които се решават, за да се получат оценки на параметрите.
Освен това приемайки, че грешката на популацията обикновено се разпространява, изследователят може да използва тези оценки на стандартните грешки, за да създаде доверителни интервали и да извърши тестване на хипотези относно нейните параметри.
Нелинеен регресионен анализ
Пример, при който функцията не е линейна по отношение на параметрите, показва, че сумата от квадрати трябва да бъде минимизирана с итеративна процедура. Това въвежда много усложнения, които определят разликите между линейните и нелинейните методи на най-малките квадрати. Следователно резултатите от регресионния анализ при използване на нелинеен метод понякога са непредсказуеми.
Изчисляване на мощността и размера на извадката
Тук по правило няма последователни методи по отношение на броя на наблюденията спрямо броя на независимите променливи в модела. Първото правило е предложено от Добра и Хардин и изглежда като N = t^n, където N е размерът на извадката, n е броят на обяснителните променливи, а t е броят на наблюденията, необходими за постигане на желаната точност, ако моделът имаше само една обяснителна променлива. Например, изследовател изгражда линеен регресионен модел, използвайки набор от данни, който съдържа 1000 пациенти (N). Ако изследователят реши, че са необходими пет наблюдения за точно определяне на линията (m), тогава максималният брой обяснителни променливи, които моделът може да поддържа, е 4.
Други методи
Въпреки че параметрите на регресионния модел обикновено се оценяват с помощта на метода на най-малките квадрати, има други методи, които се използват много по-рядко. Например, това са следните методи:
- Байесови методи (например байесовият метод на линейна регресия).
- Процентна регресия, използвана за ситуации, при които намаляването на процентните грешки се счита за по-подходящо.
- Най-малките абсолютни отклонения, което е по-стабилно при наличие на отклонения, водещи до квантилна регресия.
- Изискване на непараметрична регресия Голям бройнаблюдения и изчисления.
- Разстоянието на метриката за обучение, което се научава в търсене на смислена метрика на разстоянието в даденото входно пространство.
Софтуер
Всички основни статистически софтуерни пакети се изпълняват чрез регресионен анализ на най-малките квадрати. просто линейна регресияи множественият регресионен анализ може да се използва в някои приложения за електронни таблици, както и в някои калкулатори. Въпреки че много статистически софтуерни пакети могат да извършват различни видове непараметрична и стабилна регресия, тези методи са по-малко стандартизирани; прилагат различни софтуерни пакети различни методи. Специализирана регресия софтуере разработен за използване в области като анализ на проучвания и невроизобразяване.
Регресионният анализ изследва зависимостта на определено количество от друго количество или няколко други количества. Регресионният анализ се използва главно в средносрочното прогнозиране, както и в дългосрочното прогнозиране. Средносрочните и дългосрочните периоди позволяват да се установят промени в бизнес средата и да се отчете влиянието на тези промени върху изследвания показател.
За извършване на регресионен анализ е необходимо:
наличие на годишни данни по изследваните показатели,
наличие на еднократни прогнози, т.е. прогнози, които не се подобряват с нови данни.
Регресионният анализ обикновено се извършва за обекти, които имат сложен, многофакторен характер, като обем на инвестициите, печалби, обеми на продажби и др.
При нормативен метод за прогнозиранеопределят се начините и сроковете за постигане на възможните състояния на явлението, взето за цел. Говорим за прогнозиране на постигането на желаните състояния на феномена на базата на предварително определени норми, идеали, стимули и цели. Такава прогноза отговаря на въпроса: по какви начини може да се постигне желаното? Нормативният метод се използва по-често за програмни или целеви прогнози. Използва се както количествено изражение на стандарта, така и определена скала на възможностите на оценъчната функция.
В случай на използване на количествен израз, например физиологични и рационални норми за потребление на определени хранителни и нехранителни продукти, разработени от специалисти за различни групи от населението, е възможно да се определи нивото на потребление на тези стоки за годините, предхождащи постигането на определената норма. Такива изчисления се наричат интерполация. Интерполацията е начин за изчисляване на индикатори, които липсват във времевия ред на дадено явление, въз основа на установена връзка. Вземане на действителната стойност на показателя и стойността на неговите стандарти за крайни членовединамична серия, можете да определите големината на стойностите в тази серия. Следователно интерполацията се счита за нормативен метод. Дадената по-горе формула (4), използвана при екстраполация, може да се използва при интерполация, където y n вече няма да характеризира действителните данни, а стандарта на индикатора.
В случай на използване на скала (поле, спектър) на възможностите на функцията за оценка, т.е. функцията за разпределение на предпочитанията, в нормативния метод се посочва приблизително следната градация: нежелателно - по-малко желателно - по-желателно - най-желателно - оптимален (стандартен).
Методът на нормативното прогнозиране помага да се разработят препоръки за повишаване нивото на обективност, а оттам и ефективността на решенията.
Моделиране, може би най-трудният метод за прогнозиране. Математическото моделиране означава описание на икономическо явление чрез математически формули, уравнения и неравенства. Математическият апарат трябва точно да отразява фона на прогнозата, въпреки че е доста трудно да се отрази напълно цялата дълбочина и сложност на прогнозирания обект. Терминът "модел" произлиза от латинска дума modelus, което означава "мярка". Следователно би било по-правилно моделирането да се разглежда не като метод за прогнозиране, а като метод за изследване на подобно явление на модел.
В широк смисъл моделите се наричат заместители на обекта на изследване, които са в такова сходство с него, което ви позволява да получите нови знания за обекта. Моделът трябва да се разглежда като математическо описание на обекта. В този случай моделът се определя като явление (субект, инсталация), което е в някаква кореспонденция с изучавания обект и може да го замени в процеса на изследване, представяйки информация за обекта.
С повече тесен смисълмодел, той се разглежда като обект на прогнозиране, неговото изследване позволява получаване на информация за възможните състояния на обекта в бъдеще и начините за постигане на тези състояния. В този случай целта на прогнозния модел е да получи информация не за обекта като цяло, а само за бъдещите му състояния. След това, когато се изгражда модел, може да е невъзможно директно да се провери съответствието му с обекта, тъй като моделът представлява само неговото бъдещо състояние, а самият обект може в момента да отсъства или да има различно съществуване.
Моделите могат да бъдат материални и идеални.
Идеалните модели се използват в икономиката. Най-съвършеният идеален модел за количествено описание на социално-икономическо (икономическо) явление е математически модел, който използва числа, формули, уравнения, алгоритми или графично представяне. С помощта на икономически модели определете:
връзката между различните икономически показатели;
различни видове ограничения, наложени върху индикаторите;
критерии за оптимизиране на процеса.
Смислено описание на даден обект може да бъде представено под формата на неговата формализирана схема, която показва кои параметри и първоначална информация трябва да бъдат събрани, за да се изчислят желаните стойности. Математическият модел, за разлика от формализираната схема, съдържа специфични числени данни, характеризиращи даден обект.Разработването на математически модел до голяма степен зависи от представата на прогнозиста за същността на моделирания процес. Въз основа на идеите си той излага работна хипотеза, с помощта на която се създава аналитичен запис на модела под формата на формули, уравнения и неравенства. В резултат на решаването на системата от уравнения се получават конкретни параметри на функцията, които описват изменението на желаните променливи във времето.
Редът и последователността на работата като елемент от организацията на прогнозирането се определя в зависимост от използвания метод за прогнозиране. Обикновено тази работа се извършва на няколко етапа.
Етап 1 - прогнозна ретроспекция, т.е. установяване на обекта на прогнозиране и фона на прогнозата. Работата на първия етап се извършва в следната последователност:
формиране на описание на обект в миналото, което включва предпрогнозен анализ на обекта, оценка на неговите параметри, тяхната значимост и взаимовръзки,
идентифициране и оценка на източниците на информация, процедурата и организацията на работа с тях, събирането и разполагането на ретроспективна информация;
поставяне на изследователски цели.
Изпълнявайки задачите на прогнозната ретроспекция, прогнозистите изучават историята на развитието на обекта и прогнозния фон, за да получат тяхното систематично описание.
Етап 2 - прогнозна диагностика, по време на която се изучава систематично описание на обекта на прогнозиране и прогнозния фон, за да се идентифицират тенденциите в тяхното развитие и да се изберат модели и методи за прогнозиране. Работата се извършва в следната последователност:
разработване на модел на прогнозен обект, включващ формализирано описание на обекта, проверка на степента на адекватност на модела към обекта;
избор на методи за прогнозиране (основни и спомагателни), разработване на алгоритъм и работни програми.
3-ти етап - патронаж, т.е. процесът на екстензивно развитие на прогнозата, включващ: 1) изчисляване на прогнозираните параметри за даден предварителен период; 2) синтез на отделни компоненти на прогнозата.
4-ти етап - оценка на прогнозата, включително нейната проверка, т.е. определяне на степента на надеждност, точност и валидност.
В хода на търсенето и оценката, задачите за прогнозиране и неговата оценка се решават въз основа на предходните етапи.
Посоченото фазиране е приблизително и зависи от основния метод за прогнозиране.
Резултатите от прогнозата се оформят под формата на сертификат, доклад или друг материал и се представят на клиента.
При прогнозирането може да се посочи отклонението на прогнозата от действителното състояние на обекта, което се нарича грешка на прогнозата, която се изчислява по формулата:
;
;
.
(9.3)
Източници на грешки при прогнозирането
Основните източници могат да бъдат:
1. Просто прехвърляне (екстраполация) на данни от миналото към бъдещето (например компанията няма други възможности за прогноза, освен 10% увеличение на продажбите).
2. Невъзможността за точно определяне на вероятността от събитие и неговото въздействие върху обекта на изследване.
3. Непредвидени трудности (разрушителни събития), засягащи изпълнението на плана, например внезапно уволнение на ръководителя на отдел продажби.
Като цяло точността на прогнозирането нараства с натрупването на опит в прогнозирането и развитието на неговите методи.
След като корелационният анализ разкри наличието на статистически връзки между променливите и оцени степента на тяхната близост, обикновено се преминава към математическо описание. специфичен типзависимости с помощта на регресионен анализ. За тази цел се избира клас функции, който свързва ефективния индикатор y и аргументите x 1, x 2, ..., x с избраните най-информативни аргументи, оценки на неизвестни стойности на параметрите на връзката уравнение се изчисляват и свойствата на полученото уравнение се анализират.
Функцията f (x 1, x 2, ..., x k), описваща зависимостта на средната стойност на ефективната характеристика y от дадените стойности на аргументите, се нарича регресионна функция (уравнение). Терминът "регресия" (лат. - regression - отстъпление, връщане към нещо) е въведен от английския психолог и антрополог Ф. Галтън и се свързва изключително със спецификата на един от първите конкретни примери, в които е използвано това понятие. И така, обработвайки статистически данни във връзка с анализа на наследствеността на растежа, Ф. Галтън установи, че ако бащите се отклоняват от средната височина на всички бащи с x инча, тогава техните синове се отклоняват от средната височина на всички синове с по-малко от x инча. Разкритата тенденция беше наречена "регресия към средното състояние". Оттогава терминът "регресия" се използва широко в статистическата литература, въпреки че в много случаи той не характеризира точно понятието статистическа зависимост.
За точно описание на уравнението на регресията е необходимо да се знае законът на разпределение на ефективния показател y. В статистическата практика обикновено е необходимо да се ограничи до търсенето на подходящи приближения за неизвестната истинска регресионна функция, тъй като изследователят няма точни познания за условния закон на вероятностното разпределение на анализирания резултатен показател y за дадени стойности на аргумента x.
Помислете за връзката между истинската f(x) = M(y1x), регресия на модела? и y резултата на регресията. Нека ефективният индикатор y е свързан с аргумента x чрез отношението:
където - e е случайна променлива с нормален закон на разпределение, с Me \u003d 0 и D e \u003d y 2. Истинската регресионна функция в този случай е: f(x) = M(y/x) = 2x 1,5.
Да предположим, че не знаем точната форма на истинското регресионно уравнение, но имаме девет наблюдения върху двумерна случайна променлива, свързана със съотношението yi = 2x1,5 + e и показана на фиг. 1
Снимка 1 - Взаимна договореностистина f (x) и теоретична? регресионни модели
Разположение на точките на фиг. 1 ви позволява да се ограничите до класа на линейните зависимости на формата? = при 0 + при 1 x. Използвайки метода на най-малките квадрати, намираме оценка на регресионното уравнение y = b 0 +b 1 x. За сравнение, на фиг. 1 показва графики на истинската регресионна функция y \u003d 2x 1,5, теоретичната апроксимираща регресионна функция? = при 0 + при 1 x.
Тъй като сме допуснали грешка при избора на класа на регресионната функция, а това е доста често срещано явление в практиката на статистическите изследвания, нашите статистически изводи и оценки ще се окажат погрешни. И без значение колко увеличаваме обема на наблюденията, нашата примерна оценка на y няма да бъде близка до истинската регресионна функция f(x). Ако сме избрали правилно класа на регресионните функции, тогава неточността в описанието на f (x), използвайки? може да се обясни само с ограничения размер на извадката.
С цел на най-доброто възстановяванеспоред първоначалните статистически данни на условната стойност на ефективния показател y(x) и неизвестната регресионна функция f(x) = M(y/x) най-често се използват следните критерии за адекватност (функции на загуба).
Метод на най-малките квадрати. Съгласно него се минимизира квадратното отклонение на наблюдаваните стойности на ефективния показател y, (i = 1,2,..., n) от моделните стойности. = f(х i), където х i е стойността на аргументния вектор в i-то наблюдение: ?(y i - f(x i) 2 > min. Получената регресия се нарича средноквадратичен корен.
Метод на най-малкото модули. Съгласно него се минимизира сумата от абсолютните отклонения на наблюдаваните стойности на ефективния показател от модулните стойности. И получаваме = f(x i), средна абсолютна средна регресия? |y i - f(х i)| > мин.
Регресионният анализ е метод за статистически анализ на зависимостта на случайна променлива y от променливи x j = (j = 1,2, ..., k), разглеждани в регресионния анализ като не случайни променливи, независимо от истинския закон на разпределение x j.
Обикновено се приема, че случайната променлива y има нормален закон на разпределение с условно математическо очакване y, което е функция на аргументите x/ (/ = 1, 2, ..., k) и константа, независима от аргументи, дисперсия y 2 .
Най-общо линейният модел на регресионния анализ има формата:
Y = Y к j=0 V й° С й(х 1 , х 2 . . .. ,х к)+E
където c j е някаква функция на своите променливи - x 1 , x 2 . . .. ,x k , E е случайна променлива с нулево математическо очакване и дисперсия y 2 .
При регресионния анализ типът на регресионното уравнение се избира въз основа на физическата природа на изследваното явление и резултатите от наблюдението.
Оценките на неизвестни параметри на регресионното уравнение обикновено се намират по метода на най-малките квадрати. По-долу ще се спрем на този проблем по-подробно.
Двумерно уравнение на линейна регресия. Нека въз основа на анализа на изследваното явление се приема, че в „средната стойност“ y има линейна функция на x, т.е. има регресионно уравнение
y \u003d M (y / x) \u003d при 0 + при 1 x)
където M(y1x) е условното математическо очакване на случайна променлива y за дадено x; при 0 и при 1 - неизвестни параметри на генералната съвкупност, които трябва да бъдат оценени от резултатите от извадковите наблюдения.
Да предположим, че за оценка на параметрите при 0 и при 1 е взета извадка с размер n от двумерна генерална съвкупност (x, y), където (x, y,) е резултатът от i-тото наблюдение (i = 1, 2,..., n) . В този случай моделът на регресионния анализ има формата:
y j = при 0 + при 1 x+e j.
където e j .- независими нормално разпределени случайни променливи с нулево математическо очакване и дисперсия y 2, т.е. M e j . = 0;
D e j .= y 2 за всички i = 1, 2,..., n.
Според метода на най-малките квадрати, като оценки на неизвестните параметри при 0 и при 1, трябва да се вземат такива стойности на характеристиките на извадката b 0 и b 1, които минимизират сумата от квадратните отклонения на стойностите на получените характеристика y i от условното математическо очакване? аз
Ще разгледаме методологията за определяне на влиянието на маркетинговите характеристики върху печалбата на предприятието, като използваме примера на седемнадесет типични предприятия със средни размери и показатели за икономическа дейност.
При решаването на проблема бяха взети предвид следните характеристики, идентифицирани като най-значими (важни) в резултат на анкетно проучване:
* иновативна дейностпредприятия;
* планиране на продуктовата гама;
* формиране на ценова политика;
* връзки с обществеността;
* маркетингова система;
* система за стимулиране на служителите.
Въз основа на системата от сравнения по фактори бяха конструирани квадратни матрици на съседство, в които бяха изчислени стойностите на относителните приоритети за всеки фактор: иновативна дейност на предприятието, планиране на продуктовата гама, ценова политика, реклама, връзки с обществеността, система за продажби, система за стимулиране на служителите.
Оценките на приоритетите за фактора „връзки с обществеността“ са получени в резултат на проучване на специалисти на компанията. Приемат се следните обозначения: > (по-добро), > (по-добро или същото), = (равно),< (хуже или одинаково), <
След това беше решен проблемът за цялостна оценка на нивото на маркетинг на предприятието. При изчисляването на показателя се определя значимостта (теглото) на разглежданите отделни характеристики и се решава проблема с линейната конволюция на отделните показатели. Обработката на данните се извършва по специално разработени програми.
След това се изчислява цялостна оценка на нивото на маркетинг на предприятието - маркетинговият коефициент, който се въвежда в таблица 1. Освен това горната таблица включва показатели, характеризиращи предприятието като цяло. Данните в таблицата ще се използват за регресионен анализ. Резултатът е печалба. Наред с маркетинговия коефициент като факторни знаци са използвани следните показатели: обем на брутната продукция, стойност на дълготрайните активи, брой на служителите, коефициент на специализация.
Таблица 1 - Изходни данни за регресионен анализ
Въз основа на данните в таблицата и на базата на фактори с най-значими стойности на коефициентите на корелация бяха изградени регресионни функции на зависимостта на печалбата от факторите.
Регресионното уравнение в нашия случай ще приеме формата:
Коефициентите на регресионното уравнение говорят за количественото влияние на разгледаните по-горе фактори върху размера на печалбата. Те показват колко хиляди рубли се променя стойността му, когато знакът на фактора се промени с една единица. Както следва от уравнението, увеличаването на съотношението на маркетинговия микс с една единица води до увеличение на печалбата с 1547,7 хиляди рубли. Това предполага, че има огромен потенциал за подобряване на икономическите резултати на предприятията при подобряване на маркетинговите дейности.
При изследването на ефективността на маркетинга най-интересната и най-важна факторна характеристика е факторът Х5 - маркетинговият коефициент. В съответствие с теорията на статистиката предимството на съществуващото уравнение за множествена регресия е възможността да се оцени изолираното влияние на всеки фактор, включително маркетинговия фактор.
Резултатите от направения регресионен анализ също се използват по-широко, отколкото за изчисляване на параметрите на уравнението. Критерият за класифициране (Kef,) предприятията като относително по-добри или относително по-лоши се основава на относителния показател на резултата:
където Y facti е действителната стойност на i-то предприятие, хиляди рубли;
Y изчислено - стойността на печалбата на i-то предприятие, получена чрез изчисление съгласно уравнението на регресията
По отношение на проблема, който се решава, стойността се нарича "коефициент на ефективност". Дейността на предприятието може да се счита за ефективна в случаите, когато стойността на коефициента е по-голяма от единица. Това означава, че действителната печалба е по-голяма от печалбата, осреднена за извадката.
Действителните и изчислените стойности на печалбата са представени в табл. 2.
Таблица 2 – Анализ на ефективната характеристика в регресионния модел
Анализът на таблицата показва, че в нашия случай дейността на предприятия 3, 5, 7, 9, 12, 14, 15, 17 за разглеждания период може да се счита за успешна.
Методът на регресионния анализ се използва за определяне на технико-икономическите параметри на продуктите, свързани с конкретна параметрична серия, за да се изградят и изравнят ценностни връзки. Този метод се използва за анализиране и обосноваване на съотношенията на нивото и цените на продуктите, характеризиращи се с наличието на един или повече технически и икономически параметри, които отразяват основните потребителски свойства. Регресионният анализ ни позволява да намерим емпирична формула, която описва зависимостта на цената от техническите и икономически параметри на продуктите:
P=f(X1X2,...,Xn),
където P е стойността на единичната цена на продукта, rub.; (X1, X2, ... Xp) - технически и икономически параметри на продуктите.
Методът на регресионния анализ е най-модерният от използваните нормативно-параметрични методи и е ефективен при извършване на изчисления, базирани на използването на съвременни информационни технологии и системи. Приложението му включва следните основни стъпки:
- дефиниране на класификационни параметрични групи продукти;
- избор на параметри, които оказват най-голямо влияние върху цената на продукта;
- избор и обосновка на формата за съобщаване на промените в цените при промяна на параметрите;
- изграждане на система от нормални уравнения и изчисляване на регресионни коефициенти.
Основната квалификационна група на продуктите, чиято цена подлежи на изравняване, е параметричен диапазон, в който продуктите могат да бъдат групирани по различни конструкции в зависимост от тяхното приложение, условия на работа и изисквания и др. При формиране на параметрични серии автоматично класифициране могат да се прилагат методи, които позволяват от общата маса на продуктите да се разпределят нейните хомогенни групи. Изборът на технически и икономически параметри се основава на следните основни изисквания:
- съставът на избраните параметри включва параметрите, фиксирани в стандартите и спецификациите; в допълнение към техническите параметри (мощност, товароподемност, скорост и др.) се използват показатели за серийно производство, фактори на сложност, унификация и др.;
- наборът от избрани параметри трябва достатъчно пълно да характеризира конструктивните, технологичните и експлоатационните свойства на продуктите, включени в серията, и да има доста тясна връзка с цената;
- параметрите не трябва да са взаимозависими.
За да изберете технически и икономически параметри, които значително влияят на цената, се изчислява матрица от коефициенти на двойка корелация. По големината на коефициентите на корелация между параметрите може да се съди за тясността на тяхната връзка. В същото време корелация, близка до нула, показва леко влияние на параметъра върху цената. Окончателният избор на технически и икономически параметри се извършва в процеса на поетапен регресионен анализ с помощта на компютърна техника и подходящи стандартни програми.
В практиката на ценообразуването се използва следният набор от функции:
линеен
P = ao + alXl + ... + antXn,
линейна мощност
P \u003d ao + a1X1 + ... + anXp + (an + 1Xp) (an + 1Xp) + ... + (an + nXp2) (an + nXp2)
обратен логаритъм
P \u003d a0 + a1: В X1 + ... + an: В Xn,
мощност
P = a0 (X1^a1) (X2^a2) .. (Xn^an)
демонстрация
P = e^(a1+a1X1+...+anXn)
хиперболичен
P \u003d ao + a1: X1 + a2: X2 + ... + an: Xn,
където P - ценово изравняване; X1 X2,..., Xn - стойността на технико-икономическите параметри на продуктите от серията; a0, a1 ..., an - изчислени коефициенти на регресионното уравнение.
В практическата работа по ценообразуването, в зависимост от формата на връзка между цените и технико-икономическите параметри, могат да се използват и други регресионни уравнения. Видът на функцията за връзка между цената и набора от технико-икономически параметри може да бъде предварително зададен или автоматично избран при обработка на компютър. Тясността на корелацията между цената и набора от параметри се оценява чрез стойността на коефициента на множествена корелация. Неговата близост до единството показва тясна връзка. Съгласно регресионното уравнение се получават подравнените (изчислени) стойности на цените на продуктите от тази параметрична серия. За да се оценят резултатите от подравняването, се изчисляват относителните отклонения на изчислените ценови стойности от действителните:
Tsr \u003d Rf - Rr: R x 100
където Рф, Рр - действителни и прогнозни цени.
Стойността на Cr не трябва да надвишава 8-10%. При значителни отклонения на изчислените стойности от действителните е необходимо да се изследват:
- правилността на формирането на параметричната серия, тъй като нейният състав може да включва продукти, които рязко се различават по своите параметри от други продукти от серията. Те трябва да бъдат изключени;
- правилен подбор на технически и икономически параметри. Възможен е набор от параметри, който е слабо свързан с цената. В този случай е необходимо да продължите търсенето и избора на параметри.
Процедурата и методологията за провеждане на регресионен анализ, намиране на неизвестни параметри на уравнението и икономическата оценка на получените резултати се извършват в съответствие с изискванията на математическата статистика.
Какво е регресия?
Разгледайте две непрекъснати променливи x=(x 1, x 2, .., x n), y=(y 1, y 2, ..., y n).
Нека поставим точките върху 2D точкова диаграма и да кажем, че имаме линейна връзкаако данните са апроксимирани с права линия.
Ако приемем, че гзависи от х, и промените в гпричинени от промени в х, можем да дефинираме регресионна линия (регресия гНа х), което най-добре описва праволинейната връзка между тези две променливи.
Статистическата употреба на думата „регресия“ идва от феномен, известен като регресия към средната стойност, приписван на сър Франсис Галтън (1889).
Той показа, че докато високите бащи са склонни да имат високи синове, средният ръст на синовете е по-малък от този на техните високи бащи. Средният ръст на синовете „регресира“ и „се върна“ до средния ръст на всички бащи в популацията. Така средно високите бащи имат по-ниски (но все още високи) синове, а ниските бащи имат по-високи (но все още доста ниски) синове.
регресионна линия
Математическо уравнение, което оценява проста (по двойки) линия на линейна регресия:
хнаречена независима променлива или предиктор.
Yе зависимата или отговорна променлива. Това е стойността, която очакваме г(средно), ако знаем стойността х, т.е. е предвидената стойност г»
- а- свободен член (пресичане) на линията за оценка; тази стойност Y, Кога х=0(Фиг. 1).
- b- наклон или градиент на прогнозната линия; това е сумата, с която Yсе увеличава средно, ако увеличим хза една единица.
- аИ bсе наричат регресионни коефициенти на оценената линия, въпреки че този термин често се използва само за b.
Линейната регресия по двойки може да бъде разширена, за да включва повече от една независима променлива; в този случай е известен като множествена регресия.
Фиг. 1. Линия на линейна регресия, показваща пресечната точка на a и наклона b (степента на увеличение на Y, когато x се увеличи с една единица)
Метод на най-малките квадрати
Извършваме регресионен анализ, използвайки извадка от наблюдения, където аИ b- извадкови оценки на истинските (общи) параметри, α и β , които определят линията на линейна регресия в популацията (генерална популация).
Най-простият метод за определяне на коефициентите аИ bе метод на най-малките квадрати(MNK).
Напасването се оценява чрез отчитане на остатъците (вертикалното разстояние на всяка точка от линията, напр. остатък = видимо г- предсказано г, Ориз. 2).
Линията на най-добро прилягане е избрана така, че сумата от квадратите на остатъците да е минимална.
Ориз. 2. Линия на линейна регресия с изобразени остатъци (вертикални пунктирани линии) за всяка точка.
Предположения за линейна регресия
Така че за всяка наблюдавана стойност остатъкът е равен на разликата и съответната прогнозирана.Всеки остатък може да бъде положителен или отрицателен.
Можете да използвате остатъци, за да тествате следните допускания зад линейната регресия:
- Остатъците обикновено се разпределят с нулева средна стойност;
Ако допусканията за линейност, нормалност и/или постоянна дисперсия са съмнителни, можем да трансформираме или изчислим нова регресионна линия, за която тези допускания са изпълнени (напр. да използваме логаритмична трансформация и т.н.).
Ненормални стойности (отклонения) и точки на влияние
„Влиятелно“ наблюдение, ако е пропуснато, променя една или повече оценки на параметрите на модела (т.е. наклон или пресечна точка).
Отклонение (наблюдение, което противоречи на повечето от стойностите в набора от данни) може да бъде „влиятелно“ наблюдение и може да бъде добре открито визуално, когато се гледа 2D диаграма на разсейване или диаграма на остатъци.
Както за отклонения, така и за "влиятелни" наблюдения (точки) се използват модели, както с тяхното включване, така и без тях, обърнете внимание на промяната в оценката (регресионни коефициенти).
Когато правите анализ, не отхвърляйте автоматично отклоненията или точките на влияние, тъй като простото им игнориране може да повлияе на резултатите. Винаги изучавайте причините за тези отклонения и ги анализирайте.
Хипотеза за линейна регресия
При конструиране на линейна регресия се проверява нулевата хипотеза, че общият наклон на линията на регресия β е равен на нула.
Ако наклонът на линията е нула, няма линейна зависимост между и: промяната не засяга
За да тествате нулевата хипотеза, че истинският наклон е нула, можете да използвате следния алгоритъм:
Изчислете тестовата статистика, равна на съотношението , което се подчинява на разпределение със степени на свобода, където стандартната грешка на коефициента
,
- оценка на дисперсията на остатъците.
Обикновено, ако достигнатото ниво на значимост е нулевата хипотеза се отхвърля.
където е процентната точка на разпределението със степени на свобода, което дава вероятността за двустранен тест
Това е интервалът, който съдържа общия наклон с вероятност от 95%.
За големи извадки, да кажем, че можем да приближим със стойност от 1,96 (тоест тестовата статистика ще има тенденция да бъде нормално разпределена)
Оценка на качеството на линейната регресия: коефициент на детерминация R 2
Поради линейната връзка и ние очакваме това да се променя с промените
и ние наричаме това вариацията, която се дължи или се обяснява с регресията. Остатъчната вариация трябва да бъде възможно най-малка.
Ако е така, тогава по-голямата част от вариацията ще се обясни с регресията и точките ще лежат близо до линията на регресия, т.е. линията пасва добре на данните.
Пропорцията на общата дисперсия, която се обяснява с регресията, се нарича коефициент на детерминация, обикновено изразен като процент и означен R2(при сдвоена линейна регресия това е стойността r2, квадрат на корелационния коефициент), ви позволява субективно да оцените качеството на регресионното уравнение.
Разликата е процентът на дисперсията, който не може да се обясни с регресия.
Без официален тест за оценка, ние сме принудени да разчитаме на субективна преценка, за да определим качеството на съответствие на регресионната линия.
Прилагане на регресионна линия към прогноза
Можете да използвате регресионна линия, за да предвидите стойност от стойност в рамките на наблюдавания диапазон (никога не екстраполирайте извън тези граници).
Ние предвиждаме средната стойност за наблюдаеми, които имат определена стойност, като заместваме тази стойност в уравнението на регресионната линия.
Така че, ако прогнозираме като Ние използваме тази прогнозирана стойност и нейната стандартна грешка, за да оценим доверителния интервал за истинската средна съвкупност.
Повтарянето на тази процедура за различни стойности ви позволява да изградите граници на доверие за този ред. Това е лента или област, която съдържа истинска линия, например, с 95% ниво на сигурност.
Прости планове за регресия
Простите регресионни проекти съдържат един непрекъснат предиктор. Ако има 3 случая с предикторни стойности P, като 7, 4 и 9, и дизайнът включва ефект от първи ред P, тогава проектната матрица X ще бъде
и регресионното уравнение, използващо P за X1, изглежда така
Y = b0 + b1 P
Ако един прост регресионен дизайн съдържа ефект от по-висок порядък върху P, като например квадратичен ефект, тогава стойностите в колона X1 в проектната матрица ще бъдат повишени на втора степен:
и уравнението ще приеме формата
Y = b0 + b1 P2
Сигма-ограничените и свръхпараметризираните методи за кодиране не се прилагат за прости регресионни дизайни и други дизайни, съдържащи само непрекъснати предиктори (защото просто няма категорични предиктори). Независимо от избрания метод на кодиране, стойностите на непрекъснатите променливи се увеличават с подходящата мощност и се използват като стойности за X променливите. В този случай не се извършва преобразуване. Освен това, когато описвате регресионни планове, можете да пропуснете разглеждането на плановата матрица X и да работите само с регресионното уравнение.
Пример: Прост регресионен анализ
Този пример използва данните, предоставени в таблицата:
Ориз. 3. Таблица с изходни данни.
Данните се основават на сравнение на преброяванията от 1960 г. и 1970 г. в 30 произволно избрани окръга. Имената на окръгите са представени като имена на наблюдения. Информацията за всяка променлива е представена по-долу:
Ориз. 4. Таблица със спецификации на променливи.
Цел на изследването
За този пример ще бъде анализирана връзката между нивото на бедност и силата, която предсказва процента на семействата, които са под прага на бедността. Следователно ще третираме променлива 3 (Pt_Poor ) като зависима променлива.
Може да се изложи една хипотеза: изменението на населението и процента на семействата, които са под прага на бедността, са свързани. Изглежда разумно да се очаква, че бедността води до изтичане на населението, следователно би имало отрицателна корелация между процента на хората под прага на бедността и изменението на населението. Следователно ще третираме променлива 1 (Pop_Chng) като променлива за прогнозиране.
Преглед на резултатите
Коефициенти на регресия
Ориз. 5. Коефициенти на регресия Pt_Poor върху Pop_Chng.
В пресечната точка на реда Pop_Chng и Param. нестандартизираният коефициент за регресията на Pt_Poor върху Pop_Chng е -0,40374. Това означава, че за всяка единица намаление на населението има увеличение на нивото на бедност от 0,40374. Горната и долната (по подразбиране) 95% доверителни граници за този нестандартизиран коефициент не включват нула, така че регресионният коефициент е значим на ниво p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.
Разпределение на променливите
Коефициентите на корелация могат да станат значително надценени или подценени, ако има големи отклонения в данните. Нека разгледаме разпределението на зависимата променлива Pt_Poor по окръг. За да направим това, ще изградим хистограма на променливата Pt_Poor.
Ориз. 6. Хистограма на променливата Pt_Poor.
Както можете да видите, разпределението на тази променлива се различава значително от нормалното разпределение. Въпреки това, въпреки че дори два окръга (двите две колони) имат по-висок процент семейства, които са под прага на бедността, отколкото се очаква при нормално разпределение, те изглеждат „в рамките на диапазона“.
Ориз. 7. Хистограма на променливата Pt_Poor.
Тази преценка е донякъде субективна. Основното правило е, че отклоненията трябва да се вземат предвид, ако едно наблюдение (или наблюдения) не попадат в интервала (средно ± 3 пъти стандартното отклонение). В този случай си струва да повторите анализа със и без извънредни стойности, за да сте сигурни, че те нямат сериозен ефект върху корелацията между членовете на популацията.
Точкова диаграма
Ако една от хипотезите е a priori за връзката между дадените променливи, тогава е полезно да я проверите върху диаграмата на съответната точечна диаграма.
Ориз. 8. Точкова диаграма.
Точковата диаграма показва ясна отрицателна корелация (-.65) между двете променливи. Той също така показва 95% доверителен интервал за регресионната линия, т.е. с 95% вероятност регресионната линия минава между двете пунктирани криви.
Критерии за значимост
Ориз. 9. Таблица, съдържаща критериите за значимост.
Тестът за регресионния коефициент Pop_Chng потвърждава, че Pop_Chng е тясно свързан с Pt_Poor, p<.001 .
Резултат
Този пример показа как да се анализира прост регресионен план. Представена е и интерпретация на нестандартизирани и стандартизирани регресионни коефициенти. Обсъжда се значението на изучаването на разпределението на отговора на зависимата променлива и се демонстрира техника за определяне на посоката и силата на връзката между предиктора и зависимата променлива.