Бактериална инфекция, тъй като прониква. Бактериална инфекция - симптоми, диагностика и лечение
За по-голямата част от простите измервания, така нареченият нормален закон за случайни грешки е изпълнен доста добре ( закон на Гаус), извлечени от следните емпирични положения.
1) грешките в измерването могат да приемат непрекъсната серия от стойности;
2) с голям брой измервания, грешки със същата величина, но различен знаксе срещат еднакво често
3) колкото по-голяма е случайната грешка, толкова по-малко вероятновъншния й вид.
Графиката на нормалното разпределение на Гаус е показана на фиг.1. Уравнението на кривата има формата
където е функцията на разпределение на случайните грешки (грешки), която характеризира вероятността за грешка, σ е средната квадратична грешка.
Стойността σ не е случайна величина и характеризира процеса на измерване. Ако условията на измерване не се променят, тогава σ остава постоянна. Квадратът на това количество се нарича дисперсия на измерванията.Колкото по-малка е дисперсията, толкова по-малко е разпространението на отделните стойности и по-висока е точността на измерване.
Точната стойност на средноквадратичната грешка σ, както и истинската стойност на измерената величина, не са известни. Има т.нар статистическа оценкана този параметър, според който средната квадратна грешка е равна на средната квадратна грешка на средноаритметичната стойност. Стойността на която се определя по формулата
къде е резултата аз-то измерение; - средно аритметично на получените стойности; не броят на измерванията.
Колкото по-голям е броят на измерванията, толкова по-малък е и толкова повече се доближава до σ. Ако истинската стойност на измереното количество μ, неговата средна аритметична стойност, получена в резултат на измерванията, и случайната абсолютна грешка, тогава резултатът от измерването ще бъде записан като.
Интервалът от стойности от до , в който попада истинската стойност на измерената величина μ, се нарича доверителен интервал.Тъй като това е случайна променлива, истинската стойност попада в доверителния интервал с вероятност α, която се нарича вероятност за доверие,или надеждностизмервания. Тази стойност е числено равна на площта на защрихования криволинеен трапец. (вижте снимката.)
Всичко това е вярно за достатъчно голям брой измервания, когато е близо до σ. Да намерим доверителния интервал и нивото на достоверност за малък брой измервания, с които се занимаваме по време на изпълнението лабораторна работа, използвани Разпределение на вероятностите на Студент.Това е разпределението на вероятностите случайна величинаНаречен Студентски коефициент, дава стойността на доверителния интервал в части от корена на средната квадратна грешка на средната аритметична стойност.
Вероятностното разпределение на това количество не зависи от σ 2 , но по същество зависи от броя на експериментите н.С увеличаване на броя на експериментите нРазпределението на Стюдънт клони към разпределение на Гаус.
Функцията на разпределение е представена в таблица (Таблица 1). Стойността на коефициента на Студент е в пресечната точка на линията, съответстваща на броя на измерванията ни колоната, съответстваща на нивото на достоверност α
Често оценителят трябва да анализира пазара на недвижими имоти в сегмента, в който се намира обектът на оценка. Ако пазарът е развит, може да бъде трудно да се анализира целия набор от представени обекти, следователно за анализ се използва извадка от обекти. Тази извадка не винаги е хомогенна, понякога се налага нейното изчистване от крайности - твърде високи или твърде ниски пазарни оферти. За целта се прилага доверителен интервал. Мишена това учение- направете сравнителен анализ на два метода за изчисляване на доверителния интервал и изберете най-добър варианткалкулация при работа с различни проби в системата estimatica.pro.
Доверителен интервал - изчислен въз основа на извадката, интервалът от стойности на характеристиката, който с известна вероятност съдържа оценения параметър на генералната съвкупност.
Смисълът на изчисляването на доверителния интервал е да се изгради такъв интервал въз основа на данните от извадката, така че да може да се твърди с дадена вероятност, че стойността на оценения параметър е в този интервал. С други думи, доверителният интервал с определена вероятност съдържа неизвестната стойност на оцененото количество. Колкото по-широк е интервалът, толкова по-голяма е неточността.
Има различни методи за определяне на доверителния интервал. В тази статия ще разгледаме 2 начина:
- чрез медианата и стандартното отклонение;
- чрез критичната стойност на t-статистиката (коефициент на Стюдънт).
Етапи сравнителен анализ различни начиниИзчисление на CI:
1. формира извадка от данни;
2. обработвам го статистически методи: изчисляване на средна стойност, медиана, дисперсия и др.;
3. изчисляваме доверителния интервал по два начина;
4. Анализирайте почистените проби и получените доверителни интервали.
Етап 1. Извадка от данни
Извадката е формирана чрез системата estimatica.pro. Извадката включва 91 оферти за продажба на 1-стайни апартаменти в 3-та ценова зона с тип планиране "Хрушчов".
Таблица 1. Първоначална проба
Цената на 1 кв.м., к.у. |
|
Фиг. 1. Първоначална проба
Етап 2. Обработка на първоначалната проба
Обработката на извадката чрез статистически методи изисква изчисляване на следните стойности:
1. Средно аритметично
2. Медиана - число, което характеризира извадката: точно половината от елементите на извадката са по-големи от медианата, другата половина е по-малка от медианата
(за извадка с нечетен брой стойности)
3. Диапазон - разликата между максималните и минималните стойности в извадката
4. Дисперсия - използва се за по-точна оценка на вариацията в данните
5. Стандартното отклонение за извадката (наричано по-нататък RMS) е най-често срещаният индикатор за дисперсията на коригиращите стойности около средноаритметичната стойност.
6. Коефициент на вариация - отразява степента на дисперсия на коригиращите стойности
7. коефициент на колебание - отразява относителното колебание на екстремните стойности на цените в извадката около средната
Таблица 2. Статистически показателиоригинална проба
Коефициентът на вариация, който характеризира хомогенността на данните, е 12,29%, но коефициентът на колебание е твърде голям. По този начин можем да заявим, че оригиналната извадка не е хомогенна, така че нека да преминем към изчисляване на доверителния интервал.
Етап 3. Изчисляване на доверителния интервал
Метод 1. Изчисляване чрез медиана и стандартно отклонение.
Доверителният интервал се определя, както следва: минималната стойност - стандартното отклонение се изважда от медианата; максималната стойност - стандартното отклонение се добавя към медианата.
Така доверителният интервал (47179 CU; 60689 CU)
Ориз. 2. Стойности в рамките на доверителен интервал 1.
Метод 2. Изграждане на доверителен интервал чрез критичната стойност на t-статистиката (коефициент на Стюдънт)
С.В. Грибовски в книгата " Математически методиоценка на стойността на имота” описва как да се изчисли доверителният интервал чрез коефициента на Студент. При изчисляване по този метод самият оценител трябва да зададе нивото на значимост ∝, което определя вероятността, с която ще бъде изграден доверителният интервал. Обикновено се използват нива на значимост от 0,1; 0,05 и 0,01. Те съответстват на доверителни вероятности от 0,9; 0,95 и 0,99. При този метод се предполага истински ценностиматематическото очакване и дисперсията са практически неизвестни (което почти винаги е вярно при решаване на практически проблеми с оценка).
Формула за доверителен интервал:
n - размер на извадката;
Критичната стойност на t-статистиките (разпределенията на Стюдънт) с ниво на значимост ∝, броят на степените на свобода n-1, което се определя от специални статистически таблици или с помощта на MS Excel (→"Статистически"→ СТУДРАСПОБР);
∝ - ниво на значимост, приемаме ∝=0,01.
Ориз. 2. Стойности в рамките на доверителния интервал 2.
Стъпка 4. Анализ на различни начини за изчисляване на доверителния интервал
Два начина за изчисляване на доверителния интервал - чрез медианата и коефициента на Стюдънт - доведоха до различни стойностиинтервали. Съответно бяха получени две различни пречистени проби.
Таблица 3. Статистически показатели за три извадки.
Индекс |
Първоначална проба |
1 вариант |
Вариант 2 |
Средна стойност |
|||
дисперсия |
|||
Коеф. вариации |
|||
Коеф. трептения |
|||
Брой излезли от експлоатация обекти, бр. |
Въз основа на направените изчисления може да се каже, че различни методистойностите на доверителните интервали се пресичат, така че можете да използвате всеки от методите за изчисление по преценка на оценителя.
Ние обаче смятаме, че при работа в системата estimatica.pro е препоръчително да изберете метод за изчисляване на доверителния интервал в зависимост от степента на развитие на пазара:
- ако пазарът не е развит, приложете метода на изчисление чрез медианата и стандартното отклонение, тъй като броят на пенсионираните обекти в този случай е малък;
- ако пазарът е развит, приложете изчислението чрез критичната стойност на t-статистиката (коефициент на Стюдънт), тъй като е възможно да се формира голяма първоначална извадка.
При изготвянето на статията са използвани:
1. Грибовски С.В., Сивец С.А., Левикина И.А. Математически методи за оценка на стойността на имущество. Москва, 2014 г
2. Данни от системата estimatica.pro
Доверителен интервал за математическо очакване - това е такъв интервал, изчислен от данните, който с известна вероятност съдържа математическото очакване на генералната съвкупност. Естествената оценка за математическото очакване е средноаритметичната стойност на неговите наблюдавани стойности. Ето защо по-нататък по време на урока ще използваме термините "средно", "средна стойност". При задачи за изчисляване на доверителния интервал отговорът, който най-често се изисква, е „Доверителният интервал на средното число [стойност в конкретен проблем] е от [по-ниска стойност] до [по-висока стойност]”. С помощта на доверителния интервал е възможно да се оценят не само средните стойности, но и делът на една или друга характеристика на генералната съвкупност. Средни стойности, дисперсия, стандартно отклонениеи грешката, чрез която ще стигнем до нови определения и формули, се анализират в урока Характеристики на извадката и популацията .
Точкови и интервални оценки на средната стойност
Ако средната стойност на генералната съвкупност се оценява чрез число (точка), тогава специфична средна стойност, изчислена от извадка от наблюдения, се приема като оценка на неизвестната средна стойност на генералната съвкупност. В този случай стойността на извадковата средна - случайна променлива - не съвпада със средната стойност на генералната съвкупност. Следователно, когато се посочва средната стойност на извадката, е необходимо едновременно да се посочи и грешката на извадката. Стандартната грешка се използва като мярка за грешка на извадката, която се изразява в същите единици като средната стойност. Поради това често се използва следното обозначение: .
Ако се изисква оценката на средната стойност да бъде свързана с определена вероятност, тогава параметърът на общата съвкупност от интереси трябва да бъде оценен не с едно число, а с интервал. Доверителният интервал е интервал, в който с определена вероятност Пнамира се стойността на оценения показател на генералната съвкупност. Доверителен интервал, в който с вероятност П = 1 - α е случайна променлива, се изчислява, както следва:
,
α = 1 - П, който може да се намери в приложението към почти всяка книга по статистика.
На практика средната стойност на съвкупността и дисперсията не са известни, така че дисперсията на популацията се заменя с дисперсията на извадката, а средната популация с извадковата средна стойност. По този начин доверителният интервал в повечето случаи се изчислява, както следва:
.
Формулата на доверителния интервал може да се използва за оценка на средната популация if
- стандартното отклонение на генералната съвкупност е известно;
- или стандартното отклонение на популацията не е известно, но размерът на извадката е по-голям от 30.
Средната стойност на извадката е безпристрастна оценка на средната стойност на популацията. На свой ред дисперсията на извадката не е безпристрастна оценка на дисперсията на популацията. За да се получи безпристрастна оценка на вариацията на популацията във формулата за вариация на извадката, размерът на извадката е нтрябва да се замени с н-1.
Пример 1Събира се информация от 100 произволно избрани кафенета в даден град, че средният брой служители в тях е 10,5 при стандартно отклонение от 4,6. Определете доверителния интервал от 95% от броя на служителите в кафенето.
където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .
По този начин 95% доверителен интервал за средния брой служители в кафенето е между 9,6 и 11,4.
Пример 2За произволна извадка от обща съвкупност от 64 наблюдения бяха изчислени следните общи стойности:
сбор от стойности в наблюденията,
сума на квадратните отклонения на стойностите от средната стойност .
Изчислете 95% доверителен интервал за очакваната стойност.
изчислете стандартното отклонение:
,
изчислете средната стойност:
.
Заменете стойностите в израза за доверителния интервал:
където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .
Получаваме:
Така 95% доверителният интервал за математическото очакване на тази извадка варира от 7,484 до 11,266.
Пример 3За произволна извадка от обща популация от 100 наблюдения бяха изчислени средна стойност от 15,2 и стандартно отклонение от 3,2. Изчислете 95% доверителен интервал за очакваната стойност, след това 99% доверителен интервал. Ако мощността на извадката и нейната вариация останат същите, но факторът на доверие се увеличи, ще се стесни или разшири доверителният интервал?
Заменяме тези стойности в израза за доверителния интервал:
където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .
Получаваме:
.
Така 95% доверителният интервал за средната стойност на тази извадка е от 14,57 до 15,82.
Отново заместваме тези стойности в израза за доверителния интервал:
където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,01 .
Получаваме:
.
По този начин 99% доверителен интервал за средната стойност на тази извадка е от 14,37 до 16,02.
Както можете да видите, с увеличаване на коефициента на доверие критичната стойност на стандартното нормално разпределение също се увеличава и следователно първоначалната и крайна точкаинтервалите са по-далеч от средната стойност и по този начин доверителният интервал за очакваната стойност се увеличава.
Точкови и интервални оценки на специфичното тегло
Делът на някои характеристики на извадката може да се тълкува като точкова оценка на дела стрсъщата черта в общата популация. Ако тази стойност трябва да бъде свързана с вероятност, тогава трябва да се изчисли доверителният интервал на специфичното тегло стрхарактеристика в общата популация с вероятност П = 1 - α :
.
Пример 4В даден град има двама кандидати АИ бсе кандидатира за кмет. На случаен принцип са анкетирани 200 жители на града, от които 46% са отговорили, че ще гласуват за кандидата А, 26% - за кандидата ба 28% не знаят за кого ще гласуват. Определете 95% доверителен интервал за дела на жителите на града, които подкрепят кандидата А.
Доверителен интервал(CI; на английски, доверителен интервал - CI), получен в изследването на извадката, дава мярка за точността (или несигурността) на резултатите от изследването, за да се направят заключения относно популацията на всички такива пациенти (обща популация ). Правилно определение 95% CI може да се формулира по следния начин: 95% от тези интервали ще съдържат истинската стойност в популацията. Тази интерпретация е малко по-малко точна: CI е диапазонът от стойности, в рамките на който можете да сте 95% сигурни, че съдържа истинската стойност. При използване на CI акцентът е върху определянето на количествения ефект, за разлика от P стойността, която се получава в резултат на тестване за статистическа значимост. P стойността не оценява никаква сума, а по-скоро служи като мярка за силата на доказателствата срещу нулевата хипотеза за „без ефект“. Стойността на P сама по себе си не ни казва нищо за големината на разликата или дори за нейната посока. Следователно независимите стойности на P са абсолютно неинформативни в статии или резюмета. За разлика от това, CI показва както количеството на ефекта от непосредствен интерес, като полезността на лечението, така и силата на доказателствата. Следователно DI е пряко свързан с практиката на DM.
Подход за оценка към Статистически анализ, илюстриран от CI, има за цел да измери количеството на ефекта от интерес (чувствителност на диагностичния тест, прогнозирана честота, намаляване на относителния риск с лечение и т.н.), както и да измери несигурността в този ефект. Най-често CI е диапазонът от стойности от двете страни на оценката, в които е вероятно да се крие истинската стойност, и можете да сте 95% сигурни в това. Конвенцията за използване на 95% вероятност е произволна, както и стойността на P<0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».
CI се основава на идеята, че едно и също проучване, проведено върху различни групи пациенти, няма да доведе до идентични резултати, но че техните резултати ще бъдат разпределени около истинската, но неизвестна стойност. С други думи, CI описва това като „зависима от пробата променливост“. CI не отразява допълнителна несигурност поради други причини; по-специално, не включва въздействието на селективната загуба на пациенти върху проследяването, лошо съответствие или неточно измерване на резултатите, липса на заслепяване и т.н. По този начин CI винаги подценява общото количество несигурност.
Изчисляване на доверителния интервал
Таблица A1.1. Стандартни грешки и доверителни интервали за някои клинични измервания
Обикновено CI се изчислява от наблюдавана оценка на количествена мярка, като разликата (d) между две пропорции и стандартната грешка (SE) в оценката на тази разлика. Така полученият приблизително 95% CI е d ± 1,96 SE. Формулата се променя в зависимост от естеството на мярката за резултат и обхвата на CI. Например, в рандомизирано плацебо-контролирано проучване на ацелуларна ваксина срещу коклюш, магарешка кашлица се е развила при 72 от 1670 (4,3%) бебета, които са получили ваксината, и 240 от 1665 (14,4%) в контролната група. Процентната разлика, известна като намаляване на абсолютния риск, е 10,1%. SE на тази разлика е 0,99%. Съответно 95% CI е 10,1% + 1,96 x 0,99%, т.е. от 8.2 до 12.0.
Въпреки различните философски подходи, CI и тестовете за статистическа значимост са тясно свързани математически.
По този начин стойността на P е „значима“, т.е. Р<0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.
Несигурността (неточността) на оценката, изразена в CI, до голяма степен е свързана с корен квадратен от размера на извадката. Малките проби предоставят по-малко информация от големите проби и CI съответно са по-широки в по-малките проби. Например, статия, сравняваща ефективността на три теста, използвани за диагностициране на инфекция с Helicobacter pylori, съобщава за чувствителност на дихателния тест с урея от 95,8% (95% CI 75-100). Въпреки че цифрата от 95,8% изглежда впечатляваща, малкият размер на извадката от 24 възрастни пациенти с H. pylori означава, че има значителна несигурност в тази оценка, както се вижда от широкия CI. Наистина долната граница от 75% е много по-ниска от оценката от 95,8%. Ако същата чувствителност се наблюдава в извадка от 240 души, тогава 95% CI ще бъде 92,5-98,0, което дава повече сигурност, че тестът е силно чувствителен.
В рандомизирани контролирани проучвания (RCT) незначимите резултати (т.е. тези с P > 0,05) са особено податливи на погрешно тълкуване. CI е особено полезен тук, тъй като показва колко съвместими са резултатите с клинично полезния истински ефект. Например, в RCT, сравняващ шев спрямо анастомоза със скоби в дебелото черво, инфекция на раната се е развила съответно при 10,9% и 13,5% от пациентите (P = 0,30). 95% CI за тази разлика е 2,6% (-2 до +8). Дори в това проучване, което включва 652 пациенти, остава вероятно да има скромна разлика в честотата на инфекциите в резултат на двете процедури. Колкото по-малко е изследването, толкова по-голяма е несигурността. Sung и др. извърши RCT, сравняващ инфузия на октреотид с спешна склеротерапия за остро варикозно кървене при 100 пациенти. В групата на октреотид процентът на спиране на кървенето е 84%; в групата на склеротерапията - 90%, което дава Р = 0,56. Имайте предвид, че честотата на продължаващо кървене е подобна на тази при инфекция на раната в споменатото проучване. В този случай обаче 95% CI за разликата между интервенциите е 6% (-7 до +19). Този диапазон е доста широк в сравнение с 5% разлика, която би представлявала клиничен интерес. Ясно е, че проучването не изключва значителна разлика в ефикасността. Следователно заключението на авторите „инфузията на октреотид и склеротерапията са еднакво ефективни при лечението на кървене от варици“ определено не е валидно. В случаи като този, когато 95% CI за абсолютно намаляване на риска (ARR) включва нула, както тук, CI за NNT (брой, необходим за лечение) е доста труден за тълкуване. NLP и неговият CI се получават от реципрочните стойности на ACP (умножавайки ги по 100, ако тези стойности са дадени като проценти). Тук получаваме NPP = 100: 6 = 16,6 с 95% CI от -14,3 до 5,3. Както се вижда от бележката под линия „г“ в табл. A1.1, този CI включва стойности за NTPP от 5.3 до безкрайност и NTLP от 14.3 до безкрайност.
CI могат да бъдат конструирани за най-често използваните статистически оценки или сравнения. За RCT включва разликата между средните пропорции, относителните рискове, съотношенията на шансовете и NRR. По същия начин CI могат да бъдат получени за всички основни оценки, направени в проучвания на точността на диагностичните тестове - чувствителност, специфичност, положителна прогнозна стойност (всички от които са прости пропорции) и съотношения на вероятността - оценки, получени в мета-анализи и сравнение с контрола проучвания. Програма за персонален компютър, която обхваща много от тези употреби на DI, е достъпна с второто издание на Statistics with Confidence. Макросите за изчисляване на CI за пропорции са свободно достъпни за Excel и статистическите програми SPSS и Minitab на http://www.uwcm.ac.uk/study/medicine/epidemiology_statistics/research/statistics/proportions, htm.
Множество оценки на ефекта от лечението
Въпреки че изграждането на CI е желателно за първичните резултати от проучването, те не са необходими за всички резултати. CI се отнася до клинично важни сравнения. Например, когато сравнявате две групи, правилният CI е този, който е изграден за разликата между групите, както е показано в примерите по-горе, а не CI, който може да бъде изграден за оценката във всяка група. Не само, че е безполезно да се дават отделни CI за резултатите във всяка група, това представяне може да бъде подвеждащо. По подобен начин, правилният подход при сравняване на ефикасността на лечението в различни подгрупи е директното сравняване на две (или повече) подгрупи. Неправилно е да се приеме, че лечението е ефективно само в една подгрупа, ако нейният CI изключва стойността, съответстваща на липса на ефект, докато други не. CI също са полезни при сравняване на резултати в множество подгрупи. На фиг. A1.1 показва относителния риск от еклампсия при жени с прееклампсия в подгрупи жени от плацебо-контролирано RCT на магнезиев сулфат.
Ориз. A1.2. Forest Graph показва резултатите от 11 рандомизирани клинични изпитвания на ваксина срещу ротавирус по говеда за профилактика на диария спрямо плацебо. 95% доверителен интервал е използван за оценка на относителния риск от диария. Размерът на черния квадрат е пропорционален на количеството информация. Освен това са показани обобщена оценка на ефикасността на лечението и 95% доверителен интервал (обозначен с ромб). Метаанализът използва модел на произволни ефекти, който надхвърля някои предварително установени; например това може да е размерът, използван при изчисляване на размера на извадката. По-строг критерий би изисквал целият набор от КИ да покаже полза, надвишаваща предварително определен минимум.
Вече обсъдихме грешката да се приема липсата на статистическа значимост като индикация, че две лечения са еднакво ефективни. Също толкова важно е да не се приравнява статистическата значимост с клиничната значимост. Клинично значение може да се приеме, когато резултатът е статистически значим и степента на отговора на лечението
Проучванията могат да покажат дали резултатите са статистически значими и кои са клинично важни и кои не. На фиг. A1.2 показва резултатите от четири опита, за които целият CI<1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.
ДОВЕРИТЕЛНИ ИНТЕРВАЛИ ЗА ЧЕСТОТИ И ЧАСТИ
© 2008
Национален институт по обществено здраве, Осло, Норвегия
Статията описва и обсъжда изчисляването на доверителните интервали за честоти и пропорции с помощта на методите на Wald, Wilson, Klopper-Pearson, използвайки ъгловата трансформация и метода на Wald с корекция на Agresti-Cowll. Представеният материал предоставя обща информация за методите за изчисляване на доверителни интервали за честоти и пропорции и има за цел да предизвика интереса на читателите на списанието не само към използването на доверителни интервали при представяне на резултатите от собствените си изследвания, но и към четене на специализирана литература, преди да започнат работа върху бъдещи публикации.
Ключови думи: доверителен интервал, честота, пропорция
В една от предишните публикации накратко беше споменато описанието на качествените данни и беше съобщено, че тяхната интервална оценка е за предпочитане пред точковата оценка за описание на честотата на поява на изследваната характеристика в общата популация. В действителност, тъй като проучванията се провеждат с използване на извадкови данни, проекцията на резултатите върху общата популация трябва да съдържа елемент на неточност в извадковата оценка. Доверителният интервал е мярка за точността на изчисления параметър. Интересно е, че в някои книги за основите на статистиката за лекари темата за доверителните интервали за честотите е напълно игнорирана. В тази статия ще разгледаме няколко начина за изчисляване на доверителни интервали за честотите, като се приемат характеристики на извадката като неповтаряне и представителност, както и независимостта на наблюденията едно от друго. Честотата в тази статия не се разбира като абсолютно число, показващо колко пъти тази или онази стойност се среща в съвкупността, а като относителна стойност, която определя дела на участниците в изследването, които имат изследваната черта.
В биомедицинските изследвания най-често се използват 95% доверителни интервали. Този доверителен интервал е областта, в която истинската пропорция попада в 95% от времето. С други думи, може да се каже с 95% сигурност, че истинската стойност на честотата на поява на черта в общата популация ще бъде в рамките на 95% доверителен интервал.
Повечето статистически учебници за медицински изследователи съобщават, че честотната грешка се изчислява с помощта на формулата
където p е честотата на поява на характеристиката в извадката (стойност от 0 до 1). В повечето вътрешни научни статии се посочва стойността на честотата на поява на характеристика в извадката (p), както и нейната грешка (и) под формата на p ± s. По-целесъобразно е обаче да се представи 95% доверителен интервал за честотата на срещане на даден признак в генералната популация, който да включва стойности от
преди.
В някои учебници за малки извадки се препоръчва стойността 1,96 да се замени със стойността на t за N - 1 степени на свобода, където N е броят на наблюденията в извадката. Стойността на t се намира в таблиците за t-разпределението, които са налични в почти всички учебници по статистика. Използването на разпределението на t за метода на Wald не осигурява видими предимства пред другите методи, обсъдени по-долу, и следователно не се приветства от някои автори.
Горният метод за изчисляване на доверителни интервали за честоти или фракции е кръстен на Ейбрахам Валд (Abraham Wald, 1902–1950), тъй като започва да се използва широко след публикацията на Валд и Волфовиц през 1939 г. Самият метод обаче е предложен от Пиер Симон Лаплас (1749–1827) още през 1812 г.
Методът на Wald е много популярен, но прилагането му е свързано със значителни проблеми. Методът не се препоръчва за малки размери на извадката, както и в случаите, когато честотата на поява на характеристика клони към 0 или 1 (0% или 100%) и просто не е възможна за честоти от 0 и 1. Освен това, апроксимацията на нормалното разпределение, която се използва при изчисляване на грешката, "не работи" в случаите, когато n p< 5 или n · (1 – p) < 5 . Более консервативные статистики считают, что n · p и n · (1 – p) должны быть не менее 10 . Более детальное рассмотрение метода Вальда показало, что полученные с его помощью доверительные интервалы в большинстве случаев слишком узки, то есть их применение ошибочно создает слишком оптимистичную картину, особенно при удалении частоты встречаемости признака от 0,5, или 50 % . К тому же при приближении частоты к 0 или 1 доверительный интревал может принимать отрицательные значения или превышать 1, что выглядит абсурдно для частот. Многие авторы совершенно справедливо не рекомендуют применять данный метод не только в уже упомянутых случаях, но и тогда, когда частота встречаемости признака менее 25 % или более 75 % . Таким образом, несмотря на простоту расчетов, метод Вальда может применяться лишь в очень ограниченном числе случаев. Зарубежные исследователи более категоричны в своих выводах и однозначно рекомендуют не применять этот метод для небольших выборок , а ведь именно с такими выборками часто приходится иметь дело исследователям-медикам.
Тъй като новата променлива има нормално разпределение, долната и горната граница на 95% доверителен интервал за променливата φ ще бъдат φ-1.96 и φ+1.96left">
Вместо 1,96 за малки проби се препоръчва да се замени стойността на t за N - 1 степени на свобода. Този метод не дава отрицателни стойности и ви позволява по-точно да оцените доверителните интервали за честотите от метода на Wald. В допълнение, той е описан в много местни справочници по медицинска статистика, което обаче не доведе до широкото му използване в медицинските изследвания. Изчисляването на доверителни интервали с помощта на ъглова трансформация не се препоръчва за честоти, близки до 0 или 1.
Това е мястото, където обикновено завършва описанието на методите за оценка на доверителните интервали в повечето книги за основите на статистиката за медицински изследователи и този проблем е типичен не само за местната, но и за чуждестранната литература. И двата метода се основават на централната гранична теорема, която предполага голяма извадка.
Като се имат предвид недостатъците на оценката на доверителните интервали с помощта на горните методи, Клопър (Clopper) и Пиърсън (Pearson) предлагат през 1934 г. метод за изчисляване на така наречения точен доверителен интервал, като се вземе предвид биномното разпределение на изследваната черта. Този метод е наличен в много онлайн калкулатори, но доверителните интервали, получени по този начин, в повечето случаи са твърде широки. В същото време този метод се препоръчва за използване в случаите, когато е необходима консервативна оценка. Степента на консерватизъм на метода се увеличава с намаляване на размера на извадката, особено за N< 15 . описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.
Според много статистици най-оптималната оценка на доверителните интервали за честотите се извършва по метода на Уилсън, предложен през 1927 г., но практически не се използва в домашните биомедицински изследвания. Този метод не само дава възможност да се оценят доверителните интервали както за много малки, така и за много високи честоти, но също така е приложим за малък брой наблюдения. Като цяло доверителният интервал според формулата на Уилсън има формата от
където приема стойност 1,96 при изчисляване на 95% доверителен интервал, N е броят на наблюденията и p е честотата на характеристиката в извадката. Този метод е наличен в онлайн калкулаторите, така че прилагането му не е проблематично. и не препоръчваме използването на този метод за n p< 4 или n · (1 – p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок .
В допълнение към метода на Wilson се смята, че коригираният от Agresti-Caull метод на Wald осигурява оптимална оценка на доверителния интервал за честотите. Корекцията на Agresti-Coulle е замяна във формулата на Wald за честотата на срещане на признак в извадката (p) с p`, при изчисляването на което 2 се добавя към числителя, а 4 към знаменателя, т.е. , p` = (X + 2) / (N + 4), където X е броят на участниците в изследването, които имат изследваната черта, а N е размерът на извадката. Тази модификация дава резултати, много подобни на тези от формулата на Wilson, освен когато процентът на събитията се доближава до 0% или 100% и извадката е малка. В допълнение към горните методи за изчисляване на доверителни интервали за честотите са предложени корекции за непрекъснатост както за метода на Wald, така и за метода на Wilson за малки проби, но проучванията показват, че използването им е неподходящо.
Разгледайте приложението на горните методи за изчисляване на доверителни интервали, като използвате два примера. В първия случай изследваме голяма извадка от 1000 произволно избрани участници в изследването, от които 450 притежават чертата, която се изследва (независимо дали е рисков фактор, резултат или друга черта), която е честота 0,45, или 45%. Във втория случай изследването се провежда с помощта на малка извадка, да речем, само 20 души и само 1 участник в изследването (5%) има изследваната черта. Доверителните интервали за метода Wald, за метода Wald с корекция на Agresti-Coll, за метода Wilson бяха изчислени с помощта на онлайн калкулатор, разработен от Jeff Sauro (http://www./wald.htm). Доверителните интервали на Wilson с коригирана непрекъснатост бяха изчислени с помощта на калкулатора, предоставен от Wassar Stats: Уеб сайт за статистически изчисления (http://faculty.vassar.edu/lowry/prop1.html). Изчисленията с помощта на ъгловата трансформация на Fisher бяха извършени "ръчно", като се използва критичната стойност на t за 19 и 999 степени на свобода, съответно. Резултатите от изчисленията са представени в таблицата и за двата примера.
Доверителни интервали, изчислени по шест различни начина за двата примера, описани в текста
Метод за изчисляване на доверителния интервал |
P=0,0500 или 5% | 95% CI за X=450, N=1000, P=0,4500 или 45% |
–0,0455–0,2541 | ||
Walda с корекция на Agresti-Coll | <,0001–0,2541 | |
Wilson с корекция на непрекъснатостта | ||
"Точният метод" на Klopper-Pearson | ||
Ъглова трансформация | <0,0001–0,1967 |
Както може да се види от таблицата, за първия пример доверителният интервал, изчислен по "общоприетия" метод на Wald, отива в отрицателната област, което не може да бъде случаят с честотите. За съжаление подобни инциденти не са рядкост в руската литература. Традиционният начин за представяне на данните като честота и нейната грешка частично маскира този проблем. Например, ако честотата на поява на черта (в проценти) е представена като 2,1 ± 1,4, тогава това не е толкова „дразнещо“ като 2,1% (95% CI: –0,7; 4,9), въпреки че и означава същото. Методът на Wald с корекцията на Agresti-Coulle и изчислението, използващо ъгловата трансформация, дават долна граница, клоняща към нула. Методът на Wilson с корекция на непрекъснатостта и "точният метод" дават по-широки доверителни интервали от метода на Wilson. За втория пример всички методи дават приблизително еднакви доверителни интервали (разликите се появяват само в хилядни), което не е изненадващо, тъй като честотата на събитието в този пример не се различава много от 50%, а размерът на извадката е доста голям .
За читателите, които се интересуват от този проблем, можем да препоръчаме трудовете на R. G. Newcombe и Brown, Cai и Dasgupta, които дават предимствата и недостатъците на използването съответно на 7 и 10 различни метода за изчисляване на доверителните интервали. От местните ръководства се препоръчва книгата, в която освен подробно описание на теорията са представени методите на Wald, Wilson, както и метод за изчисляване на доверителни интервали, като се вземе предвид биномното разпределение на честотата. . В допълнение към безплатните онлайн калкулатори (http://www./wald.htm и http://faculty.vassar.edu/lowry/prop1.html), доверителните интервали за честотите (и не само!) могат да бъдат изчислени с помощта на Програмата на CIA (анализ на доверителните интервали), която може да бъде изтеглена от http://www. медицинско училище. сотон. ак. uk/cia/.
Следващата статия ще разгледа едновариантни начини за сравняване на качествени данни.
Библиография
Медицинска статистика на разбираем език: въвеждащ курс / А. Банержи. - М. : Практическа медицина, 2007. - 287 с. Медицинска статистика / . - М. : Агенция за медицинска информация, 2007. - 475 с. Медико-биологична статистика / S. Glants. - М. : Практика, 1998. Типове данни, проверка на разпространението и описателна статистика / // Човешка екология - 2008. - № 1. - С. 52–58. СЪС. Медицинска статистика: учебник / . - Ростов n / D: Phoenix, 2007. - 160 с. Приложна медицинска статистика / , . - Санкт Петербург. : Фолио, 2003. - 428 с. Е. Биометрични данни /. - М. : Висше училище, 1990. - 350 с. А. Математическа статистика в медицината / , . - М. : Финанси и статистика, 2007. - 798 с. Математическа статистика в клиничните изследвания / , . - М. : ГЕОТАР-МЕД, 2001. - 256 с. Юнкеров В. И. Медико-статистическа обработка на данни от медицински изследвания /,. - Санкт Петербург. : ВмедА, 2002. - 266 с. Агрести А.Приблизителното е по-добро от точното за интервална оценка на биномни пропорции / A. Agresti, B. Coull // Американски статистик. - 1998. - N 52. - С. 119-126. Алтман Д.Статистика с увереност // D. Altman, D. Machin, T. Bryant, M. J. Gardner. - Лондон: BMJ Books, 2000. - 240 с. Браун Л.Д.Интервална оценка за биномиална пропорция / L. D. Brown, T. T. Cai, A. Dasgupta // Статистическа наука. - 2001. - N 2. - С. 101-133. Clopper C.J.Използването на доверителни или фидуциални граници, илюстрирани в случая на бином / C. J. Clopper, E. S. Pearson // Biometrika. - 1934. - N 26. - С. 404-413. Гарсия-Перес М. А. Относно доверителния интервал за биномиалния параметър / M. A. Garcia-Perez // Качество и количество. - 2005. - N 39. - С. 467-481. Мотулски Х.Интуитивна биостатистика // H. Motulsky. - Oxford: Oxford University Press, 1995. - 386 p. Нюкомб Р.Г.Двустранни доверителни интервали за единичната пропорция: Сравнение на седем метода / R. G. Newcombe // Статистика в медицината. - 1998. - N. 17. - P. 857–872. Сауро Дж.Оценяване на нивата на завършване от малки проби с помощта на биномиални доверителни интервали: сравнения и препоръки / J. Sauro, J. R. Lewis // Сборник на годишната среща на обществото за човешки фактори и ергономия. – Орландо, Флорида, 2005 г. Уолд А.Доверителни граници за непрекъснати функции на разпределение // A. Wald, J. Wolfovitz // Annals of Mathematical Statistics. - 1939. - N 10. - С. 105–118. Уилсън Е. Б. Вероятно заключение, законът за наследството и статистическо заключение / E. B. Wilson // Journal of American Statistical Association. - 1927. - N 22. - С. 209-212.ДОВЕРИТЕЛНИ ИНТЕРВАЛИ ЗА ПРОПОРЦИИ
А. М. Гржибовски
Национален институт по обществено здраве, Осло, Норвегия
Статията представя няколко метода за изчисляване на доверителните интервали за биномни пропорции, а именно методите на Wald, Wilson, арксинус, Agresti-Coull и точни методи на Clopper-Pearson. Документът дава само общо въведение в проблема с оценката на доверителния интервал на биномна пропорция и целта му е не само да стимулира читателите да използват доверителни интервали, когато представят резултати от собствени емпирични изследователски интервали, но също така да ги насърчи да се консултират със статистически книги преди за анализиране на собствени данни и подготовка на ръкописи.
ключови думи: доверителен интервал, пропорция
Информация за връзка:
– Старши съветник, Национален институт по обществено здраве, Осло, Норвегия