Бутстреп, малі вибірки, застосування в аналізі даних. типи вибірок

В процесі оцінки ступеня показності даних вибіркового спостереження важливе значення набуває питання про обсяг вибіркової сукупності. вибірка перерахунок коефіцієнт стьюдент

Від нього залежить не тільки величина меж, які з даної ймовірністю не перевищить помилка вибірки, а й способи визначення цих меж.

При великому числі одиниць вибіркової сукупності () розподіл випадкових помилок вибіркової середньої відповідно до теоремою Ляпунова нормально або наближається до нормального в міру збільшення числа спостережень.

Ймовірність виходу помилки за певні межі оцінюється на основі таблиць інтеграла Лапласа . Розрахунок помилки вибірки базується на величині генеральної дисперсії, так як при великих коефіцієнт, на який для отримання генеральної множиться вибіркова дисперсія, великої ролі не грає.

У практиці статистичного дослідження часто доводиться стикатися з невеликими за обсягом так званими малими вибірками.

Під малою вибіркою розуміється таке вибіркове спостереження, чисельність одиниць якого не перевищує 30.

Розробка теорії малої вибірки була розпочата англійським статистиком В.С. Госсетом (Друкувався під псевдонімом стьюдент ) В 1908 р Він довів, що оцінка розбіжності між середньою малої вибірки і генеральної середньої має особливий закон розподілу.

Для визначення можливих меж помилки користуються так званим критерієм Стьюдента, що визначається за формулою

де - міра випадкових коливань вибіркової середньої в

малої вибірці.

Величина обчислюється на основі даних вибіркового спостереження:

Дана величина використовується лише для досліджуваної сукупності, а не в якості наближеної оцінки в генеральної сукупності.

При невеликій чисельності вибірки розподіл Стьюдента відрізняється від нормального: великі величини критерію мають тут велику ймовірність, ніж при нормальному розподілі.

Гранична помилка малої вибірки в залежності від середньої помилки представлена \u200b\u200bяк

Але в даному випадку величина інакше пов'язана з імовірною оцінкою, ніж при великій вибірці.

згідно з розподілом Стьюдента , Ймовірна оцінка залежить як від величини, так і від обсягу вибірки в разі, якщо гранична помилка не перевищить середню помилку в малих вибірках.

Таблиця 3.1 Розподіл ймовірності в малих вибірках в залежності від коефіцієнта довіри і обсягу вибірки


Як видно з табл. 3.1 , При збільшенні цей розподіл прагне до нормального та за вже мало від нього відрізняється.

Покажемо, як користуватися таблицею розподілу Стьюдента.

Припустимо, що вибіркове обстеження робочих малого підприємства показало, що на виконання однієї з виробничих операцій робочі витрачали часу (хв.):. Знайдемо вибіркові середні витрати:

вибіркова дисперсія

Звідси середня помилка малої вибірки

за табл. 3.1 знаходимо, що для коефіцієнта довіри і обсягу малої вибірки ймовірність дорівнює.

Таким чином, з імовірністю можна стверджувати, що розбіжність між вибіркою і генеральною середньою лежить в межах від до, тобто різницю не перевищить за абсолютною величиною ().

Отже, середні витрати часу у всій сукупності будуть знаходитися в межах від до.

Імовірність того, що це припущення насправді невірно і помилка по випадковим причин буде більше, ніж, дорівнює:.

Таблиця ймовірностей Стьюдента часто наводиться в іншій формі, ніж в табл.3.1 . Вважається, що в ряді випадків така форма більш зручна для практичного використання ( табл. 3.2 ).

з табл. 3.2 випливає, що для кожного числа ступенів свободи вказана гранична величина, яка з даної Певно не буде перевищена в силу випадкових коливань результатів вибірки.

На основі зазначеної в табл. 3.2 величини визначаються довірчі інтервали : І.

Це область тих значень генеральної середньої, вихід за межі якої має дуже малу ймовірність, рівну:

Як довірчої ймовірності при двосторонньої перевірці використовують як правило, або, що не виключає, однак, вибору та інших, що не наведені в табл. 3.2 .

Таблиця 3.2 деякі значення -розподіленого Стьюдента

Ймовірності випадкового виходу оцінюваної середньої величини за межі довірчого інтервалу відповідно дорівнюватимуть і, тобто дуже малі.

Вибір між вірогідністю і є до певної міри довільним. Цей вибір багато в чому визначається змістом тих завдань, для вирішення яких застосовується мала вибірка.

На закінчення відзначимо, що розрахунок помилок в малій вибірці мало відрізняється від аналогічних обчислень великій вибірці. Різниця полягає в тому, що при малій вибірки ймовірність нашого твердження дещо менше, ніж при більше вибірці (зокрема, в наведеному раніше прикладі і відповідно).

Однак все це не означає, що можна використовувати малу вибірку тоді, коли потрібна велика вибірка. У багатьох випадках розбіжності між знайденими межами можуть досягати значних розмірів, що навряд чи задовольняє дослідників. Тому малу вибірку слід застосовувати в статистичному дослідженні соціально-економічних явищ з великою обережністю, при відповідному теоретичному і практичному обґрунтуванні.

Отже, висновки за результатами малої вибірки мають практичне значення лише за умови, що розподіл ознаки в генеральній сукупності є нормальним або асимптотично нормальним. Необхідно також брати до уваги і те, що точність результатів вибірки малого обсягу все ж нижче, ніж при великій вибірці.

На практиці досить часто доводиться мати справу з вибірками вельми малого обсягу, чисельності яких значно менше двадцяти - тридцяти. Такі вибірки в статистиці отримали назву малих вибірок. Необхідність спеціального розгляду малих вибірок викликана тим, що розібрані вище методи точкової і інтервального оцінки вибіркових характеристик припускають досить велику чисельність вибірок.

Поняття про малих вибірках. розподіл Стьюдента

Вибіркова середня і, відповідно, її помилка розподілені нормально, а поправка на величину зміщення вибіркової дисперсії дуже близька до одиниці і не має практичного значення. Помилка вибірки в цих умовах дуже рідко перевищує величину. Інша річ при невеликому обсязі вибірки. При малих вибірках вибіркова дисперсія виявляється значно зміщеною. Тому застосовувати функцію нормального розподілу для імовірнісних висновків про можливу величиною помилки було б неправомірно. При малому обсязі вибірки завжди потрібно користуватися несмещенной оцінкою дисперсії:

Отже, для отримання несмещенной оцінки дисперсії за даними малої вибірки суму квадратів відхилень потрібно ділити на величину. Ця величина називається числом ступенів свободи варіації. Надалі для стислості число ступенів свободи варіації буде позначатися грецькою буквою (ню).

Проблема оцінки вибіркових характеристик на основі малих вибірок вперше була досліджена англійським математиком статистиком В. Госсетом, публікували свої роботи під псевдонімів Стьюдент (1908 г.).

Виходячи з пропозиції про нормальність розподілу ознаки в генеральній сукупності і розглядаючи замість абсолютних відхилень їхнього ставлення до незалежного стандарту, Стьюдент знайшов розподіл, яке залежить тільки від чисельності вибірки. Пізніше (1925 г.) Р. Фішер дав більш суворе доказ цього розподілу, яке отримало назву розподіл Стьюдента.

Величина Стьюдента виражається як наступне відношення:

У чисельнику виразу фігурує змінна величина, яка відображає можливі значення відхилень вибіркових середніх від генеральної середньої. Величина розподілена нормально з центром, рівним нулю, і дисперсією, яка дорівнює.

Слід особливо підкреслити, що знаменник виразу не можна розглядати як середню помилку змінної. Величина розглядається тут як незалежно розподілена від чисельника змінна. означає середньоквадратичне (стандартне) відхилення даної вибірки і не є оцінкою генеральної сукупності, так як розподіл Стьюдента не залежить ні від одного параметра генеральної сукупності. визначається за даними вибірки як

Розподілу незалежні один від одного. Тільки за цієї умови і для вибірок з нормальних сукупностей має місце розподіл Стьюдента.

Основна перевага розподілу Стьюдента полягає в тому, що воно не залежить від параметрів генеральної сукупності і має справу тільки з величинами, отриманими безпосередньо з вибірки.

Диференціальний закон розподіл Стьюдента (щільність ймовірності) має вигляд:

де обсяг вибірки;

величина відповідна максимальної ординате кривої розподілу при t \u003d 0.

Відповідно функція розподілу Стьюдента виражається:

Інакше кажучи,

де t ф стандартизована (нормована) різниця, що обчислюється за результатами малої вибірки.

Величини Г () і Г () є гамма-функціями. Для деякого числа гамма - функція виражається невласних інтегралом:

У малих вибірках завжди ціле позитивне число (об'єм вибірки).

В цьому випадку гамма - функція завжди має кінцеву величину і виражається через факторіали:

отже:

При обчисленні гамма - функції корисно знати такі властивості:

1) При є;

  • 3) Наприклад,

Використовуючи цю властивість, легко можна обчислити значення Г () і Г () в вираженні щільності розподілу;

4) Функція досягає мінімуму при дробовому значенні

рис 3.1

Загальний вигляд гамма - функції показаний на рис. 3.1.

З властивостей розподілу Стьюдента, що розглядаються зазвичай в курсі теорії ймовірностей, звертається увага на наступне:

1) Розподіл Стьюдента чудово тим, що залежить тільки від одного параметра - обсягу вибірки і не залежить від середньої і дисперсії генеральної сукупності (на відміну від нормального розподілу, що залежить про цих двох параметрів).

  • 2) Розподіл Стьюдента точно для будь-якого обсягу вибірки отже, і для малих вибірок, що дозволяє робити імовірнісні висновки по малому числу спостережень.
  • 3) При збільшенні обсягу вибірки величина наближається до значення, а розподіл Стьюдента наближається до нормального. При розподіл Стьюдента стає нормальним. Практично для нормального наближення вважається достатнім.

рис 3.2

На рис. 3.2 показані співвідношення між розподілом Стьюдента і нормальним розподілом.

Як видно з рис. 3.2, під кінцями кривої розподілу Стьюдента, наприклад або, розташована значно більша частина площі, ніж під кривою нормального розподілу при тих же значеннях. Це означає, що при малому обсязі вибірок ймовірність допущення помилок помітно збільшується. З малюнка видно, що при значеннях нормованого відхилення, що перевищують за абсолютним значенням, площа під кривою розподілу Стьюдента набагато більше, ніж під кривою нормального розподілу.

Про величину розбіжностей між значеннями функції розподілу Стьюдента залежно від обсягу вибірки і значеннями нормальної функції розподілу можна судити за даними табл. 3.2, де наведені значення площ під кривою розподілу від при різній чисельності вибірки при.

Таблиця 3.1

Значення нормальної функції розподілу

Таблиця 3.2

Значення ймовірностей при різному обсязі вибірки

нормоване відхилення

Значення при малих вибірках з численностями

Значення при великих вибірках

З таблиці 3.2. видно, що зі збільшенням обсягу вибірки мала вибірка швидко наближається до нормального. У той же час при дуже маленькою чисельності вибірки розбіжності між значеннями при даному значенні дуже значні.

Дослідженнями було встановлено, що розподіл Стьюдента практично застосовується не тільки в разі нормального розподілу ознаки в генеральній сукупності. Виявилося, що воно відбувається до практично прийнятним висновків і тоді, коли розподілу ознаки в генеральній сукупності не є нормальним, а лише симетрично і навіть кілька асиметрично, але обсяг вибірки не занадто малий.

Значення функції розподілу Стьюдента затабуліровани при різних значеннях Тому при оцінці вибіркових характеристик користуються готовими таблицями:

Таблиця 3.3

Таблиця значень функції

Значення функції розподілу Стьюдента можуть бути використані різними способами в залежності від характеру вирішуваних завдань при визначенні ймовірності відхилення вибіркової від генеральної. Найбільш часто використовуються:

1) Визначення ймовірності того, що різниця між вибіркової середньої і генеральної середньої виявиться менше на деяку задану величину. У нормованих відхиленнях завдання зводиться до визначення ймовірності того, що виявиться менше значення, що задається умовами завдання, тобто до знаходження значення

рис 3.3

Це є ймовірність великих негативних відхилень, яка на рис. 3.3 відповідає заштрихованої площі.

2) Визначення ймовірності того, що різниця між вибіркової середньої і середньої генеральної виявиться не менш деякої заданої величини, інакше кажучи, слід знайти

рис 3.4

Це є ймовірність великих позитивних відхилень, яка показана у вигляді заштрихованої площі на рис. 3.4. цю ймовірність легко знайти, використовуючи таблиці.

3) Визначення ймовірності того, що нормоване відхилення по абсолютній величині виявиться менш, виражається

Це є ймовірність менших за абсолютною величиною відхилень. Ця ймовірність може бути визначена з використанням таблиць. Оскільки на практиці найчастіше доводиться визначати цю ймовірність, складеної спеціальної таблиці значення (табл. 3.3).

Графічна ілюстрація ймовірності менших за абсолютною величиною відхилень дана на рис. 3.5

рис 3.5

4) Визначення ймовірності того, що помилка вибірки по абсолютній величині виявиться не менш деякої заданої величини. У нормованих одиницях ймовірність того, що за абсолютною величиною виявиться не менш, виразиться

Це є ймовірність великих по абсолютній величині відхилень. Графічно вона ілюструється на рис. 3.6.

рис 3.6

Для знаходження ймовірності великих по абсолютній величині відхилень є спеціальні таблиці (додаток 3). Цю ймовірність легко можна обчислити, також використовуючи таблиці.

  • 6. Види статистичних угруповань, їх пізнавальне значення.
  • 7.Статістіческіе таблиці: види, правила побудови, прийоми читання
  • 8.Абсолютние величини: види, пізнавальне значення. Умови наукового використання абсолютних і відносних показників.
  • 9. Середні величини: вміст, типи, види, наукові умови застосування.
  • 11.Свойства дисперсії. Правило додавання (розкладання) дисперсії і його використання в статистичному аналізі.
  • 12.Віди статистичних графіків за змістом вирішуваних завдань і способів побудови.
  • 13. Ряди динаміки: види, показники аналізу.
  • 14. Методи виявлення тенденції в динамічних рядах.
  • 15. Індекси: визначення, основні елементи індексів, завдання, які вирішуються за допомогою індексів, система індексів в статистиці.
  • 16. Правила побудови динамічних і територіальних індексів.
  • 17. Основи теорії вибіркового методу.
  • 18. Теорія малих вибірок.
  • 19. Способи відбору одиниць у вибіркову сукупність.
  • 20.Віди зв'язків, статистичні методи аналізу взаємозв'язків, поняття кореляції.
  • 21.Содержаніе кореляційного аналізу, кореляційні моделі.
  • 22.Оценка сили (тісноти) кореляційної зв'язку.
  • 23. Система показників соціально-економічної статистики.
  • 24. Основні угруповання і класифікації в соціально-економічній статистиці.
  • 25. Національне багатство: зміст категорії і склад.
  • 26. Зміст земельного кадастру. Показники складу земель за формами власності, цільовим призначенням та видами угідь.
  • 27. Класифікація основних фондів, методи оцінки та переоцінки, показники руху, стану та використання.
  • 28. Завдання статистики праці. Поняття і зміст основних категорій ринку праці.
  • 29. Статистика використання робочої сили і робочого часу.
  • 30. Показники продуктивності праці та методи аналізу.
  • 31. Показники виробництва продукції рослинництва і врожайності с.-г. Культур і угідь.
  • 32.Показателі виробництва продукції тваринництва і продуктивності сільськогосподарських тварин.
  • 33.Статістіка суспільних витрат і собівартості продукції.
  • 34.Статістіка оплати праці та витрат на робочу силу.
  • 35.Статістіка валової продукції і доходів.
  • 36.Показателі руху і реалізації продукції сільського господарства.
  • 37.Задачі статистичного аналізу сільськогосподарських підприємств.
  • 38.Статістіка цін і товарів галузей народного господарства: завдання і методи аналізу.
  • 39.Статістіка ринку товарів і послуг.
  • 40.Статістіка показників суспільного виробництва.
  • 41.Статістіческій аналіз цін споживчого ринку.
  • 42.Статістіка інфляції і основні показники її оцінки.
  • 43.Задачі статистики фінансів підприємств.
  • 44.Основние показники фінансових результатів підприємств.
  • 45.Задачі статистики державного бюджету.
  • 46. \u200b\u200bСистема показників статистики державного бюджету.
  • 47. Система показників статистики грошового обігу.
  • 48. Статистика складу і структури грошової маси в країні.
  • 49. Основні завдання банківської статистики.
  • 50.Основние показники банківської статистики.
  • 51.Понятіе і класифікація кредиту. Завдання його статистичного вивчення.
  • 52.Сістема показників статистики кредиту.
  • 53.Основние показники і методи аналізу ощадного справи.
  • 54.Задачі статистики фондового ринку і цінних паперів.
  • 56.Статістіка товарних бірж: завдання і система показників.
  • 57.Сістема національних рахунків: поняття, основні категорії та класифікація.
  • 58.Основние принципи побудови СНР.
  • 59.Основние макроекономічні показники - вміст, методи визначення.
  • 60.Межотраслевой баланс: поняття, завдання, види моб.
  • 62.Статістіка доходів і витрат населення
  • 18. Теорія малих вибірок.

    При великому числі одиниць вибіркової сукупності (n\u003e 100) розподіл випадкових помилок вибіркової середньої відповідно до теореми А.М.Ляпунова нормально або наближається до нормального в міру збільшення числа спостережень.

    Однак в практиці статистичного дослідження в умовах ринкової економіки все частіше доводиться стикатися з малими вибірками.

    Малої вибіркою називається таке вибіркове спостереження, чисельність одиниць якого не перевищує 30.

    При оцінці результатів малої вибірки величина генеральної сукупності не використовується. Для визначення можливих меж помилки користуються критерієм Стьюдента.

    Величина σ обчислюється на основі даних вибіркового спостереження.

    Дана величина використовується лише для досліджуваної сукупності, а не в якості наближеної оцінки σ в генеральної сукупності.

    Імовірнісна оцінка результатів малої вибірки відрізняється від оцінки в великій вибірці тим, що при малому числі спостережень розподіл ймовірностей для середньої залежить від числа відібраних одиниць.

    Однак для малої вибірки величина коефіцієнта довіри t по іншому пов'язана з ймовірнісної оцінкою, ніж при великій вибірці (так як, закон розподілу відрізняється від нормального).

    Відповідно до встановленого Стьюдента закону розподілу, ймовірна помилка розподілу залежить як від величини коефіцієнта довіри t, так і від обсягу вибірки В.

    Середня помилка малої вибірки обчислюється за формулою:

    де - дисперсія малої вибірки.

    В МВ коефіцієнт n / (n-1) потрібно брати до уваги і обов'язково коригувати. При визначенні дисперсії S2 число ступенів свободи одно:

    .

    Гранична помилка малої вибірки визначається за формулою

    При цьому значення коефіцієнта довіри t залежить не тільки від заданої довірчої ймовірності, але і від чисельності одиниць вибірки n. Для окремих значень t і n довірча ймовірність малої вибірки визначається за спеціальними таблицями Стьюдента, в яких дано розподілу стандартизованих відхилень:

    Імовірнісна оцінка результатів МВ відрізняється від оцінки в БВ тим що при малому числі спостережень розподіл ймовірностей для середньої залежить від числа відібраних одиниць

    19. Способи відбору одиниць у вибіркову сукупність.

    1. Вибіркова сукупність повинна бути досить великий за чисельністю.

    2. Структура вибіркової сукупності повинна найкращим чином відображати структуру гнеральной сукупності

    3. Спосіб відбору повинен бути випадковим

    Залежно від того чи беруть участь відібрані одиниці у вибірці розрізняють метод - бесповторний і повторний.

    Бесповторного називається такий відбір, при якому потрапила у вибірку одиниця не повертається сукупність, з якої здійснюється подальший відбір.

    Розрахунок середньої помилки бесповторной випадкової вибірки:

    Розрахунок граничної помилки бесповторной випадкової вибірки:

    При повторному відборі потрапила у вибірку одиниця після реєстрації спостережуваних ознак повертається у вихідну (генеральну) сукупність для участі в подальшій процедурі відбору.

    Розрахунок середньої помилки повторної простий випадкової вибірки проводиться таким чином:

    Розрахунок граничної помилки повторної випадкової вибірки:

    Вид формування вибіркової сукупності підрозділяється на - індивідуальний, груповий і комбінований.

    Спосіб відбору - визначає конкретний механізм вибірки одиниць з генеральної сукупності і підрозділяється на: власне - випадковий; механічний; типовий; серійний; комбінований.

    Власне - випадковий найбільш поширений спосіб відбору в випадковою вибіркою, його ще називають методом жеребкування, при ньому на кожну одиницю статистичної сукупності заготовляється квиток з порядковим номером. Далі у випадковому порядку відбирається необхідну кількість одиниць статистичної сукупності. При цих умовах кожна з них має однакову ймовірність потрапити до вибірки.

    механічна вибірка. Застосовується в тих випадках, коли генеральна сукупність будь - яким чином впорядкована т. Е. Є певна послідовність в розташуванні одиниць.

    Для визначення середньої помилки механічної вибірки використовується формула середньої помилки при власне - випадковому бесповторном відборі.

    типовий відбір. Використовується коли всі одиниці генеральної сукупності можна розбити на кілька типових груп. Типовий відбір передбачає вибірку одиниць з кожної групи власне - випадковим або механічним способом.

    Для типової вибірки величина стандартної помилки залежить від точності визначення групових середніх. Так, у формулі граничної помилки типової вибірки враховується середня з групових дисперсій, тобто

    серійний відбір. Застосовується в тих випадках, коли одиниці сукупності об'єднані в невеликі групи або серії. Сутність серійної вибірки полягає в власне випадковому або механічному відборі серій, всередині яких виробляється суцільне обстеження одиниць.

    При серійної вибірці величина помилки вибірки залежить не від числа досліджуваних одиниць, а від числа обстежених серій (s) і від величини міжгруповий дисперсії:

    комбінований відбір може проходити одну або кілька ступенів. Вибірка називається одноступінчастої, якщо відібрані одного разу одиниці сукупності піддаються вивченню.

    вибірка називається багатоступінчастої, Якщо відбір сукупності проходить по східцях, послідовним стадіям, причому кожен ступінь, стадія відбору має свою одиницю відбору.

    "

    У практиці статистичних досліджень часто доводиться стикатися з малими вибірками , Які мають обсяг менше 30 одиниць. До великим же зазвичай відносять вибірки обсягом понад 100 одиниць.

    Зазвичай малі вибірки застосовуються у випадках, коли неможливо або недоцільно використовувати велику вибірку. Мати справу з такими вибірками доводиться, наприклад, під час опитувань туристів і відвідувачів готелів.

    Величина помилки малої вибірки визначається за формулами, що відрізняється від формул для порівняно великого обсягу вибірки ().

    При малому обсязі вибірки n слід враховувати взаємозв'язок між вибіркової і генеральної дисперсією:

    Так як при малій вибірці дріб має істотне значення, то обчислення дисперсії проводиться з урахуванням, так званого числа ступенів свободи . Воно розуміється як число варіантів, які можуть приймати довільні значення, не змінюючи величини середньої.

    Середня помилка малої вибірки визначається за формулою:

    Гранична помилка вибірки для середньої і частки знаходиться аналогічно нагоди великої вибірки:

    де t - коефіцієнт довіри, який залежить від заданого рівня значущості і числа ступенів свободи (Додаток 5).

    Значення коефіцієнта залежать не тільки від заданої довірчої ймовірності, але і від обсягу вибірки n. Для окремих значень t і n довірча ймовірність визначається за розподілом Стьюдента, яке містить розподілу стандартизованих відхилень:

    Зауваження.У міру збільшення обсягу вибірки розподіл Стьюдента наближається до нормального розподілу: при n\u003d 20 воно вже мало відрізняється від нормального розподілу. При проведенні малих вибіркових обстежень слід врахувати, що чим менше обсяг вибірки n, Тим більше відмінність між розподілом Стьюдента і нормальним розподілом. Наприклад, при п min. \u003d4 ця різниця має велике значення, що говорить про зменшення точності результатів малої вибірки.

    Поширення вибіркових характеристик на генеральну сукупність, засноване на дії закону великих чисел, передбачає досить великий обсяг вибірки. Однак в практиці статистичного дослідження часто доводиться стикатися з неможливістю з тих чи інших причин збільшити чисельність одиниць вибірки, що має невеликий обсяг. Це стосується вивчення діяльності підприємств, навчальних закладів, комерційних банків і т.д., число яких в регіонах, як правило, незначно, а іноді становить всього 5-10 одиниць.

    У тому випадку коли вибіркова сукупність складається з невеликого числа одиниць, менше 30, вибірку називають малої. У цьому випадку для розрахунку помилки вибірки не можна користуватися теоремою Ляпунова, так як на вибіркову середню значний вплив робить величина кожної з випадково відібраних одиниць і її розподіл може істотно відрізнятися від нормального.

    У 1908 році В.С. Госсет довів, що оцінка розбіжності між вибіркової середньої малої вибірки і генеральної середньої має особливий закон розподілу (див. Розділ 4). Займаючись проблемою ймовірнісної оцінки вибіркової середньої при невеликому числі спостережень, він показав, що в цьому випадку потрібно розглядати розподіл не самих вибіркових середніх, а величин їх відхилень від середньої вихідної сукупності. В цьому випадку висновки можуть бути досить надійними.

    Відкриття Стьюдента називають теорією малих вибірок.

    При оцінці результатів малої вибірки величина генеральної дисперсії в розрахунках не використовується. У малих вибірках для розрахунку середньої помилки вибірки застосовують «виправлену» вибіркову дисперсію:

    тобто на відміну від великих вибірок в знаменнику замість п варто (і - 1). Розрахунок середньої помилки вибірки для малої вибірки наведено в табл. 5.7.

    Таблиця 5.7

    Розрахунок середньої помилки малої вибірки

    Гранична помилка малої вибірки дорівнює: де t - коефіцієнт довіри.

    величина t інакше пов'язана з імовірною оцінкою, ніж при великій вибірці. Відповідно до розподілу Стьюдента ймовірна оцінка залежить як від величини t, так і від обсягу вибірки я в разі, якщо гранична помилка не перевищить пана кратну середню помилку в малих вибірках. Проте більшою мірою вона залежить від числа відібраних одиниць.

    В.С. Госсет склав таблицю розподілу ймовірностей в малих вибірках, які відповідають даним значенням коефіцієнта довіри t і різним обсягами малої вибірки і, витяг з неї приведена в табл. 5.8.

    Таблиця 5.8

    Фрагмент таблиці ймовірностей Стьюдента (ймовірності помножені на 1000)

    Дані табл. 5.8 свідчать про те, що при необмеженому зростанні обсягу вибірки (я \u003d °°) розподіл Стьюдента прагне до нормального закону розподілу, а при я \u003d 20 вже мало від нього відрізняється.

    Таблиця розподілу Стьюдента часто наводиться в іншій формі, більш зручною для практичного застосування (табл. 5.9).

    Таблиця 5.9

    Деякі значення (-розподіленого Стьюдента

    Число ступенів свободи

    для одностороннього інтервалу

    для двостороннього інтервалу

    Р \u003d 0,99

    Розглянемо, як користуватися таблицею ^ розподілу. Кожному фіксованому значенню п обчислюють число ступенів свободи k , де k \u003d п - 1. Для кожного значення ступеня свободи вказана гранична величина t p (t 095 або t 0 99), яка з даної ймовірністю Р НЕ буде перевищена в силу випадкових коливань результатів вибірки. На основі величини t p визначаються межі довірчого

    інтервалу

    Як довірчої ймовірності при двосторонньої перевірки, як правило, використовують Р \u003d 0,95 або Р \u003d 0,99, що не виключає вибору і інших значень ймовірностей. Значення ймовірності вибирається виходячи з конкретних вимог завдань, для вирішення яких застосовується мала вибірка.

    Ймовірність виходу значень генеральної середньої за межі довірчого інтервалу дорівнює q, де q = 1 - р. Це значення дуже мало. Відповідно для розглянутих ймовірностей р воно становить 0,05 і 0,01.

    Малі вибірки мають широке поширення в технічних науках, в біології, але застосовувати їх в статистичних дослідженнях потрібно з великою обережністю, тільки при відповідному теоретичному і практичному обстеженні. Використовувати малу вибірку можна тільки в тому випадку, якщо розподіл ознаки в генеральній сукупності є нормальним або близьким до нього, а середня величина обчислюється за вибірковими даними, отриманим в результаті незалежних спостережень. Крім того, слід мати на увазі, що точність результатів вибірки малого обсягу нижче, ніж при великій вибірці.

    Поділіться з друзями або збережіть для себе:

    Завантаження ...