Статистическая модель. Сущность статистического моделирования

Приложение 1. МЕТОДЫ СТАТИСТИЧЕСКОГО АНАЛИЗА И ПРОГНОЗИРОВАНИЯ В БИЗНЕСЕ

2. Математические модели как необходимый инструмент статистического анализа и прогнозирования в бизнесе

Начнем с простого примера демонстрирующего различия чисто статистического, чисто вероятностного и вероятностно-статистического подходов к выработке прогнозного решения. Одновременно на этом примере достаточно прозрачно видна роль математических моделей в технологии формирования прогнозного решения.

Статистический способ принятия решения. Пусть читатель представит себя бизнесменом, наблюдающим за игрой двух его приятелей-бизнесменов (А и В ) в кости. Игра идет по следующим правилам. Производится четыре последовательных бросания игральной кости. Игрок А получает одну денежную единицу от игрока В , если в результате этих четырех бросаний хотя бы один раз выпало шесть очков (назовем этот исход «шесть»), и платит одну денежную единицу игроку В в противном случае (назовем этот исход «не шесть»). После ста туров читатель должен сменить одного из игроков, причем он имеет право выбрать ситуацию, на которую он будет ставить свою денежную единицу в следующей серии туров: за появление хотя бы одной «шестерки» или против. Правильное осуществление этого выбора определяется, естественно, качеством его прогноза по поводу результата игры при ставке на исход «шесть»: если вероятность этого исхода правильно оценивается величиной, превосходящей половину, то игрок должен поставить именно на этот исход. Итак, задача наблюдателя – сделать достоверный прогноз.

Статистический способ решения этой задачи диктуется обычным здравым смыслом и заключается в следующем. Пронаблюдав сто туров игры предыдущих партнеров и подсчитав относительные частоты их выигрыша, казалось бы, естественно поставить на ту ситуацию, которая чаще возникала в процессе игры. Например, было зафиксировано, что в 52 партиях из 100 выиграл игрок В , т.е. в 52 турах из 100 «шестерка» не выпадала ни разу при четырехкратном выбрасывании кости (соответственно в остальных 48 партиях из ста осуществлялся исход «шесть»). Следовательно, делает вывод читатель, применивший статистический способ рассуждения, выгоднее ставить на исход «не шесть», т.е. на тот исход, относительная частота появления которого равна 0,52 (больше половины).

Теоретико-вероятностный способ решения . Этот способ основан на определенной математической модели изучаемого явления: полагая кость правильной (т. е. симметричной), а следовательно, принимая шансы выпадения любой грани кости при одном бросании равными между собой (другими словами, относительная частота, или вероятность, выпадения «единицы» равна относительной частоте выпадения «двойки», «тройки» и т. д. и равна 1/6), можно подсчитать вероятность P {«не шесть»} осуществления ситуации «не шесть», т. е. вероятность события, заключающегося в том, что при четырех последовательных бросаниях игральной кости ни разу не появится «шестерка». Этот расчет основан на следующих фактах, вытекающих из принятых нами предпосылок модели. Вероятность не выбросить шестерку при одном бросании кости складывается из шансов появиться в результате одного бросания «единице», «двойке», «тройке», «четверке»и «пятерке» и, следовательно, составляет (в соответствии с определением вероятности любого события) величину 5/6. Затем используем правило умножения вероятностей, в соответствии с которым вероятность наступления нескольких независимых событий равна произведению вероятностей этих событий. В нашем случае мы рассматриваем факт наступления четырех независимых событий, каждое из которых заключается в невыпадении «шестерки» при одном бросании и имеет вероятность осуществления, равную 5/6. Поэтому

Как видно, вероятность ситуации «не шесть» оказалась меньше половины, следовательно, шансы ситуации «шесть» предпочтительнее (соответствующая вероятность равна: 1-0,482 = 0,518). А значит, читатель, использовавший теоретико-вероятностный способ рассуждения, придет к диаметрально противоположному по сравнению с читателем со статистическим образом мышления решению и будет ставить в игре на ситуацию «шесть».

Вероятностно-статистический (или математико-статистический) способ принятия решения. Этот способ как бы синтезирует инструментарий двух предыдущих, так как при выработке с его помощью окончательного вывода используются и накопленные в результате наблюдения за игрой исходные статистические данные (в виде относительных частот появления ситуаций «шесть» и «не шесть», которые, как мы помним, были равны соответственно 0,48 и 0,52), и теоретико-вероятностные модельные соображения . Однако модель, принимаемая в данном случае, менее жестка, менее ограничена, она как бы настраивается на реальную действительность, используя для этого накопленную статистическую информацию . В частности, эта модель уже не постулирует правильность используемых костей, допуская, что центр тяжести игральной кости может быть и смещен некоторым особым образом. Характер этого смещения (если оно есть) должен как-то проявиться в тех исходных статистических данных, которыми мы располагаем. Однако читатель, владеющий вероятностно-статистическим образом мышления, должен отдавать себе отчет в том, что полученные из этих данных величины относительных частот исходов «шесть» и «не шесть» дают лишь некоторые приближенные оценки истинных (теоретических) шансов той и другой ситуации: ведь подбрасывая, скажем, 10 раз даже идеально симметричную монету, мы можем случайно получить семь выпадений «гербов»; соответственно относительная частота выпадения «герба», подсчитанная по этим результатам испытаний, будет равна 0,7; но это еще не значит, что истинные (теоретические) шансы (вероятности) появления «герба» и другой стороны монеты оцениваются величинами соответственно 0,7 и 0,3, – эти вероятности, как мы знаем, равны 0,5. Точно так же установленная нами в серии из ста игровых туров относительная частота исхода «не шесть» (равная 0,52) может отличаться от истинной (теоретической) вероятности того же события и, значит, может не быть достаточным основанием для выбора этой ситуации в игре!

Получается, что весь вопрос заключается в том, насколько сильно может отличаться наблюденная (в результате осуществления n испытаний) относительная частота интересующего нас события от истинной вероятности появления этого события, и как это отличие, т. е. погрешность , зависит от числа имеющихся в нашем распоряжении наблюдений (интуитивно ясно, что чем дольше мы наблюдали за игрой, т. е. чем больше общее число использованных нами наблюдений, тем больше доверия заслуживают вычисленные нами эмпирические относительные частоты , т. е. тем меньше их отличие от неизвестных нам истинных значений вероятностей ). Ответ на этот вопрос можно получить в нашем случае, если воспользоваться рядом дополнительных модельных соображений : а) предположить, что результат каждого тура никак не зависит от результатов предыдущих туров, а неизвестная нам вероятность осуществления ситуации «не шесть» остается одной и той же на протяжении всех туров игры; б) использовать тот факт, что поведение случайно меняющейся (при повторениях эксперимента) погрешности приближенно описывается законом нормального распределения вероятностей со средним значением, равным нулю, и дисперсией, равной (см. , п. 3.1.5).

Эти соображения, в частности, позволяют оценить абсолютную величину погрешности , заменяя неизвестную величину вероятности интересующего нас события (в нашем случае – исход «не шесть») относительной частотой этого события, зафиксированной в серии из испытаний (в нашем случае , а ). Если же мы смогли численно оценить абсолютную величину возможной погрешности , то естественно применить следующее правило принятия решения: если относительная частота появления исхода «не шесть» больше половины и продолжает превышать 0,5 после вычитания из нее возможной погрешности , то выгоднее ставить на «не шесть»; если относительная частота меньше половины и продолжает быть меньше 0,5 после прибавления к ней возможной погрешности , то выгоднее ставить на «шесть»; в других случаях у наблюдателя нет оснований для статистического вывода о преимуществах того или иного выбора ставки в игре (т. е. надо либо продолжить наблюдения, либо участвовать в игре с произвольным выбором ставки, ожидая, что это не может привести к сколько-нибудь ощутимому выигрышу или проигрышу).

Приближенный подсчет максимально возможной величины этой погрешности, опирающийся на модельное соображение б) (т. е. теорему Муавра-Лапласа, см. и п. 4.3), дает в рассматриваемом примере, что с практической достоверностью, а именно с вероятностью 0,95, справедливо неравенство

Возведение этого неравенства в квадрат и решение получившегося квадратного неравенства относительно неизвестного параметра дает

или, с точностью до величин порядка малости выше, чем ,

В данном случае (при и ) получаем:

Следовательно,

Таким образом, наблюдения за исходами ста партий дают нам основания лишь заключить, что интересующая нас неизвестная величина вероятности исхода «не шесть» на самом деле может быть любым числом из отрезка , т. е. может быть как величиной, меньшей 0,5 (и тогда надо ставить в игре на ситуацию «шесть»), так и величиной, большей 0,5 (и тогда надо ставить в игре на ситуацию «не шесть»).

Иначе говоря, читатель, воспользовавшийся вероятностно-статистическим способом решения задачи и указанными выше модельными предпосылками, должен прийти к следующему «осторожному» выводу: ста партий в качестве исходного статистического материала оказалось недостаточно для вынесения надежного заключения о том, какой из исходов игры является более вероятным . Отсюда решение: либо продолжить роль «зрителя» до тех пор, пока область возможных значений для вероятности , полученная из оценок вида (4), не окажется целиком лежащей левее или правее 0,5, либо вступить в игру, оценивая ее как близкую к «безобидной», т. е. к такой, в которой в длинной серии туров практически останешься «при своих».

Приведенный пример иллюстрирует роль и назначение теоретико-вероятностных и математико-статистических методов, их взаимоотношения. Если теория вероятностей предоставляет исследователю набор математических моделей , предназначенных для описания закономерностей в поведении реальных явлений или систем, функционирование которых происходит под влиянием большого числа взаимодействующих случайных факторов, то средства математической статистики позволяют подбирать среди множества возможных теоретико-вероятностных моделей ту, которая в определенном смысле наилучшим образом соответствует имеющимся в распоряжении исследователя статистическим данным , характеризующим реальное поведение конкретной исследуемой системы.

Математическая модель . Математическая модель – это некоторая математическая конструкция, представляющая собой абстракцию реального мира: в модели интересующие исследователя отношения между реальными элементами заменены подходящими отношениями между элементами математической конструкции (математическими категориями). Эти отношения, как правило, представлены в форме уравнений и (или) неравенств между показателями (переменными), характеризующими функционирование моделируемой реальной системы. Искусство построения математической модели состоит в том, чтобы совместить как можно большую лаконичность в ее математическом описании с достаточной точностью модельного воспроизводства именно тех сторон анализируемой реальности, которые интересуют исследователя.

Выше, анализируя взаимоотношения чисто статистического, чисто теоретико-вероятностного и смешанного – вероятностно-статистического способа рассуждения, мы, в действительности, пользовались простейшими моделями, а именно:

статистической частотной моделью интересующего нас случайного события, заключающегося в том, что в результате четырех последовательных бросаний игральной кости ни разу не выпадет «шестерка»; оценив по предыстории относительную частоту этого события и приняв ее за вероятность появления этого события в будущем ряду испытаний , мы, тем самым, используем модель случайного эксперимента с известной вероятностью его исхода (см. и п. 1.1.3);

теоретико-вероятностной моделью последовательности испытаний Бернулли (см. и п. 3.1.1), которая никак не связана с использованием результатов наблюдений (т. е. со статистикой); для подсчета вероятности интересующего нас события достаточно принятия гипотетического допущения о том, что используемая игральная кость идеально симметрична. Тогда в соответствии с моделью серии независимых испытаний и справедливой, в рамках этой модели, теоремой умножения вероятностей подсчитывается интересующая нас вероятность по формуле ;

вероятностно-статистической моделью , интерпретирующей оцененную в чисто статистическом подходе относительную частоту как некую случайную величину (см. и п. 2.1), поведение которой подчиняется правилам, определяемым так называемой теоремой Муавра–Лапласа; при построении этой модели были использованы как теоретико-вероятностные понятия и правила, так и статистические приемы, основанные на результатах наблюдений.

Обобщая этот пример, можно сказать, что:

вероятностная модель это математическая модель, имитирующая механизм функционирования гипотетического (не конкретного) реального явления (или системы) стохастической природы; в нашем примере гипотетичность относилась к свойствам игральной кости: она должна была быть идеально симметричной;

вероятностно-статистическая модель – э то вероятностная модель, значения отдельных характеристик (параметров) которой оцениваются по результатам наблюдений (исходным статистическим данным), характеризующим функционирование моделируемого конкретного (а не гипотетического) явления (или системы).

Вероятностно-статистическая модель, описывающая механизм функционирования экономической или социально-экономической системы, называется эконометрической .

Прогностические и управленческие модели в бизнесе . Вернемся к задачам статистического анализа механизма функционирования предприятия (фирмы) и связанным с ними прогнозами. Вновь рассматривая «фазовое пространство » этих задач, нетрудно описать общую логическую структуру необходимых для их решения моделей. Эта структура прямо следует из сформулированного выше определения стратегии бизнеса .

Для того чтобы формализовать (т. е. записать в терминах математической модели) задачи оптимального управления и построения прогноза в бизнесе, введем следующие обозначения:

– вектор-столбец результирующих показателей (объем продаж и т. п.);

– вектор-столбец «поведенческих» (управляемых) переменных (вложения в развитие основных фондов, в службы маркетинга и т. п.);

– вектор-столбец так называемых «статусных» переменных, т. е. показателей, характеризующих состояние фирмы (число работников, основные фонды, возраст фирмы и т. п.);

– вектор-столбец гео-социо-экономико-демографичес-ких характеристик внешней среды (показатели общей экономической ситуации, характеристики клиентов и поставщиков и т. п.);

– вектор-столбец случайных регрессионных остатков (подробнее о них ниже).

Тогда система уравнений, на базе которых может осуществляться оптимальное управление предприятием и выполнение необходимых прогнозных расчетов , в самом общем виде может быть представлена в форме:

, (5)

где – некоторая векторнозначная ( -мерная) функция от , структура (значения параметров) которой, вообще говоря, зависит от того, на каких уровнях зафиксированы величины переменных «состояния» фирмы и «внешней среды» .

Тогда базовая проблема статистического анализа и прогнозирования в бизнесе состоит в построении наилучшей (в определенном смысле) оценки для неизвестной функции по имеющейся в распоряжении исследователя исходной статистической информации вида

где – значения соответственно поведенческих, «статусных», внешних и результирующих переменных, характеризующие -й такт времени (или измеренных на -м статистически обследованном предприятии), . Соответственно параметр (объем выборки ) интерпретируется как общая длительность наблюдений за значениями анализируемых переменных на исследуемом предприятии, если наблюдения регистрировались во времени , и как общее число статистически обследованных однотипных предприятий, если наблюдения регистрировались в пространстве (т. е., переходя от одного предприятия к другому). При этом описание функции должно сопровождаться способом расчета гарантированных погрешностей аппроксимации (ошибок прогноза ), т. е. таких векторных ( -мерных) значений и , которые для любых заданных значений и гарантировали бы выполнение неравенств (с вероятностью, не меньшей, чем , где – наперед заданная, достаточно близкая к единице положительная величина) , т.е. соответственно поведенческих (управляемых), «статусных» и переменных внешней среды для момента времени классической модели регрессии, величина тождественно равна нулю (см ).

Некоторые общие сведения о математическом инструментарии решения задач (9) и (10) см. ниже, в п. 4 .

Предыдущая

Из кн.: Плавинский С.Л. Биостатистика.Планирование, обработка и представление результатов биомедицинских исследований при помощи системы SAS . СПб: Издательский дом СПб МАПО.- 2005

При проведении любого научного исследования достоверности выводов угрожают три основных причины:

1. Систематические ошибки

2. Случайные ошибки

3. Влияние третьих переменных (конфаундинг)

Воздействие систематических ошибок минимизируется на этапе выбора дизайна исследования, статистическая обработка, направленная на тестирование статистических гипотез пытается устранить влияние случайных ошибок (минимизация случайных ошибок - соответствующий объем выборки), а вот попытка описания влияния третьих переменных часто является причиной для работы со статистическими моделями.

Статистические модели построены на том, что вначале делается предположение о характере связей между анализируемыми переменными, затем проверяется соответствие данных модели и в зависимости от степени этого соответствия делаются определенные выводы.

Простейшей формой статистической модели является линейная регрессия. При ее использовании делается предположение о том, что два показателя связаны друг с другом линейно и именно эта гипотеза и проверяется (кроме того делается предположение о том, что одна переменная зависит от другой). Таким образом, статистические модели базируются на двух типах допущений - как и методы тестирования статистических гипотез они предполагают, что данные распределены определенным образом (чаще всего по нормальному закону распределения), и в дополнение к этому делается предположение о характере связи. Поэтому сделать ошибку при использовании статистических моделей в два раза легче и они обычно рассматриваются как инструментарий требующий дополнительной подготовки в области статистики.

Точно также, как и в случае с тестированием гипотез, для простоты понимания нам следует рассмотреть отдельно модели для качественных и количественных переменных. Хотя медицинские исследователи сейчас чаще работают с качественными показателями, статистические модели лучше разработаны для количественных переменных.

В принципе возможны следующие варианты при которых мы можем захотеть использовать статистические модели:

1. Зависимая переменная количественная, независимые переменные тоже количественные - основной тип модели - множественная (линейная) регрессия

2. Зависимая переменная количественная, независимые переменные качественные - основной тип модели - многофакторный дисперсионный анализ

3. Зависимая переменная количественная, независимые переменные как количественные, так и качественные - основной тип модели - общая линейная модель

4. Зависимая переменная качественная, независимые переменные тоже качественные - основной тип модели - логлинейный анализ

5. Зависимая переменная качественная, независимые переменные количественные - основной тип модели - дискриминантный анализ

6. Зависимая переменная качественная, независимые переменные как качественные, так и количественные - основной тип модели - логистическая регрессия.

Как видно из приведенного выше списка, в целом существуют две наиболее общие процедуры - общая линейная модель для зависимых количественных переменных и логистическая регрессия для зависимых качественных переменных, а все остальные модели являются частными случаями этих двух.

Для ряда приложений, например анализа выживаемости пациентов в проспективном исследовании, описанные выше методики оказались недостаточно приемлемыми, поскольку в этом случае имеется более одной зависимой переменной (одна - что произошло с пациентом, вторая - когда это произошло). Поэтому для анализа выживаемости были разработаны специальные формы статистических моделей, наиболее известными из них являются параметрические регрессионные методы (Вейбулла) и непараметрические регрессионные модели (модель Кокса).

Существуют еще специальные формы статистических моделей, которые пытаются найти скрытые связи между включенными в анализ переменными и наблюдениями. Эти методики пришли в биостатистику из психометрии и к ним относятся:

1. Факторный анализ - методика обнаружения ненаблюдаемых напрямую факторов, отвечающих за связи между количественными переменными

2. Кластерный анализ - методика объединения наблюдений или переменных в группы на основании "одинаковости" измеренных количественных характеристик

3. Корреспондентский анализ - аналог факторного анализа для многомерных таблиц

4. Многомерное шкалирование - методика, пытающаяся расположить переменные друг относительно друга в пространстве меньшей размерности (создать аналог географической карты)

В последнее время, в связи с переходом в хранении данных на компьютерные носители и, в связи с этим, с резким увеличением рутинно собираемых данных, появились новые статистические модели, направленные на выявление закономерностей в крупных и плохоструктурированных базах данных. К ним относятся:

1. Древовидное моделирование (regression trees) - методика сегментирования данных, нахождения точек, которые наилучшим образом разделяют наблюдения на группы в зависимости от значения итоговой переменной (например, определение группы риска больничной летальности в зависимости от большого набора биохимических показателей, измеренных при госпитализации)

2. Нейросетевое моделирование (neural networks) - методика определения связей между набором входных параметров и зависимой переменной, которая не делает предположений об истинной форме этих связей (как, например, линейная регрессия). Для статистиков нейросетевое моделирование - это множественная нелинейная регрессия. Программы нейросетевого моделирования формируют структуру, которая, работая по принципу "черного ящика" может достаточно точно предсказать выходные параметры на основании набора входных величин.

Надо заметить, что эти методики, особенно нейросетевого моделирования, нашли широкое применение в технических приложениях. Системы машинного видения, оптического распознавания символов, биометрические системы безопасности, почти все они используют алгоритмы нейросетевого моделирования. Однако в медицинских исследованиях использование этих методов, после короткого периода увлечения, широко не распространилось. Причиной тому является необходимость наличия огромных массивов данных если есть желание получить реальную, работающую модель. Обычно для нейросетевой и древовидной моделей требуются тысячи наблюдений, причем наблюдения должны быть достаточно гомогенными. В случае небольших групп, часто возникает т.н. Подгонка модели под данные (overfitting), когда модель прекрасно описывает данный набор результатов, но абсолютно неприменима на людом другом наборе данных.

Очень легко представить себе, почему это происходит. Нейросетевое моделирование базируется на попытке разделить данные на группы при условии наличия большого количества входных параметров. Предположим, что мы хотим научить компьютер отличать мужчин от женщин, и представляем ему группу, состоящую из преподавателя биостатистики и трех аспиранток. Тогда, проанализировав данные, компьютер легко найдет правило, дифференцирующее мужчин и женщин: если некто преподаватель, то он мужчина. В данной группе разделение будет лучшим, нежели по любым другим параметрам, таким как тембр голоса, охват талии и бедер, длина волос и т.п. Однако будет ли подобный результат генерализуем?

Именно по причине зависимости от большого количества наблюдений, методы нейросетевого и древовидного моделирования не находят большого распространения в медицинской науки, а учитывая тот грустный факт, что отечественная наука в последнее время вообще предпочитает работать с небольшими выборками, до широкого применения их еще можно ждать достаточно долго (возможно, ситуация изменится с повсеместным внедрением компьютеризированных регистров заболеваний, например раковых регистров).

Статистическое моделирование

Статистическое и эконометрическое модели́рование - исследование объектов познания на их статистических моделях ; построение и изучение моделей реально существующих предметов, процессов или явлений (например: экономических процессов в эконометрике) с целью получения объяснений этих явлений, а также для предсказания явлений или показателей, интересующих исследователя.

Оценка параметров таких моделей производится с помощью статистическиx методов . Например: метод максимального правдоподобия , метод наименьших квадратов , метод моментов .

Y = b_1 + b_2×X

где Y - расходы, X - доход, b_1 и b_2 - параметры уравнения (parameters), u - стохастическая ошибка (disturbance, error term).

Виды статистических и эконометрических моделей

Линейная регрессия (OLS) Регрессии на бинальные переменные Авторегрессионная модель Система одновременных уравнений (SEM) Модель линейной вероятности (LPM) Логит модель (Logit) Пробит модель (Probit) и др.

Wikimedia Foundation . 2010 .

Смотреть что такое "Статистическое моделирование" в других словарях:

    Статистическое моделирование - способ исследования процессов поведения вероятностных систем в условиях, когда неизвестны внутренние взаимодействия в этих системах. Он заключается в машинной имитации изучаемого процесса, который как бы копируется на… … Экономико-математический словарь

    Метод прикладной и вычислительной математики, состоящий в реализации на ЭВМ специально разрабатываемых стохастич. моделей изучаемых явлений или объектов. Расширение области применения С. м. связано с быстрым развитием техники и особенно… … Математическая энциклопедия

    Численный метод решения математических задач, при котором искомые величины представляют вероятностными характеристиками какого либо случайного явления, это явление моделируется, после чего нужные характеристики приближённо определяют… … Большая советская энциклопедия

    Моделирование ситуаций с использованием статистических закономерностей, присущих рассматриваемому явлению. Словарь бизнес терминов. Академик.ру. 2001 … Словарь бизнес-терминов

    Моделирование исследование объектов познания на их моделях; построение и изучение моделей реально существующих объектов, процессов или явлений с целью получения объяснений этих явлений, а также для предсказания явлений, интересующих… … Википедия

    МОДЕЛИРОВАНИЕ ИМИТАЦИОННОЕ в социологии - вид моделирования математического, состоящий в воспроизведении на ЭВМ социального процесса либо функционирования социальной системы. Почти всегда предполагает воспроизведение случайных факторов, влияющих на изучаемое явление, и, как следствие,… … Социология: Энциклопедия

    МОДЕЛИРОВАНИЕ, СТАТИСТИЧЕСКОЕ - разработка разнообразных моделей, которые отображают статистические закономерности описываемого объекта, явления. Общей специфической чертой этих моделей является учет случайных возмущений или отклонений. Объектами С.м. являются различные… … Большой экономический словарь

    МОДЕЛИРОВАНИЕ СТАТИСТИЧЕСКОЕ - представление или описание некоторого феномена или системы взаимосвязей между явлениями посредством набора переменных (показателей, признаков) и статистических взаимосвязей между ними. Цель М.С. (как и любого другого моделирования) представить… … Социология: Энциклопедия

    Для улучшения этой статьи желательно?: Исправить статью согласно стилистическим правилам Википедии. Имитационное моделирование (ситуационное … Википедия

    ИМИТАЦИОННОЕ МОДЕЛИРОВАНИЕ - (...от франц. modele образец) метод исследования каких либо явлений и процессов методом статистических испытаний (метод Монте Карло) с помощью ЭВМ. Метод основан на розыгрыше (имитации) воздействия случайных факторов на изучаемое явление или… … Энциклопедический словарь по психологии и педагогике

Книги

  • Статистическое моделирование. Методы Монте-Карло. Учебное пособие для бакалавриата и магистратуры , Михайлов Г.А.. Учебное пособие посвящено особенностям моделирования случайных величин, процессов и полей. Особое внимание уделяется численному интегрированию, в частности методу Монте-Карло. Дается решение…

Допущения, воплощенные в статистическом моделировании, описывают набор вероятностных распределений, некоторые из которых, как предполагается, адекватно приближают распределение. Из определения отбирается конкретный набор данных. Распределения вероятностей, присущие статистическому моделированию, - это то, что отличает статистические модели от других, не статистических, математических моделей.

Связь с математикой

Этот научный метод коренится, прежде всего, в математике. Статистическое моделирование систем обычно задается математическими уравнениями, которые связывают одну или несколько случайных величин и, возможно, других неслучайных переменных. Таким образом, статистическая модель является «формальным представлением теории» (Герман Адер, цитируя Кеннета Боллена).

Все статистические проверки гипотез и все статистические оценки получены из статистических моделей. В более общем смысле, статистические модели являются частью основы статистического вывода.

Методы статистического моделирования

Неформально статистическая модель может рассматриваться как статистическое допущение (или набор статистических допущений) с определенным свойством: это допущение позволяет нам вычислять вероятность любого события. В качестве примера рассмотрим пару обычных шестигранных кубиков. Мы будем изучать два различных статистических предположения о кости.

Первое статистическое предположение составляет статистическую модель, потому что только с одним допущением мы можем вычислить вероятность любого события. Альтернативное статистическое допущение не составляет статистической модели, потому что только с одним допущением мы не можем рассчитать вероятность каждого события.

В приведенном выше примере с первым допущением вычислить вероятность события легко. Однако в некоторых других примерах расчет может быть сложным или даже непрактичным (например, это может потребовать миллионов лет вычислений). Для предположения, составляющего статистическую модель, такая трудность является приемлемой: выполнение вычисления не должно быть практически осуществимым, просто теоретически возможным.

Примеры моделей

Предположим, что у нас есть популяция школьников с равномерно распределенными по возрасту детьми. Рост ребенка будет стохастически связан с возрастом: например, когда мы знаем, что ребенку 7 лет, это влияет на вероятность того, что ребенок будет ростом 5 футов (примерно 152 см). Мы могли бы формализовать эту взаимосвязь в модели линейной регрессии, например: рост = b0 + b1agei + εi, где b0 - пересечение, b1 - параметр, на который умножается возраст при получении прогноза роста, εi - термин ошибки. Это подразумевает, что рост предсказывается возрастом с некоторой ошибкой.

Допустимая модель должна соответствовать всем точкам данных. Таким образом, прямая линия (heighti = b0 + b1agei) не может быть уравнением для модели данных - если только она точно не соответствует всем точкам данных, то есть все точки данных идеально лежат на линии. Член ошибки εi должен быть включен в уравнение, чтобы модель соответствовала всем точкам данных.

Чтобы сделать статистический вывод, нам сначала необходимо принять некоторые вероятностные распределения для εi. Например, мы можем предположить, что распределения εi являются Гауссовскими, с нулевым средним параметром. В этом случае модель будет иметь 3 параметра: b0, b1 и дисперсию распределения Гаусса.

Общее описание

Это особый класс математической модели. Что отличает статистическую модель от других математических моделей, так это то, что она недетерминирована. С ее помощью осуществляется моделирование статистических данных. Таким образом, в статистической модели, определенной с помощью математических уравнений, некоторые переменные не имеют конкретных значений, а вместо этого имеют распределения вероятностей; то есть некоторые переменные являются стохастическими. В приведенном выше примере ε является стохастической переменной; без этой переменной модель была бы детерминированной.

Статистические модели часто используются в статистическом анализе и моделировании, даже если моделируемый физический процесс является детерминированным. Например, подбрасывание монет в принципе является детерминированным процессом; все же это обычно моделируется как стохастический (через процесс Бернулли).

Параметрические модели

Являются наиболее часто используемыми статистическими моделями. Что касается полупараметрических и непараметрических моделей, сэр Дэвид Кокс сказал: «Как правило, они включают меньше предположений о структуре и форме распределения, но обычно содержат сильные предположения о независимости». Как и все прочие упомянутые модели, также часто используются в статистическом методе математического моделирования.

Многоуровневые модели

Многоуровневые модели (так же известные, как иерархические линейные модели, модели с вложенными данными, смешанные модели, случайные коэффициенты, модели со случайными эффектами, модели со случайными параметрами или модели с разделением на участки) являются статистическими моделями параметров, которые варьируются на более чем одном уровне. Примером может служить модель успеваемости учащихся, которая содержит показатели для отдельных учащихся, а также показатели для классных комнат, в которые сгруппированы студенты. Эти модели можно рассматривать как обобщения линейных моделей (в частности, линейной регрессии), хотя они также могут распространяться на нелинейные модели. Эти модели стали намного популярнее после того, как стали доступны достаточные вычислительные мощности и программное обеспечение.

Многоуровневые модели особенно подходят для исследовательских проектов, где данные для участников организованы на более чем одном уровне (то есть, вложенные данные). Единицами анализа обычно являются отдельные лица (на более низком уровне), которые вложены в контекстные / совокупные единицы (на более высоком уровне). В то время как самый низкий уровень данных в многоуровневых моделях, как правило, индивидуальный, повторные измерения отдельных лиц также могут быть рассмотрены. Таким образом, многоуровневые модели предоставляют альтернативный тип анализа для одномерного или многомерного анализа повторных измерений. Индивидуальные различия в кривых роста могут быть рассмотрены. Кроме того, многоуровневые модели могут использоваться в качестве альтернативы ANCOVA, где баллы по зависимой переменной корректируются для ковариат (например, индивидуальных различий) перед тестированием различий в лечении. Многоуровневые модели способны анализировать эти эксперименты без предположения об однородности наклонов регрессии, что требуется ANCOVA.

Многоуровневые модели можно использовать для данных со многими уровнями, хотя двухуровневые модели являются наиболее распространенными, и остальная часть этой статьи посвящена только этим. Зависимая переменная должна быть исследована на самом низком уровне анализа.

Выбор модели

Выбор модели - это задача выбора из набора моделей-кандидатов с учетом данных, осуществляемая в рамках статистического моделирования. В простейших случаях рассматривается уже существующий набор данных. Тем не менее задача может также включать планирование экспериментов таким образом, чтобы собранные данные хорошо подходили для задачи выбора модели. Учитывая модели-кандидаты с аналогичной предсказательной или объяснительной силой, простейшая модель, скорее всего, будет лучшим выбором (бритва Оккама).

Представители компании Konishi & Kitagawa заявляют: «Большинство проблем статистического вывода можно считать проблемами, связанными со статистическим моделированием». Аналогичным образом, Кокс сказал: «Как осуществляется перевод предметной проблемы в статистическую модель, часто является наиболее важной частью анализа».

Выбор модели может также относиться к проблеме выбора нескольких репрезентативных моделей из большого набора вычислительных моделей для целей принятия решений или оптимизации в условиях неопределенности.

Графические модели

Графическая модель, или вероятностная графическая модель, (PGM) или структурированная вероятностная модель, - это вероятностная модель, для которой график выражает структуру условной зависимости между случайными величинами. Они обычно используются в теории вероятностей, статистике (особенно в байесовской статистике), и в машинном обучении.

Эконометрические модели

Эконометрические модели - это статистические модели, используемые в эконометрике. Эконометрическая модель определяет статистические отношения, которые, как полагают, существуют между различными экономическими величинами, относящимися к конкретному экономическому явлению. Эконометрическая модель может быть получена из детерминированной экономической модели, учитывающей неопределенность, или из экономической модели, которая сама является стохастической. Тем не менее также можно использовать эконометрические модели, которые не привязаны к какой-либо конкретной экономической теории.

Статистическое моделирование – это численный метод решения математических задач, при котором искомые величины представляют вероятностными характеристиками какого-либо случайного явления. Это явление моделируется, после чего нужные характеристики приближённо определяют путём статистической обработки «наблюдений» модели.

Разработка подобных моделей заключается в выборе метода статистического анализа, планировании процесса получения данных, компоновке данных об экологической системе, алгоритмировании и расчете компьютерными средствами статистических соотношений. Изменение закономерностей развития экологической ситуации требует повторения описанной процедуры, но уже в новом качестве.

Статистическое нахождение математической модели включает в себя выбор вида модели и определение ее параметров. Причем искомая функция может быть как функцией одной независимой переменной (однофакторной), так и многих переменных (многофакторной). Задача выбора вида модели – задача неформальная, т. к. одна и та же зависимость может быть описана с одинаковой погрешностью самыми различными аналитическими выражениями (регрессионными уравнениями). Рациональный выбор вида модели может быть обоснован при учете ряда критериев: компактность (например, описанная одночленом или многочленом), интерпретируемость (возможность придания содержательного смысла коэффициентом модели) и др. Задача расчета параметров выбранной модели зачастую чисто формальная и осуществляется на ЭВМ.

Формируя статистическую гипотезу об определенной экологической системе, необходимо иметь массив разнообразных данных (базу данных), который может быть неоправданно велик. Адекватное представление о системе связано в этом случае с отделением несущественной информации. Сокращению могут подлежать как перечень (тип) данных, так и количество данных. Одним из методов осуществления подобного сжатия экологической информации (без априорных предположений о структуре и динамике наблюдаемой экосистемы) может стать факторный анализ. Сокращение данных проводят методом наименьших квадратов, главных компонент и другими многомерными статистическими методами с использованием в дальнейшем, например, кластерного анализа.

Отметим, что первичная экологическая информация обладает в той или иной степени следующими особенностями:

– многомерностью данных;

– нелинейностью и неоднозначностью взаимосвязей в исследуемой системе;

– погрешностью измерений;

– влиянием неучтенных факторов;

– пространственно-временной динамикой.

При решении первой задачи выбора вида модели полагают, что известны m входных (х 1 , х 2 , ..., х m и n выходных (y 1 , y 2 , ..., y) данных. В этом случае возможны, в частности, следующие две модели в матричной записи:

где X и Y – известные входные (выходные) и выходные (входные) параметры экологического объекта ("черного ящика") в векторной форме записи; А и В – искомые матрицы постоянных коэффициентов модели (параметров модели).

Наряду с указанными моделями рассматривается более общий вид статистического моделирования:

где F – вектор скрытых влияющих факторов; С и D – искомые матрицы коэффициентов.

При решении экологических задач целесообразно использовать и линейные и нелинейные математические модели, т. к. многие экологические закономерности мало исследованы. В результате будут учтены многомерность и нелинейность моделируемых взаимосвязей.

На основе обобщенной модели можно выделить внутренние скрытые факторы изучаемых экологических процессов, которые не известны инженеру-экологу, но их проявление отражается на компонентах векторов X и Y. Эта процедура наиболее целесообразна в случае, когда между величинами X и Y не наблюдается строгой причинно-следственной связи. Обобщенная модель с учетом воздействия скрытых факторов устраняет определенное противоречие между двумя моделями с матрицами А и В, когда фактически две различные модели могли бы быть использованы для описания одного и того же экологического процесса. Это противоречие вызвано противоположным смыслом причинно-следственной зависимости между величинами А и Y (в одном случае X – вход, а Y – выход, а в другом - наоборот). Обобщенная модель с учетом величины F – описывает более сложную систему, из которой обе величины X и Y являются выходными, а па вход действуют скрытые факторы F.

Немаловажным при статистическом моделировании является использование априорных данных, когда еще в процессе решения могут быть установлены некоторые закономерности моделей и сужено их потенциальное количество.

Предположим, необходимо составить модель, с помощью которой за 24 ч можно численно определить плодородие определенного типа почвы с учетом ее температуры Т и влажности W. Ни пшеница, ни яблоня за 24 ч дать урожай не могут. Но для пробного сева можно использовать бактерии с коротким жизненным циклом, а в качестве количественного критерия интенсивности их жизнедеятельности пользоваться количеством Р выделенного СО 2 в единицу времени. Тогда математическая модель исследуемого процесса представляет собой выражение

где P 0 - численный показатель качества почвы.

Кажется, что у нас нет никаких данных о виде функции f(T, W) потому, что у инженера-системотехника нет нужных агрономических знаний. Но это не совсем так. Кто не знает, что при Т≈0°С вода замерзает и, следовательно, СO 2 выделяться не может, а при 80°С происходит пастеризация, т. е. большинство бактерий погибает. Априорных данных уже достаточно для утверждения, что искомая функция имеет квазипараболический характер, близка к нулю при Т=0 и 80°С и имеет экстремум внутри этого интервала температур. Аналогичные рассуждения относительно влажности приводят к фактофиксации максимума экстремума искомой функции при W=20% и приближении ее к нулю при W=0 и 40%. Таким образом, априори определен вид приближенной математической модели, а задачей эксперимента является лишь уточнение характера функции f(T, W) при Т=20 ... 30 и 50 ... 60°С, а также при W=10 ... 15 и 25 ... 30% и более точное установление координат экстремума (что уменьшает объем экспериментальных работ, т. е. объем статистических данных).

Поделитесь с друзьями или сохраните для себя:

Загрузка...