дистанционное обучение

ФГБОУ ВО ДГМА ИМЕНИ С.С. ПРОКОФЬЕВА

Музыкальная школа для одаренных детей

урок 01.04.2023

Моделирование корреляционных зависимостей (§19)

Построение регрессионных математических моделей

 

Регрессионные математические модели строятся в тех случаях, когда известно, что зависимость между двумя факторами существует и требуется получить ее математическое описание. А сейчас мы рассмотрим задачи другого рода. Пусть важной характеристикой некоторой сложной системы является фактор А. На него могут оказывать влияние одновременно многие другие факторы: В, С, D и т. д. Мы рассмотрим два типа задач.

1) Оказывает ли фактор В какое-либо заметное регулярное влияние на фактор А?
2) Какие из факторов В, С, D и т. д. оказывают наибольшее влияние на фактор А?

В качестве примера сложной системы будем рассматривать школу. Пусть для первого типа задач фактором А является средняя успеваемость учащихся школы, фактором В — финансовые расходы школы на хозяйственные нужды: ремонт здания, обновление мебели, эстетическое оформление помещения и т. п. Здесь влияние фактора В на фактор А не очевидно. Наверное, гораздо сильнее на успеваемость влияют другие причины: уровень квалификации учителей, контингент учащихся, уровень технических средств обучения и др.

Специалисты по статистике знают, что для того, чтобы выявить зависимость от какого-то определенного фактора, нужно максимально исключить влияние других факторов. Проще говоря, собирая информацию из разных школ, нужно выбирать такие школы, в которых приблизительно одинаковый контингент учеников, квалификация учителей и пр., но хозяйственные расходы разные (у одних школ могут быть богатые спонсоры, у других — нет).

Итак, пусть хозяйственные расходы школы выражаются количеством рублей, отнесенных к числу учеников в школе (руб./чел.), потраченных за определенный период времени (например, за последние 5 лет). Успеваемость же пусть оценивается средним баллом учеников школы по результатам окончания последнего учебного года. Еще раз обращаем ваше внимание на то, что в статистических расчетах обычно используются относительные и усредненные величины.

Итоги сбора данных по 20 школам, введенные в электронную таблицу, представлены на рис. 3.7. На рис. 3.8 приведена точечная диаграмма, построенная по этим данным.

image

image

Значения обеих величин: финансовых затрат и успеваемости учеников — имеют значительный разброс и, на первый взгляд, взаимосвязи между ними не видно. Однако она вполне может существовать.

Корреляционные зависимости

 

Зависимости между величинами, каждая из которых подвергается не контролируемому полностью разбросу, называются корреляционными зависимостями.

Раздел математической статистики, который исследует такие зависимости, называется корреляционным анализом. Корреляционный анализ изучает усредненный закон поведения каждой из величин в зависимости от значений другой величины, а также меру такой зависимости.

Оценку корреляции величин начинают с высказывания гипотезы о возможном характере зависимости между их значениями. Чаще всего допускают наличие линейной зависимости. В таком случае мерой корреляционной зависимости является величина, которая называется коэффициентом корреляции. Как и прежде, мы не будем писать формулы, по которым этот коэффициент вычисляется; их написать нетрудно, гораздо труднее понять, почему они именно такие. На данном этапе достаточно знать следующее:

• коэффициент корреляции (обычно обозначаемый греческой буквой ρ) есть число из диапазона от -1 до +1;
• если это число по модулю близко к 1, то имеет место сильная корреляция; если к 0, то слабая;
• близость ρ к +1 означает, что возрастанию значений одного набора соответствует возрастание значений другого набора, близость ρ к -1 означает, что возрастанию значений одного набора соответствует убывание значений другого набора;
• значение ρ легко найти с помощью Excel, так как в эту программу встроены соответствующие формулы.

В Excel функция вычисления коэффициента корреляции называется KOPPEЛ и входит в группу статистических функций. Покажем, как ею воспользоваться. На том же листе Excel, где находится таблица, представленная на рис. 3.7, надо установить курсор на любую свободную ячейку и запустить функцию KOPPEЛ. Она запросит два диапазона значений. Укажем, соответственно, В2:В21 и С2:С21. После их ввода будет выведен ответ: ρ = 0,500273843. Эта величина говорит о среднем уровне корреляции.

Наличие зависимости между хозяйственными затратами школы и успеваемостью нетрудно понять. Ученики с удовольствием ходят в чистую, красивую, уютную школу, чувствуют там себя, как дома, и поэтому лучше учатся.

В следующем примере проводится исследование по определению зависимости успеваемости учащихся старших классов от двух факторов: обеспеченности школьной библиотеки учебниками и оснащения школы компьютерами. И та, и другая характеристика количественно выражается в процентах от нормы. Нормой обеспеченности учебниками является их полный комплект, т. е. такое количество, когда каждому ученику выдаются из библиотеки все нужные ему для учебы книги. Нормой оснащения компьютерами будем считать такое их количество, при котором на каждых четырех старшеклассников в школе приходится один компьютер. Предполагается, что компьютерами ученики пользуются не только на информатике, но и на других уроках, а также во внеурочное время.

В таблице, изображенной на рис. 3.9, приведены результаты измерения обоих факторов в 11 разных школах. Напомним, что влияние каждого фактора исследуется независимо от других (т. е. влияние других существенных факторов должно быть приблизительно одинаковым).

image

Для обеих зависимостей получены коэффициенты линейной корреляции. Как видно из таблицы, корреляция между обеспеченностью учебниками и успеваемостью сильнее, чем корреляция между компьютерным обеспечением и успеваемостью (хотя и тот, и другой коэффициенты корреляции не очень большие). Отсюда можно сделать вывод, что пока еще книга остается более значительным источником знаний, чем компьютер.

image

Вопросы и задания

 

1.

а) Что такое корреляционная зависимость?
б) Что такое корреляционный анализ?
в) Какие типы задач можно решать с помощью корреляционного анализа?
г) Какая величина является количественной мерой корреляции? Какие значения она может принимать?

2. С помощью какого средства табличного процессора Excel можно вычислить коэффициент корреляции?

3.

а) Для данных из таблицы, представленной на рис. 3.9, постройте две линейные регрессионные модели.
б) Для этих же данных вычислите коэффициенты корреляции. Сравните с приведенными на рис. 3.9 результатами.

Практикум
Практическая работа
Расчет корреляционных зависимостей

 

Цель работы: получение представления о корреляционной зависимости величин; освоение способа вычисления коэффициента корреляции с помощью функции KOPPEЛ.

Используемое программное обеспечение: табличный процессор Microsoft Excel.

Задание 1

 

Требуется выполнить расчеты корреляционной зависимости успеваемости учащихся от хозяйственных расходов школы, описанные в § 19 учебника.

1. Заполнить электронную таблицу следующими данными:

image

2. Построить точечную диаграмму зависимости величин (ее вид показан в учебнике на рис. 3.8).

image

3. Выполнить статистическую функцию KOPPEЛ, указав в диалоговом окне диапазоны значений: В2:В21 и С2:С21.

4. Выписать значение коэффициента корреляции.