сделать домашней  добавить в избранное  карта сайта RSS
 

Вебинары HRM.RU

Прогноз эффективности кандидатов на основе тестов
Начало 26.05.2017 12.00 (по московскому времени)

Полный список вебинаров

События

полный список

Последние обсуждения

  26.09.2019 16:41:06
Новый уровень безопасности дыхания
  30.08.2019 14:26:41
Worldskills International и 3М запускают новый совместный проект «Образование во имя будущего»
  30.08.2019 11:33:40
Молодые профессионалы за устойчивое будущее
  24.08.2019 14:36:18
Научные эксперименты, продуктовые тесты и мировые технологии для молодых профессионалов
  09.08.2019 16:18:31
Только оригинальные СИЗ обеспечивают гарантированную защиту


Опросы
  Актуальные направления работы HR вашей организации 2017
Все опросы


Крыштановский. Анализ социологических данных. Глава 4. Модели регрессионного
анализа 4.1. Общее описание регрессионной модели

      Тематические разделы:
      Психология, теории HR
      Психология, теории HR : Социальная психология
      Общий менеджмент : Аналитика
      Книги

      Дата публикации: 28.07.2017






      4

      глава

      МОДЕЛИ РЕГРЕССИОННОГО АНАЛИЗА

      Начнем с примера. Выяснение причин хорошей или плохой успеваемости

      студентов является, несомненно, сложной задачей. Социологические

      теории, да и просто здравый смысл подсказывают нам, что

      среди факторов, влияющих на успеваемость, должны присутствовать:

      • уровень подготовки студента;

      • активность посещения занятий;

      • активность самостоятельной работы;

      • способности студента.

      Очевидно, что этот список неполон и может быть расширен за

      счет других характеристик, однако ограничимся пока только этими.

      Представим схему влияния различных показателей на успеваемость

      в виде рисунка (рис. 4.1).

      Рис. 4.1. Модель ·Успеваемость студента·

      Глава 4. Модели регрессионного анализа

      Рисунок 4.1 можно рассматривать как модель успеваемости, или

      как некоторую схему, которая позволяет систематизировать наши взгляды

      на изучаемое явление. Анализируя эмпирические данные, можно

      попытаться проверить, насколько наша модель соответствует тем реальным

      процессам, которые управляют успеваемостью и данные о

      которых можно собрать с помощью социологических методов.

      Пока, однако, в нашем распоряжении есть только инструменты

      проверки парных взаимосвязей между переменными — коэффициенты

      сопряженности и корреляции. При этом сами коэффициенты фактически

      фиксируют не то, насколько сильно взаимосвязаны два показателя

      между собой, а то, насколько тесно они взаимосвязаны.

      Теснота взаимосвязи является, несомненно, важной характеристикой,

      но на практике интереснее сила связи. Так, мы знаем, что если

      солить еду, она становится солонее. Другими словами, эти характеристики

      взаимосвязаны, и, по всей видимости, достаточно тесно. Однако

      крайне важно знать и то, насколько становится солонее блюдо при

      добавлении определенного количества соли. Зависит это и от характеристик

      соли, и от особенностей используемых продуктов, и от специфики

      процесса приготовления, но, согласитесь, без этого знания

      вкусного блюда не приготовишь.

      В модели, представленной на рис. 4.1, для нас принципиально

      важно не только наличие обозначенных стрелок. Чтобы модель давала

      нам полезную информацию, которую можно использовать на практике,

      необходимо иметь представление о силе соответствующих связей,

      т.е. понимать, какие из показателей влияют на успеваемость сильнее,

      а какие слабее, а также насколько велико совокупное влияние на

      успеваемость четырех выделенных факторов.

      Решение поставленной задачи начнем с упрощения модели

      рис. 4.1 к модели рис. 4.2.

      4.1. Общее описание регрессионной модели

      Отличие модели рис. 4.2 от модели рис. 4.1 состоит в том, что

      мы фокусируемся только на одной причине успеваемости студента —

      уровне предварительной подготовки, а все остальные факторы включили

      в «Другие факторы». Социологический смысл данной модели

      представляется вполне естественным: успеваемость студента зависит

      от уровня его предварительной подготовки. Разумеется, успеваемость

      определяется не только этим. Имеется еще множество других факторов,

      влияющих на успеваемость. Смысл построения модели математической

      зависимости состоит в выяснении того, каким образом на

      успеваемость влияет именно уровень предварительной подготовки,

      каково направление и сила этого влияния.

      4.1

      Общее описание регрессионной модели

      Если о направлении воздействия можно сделать, как представляется,

      вполне обоснованное предположение: «чем выше уровень предварительной

      подготовки, тем выше успеваемость», то сформулировать

      предположения о силе такого воздействия довольно сложно. Попытаемся

      с помощью анализа данных, содержащих сведения об успеваемости

      студентов и уровне их предварительной подготовки, найти точные

      ответы на поставленные вопросы.

      Формально предложенную модель зависимости можно записать

      в виде следующей математической зависимости:

      y=f(x) + u, (4.1)

      где у — показатель «Успеваемость студента»; х — показатель «Уровень

      предварительной подготовки»;/— функция, описывающая силу

      и форму влияния хна у; и — все остальные факторы, влияющие на^.

      Задачей построения модели (4.1) становится подбор функции/ которая

      будет наилучшим образом описывать зависимость хпу. Рассмотрим

      решение этой задачи на примере.

      Глава 4. Модели регрессионного анализа

      В нашем распоряжении есть данные, в которых в качестве показателя

      ·Уровень предварительной подготовки· выступает суммарный

      балл, полученный студентом на вступительных экзаменах в вуз, в

      качестве показателя ·Успеваемость· — суммарный балл студента за

      1-й семестр обучения в вузе (табл. 4.1)1.

      Таблица 4.1. Оценки студентов при поступлении в вуз

      и по итогам 1 -го семестра обучения

      ' Были взяты оценки абитуриентов на вступительных экзаменах в 2002 г. на

      факультет социологии ГУ ВШЭ. Вступительные испытания проводились по четырем

      дисциплинам: математика, обществознание, иностранный язык, русский язык. Оценки по

      первым трем дисциплинам выставлялись по 10-балльной системе, по русскому языку—

      ПО 5-балльной системе.

      4.1. Общее описание регрессионной модели

      Коэффициент корреляции Пирсона между двумя анализируемыми

      показателями составляет 0,43 и значим на уровне а = 0,06. Следовательно,

      у нас есть неплохие основания заключить, что модель, приведенная

      на рис. 4.2, отражает реально существующие закономерности.

      Представим данные табл. 4.1 в виде диаграммы рассеяния (рис. 4.3).

      Рисунок 4.3 показывает, что есть определенная зависимость между

      х и у — с ростом значений показателя ·Уровень предварительной

      подготовки· наблюдается тенденция возрастания показателя ·Успеваемость

      ·. Какова форма этой зависимости, или каков вид функции/

      в выражении (4.1)? Начнем поиск этой функции с самого простого и

      удобного класса функций — с линейных функций.

      Суммарный балл по итогам 1-го семестра

      Рис. 4.3. Оценки студентов при поступлении в вуз

      и за 1-й семестр обучения

      Все оценки за обучение в ГУ ВШЭ выставляются по 10-балльной системе, независимо

      от формы контроля (как за экзамены, так и за зачеты). При вычислении суммарного

      балла за семестр оценка по каждому предмету учитывается с определенным

      весом, который отражает объем часов по данному предмету. Так, если на предмет

      отводится, скажем, 50 часов, вес его оценки — 1, а если 100 часов, то вес оценки уже 2.

      Максимально возможная сумма баллов, которые мог набрать студент I курса в 1 -м

      семестре 2002/03 учебного года, —146,7.

      Глава 4. Модели регрессионного анализа

      Почему именно с линейных? Ведь диаграмма (см. рис. 4.3) показывает

      нам лишь то, что это должна быть какая-то возрастающая функция,

      а в этом качестве могут выступать и показательная функция, и

      логарифм, да и вообще бесконечное число самых разных функций.

      Причем также видно, что какую бы функцию мы ни взяли, она не

      будет точно проходить через все точки.

      Однако этого и не требуется. Ведь в выражении (4.1) значения у

      описываются не как/fx), а как сумма/(!х) и и. Таким образом, можно

      сказать, что несовпадения положения точек с графиком некоторой

      функции/объясняются наличием именно добавки и.

      Данные соображения, к сожалению, не объясняют, почему мы решили

      рассматривать именно линейные функции. Объяснение этому лежит

      совсем в другой плоскости — на самом деле линейные функции

      проще и удобнее. В некотором смысле мы поступаем как герой анекдота,

      который ищет потерянные часы не там, где он их потерял, а под фонарным

      столбом, поскольку там светлее. Впрочем, мы не всегда будем решать

      поставленную задачу исходя из соображений максимизации простоты

      и удобства и в конце главы рассмотрим другие виды функций.

      При использовании линейной функции /выражение (4.1) примет

      следующий вид:

      y = bg + b1x + u. (4.2)

      Уравнение (4.2) называется уравнением простой (или парной)

      линейной регрессии. В этом выражении Ь0 и Ъх — константы, которы

      и определяют конкретный вид линейного уравнения.

      Представим, как будет выглядеть рис. 4.3, если на нем изобра

      зить линейную функцию (4.2) (рис. 4.4).

      Из каких соображений мы исходили, строя прямую на рис. 4.4.

      Иными словами, как мы определили параметры Ь0 и bv которые и дал

      нам именно такую прямую? Логика вычисления параметров прямо

      достаточно проста. Прямая должна лежать максимально близко ко все'

      точкам графика, т.е. сумма расстояний от всех точек до искомой пря

      мой была бы наименьшей. Подробнее это показано на рис. 4.5.

      Оставим для наглядности на графике четыре точки, а остальны

      сделаем невидимыми. Стрелки Е1, Е2, ЕЗ, Е4 — это расстояния д

      регрессионной прямой соответственно для точек 1, 2, 3, 4. Один и

      4.1. Общее описание регрессионной модели

      способов вычисления параметров bQ и Ъх регрессионного уравнения

      состоит в минимизации суммы (4.3). Иначе говоря, мы стараемся сделать

      минимальной не сумму расстояний от точек до прямой, а сумму

      квадратов расстояний:

      S = Е12 + Е22 + ЕЗ2 + Е42. (4-3)

      Суммарный балл на вступительных экзаменах

      Рис. 4.4. Оценки студентов при поступлении в вуз

      и за 1-й семестр обучения

      | Суммарный балл по итогам 1-го семестра

      — I 1 1 1 1 1

      25 26 27 28 29 30 31

      Суммарный балл на вступительных экзаменах

      Рис. 4.5. Оценки студентов при поступлении в вуз

      и за 1-й семестр обучения. Пример с четырьмя наблюдениями

      Метод решения задачи вычисления параметров регрессии путем

      минимизации выражения (4.3) называется методом наименьших квадратов

      (МНК). Оказывается, что S минимальна при следующих значениях

      Ъ и b :

      переменных.

      Примеры работы с МНК приведены в учебнике К. Доугерти2.

      Фактически расстояния между положениями точек и регрессионной

      прямой показывают, насколько велико отличие между моделью

      зависимости между у и х, описываемой линейным уравнением, и'

      реальными данными. Это объясняется наличием величины и в регрессионном

      уравнении (4.2). Ясно, что чем больше и, тем хуже описывает

      линейная функция реальные данные.

      Степень расхождения реальных данныху-ков иу-ков, вычисленных

      с помощью найденной функции, (и), в регрессионном анализе

      называются остатками. На рис. 4.5 расстояния Е1, Е2, ЕЗ и Е4 и есть

      остатки.

      О чем говорит большая сумма остатков? Очевидно, о том, что

      данные в основном лежат далеко от регрессионной прямой. Следовательно,

      мы имеем отсутствие тесной взаимосвязи между у их. Ясно,

      что коэффициент корреляции Пирсона при этом будет мал. Построение

      модели линейной регрессии в этом случае не имеет смысла. Можно

      сказать, что коэффициент корреляции Пирсона выступает индикатором

      того, насколько тесна связь, наблюдаемая между у и х, и имеет ли

      смысл строить модель линейной регрессии.

      2 См.: Доугерти К. Введение в эконометрику. М.: ИНФРА-М, 1999. С. 58—60.

      Интерпретация коэффициентов регрессии. Используя команду

      Regression пакета SPSS3, вычислим значения коэффициентов регрессии

      для данных, представленных в табл. 4.1. Получаем значения:

      Ь = 68,4; о, = 1,4. Итак, модель линейной регрессии будет выглядеть

      следующим образом:

      (4.6)

      где у — успеваемость студента; х — уровень предварительной подготовки.

      Коэффициент bQ показывает, в какой точке регрессионная прямая

      пересечет ось у. Интерпретировать этот показатель достаточно

      просто: какую успеваемость по итогам 1-го семестра будут иметь студенты,

      которые набрали на вступительных экзаменах 0 баллов. Они

      будут иметь успеваемость 68,4 балла. Очевидно, в рамках данного

      примера такая ситуация бессмысленна, однако во многих случаях Ь0

      несет полезную информацию.

      Смысл коэффициента 6, интереснее. Он показывает, на сколько

      баллов возрастает средняя успеOаемость студента в 1 -м семестре при

      увеличении на единицу балла на вступительных экзаменах в вуз. Таким

      образом, мы видим, что увеличение суммарной оценки на вступительных

      экзаменах на 1 балл дает улучшение успеваемости студента

      в 1-м семестре на 1,4 балла. На самом деле коэффициент Ъх есть не

      что иное, как тангенс угла наклона регрессионной прямой, и, следовательно,

      именно он демонстрирует силу связи между у их.

      Качество модели линейной регрессии. Модель (4.2) дает нам

      основание говорить, что значение у для каждого из анализируемых

      случаев, т.е. у., мы можем рассматривать как сумму двух компонент:

      (4.7)

      3 См.: Бююль А., Цефель П. SPSS: искусство обработки информации. Анализ

      статистических данных и восстановление скрытых закономерностей. СПб.: ООО

      ·ДиаСофтЮП·, 2001. С. 271—272.

      Для удобства обозначим слагаемое в скобках как у.. Тогда выражение

      (4.7) может быть записано как:

      (4.8.)

      При этом первое слагаемое представляет собой ту часть значения

      у для г'-го случая, которая объясняется линейным влиянием х. Что

      же касается и., то это — результат воздействия всех остальных факторов

      на у для г'-го случая. Другими словами, первое слагаемое — закономерная,

      объясняемая линейной моделью часть значения у, а второе

      — часть, объясняемая всеми другими, подчас случайными и мало

      понятными причинами.

      Понятно, что регрессионная модель хороша, если большая часть

      изменений^ объясняется изменением закономерной составляющей у.

      Это соображение подталкивает к определению показателя, который

      может выступать как характеристика качества регрессионной модели.

      Традиционно таким показателем принято считать отношение дисперсии

      у к дисперсии^. Обозначают этот показатель как R2:

      (4.9.)

      Показатель R2 называется коэффициентом детерминации. Очевидно,

      что R2 всегда положителен и равен единице в ситуации, когда 1

      полностью описывает у, или когда остатки и отсутствуют. Введем в

      табл. 4.1 колонку у, значения которой вычислим по модели (4.6).

      Можно показать также, что R2 = г2 (у, у).

      Исходя из дисперсий, приведенных в табл. 4.2, можем рассчитать

      показатель качества — коэффициент детерминации для модели (4.6).

      Таким образом, можно констатировать, что регрессионная модель

      (4.6) объясняет 18% дисперсии>>. Иными словами, успеваемость

      студентов в 1-м семестре обучения в вузе на 18% объясняется исходным

      уровнем подготовки студентов.

      4.1. Общее описание регрессионной модели

      Таблица 4.2. Оценки студентов при поступлении в вуз

      и по итогам 1-го семестра обучения








      Share |

       

      Версия для печати

      Читайте также
      Стратагемы управленческого взаимодействия

      Лидер определяет направление и прокладывает путь, он определяет цели и задачи, мотивирует последователей и контролирует решение поставленных задач. Наиболее бессмысленна борьба, целью которой является прошлое
      Позвольте сотрудникам решать, когда, где и как работать
      Тест "Диагностика межличностных отношений" Т. Лири

      Данная методика позволяет проанализировать особенности человека, проявляющиеся в межличностном взаимодействии.

      О Книге продаж замолвите слово…
      О Книге продаж замолвите слово…

      Не первый раз сталкиваюсь с ситуацией, когда компания приходит к идее создать свою Книгу продаж – своеобразную Библию продающего подразделения. Задачи, которые разные компании решают, создавая Книгу продаж, схожи. Накопив определенный опыт, они приходят к пониманию необходимости зафиксировать его для того, чтобы привести деятельность сотрудников к единому знаменателю, чтобы новичкам было легче входить в должность и становиться источниками прибыли. Можно выделить два основных пути, по которым идут компании.


      Идеальный руководитель в представлении специалистов с разным профессиональным опытом
      Идеальный руководитель в представлении специалистов с разным профессиональным опытом

      Отношения руководителя и подчиненного редко располагаются в плоскости рационального взаимодействия «как есть», но опосредуются взаимными ожиданиями, надеждами и опасениями. Каждый специалист еще до начала своей профессиональной карьеры составляет личный образ «идеального руководителя»
      Имя 
      Пароль  забыли?
      Присоединяйтесь!

      Новые материалы

         Названы самые высокооплачиваемые вакансии в Башкирии
         Не все профессии равны. Вчерашние школьники идут в телевизионщики и PR
         Новочебоксарские безработные граждане обучаются востребованным профессиям
         Где в Уфе заработать 100 тысяч рублей в месяц
         Сколько в среднем получают владимирские врачи?


      Последние комментарии

        
         мне приятно Вас читать 99 % читаемое мной - мусор... А на ваших постах глаза отдыхают 
         Действительно, Эдуард, что это я! Всё ещё hr, всё ещё пишу - с удовольствием вернусь)))
         Марина, вы вернетесь к нам или уже все?)
         вы можете оставлять активную ссылку на источник 
      Все статьи


      Интервью




      Публикую статью Алексея Королькова с видеокомментарием
      все интервью


      О проекте      Реклама       Подписка       Контакты       Rambler's Top100 Яндекс цитирования ©2000-2011, HRM