Пример. Выявление значимых наблюдений

Функции > План эксперимента > Регрессионный анализ > Пример. Выявление значимых наблюдений

Используйте функцию polyfitstat, чтобы проверить наблюдения, используемые для создания многомерной полиномиальной регрессии.

1. Задайте матрицу, которая содержит замеры, взятые у 20 здоровых людей возрастом от 25 до 34 лет.

Щелкните для копирования этого выражения

Столбцы матрицы представляют толщину кожной складки на трицепсе, окружность бедра и жировую складку, соответственно, для каждого из этих 20 человек.

2. Используйте функции rows и cols, чтобы вычислить число строк и столбцов.

3. Используйте функцию augment, чтобы определить матрицу BM как первые два столбца матрицы. Эти измерения можно использовать, чтобы предсказать количество жира в организме человека.

4. Вызовите функцию polyfitstat, чтобы смоделировать эксперимент с помощью регрессии первого порядка и рассчитать статистику регрессии.

5. Отобразите матрицу коэффициентов регрессии, находящуюся в строке 7 выходной матрицы P.

6. Вычислите коэффициенты регрессии с использованием матричных вычислений.

Коэффициенты регрессии соответствуют следующему уравнению:

7. Используйте уравнение регрессии для расчета прогнозируемого количества телесного жира. Сравните эти значения с количеством телесного жира, полученным в результате измерений.

8. Используйте функцию submatrix, чтобы отображать статистические данные модели, найденные в первых строках выходной матрицы P.

<region id="ID0ETLCW" actualWidth="449.5" actualHeight="137.2" top="1996.8000000000002" left="38.400000000000006" xmlns="http://schemas.mathsoft.com/worksheet50">
  <math resultRef="125">
    <define xmlns="http://schemas.mathsoft.com/math50">
      <id labels="VARIABLE" xml:space="preserve">B</id>
      <eval>
        <apply>
          <id labels="*" xml:space="preserve">submatrix</id>
          <sequence>
            <id labels="VARIABLE" xml:space="preserve" label-is-contextual="true">P</id>
            <real>0</real>
            <real>6</real>
            <real>0</real>
            <real>1</real>
          </sequence>
        </apply>
        <unitOverride>
          <placeholder />
        </unitOverride>
      </eval>
    </define>
    <resultFormat>
      <general precision="3" show-trailing-zeros="false" radix="dec" zero-threshold="15" imaginary-value="i" exponential-threshold="3" />
      <matrix size="12,9" offset="0,0" show-indices="false" expand-nested-arrays="false" />
    </resultFormat>
  </math>
</region>

Первая статистика представляет среднеквадратическое отклонение для регрессии.

9. Отобразите диагностику модели, которую можно найти в последней вложенной матрице выходной матрицы P.

Фактическое и прогнозируемое значения соответствуют значениям, показанным на шаге 7. Остатки представляют собой разницу между фактическими и прогнозируемыми значениями:

10. Рассчитайте остатки, т. е. разницу между фактическими и прогнозируемыми значениями.

11. Используйте функцию diag, чтобы вычислить рычаги, то есть диагональные значения, матрицы H.

12. Вычислите стьюдентизированные остатки.

Ниже рассчитаны внешне стьюдентизированные остатки, или R-стьюдент. Константа p представляет количество коэффициентов, рассчитанных для регрессии, а S2 является ожидаемой величиной s2 для набора данных, из которого удалено наблюдение номер i.

13. Используйте расстояние Кука, чтобы измерить полное влияние удаленной точки на линейную регрессию.

14. Вычислите разницу между прогнозируемыми значениями, когда все наблюдения включены в значения приближения, и прогнозируемые значения, когда опущено i-е наблюдение

<region id="ID0EKYCW" actualWidth="182.92000000000002" actualHeight="87.502666332244885" top="3360.0000000000005" left="38.400000000000006" xmlns="http://schemas.mathsoft.com/worksheet50">
  <math resultRef="145">
    <define xmlns="http://schemas.mathsoft.com/math50">
      <apply>
        <indexer />
        <id labels="VARIABLE" xml:space="preserve">DFFITS</id>
        <id labels="VARIABLE" xml:space="preserve">i</id>
      </apply>
      <apply>
        <mult />
        <apply>
          <indexer />
          <id labels="VARIABLE" xml:space="preserve">
            <Span xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation">R<Subscript xmlns="clr-namespace:Ptc.Wpf;assembly=Ptc.Core">St</Subscript></Span>
          </id>
          <id labels="VARIABLE" xml:space="preserve" label-is-contextual="true">i</id>
        </apply>
        <apply>
          <pow />
          <parens>
            <apply>
              <div />
              <apply>
                <indexer />
                <id labels="VARIABLE" xml:space="preserve" label-is-contextual="true">h</id>
                <id labels="VARIABLE" xml:space="preserve" label-is-contextual="true">i</id>
              </apply>
              <apply>
                <minus />
                <real>1</real>
                <apply>
                  <indexer />
                  <id labels="VARIABLE" xml:space="preserve" label-is-contextual="true">h</id>
                  <id labels="VARIABLE" xml:space="preserve" label-is-contextual="true">i</id>
                </apply>
              </apply>
            </apply>
          </parens>
          <apply>
            <div />
            <real>1</real>
            <real>2</real>
          </apply>
        </apply>
      </apply>
    </define>
    <resultFormat>
      <general precision="3" show-trailing-zeros="false" radix="dec" zero-threshold="15" imaginary-value="i" exponential-threshold="3" />
      <matrix size="12,9" offset="0,0" show-indices="false" expand-nested-arrays="false" />
    </resultFormat>
  </math>
</region>

15. Используйте функции augment и stack, чтобы отобразить показанную выше статистику.

<region id="ID0EQ1CW" actualWidth="465.34000000000009" actualHeight="25.6" top="3494.4000000000005" left="38.400000000000006" xmlns="http://schemas.mathsoft.com/worksheet50">
  <math resultRef="147">
    <define xmlns="http://schemas.mathsoft.com/math50">
      <id labels="VARIABLE" xml:space="preserve">header</id>
      <matrix rows="1" cols="8">
        <str xml:space="preserve">Run</str>
        <str xml:space="preserve">Pred</str>
        <str xml:space="preserve">Res</str>
        <str xml:space="preserve">h</str>
        <str xml:space="preserve">St</str>
        <str xml:space="preserve">R.St</str>
        <str xml:space="preserve">C</str>
        <str xml:space="preserve">DFFITS</str>
      </matrix>
    </define>
    <resultFormat>
      <general precision="3" show-trailing-zeros="false" radix="dec" zero-threshold="15" imaginary-value="i" exponential-threshold="3" />
      <matrix size="12,12" offset="0,0" show-indices="false" expand-nested-arrays="false" />
    </resultFormat>
  </math>
</region>

<region id="ID0EM2CW" actualWidth="372.95000000000005" actualHeight="27.791200000000003" top="3571.2000000000007" left="38.400000000000006" xmlns="http://schemas.mathsoft.com/worksheet50">
  <math resultRef="151">
    <define xmlns="http://schemas.mathsoft.com/math50">
      <id labels="VARIABLE" xml:space="preserve">S1</id>
      <apply>
        <id labels="FUNCTION" xml:space="preserve" label-is-contextual="true">augment</id>
        <sequence>
          <id labels="VARIABLE" xml:space="preserve" label-is-contextual="true">run</id>
          <id labels="VARIABLE" xml:space="preserve" label-is-contextual="true">Pred</id>
          <id labels="VARIABLE" xml:space="preserve" label-is-contextual="true">Res</id>
          <id labels="VARIABLE" xml:space="preserve" label-is-contextual="true">h</id>
          <id labels="VARIABLE" xml:space="preserve" label-is-contextual="true">St</id>
          <id labels="VARIABLE" xml:space="preserve" label-is-contextual="true">
            <Span xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation">R<Subscript xmlns="clr-namespace:Ptc.Wpf;assembly=Ptc.Core">St</Subscript></Span>
          </id>
          <id labels="VARIABLE" xml:space="preserve" label-is-contextual="true">C</id>
          <id labels="VARIABLE" xml:space="preserve" label-is-contextual="true">DFFITS</id>
        </sequence>
      </apply>
    </define>
    <resultFormat>
      <general precision="3" show-trailing-zeros="false" radix="dec" zero-threshold="15" imaginary-value="i" exponential-threshold="3" />
      <matrix size="12,12" offset="0,0" show-indices="false" expand-nested-arrays="false" />
    </resultFormat>
  </math>
</region>

16. Используйте функции max и qt, чтобы определить наибольшее значение R-стьюдента в наборе данных. Используйте критерий Бонферрони, чтобы решить, является ли соответствующее наблюдение отклонением.

Наибольшее значение R-стьюдента меньше критерия Бонферрони, что указывает на то, что соответствующее наблюдение не является отклонением.

17. Определите максимальное значение DFFITS.

Значение больше 1, но достаточно близко к 1, что указывает на то, что соответствующее наблюдение не обязательно является существенным.

18. Постройте график влияния индексов, располагая значения расстояния Кука напротив интервалов.

<region id="ID0EADDW" actualWidth="577" actualHeight="312" top="4492.8000000000011" left="38.400000000000006" height="312" width="577" xmlns="http://schemas.mathsoft.com/worksheet50">
  <plot background-type="white" origin-positioning="true">
    <xyPlot>
      <title class="- topic/title " wwtype:type="Paragraph" xmlns:wwtype="urn:WebWorks-Type-Schema" />
      <legend />
      <traces>
        <trace resultRef="165">
          <traceStyle color="#FF00008B" symbol="x" line-weight="1" line-style="Solid">lines</traceStyle>
        </trace>
      </traces>
      <graph-size width="477" height="254.4" />
      <axes>
        <xAxis rank="1" legend-position="PlotBoundaryBottom" start="0" end="20">
          <axisLine position="origin" positionticmark="0" legendWidth="77.4766666666667" />
          <axisGrid>
            <gridFrequency>11</gridFrequency>
            <gridLabels display="true" />
            <gridLines />
            <tickMarks display="true" />
          </axisGrid>
          <axisLabel />
          <markers />
          <numberFormat>
            <general precision="3" show-trailing-zeros="false" radix="dec" zero-threshold="15" imaginary-value="i" exponential-threshold="3" />
          </numberFormat>
          <plotEquations>
            <plotEquation>
              <math resultRef="166">
                <id xml:space="preserve" xmlns="http://schemas.mathsoft.com/math50">run</id>
              </math>
              <math resultRef="167">
                <placeholder xmlns="http://schemas.mathsoft.com/math50" />
              </math>
            </plotEquation>
          </plotEquations>
          <xyDomain scale-type="linear" auto-scale="true">
            <startValue>
              <placeholder xmlns="http://schemas.mathsoft.com/math50" />
            </startValue>
            <endValue>
              <placeholder xmlns="http://schemas.mathsoft.com/math50" />
            </endValue>
          </xyDomain>
        </xAxis>
        <yAxis rank="1" legend-position="PlotBoundaryLeft" start="0" end="0.385">
          <axisLine position="origin" positionticmark="0" legendWidth="63.88" />
          <axisGrid>
            <gridFrequency>12</gridFrequency>
            <gridLabels display="true" />
            <gridLines />
            <tickMarks display="true" />
          </axisGrid>
          <axisLabel />
          <markers />
          <numberFormat>
            <general precision="3" show-trailing-zeros="false" radix="dec" zero-threshold="15" imaginary-value="i" exponential-threshold="3" />
          </numberFormat>
          <plotEquations>
            <plotEquation>
              <math resultRef="168">
                <id xml:space="preserve" xmlns="http://schemas.mathsoft.com/math50">C</id>
              </math>
              <math resultRef="169">
                <placeholder xmlns="http://schemas.mathsoft.com/math50" />
              </math>
            </plotEquation>
          </plotEquations>
          <xyDomain scale-type="linear" auto-scale="true">
            <startValue>
              <placeholder xmlns="http://schemas.mathsoft.com/math50" />
            </startValue>
            <endValue>
              <placeholder xmlns="http://schemas.mathsoft.com/math50" />
            </endValue>
          </xyDomain>
        </yAxis>
      </axes>
    </xyPlot>
  </plot>
</region>

Наблюдение для run2 является наиболее существенным наблюдением в наборе данных. Наблюдение для run12, определяемое на шаге 10, также является существенным, но в меньшей степени, чем для run2.

Справочная информация

Источник: Neter, J., Kutner, M.H., Nachtsheim, C.J., Wasserman, W., Applied Linear Statistical Models (Прикладные линейные статистические модели), 4th ed., McGraw-Hill/Irwin, Boston, 1996, стр. 375

Было ли это полезно?