Функции > Анализ данных > Аппроксимация кривой > Пример. Линейная регрессия
  
Пример. Линейная регрессия
Используйте функции polyfitc, line, slope и intercept, чтобы найти линию аппроксимации по методу наименьших квадратов в наборе данных x-y. Используйте функцию stderr для расчета ошибки в подгоночных параметрах. Рассчитайте доверительные пределы вокруг линии наилучшего приближения и сформируйте доверительные интервалы.
Линия наилучшего приближения
Создайте линейную функцию, чтобы оценить, как много времени потребуется, чтобы проехать то или иное расстояние.
1. Определите набор расстояний в милях и время в минутах, необходимое для того, чтобы проехать эти расстояния.
Нажать для копирования этого выражения
Нажать для копирования этого выражения
Нажать для копирования этого выражения
2. Определите одномерное уравнение линейной регрессии.
Нажать для копирования этого выражения
3. Вызовите функцию polyfitc, чтобы рассчитать коэффициенты регрессии a и b.
Нажать для копирования этого выражения
Нажать для копирования этого выражения
Эти коэффициенты таковы, что разница между значениями в T и значениями, рассчитанными уравнением регрессии f, минимальна для каждого значения.x. Это можно проверить, используя блок решения и функцию minimize для минимизации суммы квадратов:
Нажать для копирования этого выражения
Нажать для копирования этого выражения
Нажать для копирования этого выражения
4. Определите линию наилучшего приближения, чтобы минимизировать сумму квадратов расстояний от каждой точки до линии.
Нажать для копирования этого выражения
Необходимо использовать параметризованное уравнение из линейного или любого другого типа регрессии только для значений, близких к исходным наблюдаемым данным. Линия наилучшего приближения для приведенных выше данных позволяет предсказать, что на преодоление расстояния в 0 миль потребуется следующее время:
Нажать для копирования этого выражения
Это не имеет смысла, если измеренное время является строго временем пути при постоянной скорости. Такой результат может иногда представлять определенный физический феномен. В данном случае время, требуемое на покрытие нулевого расстояния, может быть интерпретировано как среднее время ожидания на светофорах.
5. Распечатайте точки данных и линию наилучшего приближения.
Нажать для копирования этого выражения
Альтернативные методы расчета наклона и отрезка
Существует несколько методов расчета наклона и отрезка, отсекаемого на оси, для линии наилучшего приближения. Например, функция line сочетает функции slope и intercept. Другие методы включают матричные вычисления или статистические зависимости.
1. Вызовите функции intercept и slope.
Нажать для копирования этого выражения
Нажать для копирования этого выражения
2. Вызовите функцию line.
Нажать для копирования этого выражения
3. Используйте матричные вычисления, применяя функцию augment.
Нажать для копирования этого выражения
Нажать для копирования этого выражения
4. Используйте статистические зависимости, применяя функции stdev, corr, mean и slope.
Нажать для копирования этого выражения
Нажать для копирования этого выражения
5. Используйте график, чтобы показать, что линия наименьших квадратов всегда проходит через точку (mean(X), mean(T)):
Нажать для копирования этого выражения
Среднеквадратические ошибки
Рассчитайте среднеквадратическую ошибку оценки (ее также называют стандартной ошибкой), чтобы измерить, насколько точно линейное приближение, приведенное выше. Также рассчитайте ошибку наклона и отрезка, отсекаемого на оси.
1. Определите степени свободы (количество точек данных минус количество подобранных параметров).
Нажать для копирования этого выражения
2. Вызовите функцию stderr, чтобы рассчитать среднеквадратическую ошибку оценки для линии наилучшего приближения, определенной выше.
Нажать для копирования этого выражения
Это квадратный корень среднего квадрата ошибки, среднеквадратическая ошибка или σ2:
Нажать для копирования этого выражения
3. Сравните расчетную среднеквадратическую ошибку со среднеквадратической ошибкой, возвращенной функцией polyfitstat.
Нажать для копирования этого выражения
Нажать для копирования этого выражения
4. Рассчитайте среднеквадратические ошибки наклона и точки пересечения.
Нажать для копирования этого выражения
Нажать для копирования этого выражения
5. Повторите вышеупомянутый расчет, используя матричные вычисления.
Нажать для копирования этого выражения
Нажать для копирования этого выражения
Нажать для копирования этого выражения
Нажать для копирования этого выражения
6. Используйте функцию augment, чтобы показать, что среднеквадратические ошибки для каждого коэффициента регрессии записаны в матрице, возвращенной функцией polyfitc.
Нажать для копирования этого выражения
Доверительные интервалы для каждого коэффициента
Используйте приведенные выше виды оценки вместе с процентильными точками из распределения Стьюдента, чтобы сформировать доверительный интервал для оценок наклона и отсекаемого на оси отрезка.
1. Определите уровень значимости для доверительного интервала 98% и используйте функцию qt для расчета t-фактора.
Нажать для копирования этого выражения
Нажать для копирования этого выражения
2. Рассчитайте доверительные пределы для наклона.
Нажать для копирования этого выражения
Нажать для копирования этого выражения
Существует вероятность 98%, что фактическим значением наклона является значение между SL и SU.
3. Рассчитайте доверительные пределы для отрезка, отсекаемого на оси.
Нажать для копирования этого выражения
Нажать для копирования этого выражения
Широкий диапазон для этого значения отражает высокий уровень разброса данных.
4. Вызовите функцию confidence, чтобы повторить шаги 1 и 3.
Нажать для копирования этого выражения
Нажать для копирования этого выражения
Функция confidence возвращает ширину доверительного интервала в первом столбце и t-коэффициент во втором столбце. При делении ширины на t-коэффициент мы получаем среднеквадратические ошибки для обоих параметров:
Нажать для копирования этого выражения
5. Чтобы найти доверительные пределы, можно добавить или вычесть ширину из соответствующего параметра:
Нажать для копирования этого выражения
6. Используйте функцию augment, чтобы показать, что среднеквадратические ошибки для каждого коэффициента регрессии записаны в матрице, возвращенной функцией polyfitc.
Нажать для копирования этого выражения
Доверительные интервалы для регрессии
1. Используйте функции length и mean, чтобы вычислить доверительный интервал для регрессии непосредственно.
Нажать для копирования этого выражения
2. Используйте предыдущую функцию, чтобы вычислить доверительный интервал для любого прогнозируемого значения x:
Нажать для копирования этого выражения
3. Используйте матричные вычисления:
Нажать для копирования этого выражения
Нажать для копирования этого выражения
4. Распечатайте данные, линию наилучшего приближения и доверительный интервал для всей области регрессии.
Нажать для копирования этого выражения
Нажать для копирования этого выражения
Нажать для копирования этого выражения
Нажать для копирования этого выражения
Доверительная область для прогнозируемых значений сужается возле центра измеренных значений. Это происходит потому, что формулы, использованные для расчета линейной регрессии, основаны на среднем значении, поэтому чем ближе прогнозируемое значение к среднему по данным, тем оно точнее.
5. Рассчитайте доверительные пределы для измеренных значений. Эти пределы немного отличаются от пределов для прогнозируемых значений.
Нажать для копирования этого выражения
Нажать для копирования этого выражения
6. Используйте матричные вычисления:
Нажать для копирования этого выражения
Нажать для копирования этого выражения
7. Постройте график доверительных пределов как кривую погрешности.
Нажать для копирования этого выражения
Нажать для копирования этого выражения
Нажать для копирования этого выражения
* 
Можно использовать графики как средство обнаружения отклонения, где измеренные значения, попадающие за пределы доверительных интервалов, указывают на отклонение.