Функции > Анализ данных > Аппроксимация кривой > Пример. Линейная регрессия
Пример. Линейная регрессия
Используйте функции polyfitc, line, slope и intercept, чтобы найти линию аппроксимации по методу наименьших квадратов в наборе данных x-y. Используйте функцию stderr для расчета ошибки в подгоночных параметрах. Рассчитайте доверительные пределы вокруг линии наилучшего приближения и сформируйте доверительные интервалы.
Линия наилучшего приближения
Создайте линейную функцию, чтобы оценить, как много времени потребуется, чтобы проехать то или иное расстояние.
1. Определите набор расстояний в милях и время в минутах, необходимое для того, чтобы проехать эти расстояния.
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
2. Определите одномерное уравнение линейной регрессии.
Щелкните для копирования этого выражения
3. Вызовите функцию polyfitc, чтобы рассчитать коэффициенты регрессии a и b.
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
Эти коэффициенты таковы, что разница между значениями в T и значениями, рассчитанными уравнением регрессии f, минимальна для каждого значения.x. Это можно проверить, используя блок решения и функцию minimize для минимизации суммы квадратов:
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
4. Определите линию наилучшего приближения, чтобы минимизировать сумму квадратов расстояний от каждой точки до линии.
Щелкните для копирования этого выражения
Необходимо использовать параметризованное уравнение из линейного или любого другого типа регрессии только для значений, близких к исходным наблюдаемым данным. Линия наилучшего приближения для приведенных выше данных позволяет предсказать, что на преодоление расстояния в 0 миль потребуется следующее время:
Щелкните для копирования этого выражения
Это не имеет смысла, если измеренное время является строго временем пути при постоянной скорости. Такой результат может иногда представлять определенный физический феномен. В данном случае время, требуемое на покрытие нулевого расстояния, может быть интерпретировано как среднее время ожидания на светофорах.
5. Распечатайте точки данных и линию наилучшего приближения.
Щелкните для копирования этого выражения
Альтернативные методы расчета наклона и отрезка
Существует несколько методов расчета наклона и отрезка, отсекаемого на оси, для линии наилучшего приближения. Например, функция line сочетает функции slope и intercept. Другие методы включают матричные вычисления или статистические зависимости.
1. Вызовите функции intercept и slope.
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
2. Вызовите функцию line.
Щелкните для копирования этого выражения
3. Используйте матричные вычисления, применяя функцию augment.
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
4. Используйте статистические зависимости, применяя функции stdev, corr, mean и slope.
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
5. Используйте график, чтобы показать, что линия наименьших квадратов всегда проходит через точку (mean(X), mean(T)):
Щелкните для копирования этого выражения
Среднеквадратические ошибки
Рассчитайте среднеквадратическую ошибку оценки (ее также называют стандартной ошибкой), чтобы измерить, насколько точно линейное приближение, приведенное выше. Также рассчитайте ошибку наклона и отрезка, отсекаемого на оси.
1. Определите степени свободы (количество точек данных минус количество подобранных параметров).
Щелкните для копирования этого выражения
2. Вызовите функцию stderr, чтобы рассчитать среднеквадратическую ошибку оценки для линии наилучшего приближения, определенной выше.
Щелкните для копирования этого выражения
Это квадратный корень среднего квадрата ошибки, среднеквадратическая ошибка или σ2:
Щелкните для копирования этого выражения
3. Сравните расчетную среднеквадратическую ошибку со среднеквадратической ошибкой, возвращенной функцией polyfitstat.
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
4. Рассчитайте среднеквадратические ошибки наклона и точки пересечения.
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
5. Повторите вышеупомянутый расчет, используя матричные вычисления.
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
6. Используйте функцию augment, чтобы показать, что среднеквадратические ошибки для каждого коэффициента регрессии записаны в матрице, возвращенной функцией polyfitc.
Щелкните для копирования этого выражения
Доверительные интервалы для каждого коэффициента
Используйте приведенные выше виды оценки вместе с процентильными точками из распределения Стьюдента, чтобы сформировать доверительный интервал для оценок наклона и отсекаемого на оси отрезка.
1. Определите уровень значимости для доверительного интервала 98% и используйте функцию qt для расчета t-фактора.
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
2. Рассчитайте доверительные пределы для наклона.
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
Существует вероятность 98%, что фактическим значением наклона является значение между SL и SU.
3. Рассчитайте доверительные пределы для отрезка, отсекаемого на оси.
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
Широкий диапазон для этого значения отражает высокий уровень разброса данных.
4. Вызовите функцию confidence, чтобы повторить шаги 1 и 3.
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
Функция confidence возвращает ширину доверительного интервала в первом столбце и t-коэффициент во втором столбце. При делении ширины на t-коэффициент мы получаем среднеквадратические ошибки для обоих параметров:
Щелкните для копирования этого выражения
5. Чтобы найти доверительные пределы, можно добавить или вычесть ширину из соответствующего параметра:
Щелкните для копирования этого выражения
6. Используйте функцию augment, чтобы показать, что среднеквадратические ошибки для каждого коэффициента регрессии записаны в матрице, возвращенной функцией polyfitc.
Щелкните для копирования этого выражения
Доверительные интервалы для регрессии
1. Используйте функции length и mean, чтобы вычислить доверительный интервал для регрессии непосредственно.
Щелкните для копирования этого выражения
2. Используйте предыдущую функцию, чтобы вычислить доверительный интервал для любого прогнозируемого значения x:
Щелкните для копирования этого выражения
3. Используйте матричные вычисления:
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
4. Распечатайте данные, линию наилучшего приближения и доверительный интервал для всей области регрессии.
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
Доверительная область для прогнозируемых значений сужается возле центра измеренных значений. Это происходит потому, что формулы, использованные для расчета линейной регрессии, основаны на среднем значении, поэтому чем ближе прогнозируемое значение к среднему по данным, тем оно точнее.
5. Рассчитайте доверительные пределы для измеренных значений. Эти пределы немного отличаются от пределов для прогнозируемых значений.
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
6. Используйте матричные вычисления:
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
7. Постройте график доверительных пределов как кривую погрешности.
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
Щелкните для копирования этого выражения
* 
Можно использовать графики как средство обнаружения отклонения, где измеренные значения, попадающие за пределы доверительных интервалов, указывают на отклонение.
Было ли это полезно?