Учебное пособие: Анализ временных рядов Название: Анализ временных рядов Раздел: Тип: учебное пособие Добавлен 22:56:54 22 марта 2011 Просмотров: 14588 Оценило: 4 человек Средний балл: 4.3 Оценка: неизвестно Введение В данной главе рассматриваются задачи описания упорядоченных данных, полученных последовательно (во времени). Вообще говоря, упорядоченность может иметь место не только во времени, но и в пространстве, например, диаметр нити как функция её длины (одномерный случай), значение температуры воздуха как функция пространственных координат (трёхмерный случай). В отличие от регрессионного анализа, где порядок строк в матрице наблюдений может быть произвольным, во временных рядах важна упорядоченность, а следовательно, интерес представляет взаимосвязь значений, относящихся к разным моментам времени. Если значения ряда известны в отдельные моменты времени, то такой ряд называют дискретным, в отличие от непрерывного, значения которого известны в любой момент времени. Интервал между двумя последовательными моментами времени назовём тактом (шагом). Здесь будут рассматриваться в основном дискретные временные ряды с фиксированной протяжённостью такта, принимаемой за единицу счёта. Заметим, что временные ряды экономических показателей, как правило, дискретны.
Понькина, 2014. Алтайский государственный университет. Методы анализа временных рядов. Тема «Фазовый анализ временных рядов». Кафедра статистики и эконометрики. АНАЛИЗ ВРЕМЕННЫХ РЯДОВ И ПРОГНОЗИРОВАНИЕ. Большинство методов исследования временных рядов включает различные способы фильтрации шума, позволяющие увидеть регулярную составляющую более отчетливо. Большинство регулярных составляющих временных рядов принадлежит к двум классам: они являются либо трендом, либо сезонной составляющей.. Рассмотрим наиболее распространенные методы анализа сезонности спроса.
Значения ряда могут быть измеряемыми непосредственно (цена, доходность, температура), либо агрегированными (кумулятивными), например, объём выпуска; расстояние, пройдённое грузоперевозчиками за временной такт. Если значения ряда определяются детерминированной математической функцией, то ряд называют детерминированным. Если эти значения могут быть описаны лишь с привлечением вероятностных моделей, то временной ряд называют случайным. Явление, протекающее во времени, называют процессом, поэтому можно говорить о детерминированном или случайном процессах.
В последнем случае используют часто термин “стохастический процесс”. Анализируемый отрезок временного ряда может рассматриваться как частная реализация (выборка) изучаемого стохастического процесса, генерируемого скрытым вероятностным механизмом. Временные ряды возникают во многих предметных областях и имеют различную природу. Для их изучения предложены различные методы, что делает теорию временных рядов весьма разветвленной дисциплиной. Так, в зависимости от вида временных рядов можно выделить такие разделы теории анализа временных рядов: – стационарные случайные процессы, описывающие последовательности случайных величин, вероятностные свойства которых не изменяются во времени. Подобные процессы широко распространены в радиотехнике, метереологии, сейсмологии и т.
– диффузионные процессы, имеющие место при взаимопроникновении жидкостей и газов. – точечные процессы, описывающие последовательности событий, таких как поступление заявок на обслуживание, стихийных и техногенных катастроф.
Подобные процессы изучаются в теории массового обслуживания. Мы ограничимся рассмотрением прикладных аспектов анализа временных рядов, которые полезны при решении практических задач в экономике, финансах. Основной упор будет сделан на методы подбора математической модели для описания временного ряда и прогнозирования его поведения.
Практическое изучение временного ряда предполагает выявление свойств ряда и получение выводов о вероятностном механизме, порождающем этот ряд. Основные цели при изучении временного ряда следующие: – описание характерных особенностей ряда в сжатой форме; – построение модели временного ряда; – предсказание будущих значений на основе прошлых наблюдений; – управление процессом, порождающим временной ряд, путем выборки сигналов, предупреждающих о грядущих неблагоприятных событиях. Достижение поставленных целей возможно далеко не всегда как из-за недостатка исходных данных (недостаточная длительность наблюдения), так из-за изменчивости со временем статистической структуры ряда. Перечисленные цели диктуют в значительной мере, последовательность этапов анализа временных рядов: 1) графическое представление и описание поведения ряда; 2) выделение и исключение закономерных, неслучайных составляющих ряда, зависящих от времени; 3) исследование случайной составляющей временного ряда, оставшейся после удаления закономерной составляющей; 4) построение (подбор) математической модели для описания случайной составляющей и проверка ее адекватности; 5) прогнозирование будущих значений ряда. При анализе временных рядов используются различные методы, наиболее распространенными из которых являются: 1) корреляционный анализ, используемый для выявления характерных особенностей ряда (периодичностей, тенденций и т. Д.); 2) спектральный анализ, позволяющий находить периодические составляющие временного ряда; 3) методы сглаживания и фильтрации, предназначенные для преобразования временных рядов с целью удаления высокочастотных и сезонных колебаний; 4) модели авторегрессии и скользящего среднего для исследование случайной составляющей временного ряда; 5) методы прогнозирования.
Как уже отмечалось, в модели временного ряда принято выделять две основные составляющие: детерминированную и случайную (рис.). Под детерминированной составляющей временного ряда понимают числовую последовательность, элементы которой вычисляются по определенному правилу как функция времени t. Исключив детерминированную составляющую из данных, мы получим колеблющийся вокруг нуля ряд, который может в одном предельном случае представлять чисто случайные скачки, а в другом – плавное колебательное движение. В большинстве случаев будет нечто среднее: некоторая иррегулярность и определенный систематический эффект, обусловленный зависимостью последовательных членов ряда. В свою очередь, детерминированная составляющая может содержать следующие структурные компоненты: 1) тренд g, представляющий собой плавное изменение процесса во времени и обусловленный действием долговременных факторов. В качестве примера таких факторов в экономике можно назвать: а) изменение демографических характеристик популяции (численности, возрастной структуры); б) технологическое и экономическое развитие; в) рост потребления. 2) сезонный эффект s, связанный с наличием факторов, действующих циклически с заранее известной периодичностью.
Ряд в этом случае имеет иерархическую шкалу времени (например, внутри года есть сезоны, связанные с временами года, кварталы, месяцы) и в одноименных точках ряда имеют место сходные эффекты. Структурные компоненты временного ряда.
Типичные примеры сезонного эффекта: изменение загруженности автотрассы в течение суток, по дням недели, временам года, пик продаж товаров для школьников в конце августа - начале сентября. Сезонная компонента со временем может меняться, либо носить плавающий характер. Так на графике объема перевозок авиалайнерами (см рис.) видно, что локальные пики, приходящиеся на праздник Пасхи «плавают» из-за изменчивости ее сроков. Циклическая компонента c, описывающая длительные периоды относительного подъема и спада и состоящая из циклов переменной длительности и амплитуды. Подобная компонента весьма характерна для рядов макроэкономических показателей.
Циклические изменения обусловлены здесь взаимодействием спроса и предложения, а также наложением таких факторов, как истощение ресурсов, погодные условия, изменения в налоговой политике и т. Отметим, что циклическую компоненту крайне трудно идентифицировать формальными методами, исходя только из данных изучаемого ряда. «Взрывная» компонента i, иначе интервенция, под которой понимают существенное кратковременное воздействие на временной ряд.
Примером интервенции могут служить события «черного вторника» 1994г., когда курс доллара за день вырос на несколько десятков процентов. Случайная составляющая ряда отражает воздействие многочисленных факторов случайного характера и может иметь разнообразную структуру, начиная от простейшей в виде «белого шума» до весьма сложных, описываемых моделями авторегрессии-скользящего среднего (подробнее дальше). После выделения структурных компонент необходимо специфицировать форму их вхождения во временной ряд.
На верхнем уровне представления с выделением лишь детерминированной и случайной составляющих обычно используют аддитивную либо мультипликативную модели. Аддитивная модель имеет вид; мультипликативная –, где - значение ряда в момент t; - значение детерминированной составляющей; - значение случайной составляющей. В свою очередь, детерминированная составляющая может быть представлена как аддитивная комбинация детерминированных компонент:, как мультипликативная комбинация:, либо как смешанная комбинация, например, Тренд отражает действие постоянных долговременных факторов и носит плавный характер, так что для описания тренда широко используют полиномиальные модели, линейные по параметрам, где значения степени k полинома редко превышает 5. Наряду с полиномиальными моделями экономические данные, описывающие процессы роста, часто аппроксимируются следующими моделями: – экспоненциальной. Эта модель описывает процесс с постоянным темпом прироста, то есть – логистической У процесса, описываемого логистической кривой, темп прироста изучаемой характеристики линейно падает с увеличением y, то есть – Гомперца. Эта модель описывает процесс, в котором темп прироста исследуемой характеристики пропорционален ее логарифму.
Две последние модели задают кривые тренда S -образной формы, представляя процессы с нарастающим темпом роста в начальной стадии с постепенным замедлением в конце. При подборе подходящей функциональной зависимости, иначе спецификации тренда, весьма полезным является графическое представление временного ряда.
Отметим также, что тренд, отражая действие долговременных факторов, является определяющим при построении долговременных прогнозов. 3.2 Модели сезонной компоненты Сезонный эффект во временном ряде проявляется на «фоне» тренда и его выделение оказывается возможным после предварительной оценки тренда. (Здесь не рассматриваются методы спектрального анализа, позволяющего выделить вклад сезонной компоненты в спектр без вычисления других компонент ряда). Действительно, линейно растущий ряд помесячных данных будет иметь схожие эффекты в одноименных точках – наименьшее значение в январе и наибольшее в декабре; однако вряд ли здесь уместно говорить о сезонном эффекте: исключив линейный тренд, мы получим ряд, в котором сезонность полностью отсутствует. В то же время ряд, описывающий помесячные объемы продаж новогодних открыток, хотя и будет иметь такую же особенность (минимум продаж в январе и максимум в декабре) будет носить скорее всего колебательный характер относительно тренда, что позволяет специфицировать эти колебания как сезонный эффект. В простейшем случае сезонный эффект может проявляться в виде строго периодической зависимости., для любого t, где t - период сезонности. В общем случае значения, отстоящие на t могут быть связаны функциональной зависимостью, то есть.
К примеру, сезонный эффект сам может содержать трендовую составляющую, отражающую изменение амплитуды колебаний. Если сезонный эффект входит в ряд аддитивно, то модель сезонного эффекта можно записать как, где - булевы, иначе индикаторные, переменные, по одной на каждый такт внутри периода t сезонности.
Так, для ряда месячных данных =0 для всех t, кроме января каждого года, для которого =1 и так далее. Коэффициент при показывает отклонение январских значений от тренда, - отклонение февральских значений и так далее. Чтобы снять неоднозначность в значениях коэффициентов сезонности, вводят дополнительное ограничение, так называемое условие репараметризации, обычно.
Анализ Временных Рядов Для Чайников
В том случае, когда сезонный эффект носит мультипликативный характер, то есть модель ряда с использованием индикаторных переменных можно записать в виде Коэффициенты, в этой модели принято называть сезонными индексами. Для полностью мультипликативного ряда обычно проводят процедуру линеаризации операцией логарифмирования. Условимся называть представленные модели сезонного эффекта «индикаторными». Если сезонный эффект достаточно «гладкий» – близок к гармонике, используют «гармоническое» представление, где d - амплитуда, w - условия частоты (в радианах в единицу времени), a - фаза волны.
Поскольку фаза обычно заранее неизвестна. Последнее выражение записывают как, где,.
Параметры А и В можно оценить с помощью обычно регрессии. Угловая частота w считается известной. Если качество подгонки окажется неудовлетворительным, наряду с гармоникой w основной волны в модель включают дополнительно первую гармонику (с удвоенной основной частотой 2 w ), при необходимости и вторую и так далее гармоники. В принципе, из двух представлений: индикаторного и гармоничного – следует выбирать то, которое потребует меньшего числа параметров.
Интервенция, представляющая собой воздействие, существенно превышающее флуктуации ряда, может носить характер «импульса» или «ступеньки». Импульсное воздействие кратковременно: начавшись, оно почти тут же заканчивается. Ступенчатое воздействие длительно, носит устойчивый характер.
Обобщенная модель интервенции имеет вид, где - значение детерминированной компоненты ряда, описываемой как интервенция; - коэффициенты типа авторегрессии; - коэффициенты типа скользящего среднего; - экзогенная переменная одного из двух типов; («ступень»), или («импульс») где - фиксированный момент времени, называемый моментом интервенции. Приведенные в п.3.1 спецификации ряда являются параметрическими функциями времени. Оценивание параметров может быть проведено по методу наименьших квадратов так же, как в регрессионном анализе.
Хотя статистические предпосылки регрессионного анализа (см п. ) во временных рядах часто не выполняются (особенно п.5 – некоррелированность возмущений), тем не менее оценки тренда оказываются приемлемыми, если модель специфицирована правильно и среди наблюдений нет больших выбросов. Нарушение предпосылок регрессионного анализа сказывается не столько на оценках коэффициентов, сколько на их статистических свойствах, в частности, искажаются оценки дисперсии случайной составляющей и доверительные интервалы для коэффициентов модели. В литературе описываются методы оценивания в условиях коррелированности возмущений, однако их применение требует дополнительной информации о корреляции наблюдений. Главная проблема при выделении тренда состоит в том, что подобрать единую спецификацию для всего временного часто невозможно, поскольку меняются условия протекания процесса. Учет этой изменчивости особенно важен, если тренд вычисляется для целей прогнозирования.
Здесь сказывается особенность именно временных рядов: данные относящиеся к «далекому прошлому» будут неактуальными, бесполезными или даже «вредными» для оценивания параметров модели текущего периода. Вот почему при анализе временных рядов широко используются процедуры взвешивания данных. Для учета изменчивости условий модель ряда часто наделяют свойством адаптивности, по крайней мере, на уровне оценок параметров. Адаптивность понимается в том смысле, что оценки параметров легко пересчитываются по мере поступления новых наблюдений. Конечно, и обычному методу наименьших квадратов можно придать черты адаптивности, пересчитывая оценки каждый раз, вовлекая в процесс вычислений старые данные плюс свежие наблюдения. Однако при этом каждый новый пересчет ведет к изменению прошлых оценок, тогда как адаптивные алгоритмы свободны от этого недостатка. 4.1 Скользящие средние Метод скользящих средних – один из самых старых и широко известных способов выделения детерминированной составляющей временного ряда.
Суть метода состоит в усреднении исходного ряда на интервале времени, длина которого выбрана заранее. При этом сам выбранный интервал скользит вдоль ряда, сдвигаясь каждый раз на один такт вправо (отсюда название метода).
За счет усреднения удается существенно уменьшить дисперсию случайной составляющей. Ряд новых значений становится более гладким, вот почему подобную процедуру называют сглаживанием временного ряда. Процедуру сглаживания рассмотрим вначале для ряда, содержащего лишь трендовую составляющую, на которую аддитивно наложен случайных компонент.
Как известно, гладкая функция может быть локально представлена в виде полинома с довольно высокой степенью точности. Отложим от начала временного ряда интервал времени длиной (2 m +1) точек и построим полином степени m для отобранных значений и используем этот полином для определения значения тренда в ( m +1 )-й, средней, точке группы. Построим для определенности полином 3-го порядка для интервала из семи наблюдений. Для удобства дальнейших преобразований занумеруем моменты времени внутри выбранного интервала так, чтобы его середина имела нулевое значение, т.е. T = -3, -2, -1, 0, 1, 2, 3. Запишем искомый полином:.
Константы находим методом наименьших квадратов:. Дифференцируем по коэффициентам:;;. Суммы нечетных порядков t от -3 до +3 равны 0, и уравнения сводятся к виду:;;;. Используя первое и третье из уравнений, получаем при t=0: (1) Следовательно, значение тренда в точке t = 0 равно средневзвешенному значению семи точек с данной точкой в качестве центральной и весами, которые в силу симметрии можно записать короче:. Для того чтобы вычислить значение тренда в следующей, (m+2)-й точке исходного ряда (в нашем случае пятой), следует воспользоваться формулой (1), где значения наблюдений берутся из интервала, сдвинутого на такт вправо, и т.д. До точки N - m. Далее приводятся формулы для подсчета скользящего среднего подбором полиномов второго и третьего порядка к отрезкам ряда длиной до 9 точек: количество точек формула 5 7 9.
Свойства скользящих средних: 1) сумма весов равна единице (т.к. Сглаживание ряда, все члены которого равны одной и той же константе, должно приводить к той же константе); 2) веса симметричны относительно серединного значения; 3) формулы не позволяют вычислить значения тренда для первых и последних m значений ряда; 4) можно вывести формулы для построения трендов на четном числе точек, однако при этом были бы получены значения трендов в серединах временных тактов. Значение тренда в точках наблюдений можно определить в этом случая как полусумма двух соседних значений тренда. Следует отметить, что при четном числе 2 m тактовв интервале усреднения (двадцать четыре часа в сутки, четыре недели в месяце, двенадцать месяцев в году), широко практикуется простое усреднение с весами. Пусть имеются, например, наблюдения на последний день каждого месяца с января по декабрь. Простое усреднение 12 точек с весами дает значение тренда в середине июля.
Чтобы получить значение тренда на конец июля надо взять среднее значение тренда в середине июля и середине августа. Оказывается, это эквивалентно усреднению 13-месячных данных, но значения на краях интервала берут с весами.
Итак, если интервал сглаживания содержит четное число 2 m точек, в усреднении задействуют не 2 m, а 2 m +1 значений ряда:. Скользящие средние, сглаживая исходный ряд, оставляют в нем трендовую и циклическую составляющие. Выбор величины интервала сглаживания должен делаться из содержательных соображений. Если ряд содержит сезонный компонент, то величина интервала сглаживания выбирается равной или кратной периоду сезонности. В отсутствии сезонности интервал сглаживания берется обычно в диапазоне три-семь Эффект Слуцкого-Юла Рассмотрим, как влияет процесс сглаживания на случайную составляющую ряда, относительно которой будем полагать, что она центрирована и соседние члены ряда некоррелированы.
Скользящее среднее случайного ряда x есть:. В силу центрированности x и отсутствия корреляций между членами исходного ряда имеем:. Из полученных соотношений видно, что усреднение приводит к уменьшению дисперсии колебаний. Кроме того члены ряда, полученные в результате усреднения, не являются теперь независимыми. Производный, сглаженный, ряд имеет ненулевые автокорреляции (корреляции между членами ряда, разделенных k-1 наблюдениями) вплоть до порядка 2m. Таким образом производный ряд будет более гладким, чем исходный случайный ряд, и в нем могут проявляться систематические колебания.
Этот эффект называется эффектом Слуцкого-Юла. Если имеется ряд, содержащий полином (или локально представляемый полиномом) с наложенным на него случайным элементом, то было бы естественно исследовать, нельзя ли исключить полиномиальную часть вычислением последовательных разностей ряда. Действительно, разности полинома порядка k представляют собой полином порядка k-1. Далее, если ряд содержит полином порядка p, то переход к разностям, повторенный (p+1) раз, исключает его и оставляет элементы, связанные со случайной компонентой исходного ряда. Рассмотрим, к примеру, переход к разностям в ряде, содержащим полином третьего порядка. 0 1 8 27 64 125 1 7 19 37 61 6 12 18 24 6 6 6 0 0 Взятие разностей преобразует случайную составляющую ряда.
В общем случае получаем:;;;;. Из последнего соотношения получаем. Следовательно, метод последовательных разностей переменной состоит в вычислении первых, вторых, третьих и т.д. Разностей, определении сумм квадратов, делении на и т.д. И обнаружения момента, когда это отношение становится постоянным. Таким образом мы получаем оценки порядка полинома, содержащегося в исходном ряде, и дисперсии случайного компонента.
Методы построения функций для описания наблюдений до сих пор основывался на критерии наименьших квадратов, в соответствии с которым все наблюдения имеют равный вес. Однако, можно предположить, что недавним точкам следует придавать в некотором смысле больший вес, а наблюдения, относящиеся к далекому прошлому, должны иметь по сравнению с ними меньшую ценность. До некоторой степени мы учитывали это в скользящих средних с конечной длиной отрезка усреднения, где значения весов, приписываемых группе из 2m+1 значений, не зависят от предшествующих значений. Теперь обратимся к другому методу выделения более «свежих» наблюдений. Рассмотрим ряд весов, пропорциональных множителю b, а именно и т.д. Так как сумма весов должна равняться единице, т.е., весами фактически будут и т.д.
Анализ Временных Рядов И Прогнозирование
( предполагается, что 0 y t+1 y t-1 y t y t+1 или y t-1 y t q. Модель приобретает вид (1) ( В (1) коэффициенты переобозначены через.) Соотношение (1) определяет процесс скользящего среднего порядка q, или сокращенно СС( q ).
Условие обратимости ( ) для процесса СС( q ) выполняется, если корни многочлена b ( В ) лежат вне единичного круга. Найдем дисперсию процесса СС( q ): Все смешанные произведения вида равны нулю в силу некоррелированности возмущений в разные моменты времени. Для нахождения автокорреляционной функции процесса СС( q ) последовательно умножим (1) на и возьмем математическое ожидание (2) В правой части выражения (2) останутся только те члены, которые отвечают одинаковым временным тактам (см. Рис ) ( k =2) Следовательно, выражение (2) есть (3) поделив (3) на, получим (4) Тот факт, что автокорреляционная функция процесса СС(q) имеет конечную протяженность ( q тактов) – характерная особенность такого процесса.
Если известны, то (4) можно в принципе разрешить относительно параметров. Уравнения (4) нелинейные и в общем случае имеют несколько решений, однако условие обратимости всегда выделяет единственное решение. Как уже отмечалось, обратимые процессы СС можно рассматривать как бесконечные АР- процессы -АР(¥). Следовательно, частная автокорреляцонная функция процесса СС( р ) имеет бесконечную протяженность. Итак, у процесса СС( q ) автокорреляционная функция обрывается на лаге q, тогда как частная автокорреляционная функция плавно спадает. 10.1.5 Комбинированные процессы авторегрессии - скользящего среднего Хотя модели АР( р ) и СС( q ) позволяют описывать многие реальные процессы, число оцениваемых параметров может оказываться значительным. Для достижения большей гибкости и экономичности описания при подборе моделей к наблюдаемым временным рядам весьма полезными оказались смешанные модели, содержащие в себе и авторегрессию и скользящее среднее.
Эти модели были предложены Боксом и Дженкинсом и получили название модели авторегрессии - скользящего среднего (сокращенно АРСС( р, q )): (1) С использованием оператора сдвига В модель (1) может быть представлена более компактно:, ( ) где а ( В )—авторегрессионный оператор порядка р, b ( В )—оператор скользящего среднего порядка q. Модель ( ) может быть записаны и так: Рассмотрим простейший смешанный процесс АРСС(1,1) Согласно (2) Из соотношения (2) видно, что модель АРСС(1,1) является частным случаем общей линейной модели ( ) с коэффициентами ( j 0) Из (2) легко получить выражение для дисперсии: Для получения корреляционной функции воспользуемся тем же приемом, что и при анализе моделей авторегрессии. Умножим обе части модельного представления процесса АРСС(1,1) на и возьмем математическое ожидание: или (с учетом того, что второе слагаемое в правой части равенства равно нулю) Поделив ковариации на дисперсию получаем выражения для автокорреляции полученные соотношения показывают, что экспоненциально убывает от начального значения, зависящего от и при этом, если , то затухание монотонное; при 0. Отсюда следует, что для значений q +1 автоковариации и автокорреляции удовлетворяют тем же соотношениям, что и в модели АР( р ): В итоге оказывается, что при q p будет q - p значений, выпадающих из данной схемы.
10.1.6 Интегрированная модель авторегрессии- скользящего среднего Модель АРСС допускает обобщение на случай, когда случайный процесс является нестационарным. Ярким примером такого процесса являются «случайные блуждания»: (1) С использованием оператора сдвига модель (1) принимает вид (2) Из (2) видно, что процесс (1) расходящийся, поскольку. Характеристическое уравнение этого процесса имеет корень, равный единице, то есть имеет место пограничный случай, когда корень характеристического уравнения оказался на границе единичной окружности. В то же время, если перейти к первым разностям, то процесс окажется стационарным. В общем случае полагается, что нестационарный авторегрессионный оператор в модели АРСС имеет один или несколько корней, равных единице. Иными словами, является нестационарным оператором авторегрессии порядка p + d; d корней уравнения =0 равны единице, а остальные р корней лежат вне единичного круга. Тогда можно записать, что, где a ( B ) – стационарный оператор авторегрессии порядка р (с корнями вне единичного круга).
Введем оператор разности, такой.