시계열
시계열은 시간에 따라 측정된 데이터의 수열입니다. 이는 시간에 따라 변화하는 현상들을 기록하고 분석하는 데 있어 사용됩니다. 기상에서는 날씨 데이터에서 기온, 풍속, 풍향 등이 시간에 따라 측정이 되는데 이런 데이터를 시계열로 표현할 수 있습니다. 시계열로 되는 데이터인지 아닌지 궁금할 때는 그래프를 그린다고 할 때 가로축을 시간으로 할 때 변화하는 그래프를 그릴 수 있는지 확인해 보시면 도움이 됩니다. 시계열 분석을 통해 기상의 패턴이나 여러 특성을 추출할 수 있고 예측하는 데 있어 시계열 데이터를 활용하여 또 다른 시계열 데이터를 확보한다고 볼 수 있습니다. 본 글에서는 시계열을 어떻게 분석하고 예측하는지에 관해 설명하겠습니다.
자료수집과 전처리
기상 데이터의 수집에는 다양한 방법이 있습니다. 지상 관측소에서 기온, 습도, 강수량, 풍향과 풍속 등을 수집하는데 가장 높은 신뢰도를 가졌다고 할 수 있습니다. 위성 관측과 레이더 관측을 통해 간접적으로 측정을 통해 데이터를 확보할 수 있는데 이런 방식은 직접 측정에 비해 다소 부정확할 수 있지만 연속적인 데이터를 확보할 수 있다는 장점이 있습니다. 해양 관측의 경우도 있는데 바닷가에 가까운 곳에 있는 기상 관측소를 통해 데이터를 확보하거나 배를 타고 나가서 직접 재는 방식이 있습니다. 배를 활용하는 경우 비용의 발생이 크기에 데이터의 양이 적고 무엇보다 시간적인 연속성을 확보하기가 가장 어렵습니다. 하지만 선박을 이용한 관측의 장점은 지상에서 멀리 떨어진 해양의 경우 데이터의 검증이 어려운데 이런 것이 가능해진다는 점에서 큰 의의가 있습니다. 이러한 방식들로 데이터를 확보하게 되면 여러 가지 형태로 저장하게 되는데 대표적인 형태는 기상청 홈페이지에서 다운받을 수 있는 엑셀의 형식이 있습니다. 이러한 데이터를 이제 전처리하게 되는데 먼저 빠진 값을 적절하게 잘 처리하여 데이터의 포맷을 맞추어 줍니다. 이후 이상치를 처리하게 되는데 관측하는 값들의 경우 데이터가 과하게 받아들여지거나 측정상의 오류로 이상한 데이터가 탐지되는 경우도 있습니다. 예를 들어 기온이 80도로 측정되는 등의 형태가 나타날 수도 있습니다. 이런 데이터를 제거하거나 적절한 값을 넣어주는 식으로 처리를 한 뒤 시계열 데이터로 활용할 수 있게 일정한 시간 간격으로 정리하고 데이터의 양식을 통일 시켜주면서 전처리를 마치게 됩니다. 데이터가 올바르게 확보되었는지를 확인하기 위해 일관성 있는 방식으로 만들어졌고 신뢰성과 빠진 데이터가 얼마나 있는지 등의 데이터 품질을 관리하는 것도 필요한 방식이라고 할 수 있습니다.
시계열 데이터의 모델링
시계열 데이터의 모델링은 시간에 따라 변화하는 데이터의 패턴과 특성을 분석하거나 예측하기 위한 통계적인 기법을 말합니다. 먼저 시계열 데이터를 분해하면서 시작됩니다. 시계열 데이터의 경향성, 주기성 등을 각각 분리하여 분석하는 과정인데 이는 규칙적으로 반복되는 특성을 주기의 길이에 따라 나누고 난 뒤 불규칙한 값을 분리해 내는 것입니다. 그 후 이런 특성이 시간에 따라 변화하지 않고 전체를 아우르는지를 확인합니다. 이후 적절한 시계열 모델을 선택해 데이터를 대입해 결과에 대해 적절하게 설명과 예측이 나타나는지에 관해 확인합니다. 이후 예측 데이터를 생성하는 과정을 거칩니다.
시계열 모델의 평가와 검증
이 과정은 인공지능 모델에 대한 검증과 비슷한 과정으로 진행됩니다. 먼저 훈련 데이터와 테스트 데이터를 분리하여 훈련데이터를 활용하여 모델을 적합하게 만들어냅니다. 여느 모델이 그렇듯 예측 모델에 활용되는 상수 등을 조절하여 더 정확한 모델을 만들어내는 과정이 필요합니다. 그 이후 이에 대한 평가지표를 만들어서 테스트 데이터를 활용한 예측에 대해 모델의 성능을 평가합니다. 여기서 모델링의 적합 과정에서도 평가지표가 활용될 수 있습니다. 이런 과정을 거치면서 적합한 모델을 골라내고 모델의 성능을 평가하여 모델의 신뢰도를 알아낼 수 있습니다.
응용과 예측
이렇게 만들어진 모델의 마지막 과정은 예측과 응용입니다. 모델을 활용해 여러 주기성을 분리해 냈기에 당장 미래의 예측과 장기 예측을 시도해 볼 수 있습니다. 또한 데이터의 특성을 파악해 기후모델링에 적용하여 미래의 지구의 생태계라는 큰 틀의 지구를 예측해 볼 수 있습니다. 또한 재난을 예측해 미연에 방지하거나 피해를 최소화하는 데에 활용될 수 있습니다. 농업과 축산 등의 분야에서도 활용될 수 있습니다. 특히, 농작물은 큰 영향을 받아 작물의 생장이나 수확해야 할 시기를 예측함으로써 생산력의 향상에 기여할 수 있습니다.