위의 그래프는 특정시점부터 5년간 매 시간별 중국 베이징에 위치한 미국 대사관에서 측정한 대기오염도를 보여주고 있습니다.

X축은 2010년 1월 1일 0시부터 2014년 12월 31일 23시까지 매 시간을 나타내는 시계열 데이터로, 총 43,824개입니다.

Y축은 각 변량별로 다른 단위를 표시하고 있습니다.

pollution : PM 2.5 농도. 지름이 2.5마이크로미터 이하인 먼지의 농도. 우리나라에서는 초미세먼지라고도 함.

dew : 수증기가 응결할 때의 온도.

temp : 온도.

press : 기압.

wnd_spd : 풍속

snow : 강설량

rain : 강우량

다변량 시계열분석은 단변량 시계열분석을 여러 번 한것으로도 생각할 수 있지만, 변수들 사이의 관계를 알 수 있다는 장점이 있습니다.


1. Air Pollution Forecasting

In this tutorial, we are going to use the Air Quality dataset.

This is a dataset that reports on the weather and the level of pollution each hour for five years at the US embassy in Beijing, China.

The data includes the date-time, the pollution called PM2.5 concentration, and the weather information including dew point, temperature, pressure, wind direction, wind speed and the cumulative number of hours of snow and rain. The complete feature list in the raw data is as follows:

  1. No: row number
  2. year: year of data in this row
  3. month: month of data in this row
  4. day: day of data in this row
  5. hour: hour of data in this row
  6. pm2.5: PM2.5 concentration
  7. DEWP: Dew Point
  8. TEMP: Temperature
  9. PRES: Pressure
  10. cbwd: Combined wind direction
  11. Iws: Cumulated wind speed
  12. Is: Cumulated hours of snow
  13. Ir: Cumulated hours of rain

We can use this data and frame a forecasting problem where, given the weather conditions and pollution for prior hours, we forecast the pollution at the next hour.

This dataset can be used to frame other forecasting problems.
Do you have good ideas? Let me know in the comments below.

You can download the dataset from the UCI Machine Learning Repository.

Update, I have mirrored the dataset here because UCI has become unreliable:

Download the dataset and place it in your current working directory with the filename “raw.csv“.

출처 : https://machinelearningmastery.com/multivariate-time-series-forecasting-lstms-keras/