Day 7. Machine Learning [ K - Means ] ( Local Clustering )

2019. 6. 16. 21:52

from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import utils
import pandas as pd
import numpy as np
from itertools import cycle, islice
import matplotlib.pyplot as plt
from pandas.plotting import parallel_coordinates

%matplotlib inline

In [5]:

data = pd.read_csv('./minute_weather.csv')

In [6]:

data.head()

Out[6]:

	rowID	hpwren_timestamp	air_pressure	air_temp	avg_wind_direction	avg_wind_speed	max_wind_direction	max_wind_speed	min_wind_direction	min_wind_speed	rain_accumulation	rain_duration	relative_humidity
0	0	2011-09-10 00:00:49	912.3	64.76	97.0	1.2	106.0	1.6	85.0	1.0	NaN	NaN	60.5
1	1	2011-09-10 00:01:49	912.3	63.86	161.0	0.8	215.0	1.5	43.0	0.2	0.0	0.0	39.9
2	2	2011-09-10 00:02:49	912.3	64.22	77.0	0.7	143.0	1.2	324.0	0.3	0.0	0.0	43.0
3	3	2011-09-10 00:03:49	912.3	64.40	89.0	1.2	112.0	1.6	12.0	0.7	0.0	0.0	49.5
4	4	2011-09-10 00:04:49	912.3	64.40	185.0	0.4	260.0	1.0	100.0	0.1	0.0	0.0	58.8

In [7]:

data.describe()

Out[7]:

	rowID	air_pressure	air_temp	avg_wind_direction	avg_wind_speed	max_wind_direction	max_wind_speed	min_wind_direction	min_wind_speed	rain_accumulation	rain_duration	relative_humidity
count	1.587257e+06	1.587257e+06	1.587257e+06	1.586824e+06	1.586824e+06	1.586824e+06	1.586824e+06	1.586824e+06	1.586824e+06	1.587256e+06	1.587256e+06	1.587257e+06
mean	7.936280e+05	9.168301e+02	6.185144e+01	1.619654e+02	2.774272e+00	1.634030e+02	3.399813e+00	1.668264e+02	2.133130e+00	1.854836e-03	5.361460e-01	4.760837e+01
std	4.582018e+05	3.051593e+00	1.183362e+01	9.520812e+01	2.060758e+00	9.236723e+01	2.423167e+00	9.746275e+01	1.745345e+00	9.609716e-01	8.114766e+01	2.621454e+01
min	0.000000e+00	9.050000e+02	3.164000e+01	0.000000e+00	0.000000e+00	0.000000e+00	1.000000e-01	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	7.000000e-01
25%	3.968140e+05	9.148000e+02	5.270000e+01	6.200000e+01	1.300000e+00	6.800000e+01	1.600000e+00	7.700000e+01	8.000000e-01	0.000000e+00	0.000000e+00	2.470000e+01
50%	7.936280e+05	9.167000e+02	6.224000e+01	1.820000e+02	2.200000e+00	1.870000e+02	2.700000e+00	1.800000e+02	1.600000e+00	0.000000e+00	0.000000e+00	4.470000e+01
75%	1.190442e+06	9.187000e+02	7.088000e+01	2.170000e+02	3.800000e+00	2.230000e+02	4.600000e+00	2.120000e+02	3.000000e+00	0.000000e+00	0.000000e+00	6.800000e+01
max	1.587256e+06	9.295000e+02	9.950000e+01	3.590000e+02	3.230000e+01	3.590000e+02	3.600000e+01	3.590000e+02	3.200000e+01	6.550100e+02	6.330500e+04	9.300000e+01

In [8]:

data.columns

Out[8]:

Index(['rowID', 'hpwren_timestamp', 'air_pressure', 'air_temp',
       'avg_wind_direction', 'avg_wind_speed', 'max_wind_direction',
       'max_wind_speed', 'min_wind_direction', 'min_wind_speed',
       'rain_accumulation', 'rain_duration', 'relative_humidity'],
      dtype='object')

In [11]:

data[data.isnull().any(axis=1)]

Out[11]:

	rowID	hpwren_timestamp	air_pressure	air_temp	avg_wind_direction	avg_wind_speed	max_wind_direction	max_wind_speed	min_wind_direction	min_wind_speed	rain_accumulation	rain_duration	relative_humidity
0	0	2011-09-10 00:00:49	912.3	64.76	97.0	1.2	106.0	1.6	85.0	1.0	NaN	NaN	60.5
34790	34790	2011-10-04 10:25:48	915.7	51.08	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.0
35929	35929	2011-10-05 05:24:48	915.2	49.64	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	92.0
36320	36320	2011-10-05 11:55:49	914.7	50.00	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.9
36321	36321	2011-10-05 11:56:49	914.7	50.00	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.9
36322	36322	2011-10-05 11:57:49	914.7	50.00	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.9
36323	36323	2011-10-05 11:58:49	914.6	50.00	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.9
36324	36324	2011-10-05 11:59:49	914.7	50.00	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.9
36325	36325	2011-10-05 12:00:49	914.6	50.00	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.9
36326	36326	2011-10-05 12:01:49	914.6	50.00	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	92.0
36327	36327	2011-10-05 12:02:49	914.5	50.18	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	92.0
36328	36328	2011-10-05 12:03:49	914.5	50.18	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	92.0
36329	36329	2011-10-05 12:04:49	914.5	50.18	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	92.0
36330	36330	2011-10-05 12:05:49	914.4	50.18	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	92.0
36331	36331	2011-10-05 12:06:49	914.4	50.18	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.9
64745	64745	2011-10-25 05:40:49	918.6	51.08	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.9
79098	79098	2011-11-04 04:53:50	911.0	48.92	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.5
79099	79099	2011-11-04 04:54:50	911.0	48.92	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.5
79100	79100	2011-11-04 04:55:50	911.1	48.92	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.4
79101	79101	2011-11-04 04:56:50	911.1	48.92	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.5
79102	79102	2011-11-04 04:57:50	911.1	48.92	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.5
79103	79103	2011-11-04 04:58:50	911.0	48.92	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.5
79104	79104	2011-11-04 04:59:50	911.0	48.92	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.5
79105	79105	2011-11-04 05:00:50	910.9	48.92	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.5
79106	79106	2011-11-04 05:01:50	911.0	48.92	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.5
79107	79107	2011-11-04 05:02:50	910.9	48.92	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.6
79108	79108	2011-11-04 05:03:50	910.9	48.92	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.6
79250	79250	2011-11-04 07:25:50	910.6	48.02	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.8
79609	79609	2011-11-04 13:24:50	908.6	45.14	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.7
79723	79723	2011-11-04 15:18:50	906.9	46.04	NaN	NaN	NaN	NaN	NaN	NaN	0.0	10.0	91.6
...	...	...	...	...	...	...	...	...	...	...	...	...	...
1346164	1346164	2014-03-27 08:46:32	917.1	44.78	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.2
1346165	1346165	2014-03-27 08:47:32	917.1	44.78	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.2
1346166	1346166	2014-03-27 08:48:32	917.1	44.78	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.2
1346167	1346167	2014-03-27 08:49:32	917.1	44.96	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.2
1346168	1346168	2014-03-27 08:50:32	917.1	44.78	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.1
1346169	1346169	2014-03-27 08:51:32	917.2	44.78	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.1
1346170	1346170	2014-03-27 08:52:32	917.1	44.60	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.1
1346171	1346171	2014-03-27 08:53:32	917.1	44.60	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.1
1346172	1346172	2014-03-27 08:54:32	917.1	44.78	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.2
1346173	1346173	2014-03-27 08:55:32	917.1	44.96	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.2
1346174	1346174	2014-03-27 08:56:32	917.1	44.78	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.2
1346175	1346175	2014-03-27 08:57:32	917.0	44.78	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.1
1346176	1346176	2014-03-27 08:58:32	917.0	44.96	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.2
1346177	1346177	2014-03-27 08:59:32	917.1	45.14	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.2
1346178	1346178	2014-03-27 09:00:32	917.1	44.96	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.2
1346179	1346179	2014-03-27 09:01:32	917.2	44.96	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.1
1346180	1346180	2014-03-27 09:02:32	917.1	44.96	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.1
1346181	1346181	2014-03-27 09:03:32	917.2	44.78	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.1
1346182	1346182	2014-03-27 09:04:32	917.2	44.78	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.1
1346183	1346183	2014-03-27 09:05:32	917.2	44.60	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.1
1346184	1346184	2014-03-27 09:06:32	917.3	44.60	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.1
1346185	1346185	2014-03-27 09:07:32	917.3	44.60	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.1
1346186	1346186	2014-03-27 09:08:32	917.3	44.78	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.2
1346187	1346187	2014-03-27 09:09:32	917.4	44.96	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.2
1346188	1346188	2014-03-27 09:10:32	917.3	45.14	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.2
1346189	1346189	2014-03-27 09:11:32	917.4	45.14	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.2
1346190	1346190	2014-03-27 09:12:32	917.4	45.14	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.2
1346191	1346191	2014-03-27 09:13:32	917.4	44.96	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.1
1346192	1346192	2014-03-27 09:14:32	917.5	44.96	NaN	NaN	NaN	NaN	NaN	NaN	0.0	0.0	91.2
1394844	1394844	2014-04-30 06:21:49	916.7	62.06	NaN	NaN	NaN	NaN	NaN	NaN	0.0	10.0	13.8

434 rows × 13 columns

In [12]:

data.shape

Out[12]:

(1587257, 13)

In [14]:

sampled_df = data[ (data['rowID'] % 10 ) == 0 ]
sampled_df.shape

Out[14]:

(158726, 13)

In [17]:

# Use Tanspose() Here To Focus Mean Values Of Every Columns
sampled_df.describe().transpose()

Out[17]:

	count	mean	std	min	25%	50%	75%	max
rowID	158726.0	793625.000000	458203.937509	0.00	396812.5	793625.00	1190437.50	1587250.00
air_pressure	158726.0	916.830161	3.051717	905.00	914.8	916.70	918.70	929.50
air_temp	158726.0	61.851589	11.833569	31.64	52.7	62.24	70.88	99.50
avg_wind_direction	158680.0	162.156100	95.278201	0.00	62.0	182.00	217.00	359.00
avg_wind_speed	158680.0	2.775215	2.057624	0.00	1.3	2.20	3.80	31.90
max_wind_direction	158680.0	163.462144	92.452139	0.00	68.0	187.00	223.00	359.00
max_wind_speed	158680.0	3.400558	2.418802	0.10	1.6	2.70	4.60	36.00
min_wind_direction	158680.0	166.774017	97.441109	0.00	76.0	180.00	212.00	359.00
min_wind_speed	158680.0	2.134664	1.742113	0.00	0.8	1.60	3.00	31.60
rain_accumulation	158725.0	0.000318	0.011236	0.00	0.0	0.00	0.00	3.12
rain_duration	158725.0	0.409627	8.665523	0.00	0.0	0.00	0.00	2960.00
relative_humidity	158726.0	47.609470	26.214409	0.90	24.7	44.70	68.00	93.00

In [21]:

n_NoRainDays = sampled_df[sampled_df['rain_accumulation' ] == 0 ].shape

In [20]:

sampled_df[sampled_df['rain_duration' ] == 0 ].shape

Out[20]:

(157237, 13)

In [24]:

(sampled_df.shape[0] - n_NoRainDays[0]) / sampled_df.shape[0]

Out[24]:

0.005758350868792762

In [25]:

# It's Better To Delete Very Common Feature In Dataset For Proper Clustering

del sampled_df['rain_accumulation']
del sampled_df['rain_duration'    ]

In [27]:

sampled_df.columns

Out[27]:

Index(['rowID', 'hpwren_timestamp', 'air_pressure', 'air_temp',
       'avg_wind_direction', 'avg_wind_speed', 'max_wind_direction',
       'max_wind_speed', 'min_wind_direction', 'min_wind_speed',
       'relative_humidity'],
      dtype='object')

In [28]:

n_rows_before = sampled_df.shape[0]
sampled_df    = sampled_df.dropna()

In [29]:

n_rows_before - sampled_df.shape[0]

Out[29]:

In [30]:

sampled_df.columns

Out[30]:

Index(['rowID', 'hpwren_timestamp', 'air_pressure', 'air_temp',
       'avg_wind_direction', 'avg_wind_speed', 'max_wind_direction',
       'max_wind_speed', 'min_wind_direction', 'min_wind_speed',
       'relative_humidity'],
      dtype='object')

In [37]:

feature = [ 'air_pressure','air_temp','avg_wind_direction','avg_wind_speed',
          'max_wind_speed','max_wind_speed', 'relative_humidity']

In [38]:

select_df = sampled_df[feature]

In [39]:

select_df.columns

Out[39]:

Index(['air_pressure', 'air_temp', 'avg_wind_direction', 'avg_wind_speed',
       'max_wind_speed', 'max_wind_speed', 'relative_humidity'],
      dtype='object')

In [40]:

select_df.shape

Out[40]:

(158680, 7)

In [41]:

select_df.head()

Out[41]:

	air_pressure	air_temp	avg_wind_direction	avg_wind_speed	max_wind_speed	max_wind_speed	relative_humidity
0	912.3	64.76	97.0	1.2	1.6	1.6	60.5
10	912.3	62.24	144.0	1.2	1.8	1.8	38.5
20	912.2	63.32	100.0	2.0	2.5	2.5	58.3
30	912.2	62.60	91.0	2.0	2.4	2.4	57.9
40	912.2	64.04	81.0	2.6	2.9	2.9	57.4

In [45]:

# To Keep Values Of Columns Comparable, Scaling Is Needed

# Fit_Transform Function Is Combined Fit And Transfrom Operations
# Which means that It will Find How To Scale The DataFrame And Apply It

x = StandardScaler().fit_transform(select_df)
x[ : 5]

Out[45]:

array([[-1.48456281,  0.24544455, -0.68385323, -0.76555283, -0.74440309,
        -0.74440309,  0.49233835],
       [-1.48456281,  0.03247142, -0.19055941, -0.76555283, -0.66171726,
        -0.66171726, -0.34710804],
       [-1.51733167,  0.12374562, -0.65236639, -0.37675365, -0.37231683,
        -0.37231683,  0.40839371],
       [-1.51733167,  0.06289616, -0.74682691, -0.37675365, -0.41365975,
        -0.41365975,  0.39313105],
       [-1.51733167,  0.18459509, -0.85178304, -0.08515426, -0.20694517,
        -0.20694517,  0.37405273]])

In [49]:

kmeans = KMeans(n_clusters = 12 )
model  = kmeans.fit(x)
print("model \n", model)

model 
 KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
    n_clusters=12, n_init=10, n_jobs=None, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)

In [50]:

centers = model.cluster_centers_
len(centers)

Out[50]:

Plots

In [51]:

# Function That Creates A DataFrame With A Column For Cluster Number
def pd_centers(featureUsed, centers):
    colNames = list(featureUsed)
    colNames.append('prediction')
    
    # Zip With A Column Called 'prediction' (Index)
    
    Z = [ np.append(A, index) for index, A in enumerate(centers)]
    
    # Convert To Pandas DataFrame For Plotting
    P = pd.DataFrame( Z, columns = colNames )
    P[ 'prediction' ] = P[ 'prediction' ].astype(int)
    return P

In [57]:

# Function That Creates Parallel Plots

def parallel_plot(data):
    my_colors = list(islice(cycle(['b', 'r', 'g', 'y', 'k' ]), None , len(data)))
    plt.figure(figsize = (15, 8)).gca().axes.set_ylim([-3, +3])
    parallel_coordinates(data, 'prediction', color = my_colors, marker = 'o')

In [55]:

# 다수의 피처를 가진 레코드들을 한번에 표현하기에 parallel polt이 가장 유용하다.

P = pd_centers(feature, centers)
P.head()

Out[55]:

	air_pressure	air_temp	avg_wind_direction	avg_wind_speed	max_wind_speed	max_wind_speed	relative_humidity	prediction
0	0.140687	-0.853064	-1.154650	-0.650211	-0.660119	-0.660119	0.962132	0
1	-1.169510	-0.816918	0.439457	1.971623	1.937898	1.937898	0.865587	1
2	-0.203257	0.920037	-1.265776	-0.659689	-0.673215	-0.673215	-0.640406	2
3	-0.108018	1.184441	1.069376	-0.645328	-0.620734	-0.620734	-0.744369	3
4	-0.752735	0.226243	0.112486	-0.564372	-0.578224	-0.578224	0.135827	4

In [58]:

# Dry Days
parallel_plot(P[P['relative_humidity'] < -0.5 ])

In [60]:

# Warm Days
parallel_plot(P[P['air_temp'] > 0.5 ])

In [61]:

# Cool Days
parallel_plot(P[ (P['relative_humidity'] > 0.5) & (P['air_temp'] < 0.5) ])

특정 구간에서 비슷하다가 한 피처에서 정 반대의 양상을 보이는 두개의 클러스터는 뚜렷히 구분이 되는 클러스터라고 볼 수 있다.
특정 피처에서 다른 모든 클러스터와 정 반대의 양상을 보이는 하나의 클러스터는 다른 클러스터와 다른 특별한 특징을 가지고 있다고 볼 수 있다.

저작자표시

'Python Library > Pandas' 카테고리의 다른 글

Day 7. Drawing Graphs With Pandas (0)	2019.07.02
Day 7. Machine Learning [ Linear Regression ] ( European Soccer Data ) (0)	2019.06.16
Day 7. Machine Learning [ Decision Trees ] ( Weather Classification ) (0)	2019.06.16
Day 6. Handling Timestamps with Pandas (0)	2019.06.16
Day 6. String Operations with Pandas (0)	2019.06.16

Software knowledge worth spreading

Day 7. Machine Learning [ K - Means ] ( Local Clustering )

Plots

'Python Library > Pandas' 카테고리의 다른 글

+ Recent posts

티스토리툴바