11.04機器學習記錄
# 11.04記錄
分類和回歸
分類
指預測的結果是離散的,例如預測小動物的類型,一個人是男的還是女的。這種有結果可選的預測就是分類
回歸
指預測的結果是連續的,例如預測明天蘇州的氣溫,一個人的BMI值。這類預測的結果可以精確到小數,例如氣溫可以是38.23322122333攝氏度,結果是一個具體的值。
KNN
KNN指的是把一個樣本點X,根據周圍K個樣本點來決定X的屬性,X的跟隨多的那部分。
例如,下圖中,actor為樣本點,當k=5的時候,actor就由周圍最近的5個點決定,周圍5個里面,有3個圓圈,2個正方形,那么actor就為圓圈。

K值
K值的大小會造成誤差
K太小
會產生估計誤差,例如,K=1的時候,X的命運只由一個點決定,就是離他最近的點,萬一這個點為噪聲點,那么X就被預測錯誤了,產生了估計誤差。
K太大
會產生近似誤差,例如K趨于無窮大,他會囊括所有樣本點,如果A類型少于B類型,盡管少了1個,那么X永遠是B類型。
決策規則
KNN的決策規則就是簡單的投票,通俗的說,X周圍的K個樣本點投票決定X的陣營。
歸一化
如果某個特征的值域非常大,例如銀行卡存款,那么在計算的時候,他就會占據非常大的比重,不僅不好計算,而且跟正常的情況也不相符,所以需要進行歸一化,就是把所有的值歸到[0,1]之間,計算公式:
\[(currentVal-min)/(max-min)
\]
類似與求權重的公式。
距離
常用的距離是歐氏距離,當然還有其他距離。距離就是用來決定鄰近的關鍵因素。
歐氏距離:多維空間中各點的絕對距離。
明可夫斯基距離(明氏距離):歐氏距離的一般形式,當p=2時即為歐式距離。
曼哈頓距離:明氏距離公式的p=1時即為曼哈頓距離。
余弦相似度:向量空間中2個向量的余弦值。

浙公網安備 33010602011771號