機器學習 day1(2021.4.22)
緒論1.1和1.2:
機器學習致力于研究如何通過計算的手段,利用經驗來改善系統自身的性能.主要內容是從數據中產生“模型”的算法,即“學習算法”。
一個函數y=f(x),學得f后,對x測試得到預測標記y
關于x(函數的輸入):
一個樣本(或稱示例)有自己的屬性(或稱特征)以及屬性對應的屬性值,屬性張開的空間稱為屬性空間、樣本空間、輸入空間.我們可以這樣理解,比如描述一個西瓜有三個屬性:敲聲,色澤,根蒂,這三個屬性就相當于三維空間坐標系的xyz軸,每個軸上根據屬性值有對應個數的刻度,每個西瓜根據屬性值都能在該三維坐標系中找到自己的位置。如果描述樣本有n個屬性,就相當于是一個n維坐標系。數據集則是從樣本空間中選取了一部分樣本構成的集合.由于空間中的每個點對應一個坐標向量,每個樣本也可以稱為一個特征向量。
牢記關于以上內容的數學描述...
關于f(如何由x轉換到y):
從數據中學得模型的過程稱為學習或訓練,這個過程通過執行某個學習算法來完成.訓練過程中使用的數據稱為訓練數據,每個樣本稱為一個訓練樣本,訓練樣本組成了訓練集。學得模型對應了關于數據的某種潛在規律,稱為假設;該潛在規律稱為真相或真實。學習過程就是無限接近真實的過程(我想到了馬克思主義...)
關于y(函數輸出):
如果把每個屬性都對應某個屬性值所構成的一個樣本我們把它定義為我們想要的最終結果(比如敲聲濁響,色澤青綠,根蒂蜷縮的西瓜是好瓜),我們把這個屬性集(書中大概是沒有這個概念,我個人這么理解)定義為一個標記,擁有該標記的個體,被稱為樣例,所有的樣例組成了一個標記空間或輸出空間。
分類預測的是離散值(比如西瓜是好瓜還是壞瓜,類似一個布爾量0和1);回歸預測的是連續值(比如西瓜的甜度,它是一個連續的量)
學得模型后對樣本進行預測的過程稱為測試(建立了一個模型,然后利用該模型從一堆瓜中挑出好瓜或者選出人群中的新冠患者等),被預測的樣本稱為測試樣本。
聚類則是把訓練集根據某個標準分成了不同的組,每個組被稱為簇,聚類不需要根據標記去劃分簇。
根據訓練數據是否擁有標記信息,學習任務可以分為有監督學習和無監督學習。顯而易見,分類和回歸是有監督,而聚類是無監督。
什么樣的模型才是一個好的模型呢?我們希望這個模型會“舉一反三”,也就是說它的泛化能力要強。所謂泛化能力就是說學得模型適用于新樣本的能力,我們肯定不希望辛苦建立的模型只能用于該特定問題,我們希望它能解決多種問題,甚至一勞永逸(當然是不可能的),通過學習獲得具有強泛化能力的模型。
ps:感覺自己梳理一遍之后,對于這一小節的內容有了一個大概的了解和一絲整體上的聯系,雖然浪費時間,但是我覺得還是值得的。

浙公網安備 33010602011771號