ML.Net機器學習基本知識
安裝依賴包:
- Microsoft.ML : ML.Net的主要依賴包, 一般安裝這個就夠了, 提供標準算法庫和ML context和pipeline的核心類庫
- Microsoft.Extensions.ML , 為ML包支持依賴注入
- Microsoft.ML.FastTree, 提供隨機森林相關的回歸算法
- Microsoft.ML.LightGbm, 提供 LightGbm 梯度提升集成算法
- Microsoft.ML.OnnxTransformer, 提供導入 onnx 模型能力
- Microsoft.ML.OnnxConverter, 提供導出 onnx 模型能力
- Microsoft.ML.AutoML, 實現自動超參調優
除了常規的機器學習外, Microsoft.ML 可基于下面深度學習框架, 搭建常用的深度神經網絡:
- TorchSharp
- TensorFlow.NET
自定義模型的 ModelInput 類:
ModelInput 作為模型輸入數據 IDataView 的 Row class, 為模型提供 Feature列(1個或多個) 和 Label(1個).
兩個特性的作用:
- [ColumnName] 用來設定列名, 如果沒有使用該特性, 模型將按照C#字段名來使用該列.
- [LoadColumn] 用來設定該類對應 Txt 的第幾個列, 需要從 0 開始.
如前所述, ModelInput將為模型提供 Feature 列(1個或多個) 和 Label(1個). 其中 Label 列將作為模型train data的結果標簽, 對于回歸類模型, Label 字段應該為 float, 對于分類模型, Label 列可以使字符串或數值類型, 如果是字符串型, 需要在pipeline中將它轉成數值型. Label 列可以在 ModelInput 類字段上使用 ColumnName("Label") 特性來設定, 也可以在 pipeline 中使用 Context.Transforms.CopyColumns() 來動態指定 Label 對應的字段名.
模型還需要 Features 信息, 不能直接使用C#特性來設定, 需要在Pipeline中用代碼設定.
public class ModelInput
{
[ColumnName("Temperature"), LoadColumn(0)]
public float Temperature { get; set; }
[ColumnName("Luminosity"), LoadColumn(1)]
public float Luminosity { get; set; }
[ColumnName("Infrared"), LoadColumn(2)]
public float Infrared { get; set; }
[ColumnName("Distance"), LoadColumn(3)]
public float Distance { get; set; }
[ColumnName("CreatedAt"), LoadColumn(4)]
public string CreatedAt { get; set; }
[ColumnName("Label"), LoadColumn(5)]
public string Source { get; set; }
}
自定義回歸模型的 ModelOutput 類:
針對不同的 estimator, ModelOuput 需要有不同的 IDataView Row class, 可以使用 [ColumnName()] 特性為C#字段設定成estimator要求的列名.
Regression
- Label: Original regression value of the example.
- Score: Predicted regression value.
Binary Classification
- Label: Original Label of the example.
- Score: Raw score from the learner (e.g. value before applying sigmoid function to get probability).
- Probability: Probability of being in certain class
- PredictedLabel: Predicted class.
Multi-class Classification
- Label: Original Label of the example.
- Score: Its an array whose length is equal to number of classes and contains probability for each class.
- PredictedLabel: Predicted class.
Clustering
- Label: Original cluster Id of the example.
- Score: Its an array whose length is equal to number of clusters. It contains square distance from the cluster centeriod.
- PredictedLabel: Predicted cluster Id.
public class ModelOutput
{
[ColumnName("Score")]
public float TotalStockQty;
}
Pipeline 的構成
- Pipeline 包含一系列前置 transformers 和一個 estimator 和一系列后置的 transformers
- 前置 transformer 完成數據的預處理過程, transformer 的輸入和輸出都是 IDataView 數據. IDataView 數據是一個帶有 schema 信息的、 immutable、lazy loading的高效數據容器. 通常預處理包括: 刪除某些列、 Categorical 矢量化 、Label 列數值化、歸一化處理、 聚合 Features 。
- estimator 用作模型訓練.
- 后置 transformer 完成數據的后處理過程, transformer 的輸入和輸出都是 IDataView 數據, 后處理過程不像前處理過程復雜, 很多情況下沒有后處理過程, 除非前處理過程中包含了Label 列數值化, 這時候我們需要加一個后處理過程將 PredictedLabel 列進行可讀性處理, 即將數值key轉換成value。
Pipeline 的預處理
Label 列數值化: 對于分類模型, Label 往往是一個類別字符串, 比如顏色分類或產品分類, 在訓練的Pipeline中需要將它們做數值化. 調用的函數是 Transforms.Conversion.MapValueToKey() , 該函數會為 Label 的所有可能值分配一個唯一正整數, 在訓練過程中, 會使用該正整數值來代替原始值.
如果預處理階段做了 Label 列數值化處理, 通常在pipeline后處理中要增加一個 MapKeyToValue() 逆向轉換, 以便使用該模型做推理時候, 輸出的label具有更好的可讀性, 如果推理結果出現了未知類別, 默認會分配0值.
mlContext.Transforms.Conversion.MapValueToKey("Label")
OneHot Encoding(即Categorical 信息矢量化)
對于 ModelInput 類, 如果要將某個文本字段被我們識別需要作為一個特征 Feature, 通常這類文本可以看做是 Categorical 類別信息, 我們需要先將類別信息做矢量化, 然后再進行 Features 聚合前置處理, 以便機器學習 estimator 能處理這些特征.
一般 Categorical 字段有兩種取值:
- 一種取值為 "abc" 這樣的字段
- 另一種是代表編號的數值字段, 編號雖然是數值, 但它并不是數學上的數值, 因為無法做大小比較, 無法做數學運算.
矢量化方式通常是采用 One-hot encoding 編碼, 經過這樣的編碼后, 它們在內存中被映射成一個稀疏的數值矩陣.
mlContext.Transforms.Categorical.OneHotEncoding(outputColumnName: "label_hotencoded", inputColumnName: "label")
特征值歸一化處理
-
背景: 不同特征的取值范圍差異可能很大, 比如有的特征其中范圍是[0,1], 有的特征是[0,1000]之間; 或者特征值的單位不同, 一個是質量一個是長度, 可以在模型訓練之前, 先對特征值進行歸一化處理,盡量將各個特征的參數值規范到一個合理的差異水平, 避免因為個別特征值太大主導模型訓練.
-
模型類型:
(1) 對于線性模型 SdcaRegressionTrainer、SdcaMaximumEntropyTrainer 等, 這些模型對于特征值大小比較敏感, 如果特征值取值范圍差異過大, 模型權重可能會失衡, 會影響到模型效果.(2) 對于決策樹類模型, 它們是通過特征分裂進行決策的, 并不直接依賴特征值, 所以一般不需要做歸一化, 當然也可以通過歸一化加速模型收斂速度.
(3) 對于NLP類模型, 無需進行歸一化處理.
-
歸一化算法
(1) Min-Max Normalization , 將特征統一縮放到 [0,1] 之間. 適用于數值差異較大的情況, 但它對于 outliers 數值很敏感, 此時可以考慮使用其他歸一化算法, 或者提前將這些 outliers 過濾掉.
(2) Mean Variance Normalization, 將均值設定為0, 標準差設定為1, 適用于正態分布的數據.
(3) Logarithmic Scaling 指數縮放算法, 將特征值有數量級差異, 適用于數據差異非常大, 呈指數增長.
(4) Binning Normalization, 將連續值轉換成離散值. -
強調:
(1) 歸一化操作僅僅需要在訓練的pipeline中設置, 完成模型訓練后, 歸一化的操作已經保存到模型參數中了, 所以在推理時候無需顯式做歸一化處理, 模型在推理時自動會應用歸一化算法.
(2) 歸一化操作放在pipeline
Features 列向量化前置處理
如果Features列是自然語言, 需要將文本轉換成特征向量.
mlContext.Transforms.Text.FeaturizeText(outputColumnName: "Features", inputColumnName: "SentimentText")
Features 聚合前置處理
如果我們的 ModelInput 類有多個 feature 列, 則需要將這些列聚合到一個名稱 Features 列, 這樣 estimator 就知道需要將哪些列作為特征來對待.
mlContext.Transforms.Concatenate("Features",
new string[] { "Temperature", "Luminosity", "Infrared", "Distance" })
Pipeline 的后處理
后置 transformer 完成數據的后處理過程, transformer 的輸入和輸出都是 IDataView 數據, 后處理過程不像前處理過程復雜, 很多情況下沒有后處理過程, 除非前處理過程中包含了Label 列數值化, 這時候我們需要加一個后處理過程將 PredictedLabel 列進行可讀性處理, 即將數值key轉換成value。
mlContext.Transforms.Conversion.MapKeyToValue("PredictedLabel");
分析模型的特征重要度
在模型訓練完畢, 通常我們需要了解各個特征的重要程度, 分析的目的有: (1) 理解模型是如何決策的, 尤其對于黑箱模型, 如隨機森林和梯度提升樹. (2) 排除無關或冗余的特征, 然后重新訓練, 以提供模型的泛化能力.
常用方法
批量和單一推理
//對測試數據集進行批量預測.
var metrics = mlContext.Regression.Evaluate(model.Transform(testData), labelColumnName: "Target");
//使用 predictor單獨一個數據進行預測.
var predictor = mlContext.Model.CreatePredictionEngine<IrisInput, IrisPrediction>(model);
var prediction = predictor.Predict(new IrisInput
{
SepalLength = 4.1f,
SepalWidth = 0.1f,
PetalLength = 3.2f,
PetalWidth = 1.4f
});
當模型訓練完成后, 獲取混淆矩陣
var metrics = mlContext.MulticlassClassification.Evaluate(predictions, Label, Score, PredictedLabel);
Console.WriteLine(metrics.ConfusionMatrix.GetFormattedConfusionTable());
當模型訓練完成后, 可以獲取模型的權重和偏置項.
VBuffer <float>[] weights = default;
model.Model.GetWeights(ref weights, out int numClasses);
var biases = model.Model.GetBiases();
輸出特征重要性
var featureImportance = mlContext.Regression.PermutationFeatureImportance(
model.LastTransformer,
transformedTestData,
labelColumnName: "Label");
// 輸出特征重要性分數, 分數越接近0的特征越不重要
for (int i = 0; i < featureImportance.Length; i++)
{
Console.WriteLine($"Feature {i}: Importance = {featureImportance[i].Rms.Mean:F4}");
}
關于交叉驗證
最常用的是 5 折交叉驗證法, 因為它符合20:80數據分割規則. 5折交叉驗證的程是, 先將數據集分成 5 等份, 然后開始 5 次驗證過程, 所以交叉驗證是比較耗時的.
交叉驗證完整過程:
- 第1次驗證: 將第1等份數據作為驗證數據集, 其他4份作為訓練數據集, 先訓練后驗證, 得出第1次的驗證.
- 第2次驗證: 將第2等份數據作為驗證數據集, 其他4份作為訓練數據集, 先訓練后驗證, 得出第2次的驗證.
- 第3次驗證: 將第3等份數據作為驗證數據集, 其他4份作為訓練數據集, 先訓練后驗證, 得出第3次的驗證.
- 第4次驗證: 將第4等份數據作為驗證數據集, 其他4份作為訓練數據集, 先訓練后驗證, 得出第4次的驗證.
- 第5次驗證: 將第5等份數據作為驗證數據集, 其他4份作為訓練數據集, 先訓練后驗證, 得出第5次的驗證.
- 最后將5次驗證的指標做平均/方差計算得到交叉驗證的指標.
評估模型
https://www.todaysoftmag.com/article/3286/machine-learning-101-with-microsoft-ml-net-part-1-3
https://www.todaysoftmag.com/article/3290/machine-learning-101-with-microsoft-ml-net-part-2-3
https://rubikscode.net/2021/04/12/machine-learning-with-ml-net-evaluation-metrics/
https://learn.microsoft.com/en-us/dotnet/machine-learning/resources/metrics
Auto ML
https://accessibleai.dev/post/ml_net-video-game-classification/
https://learn.microsoft.com/en-us/dotnet/machine-learning/automate-training-with-model-builder#how-long-should-i-train-for

浙公網安備 33010602011771號