<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      數據分析流程

      1. 數據理解
        分析數據集基本結構(前/后10行)
        知識點:
        Pandas庫:df.head(10), df.tail(10)
        數據框結構:理解什么是行(樣本)、列(特征/變量)。
        識別變量類型:
        數據類型:
        數值型:
        連續型:可在一定范圍內取任意值(如身高、溫度)。
        離散型:只能取整數(如人數、物品數量)。
        類別型:
        定類型:無順序的類別(如性別、城市)。
        定序型:有順序的類別(如評分等級:高、中、低)。
        Pandas操作:df.dtypes(查看數據類型),df.info()(更全面的信息),df['column'].unique()(查看唯一值),df.describe()(數值型描述統計),df.describe(include='object')(類別型描述統計)。

      2. 數據清洗
        缺失值處理:
        識別缺失值:df.isnull().sum()
        處理策略:

      3. 刪除:df.dropna()(適用于缺失量少,或該行/列不重要時)

      4. 填充:
        統計量填充:用均值、中位數(數值型)、眾數(類別型)填充。df.fillna()
        模型預測填充:使用KNN、回歸等模型預測缺失值(更復雜,但更科學)。
        前后值填充:df.fillna(method='ffill'或'bfill')(適用于時間序列數據)

      5. 數據整理
        數據集轉化:
        特征工程:創建新特征(如從日期中提取“月份”、“星期幾”)。
        類型轉換:將類別變量轉換為數值(如pd.get_dummies()進行獨熱編碼)。
        數據合并:pd.concat(), pd.merge()

      數據標準化:
      目的:消除不同特征量綱和數值范圍差異對模型的影響。
      方法:
      Z-score標準化:(x - mean) / std,使數據均值為0,標準差為1。from sklearn.preprocessing import StandardScaler
      Min-Max歸一化:(x - min) / (max - min),將數據縮放到[0, 1]區間。from sklearn.preprocessing import MinMaxScaler

      3.數據集分割
      目的:評估模型在未見過的數據上的性能,防止過擬合。
      方法:from sklearn.model_selection import train_test_split
      操作:X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

      1. 數據分析
        核心目標:通過統計和可視化深入探索數據內在規律。
        探索性數據分析
        可視化庫:matplotlib, seaborn
        常用圖表:
        單變量分析:直方圖、箱線圖(查看分布、異常值)。
        雙變量分析:散點圖(查看關系)、熱力圖(查看相關性)。
        描述性數據分析
        統計量:
        集中趨勢:均值、中位數、眾數。
        離散程度:標準差、方差、四分位距。
        分布形態:偏度、峰度。

      5.回歸預測分析
      回歸預測
      算法:
      線性回歸:from sklearn.linear_model import LinearRegression
      決策樹回歸:from sklearn.tree import DecisionTreeRegressor
      隨機森林回歸:from sklearn.ensemble import RandomForestRegressor

      分析模型可靠性 & 誤差分析
      評估指標:
      均方誤差:from sklearn.metrics import mean_squared_error
      平均絕對誤差:from sklearn.metrics import mean_absolute_error
      R2決定系數:from sklearn.metrics import r2_score
      殘差分析:繪制殘差圖(預測值 vs 殘差),理想情況應隨機分布在0附近。

      模型參數檢驗
      線性回歸:檢查系數及其p-value,判斷特征是否顯著。
      樹模型:查看特征重要性 model.feature_importances_
      報告回歸結果:
      匯總并解釋模型系數、截距、評估指標、顯著性等。

      6.數據可視化
      產生并輸出表格:
      Pandas DataFrame的格式化輸出,使用.to_excel()或.to_csv()導出。
      產生并輸出圖形:
      柱狀圖/條形圖:plt.bar(),用于比較不同類別的數值。
      餅圖:plt.pie(),用于顯示組成部分占比。
      散點圖:plt.scatter(),用于展示兩個變量之間的關系。
      箱線圖:sns.boxplot(),用于展示數據分布和異常值。

      posted @ 2025-11-04 22:41  Ehotian  閱讀(2)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 熟女少妇精品一区二区| 狠狠亚洲色一日本高清色| 91久久性奴调教国产免费| 亚洲精品免费一二三区| 国产真实交换配乱婬95视频| 亚洲人成电影网站 久久影视| 免费国产好深啊好涨好硬视频| 起碰免费公开97在线视频| 亚洲av激情久久精品人| 国产成人综合在线女婷五月99播放| 激情综合五月| 高清中文字幕一区二区| 少妇爆乳无码专区| 日韩乱码人妻无码系列中文字幕 | 国产尤物精品自在拍视频首页| 成人深夜节目在线观看| 午夜天堂精品久久久久| 亚洲精品99久久久久久欧美版| 国产精品三级中文字幕| 亚洲国产av无码精品无广告| 国产成人片无码视频在线观看| 无码国模国产在线观看免费| 婷婷五月综合激情| 国产精品色一区二区三区| 亚洲人成网线在线播放VA| 聊城市| 综合区一区二区三区狠狠| 小雪被老外黑人撑破了视频| 亚洲精品麻豆一区二区| 国产精品不卡一区二区久久| 艳妇乳肉豪妇荡乳xxx| 日韩在线不卡免费视频一区| 少妇被无套内谢免费看| 湾仔区| 亚洲女人天堂成人av在线| 国产片AV国语在线观看手机版| 双乳奶水饱满少妇呻吟免费看| 亚洲精品久久久久国色天香| 国产精品视频一品二区三| 女性高爱潮视频| 国产精品 无码专区|