<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      強化學習實驗環境庫 gym/Gymnasium

      Gym庫(https://gym.openai.com) 是OpenAI推出的強化學習實驗環境庫。它用Python語言實現了離散之間智能體-環境接口中的環境部分。每個環境就代表著一類強化學習問題,用戶通過設計和訓練自己的智能體來解決這些強化學習問題。
      OpenAI 已經將 Gym 的維護權移交給了 FARAMA 基金會。Gym 的官方繼任者是 Gymnasium。

      Gym/Gymnasium 中的主要環境類別

      可以通過 gym.make('環境ID') 來創建這些環境。

      1. 經典控制問題

      低維、連續或離散狀態/動作空間的經典問題,非常適合算法驗證和教學。

      • CartPole-v1

        • 描述:控制一個小車,使其上的桿子保持直立不倒。

        • 目標:保持桿子直立的時間盡可能長。

        • 動作空間:離散(左推,右推)。

                           狀態空間:連續(小車位置、速度、桿子角度、角速度)。

                           獎勵機制:每一步桿子沒有倒下,就給予 +1 的獎勵。

                           終止條件:

                                桿子與垂直線的夾角超過 ±12°。

                                小車移動超出軌道邊界(x坐標超過 ±2.4)。

                                步數達到 500(對于v1版本,這意味著最高獎勵是500)

      • MountainCar-v0
        • 描述:一輛動力不足的小車位于山谷中,需要通過來回擺動才能爬上右邊的山頂。

        • 目標:以最少的步驟到達右側標志旗處。

        • 動作空間:離散(左加速,不加速,右加速)。

        • 狀態空間:連續(小車位置,速度)。

                           獎勵機制:在每一步,只要沒有到達目標,就給予 -1 的獎勵。

                           終止條件:小車到達目標位置(x >= 0.5)。

                           特點:這是一個典型的負獎勵設計。智能體必須盡快到達目標,因為每一步都在“扣分”。它被迫學會“來回擺動”以積累動量,這是一種延遲滿足的經典例子。

      • Pendulum-v1
        • 描述:一個無摩擦的鐘擺,初始位置隨機。

        • 目標:施加扭矩,使鐘擺保持直立,并且消耗的能量最少。

        • 動作空間:連續(扭矩大小)。

        • 狀態空間:連續(角度,角速度)。

        • 獎勵機制:獎勵計算是一個聯合公式,旨在平衡角度和扭矩(能量消耗):
          獎勵 = -(θ2 + 0.1 * θ?2 + 0.001 * τ2)

          • θ:角度(0度是頂端,弧度表示)。越偏離頂端,懲罰越大。

          • θ?:角速度。速度越快,懲罰越大,鼓勵穩定。

          • τ:施加的扭矩。扭矩越大,懲罰越大,鼓勵節能。

        • 特點:這是一個連續負獎勵。獎勵始終為負,智能體的目標是最大化這個負值(即讓它盡可能接近0)。這是一個多目標優化的典型設計。

      • Acrobot-v1
        • 描述:一個由兩個連桿組成的系統,像一個倒立的雙擺。

        • 目標:通過擺動下方的連桿,使系統末端的點達到指定高度。

        • 動作空間:離散(對下方連桿施加正向、負向扭矩或不施加)。

        • 狀態空間:連續(兩個連桿的角度和角速度)。

                          獎勵機制:每一步沒有達到目標,就給予 -1 的獎勵。

                          終止條件:末端點的y坐標超過指定高度。

                          特點:與MountainCar類似,是稀疏的負獎勵。智能體需要找到一種高效的擺動策略,以最少的步驟完成任務。

      2. Box2D 物理引擎環境

      這些是使用 Box2D 物理引擎構建的連續控制任務,比經典控制問題更復雜。

      • LunarLander-v2

        • 描述:控制一個登月艙在月球表面平穩著陸。

        • 目標:在著陸點平穩著陸,速度不能太快。

        • 動作空間:離散(不點火,主引擎點火,左/右側引擎點火)。

        • 狀態空間:連續(位置、速度、角度、角速度、腿部是否觸地等)。

                      獎勵機制:這是一個非常精細的稠密塑形獎勵,包含多個部分:

        • 成功著陸:在著陸坪中心平穩著陸(速度慢、角度正),獎勵約 +100 到 +140。

        • 墜毀:如果以過快速度撞擊地面,獎勵 -100。

        • 著陸位置:離著陸坪中心越近,獎勵越高。

        • 燃料消耗:使用主引擎會有一個小的負獎勵(約-0.3/幀),鼓勵節省燃料。

        • 存活獎勵:每一幀智能體還“活著”(未墜毀或成功),就有一個小的正獎勵。

        • 腿接觸地面:每條腿接觸到著陸坪時有一個正獎勵(約+10)。

                     特點:這是一個獎勵塑形的典范,它清晰地分解了任務目標(平穩、居中、省燃料),引導智能體學習復雜的控制策略。

      • BipedalWalker-v3 和 BipedalWalkerHardcore-v3

        • 描述:控制一個雙足機器人向前行走。

        • 目標:走得越遠越好,同時消耗的能量越少越好。

        • 動作空間:連續(對四個關節施加的扭矩)。

        • 狀態空間:連續(身體速度,關節角度,激光雷達測距數據等)。

        • Hardcore 版本:增加了障礙物、陷阱等,難度極大。

                         獎勵機制:

        1. 前進獎勵:每向前移動一步,獎勵等于向前移動的距離。

        2. 能量懲罰:對每個關節施加的扭矩進行懲罰(-0.001 * Σ(torque2)),鼓勵高效行走。

        3. 關節穩定性懲罰:對關節的角速度進行小懲罰,鼓勵平滑運動。

        4. 終止懲罰:如果機器人摔倒(軀干碰到地面),獎勵 -100,并且episode結束。

                        特點:這是一個典型的權衡型獎勵。智能體需要在“走得更快”和“消耗更少能量/更穩定”之間做出權衡。

      • CarRacing-v2

        • 描述:一個頂視角的賽車游戲,需要控制一輛車在賽道上行駛。

        • 觀察空間:RGB 圖像(96x96像素)。

        • 動作空間:連續(轉向,油門,剎車)。

      3. Atari 游戲環境

      這些是基于 Arcade Learning Environment (ALE) 的經典雅達利2600游戲,是測試智能體從像素中學習能力的基準。

      • 特點:

        • 觀察空間:通常是原始的 RGB 圖像(210x160像素),但常被預處理為灰度并下采樣(如84x84)。

        • 動作空間:離散(游戲手柄的操作,如上下左右、開火等)。

      • 常見示例:

        • Breakout-v4(打磚塊)

        • Pong-v4(乒乓球)

        • SpaceInvaders-v4(太空侵略者)

        • MsPacman-v4(吃豆人小姐)

        • Seaquest-v4(海底大戰)

      • 獎勵機制:獎勵直接來自于游戲的原始分數變化。

        • 例如,在 Pong 中,贏一個球得 +1 分,輸一個球得 -1 分。

        • 在 Breakout 中,每打掉一個磚塊,就獲得相應的分數(如+1到+7)。

        • 在 SpaceInvaders 中,擊毀一個外星人獲得相應分數。

      4. MuJoCo 物理引擎環境

      MuJoCo 是一個高性能的物理模擬器,用于復雜的連續控制機器人任務。注意:MuJoCo 自 2021 年 10 月起已開源,但安裝過程可能稍復雜。

      這些環境現在通常包含在 Gymnasium Robotics 或 DeepMind Control Suite 中。

      • Ant-v4

        • 描述:控制一個四足“螞蟻”機器人前進。

        • 目標:向前移動,同時減少能量消耗和保持穩定。

      • HalfCheetah-v4

        • 描述:控制一個雙足“獵豹”機器人快速奔跑。

      • Hopper-v4

        • 描述:控制一個單足“袋鼠”機器人向前跳躍。

      • Humanoid-v4

        • 描述:控制一個仿人機器人行走,非常復雜。

      • Reacher-v4

        • 描述:一個兩關節機械臂,需要讓末端執行器觸達目標點。

      5. 其他環境和第三方擴展

      • Toy Text 環境:非常簡單的網格世界式環境,用于演示表格型方法(如Q-Learning)。

        • FrozenLake-v1:智能體需要穿越一個結冰的湖面到達目標,避免掉入冰窟。

        • Taxi-v3:智能體(出租車)需要接上乘客并將其送到目的地。

        • Blackjack-v1:二十一點撲克游戲。

      • 第三方環境:Gym 的強大之處在于其開放的接口,社區創建了大量環境。

        • procgen: OpenAI 發布的程序化生成環境,用于測試泛化能力。

        • Minigrid: 簡單的網格世界環境,包含部分可觀察性和語言指令。

        • Safety Gym: 專注于安全強化學習的環境,包含成本約束。

        • PyBullet: 一個替代 MuJoCo 的免費開源物理引擎,也提供了許多機器人環境。

       

      posted @ 2025-10-09 10:59  wangssd  閱讀(148)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 亚洲成av人片在www色猫咪| 国产天美传媒性色av高清| 亚洲精品777| 久久人与动人物a级毛片 | 中文无码高潮到痉挛在线视频| 日日碰狠狠添天天爽超碰97| 亚洲国产成人av毛片大全| 久久热这里这里只有精品| 无码抽搐高潮喷水流白浆| 日韩高清亚洲日韩精品一区二区| 97精品国产91久久久久久久| 国产三级视频网站| 一区二区三区激情免费视频| 高清精品一区二区三区| 国内精品综合九九久久精品| 日韩精品无码一区二区视频| 九九在线精品国产| 成人激情视频一区二区三区| 这里只有精品免费视频| 国产黄色带三级在线观看| 国产成人啪精品视频免费网| 国产中文字幕在线一区| 欧美激情一区二区| 午夜欧美日韩在线视频播放 | 欧美亚洲h在线一区二区| 国产极品精品自在线不卡| 一区二区三区激情都市| 中文字幕亚洲制服在线看| 国产亚洲av日韩精品熟女| 欧美性猛交xxxx乱大交丰满| 偷窥少妇久久久久久久久| 乌克兰丰满女人a级毛片右手影院| 国产高清在线精品一区不卡| 午夜欧美日韩在线视频播放| 麻豆tv入口在线看| 日本黄色一区二区三区四区| 福利视频在线播放| 一区二区三区放荡人妻| 国产色悠悠在线免费观看| 精品人妻系列无码一区二区三区| 内射视频福利在线观看|