trainer_config.yaml

behaviors:

  WalkerTripod:
    trainer_type: ppo
    hyperparameters:
      batch_size: 1024
      buffer_size: 65536 # 8 envs x 8 agents x 1024
      learning_rate: 0.0003
      beta: 0.01
      epsilon: 0.2
      lambd: 0.95
      num_epoch: 3
      learning_rate_schedule: linear
    network_settings:
      normalize: false
      hidden_units: 256
      num_layers: 2
      vis_encode_type: simple
    reward_signals:
      extrinsic:
        gamma: 0.99
        strength: 1.0
      gail:
        strength: 0.01
        gamma: 0.99
        encoding_size: 128
        demo_path: Assets/ML/Demos/WalkerTripod.demo
    behavioral_cloning:
      demo_path: Assets/ML/Demos/WalkerTripod.demo
      strength: 0.5
      steps: 150000
    keep_checkpoints: 10
    max_steps: 15e6
    time_horizon: 256
    summary_freq: 10000
    threaded: true

  WalkerRipple:
    trainer_type: ppo
    hyperparameters:
      batch_size: 1024
      buffer_size: 65536 # 8 envs x 8 agents x 1024
      learning_rate: 0.0003
      beta: 0.01
      epsilon: 0.2
      lambd: 0.95
      num_epoch: 3
      learning_rate_schedule: linear
    network_settings:
      normalize: false
      hidden_units: 256
      num_layers: 2
      vis_encode_type: simple
    reward_signals:
      extrinsic:
        gamma: 0.99
        strength: 1.0
      gail:
        strength: 0.01
        gamma: 0.99
        encoding_size: 128
        demo_path: Assets/ML/Demos/WalkerRipple.demo
    behavioral_cloning:
      demo_path: Assets/ML/Demos/WalkerRipple.demo
      strength: 0.5
      steps: 150000
    keep_checkpoints: 10
    max_steps: 15e6
    time_horizon: 256
    summary_freq: 10000
    threaded: true

  Searcher:
    trainer_type: ppo
    hyperparameters:
      batch_size: 1024
      buffer_size: 100352 # 2 envs x 49 agents x 1024
      learning_rate: 0.0003
      beta: 0.01
      epsilon: 0.2
      lambd: 0.95
      num_epoch: 3
      learning_rate_schedule: linear
    network_settings:
      normalize: false
      hidden_units: 256
      num_layers: 1
      vis_encode_type: simple
    reward_signals:
      extrinsic:
        gamma: 0.99
        strength: 1.0
    keep_checkpoints: 10
    max_steps: 10e6
    time_horizon: 1000
    summary_freq: 10000
    threaded: true