Reinforcement Learning Models

Browse AI models for multimodal decomposition and recomposition pipelines — plug any model into your extractors.

215 models available

Start free Schedule Demo Read Documentation

Showing 25–48 of 215 models

Reinforcement Learning

edbeeching/decision-transformer-gym-hopper-medium

transformers

View Details

Reinforcement Learning

formalmathatepfl/deepseek-prover-v2-grpo-800

transformers

View Details

Reinforcement Learning

mradermacher/Vero-Qwen3T-8B-GGUF

transformers

View Details

Reinforcement Learning

Abdine/qwen3-4b-medrect-mixed-r2

transformers

View Details

Reinforcement Learning

PKU-Alignment/beaver-7b-v1.0-reward

safe-rlhf

View Details

Reinforcement Learning

sb3/sac-BipedalWalker-v3

985

stable-baselines3

View Details

Reinforcement Learning

mrinaalarora/wordle-grpo-Qwen3-1.7B

980

transformers

View Details

Reinforcement Learning

mradermacher/VeriReason-Qwen2.5-7b-SFT-Reasoning-i1-GGUF

976

transformers

View Details

Reinforcement Learning

PKU-Alignment/beaver-7b-v1.0-cost

958

safe-rlhf

View Details

Reinforcement Learning

PKU-Alignment/beaver-7b-unified-reward

956

safe-rlhf

View Details

Reinforcement Learning

mradermacher/SocialR1-8B-GGUF

940

transformers

View Details

Reinforcement Learning

mradermacher/GCIRS-Reasoning-1.5B-R1-i1-GGUF

934

transformers

View Details

Reinforcement Learning

mradermacher/Reflector-Internalizing-Safety-Llama-3.1-8B-RL-GGUF

890

transformers

View Details

Reinforcement Learning

mradermacher/BEPA-7B-S2-GGUF

869

transformers

View Details

Reinforcement Learning

sb3/dqn-PongNoFrameskip-v4

855

stable-baselines3

View Details

Reinforcement Learning

PKU-Alignment/beaver-7b-unified-cost

848

safe-rlhf

View Details

Reinforcement Learning

mradermacher/TutorAI-Chemistry-Phi4-GGUF

827

transformers

View Details

Reinforcement Learning

sb3/dqn-LunarLander-v2

777

stable-baselines3

View Details

Reinforcement Learning

mradermacher/nexus-1.5b-GGUF

772

transformers

View Details

Reinforcement Learning

mradermacher/Vero-Qwen35-9B-Base-GGUF

752

transformers

View Details

Reinforcement Learning

mradermacher/SocialR1-4B-GGUF

747

transformers

View Details

Reinforcement Learning

mradermacher/GCIRS-Reasoning-1.5B-R1-GGUF

740

transformers

View Details

Reinforcement Learning

Arijit-07/aria-devops-llama3b

728

View Details

Reinforcement Learning

mradermacher/GPRM-4B-GGUF

723

transformers

View Details

...

2 / 9

Connectors

Retrievers