Codeseys
/

composer-replication-framework

Reinforcement Learning

Model card Files Files and versions

composer-replication-framework / examples

145 kB

Ctrl+K

Ctrl+K

4 contributors

History: 18 commits

Baladithya Balamurugan

Wave 20: fix SageMaker smoke — torch-2.7 DLC + drop vllm pin (the real conflict)

a578ad9 about 18 hours ago

altered_minds_channel_ladder
feat(b4-gpu+b6): GPU train-proof on A10G + docker-gated substrate E2E test 12 days ago
composer_grpo_sdpo_smoke
feat(trainer): ADR-008 gate-3 live GRPO+SDPO smoke PASS; ADR-008 accepted 12 days ago
gsm8k_grpo
Wave 20: fix SageMaker smoke — torch-2.7 DLC + drop vllm pin (the real conflict) about 18 hours ago
gsm8k_grpo_with_sdpo
Wave 1: fix 8 failing tests + unblock Docker E2E + dep/doc debt 1 day ago
qwen_05b_quickstart
Wave 12: close V1-V8 brief — GPU smoke, SDPO firing, real-trace e2e 15 days ago
sdpo_real_trace_train_smoke
examples: add sdpo_real_trace_train_smoke — close the forward+backward+step link 12 days ago
sdpo_with_real_traces
Wave 19: production-grade SDPO via ComposerDataCollator + adapter + collator fixes 14 days ago
sdpo_with_real_traces_production
Wave 21: close both Wave 20 debt items — chat-template alignment + structural is_error 13 days ago
validate_real_trace_alignment
Wave 21b: skip zero-signal SDPO on empty-recovery error turns + real-trace validation 13 days ago
README.md

3.12 kB
Wave 19: production-grade SDPO via ComposerDataCollator + adapter + collator fixes 14 days ago