Skip to main content

Tags

BERT 1 DPO 1 GPT 1 GRPO 1 InstructGPT 1 LLM 7 LoRA 1 PEFT 1 PPO 2 QLoRA 1 RLHF 1 RoPE 1 Transformer 1 优化器 1 位置编码 1 强化学习 2 损失函数 1 模型蒸馏 1 模型量化 1 注意力机制 1 激活函数 1 预训练模型 2