GRPO Loss初期为0的原因与改进方法2025-02-11算法约 2501 字 预计阅读 5 分钟引言 在家里自己用OpenR1准备从qwen-base训出个R1模型来,结果跑了demo数据,发现前100多步的loss几乎都是0: 在搜索相关阅读更多
AI_Agent让大模型使用工具2024-08-18工程约 3723 字 预计阅读 8 分钟背景 近一年,ai_agent变得异常火热,从某个方面来说,rag也是agent的一个tool而已,所以我们大胆的预判:未来是属于agent的阅读更多
大模型检索增强生成RAG2024-04-06工程约 3884 字 预计阅读 8 分钟背景 最近LLM大模型异常火热,我判断RAG检索增强是未来的一个重要切入点,所以想试试做个demo,走一遍流程。 主要的想法是利用我的微信公众号阅读更多
使用sqlite搭建wordpress博客2024-01-03工程约 854 字 预计阅读 2 分钟背景 最近正好我的域名到期续费,就想着干脆也买个宝宝名字的域名吧,先搭个博客把域名养起来。 使用sqlite搭建wordpress博客 说到博客,阅读更多
linux/windows开机自启动2023-12-10工程约 829 字 预计阅读 2 分钟背景 最近家里新装了一台电脑,配上3090显卡,准备当gpu服务器。所以就要装双系统,ubuntu的当服务器跑大模型,windows的装ste阅读更多