[NS :
自己看了下,跑FP8的glm,需要的显存是760G左右,速度30TOKEN,因为激活参数40B,那么带宽超过1.2T即可,支持1M上下文,那么总计最低需要显存880G左右,国产最便宜的算力卡多少钱能部署下来,哪家的算力卡是能让自己搞一个跑的呢
hallfay] 自己能买到的跑 760B 模型,输出 30token/s的主机能买到啥自己看了下,跑FP8的glm,需要的显存是760G左右,速度30TOKEN,因为激活参数40B,那么带宽超过1.2T即可,支持1M上下文,那么总计最低需要显存880G左右,国产最便宜的算力卡多少钱能部署下来,哪家的算力卡是能让自己搞一个跑的呢