首页
发布
关于尺度商业
登录/注册
我的主页
退出登录
关注公众号
下载APP
验证码登录/注册
扫码登录
发送验证码
30天内免登录
登录
我已阅读并接受
用户协议
和
隐私政策
验证码登录/注册
扫码登录
二维码已过期
请使用
尺度APP
扫一扫登录
请于1分钟内扫描二维码
商汤AI专家交流纪要:寒武纪思元590
低位热点为王
2023-04-23 23:18
关注
价值
$寒武纪$
0.00%
发帖价:248.00
贴收益:
下跌中
进行中
价值贴兑现提示
您本帖的收益为:
-3.21%
,兑现后将停止更新本贴当前价的记录,同时冻结本贴收益,您是否要止损本贴?
价值贴止损提示
您本帖的收益为:
-4.32%
,兑现后将停止更新本贴当前价的记录,同时冻结本贴收益,您是否要兑现本贴?
确定
取消
商汤AI专家交流纪要:寒武纪思元590
Q:商汤大装置部门现在算力情况
A:目前有接近 3 万片 A100 芯片,目前全部用来做大模型,大模型做完后这些算力已经全部 sold out。现在还在购买更多的 A100 H100 算力,同时在积极的做国产化适配。华为昇腾 寒武纪 590,基本初步看都达到 70%的 A100 算力。在我们 1800 亿参数的大模型推理环节上,还有有点挑战。目前我们的自研芯片两次流片后停下来了,目前和智算联盟厂商合作开发,寒武纪 天数,壁韧。
Q:1800 亿参数的大模型目前国产化是什么情况
A:目前我们的大模型还不太稳定,模型训练完后,放在 A100 上推理,10 句话大概正确率在 7 句左右,590 大概在 3~4 句,华为的卡大概 1~2 句左右。
Q:这个是什么原因导致的
A:主要是我们还没有掌握能够完全涌现出一个泛化性足够强的大模型的能力,国内厂商大部分也没掌握,我们只能跟着别人的方式,比如说我们堆一万张以上的 A100,然后得到一些好的结果,然后就是数据微调。用上国产化芯片,你跟它进行多轮对话,就是上面说的结果,具体原因也还没有找到。或者我们觉得还是我们工艺上的问题,我们的预训练数据集没有 openai 的丰富和质量高,所以目前可能向下容错的空间就小了。
Q:第一个大模型是用 A100 训练的吗
A:目前训练目前用的 A100,训练好的模型放到寒武纪和昇腾上去跑了测试。
Q:寒武纪 590 给了多少张卡来测试,测试结果怎么看呢
A:大概 1000 多张。目前我们的模型即便用 A100 来推理,我们现在模型的泛化性也不是特别的足够,也还存在一些问题,这些问题还是存在于与训练上,可能做的不够好,所以导致即使用了 A100 本身也没有做到完美。
Q:A100 的结果如何评判的呢
A:我们做了几组数据测试,比如说有限命题下的连续对话,数学,写诗词、猜字这种都没有太大的问题,更细分的话实际效果不尽如人意,没有达到 100%,有 70%左右能够达到泛化性还不错的情况。现在也还在调优,目前先基于 A100 来调优。
Q:所以目前是用 A100 训练模型还没有稳定的情况下,重新编译放到寒武纪 590 的卡去跑测试吗?
A:是的,目前用同一数据集去做,连续对话 10 次,A100 有 7 次能够返回还不错的结果,寒武纪大概 3 次。
Q:你们如何看待这个现象呢
A:第一呢,我们目前也是照猫画虎,现在只能严格按照别人的工艺来做,采用相应的条件才能浮现出不错的效果。第二就是涌现智能这件事,可能需要数据集跟芯片充分配合,当你数据集不够好,在其他芯片上得到的效果可能会更差。目前我们用的也是英文开源的预料在训练(也就是 A100 有过适配),说白了就是我们这个技术本身对工艺掌握的还不够彻底。
Q:目前在模型还没有稳定的情况下,寒武纪的卡可以把语言类大模型跑起来,但是还没有达到 A100 的准确度是吗?
A:是的,能跑出一些结果来,至少 10 次里面有 3 次以上给出来的结果还是不错的,只不过还需要多一些时间去调优,理解它的性能,比如在模型里该怎么去用,另外就是预训练数据集的建设,我们用的也是海外数据集和多模态的数据集。
Q:华为的卡具体怎么样
A:在我们的模型上表现比寒武纪差一些,10 条大概一两条吧。华为自己适配可能比我们好一些
Q:现在就是说换一套硬件,适配也没有调优,先跑起来看一下结果是吗
A:对,现在就是简单粗暴的方法在跑,后面还有硬件的协调性,软硬件的结合,还有就是对工艺的掌握。
Q:从视觉类和对话类,寒武纪是都测吗?
A:目前是大模型对话类,视觉类目前生产图片一类的要求不高,寒武纪上一代的卡已经在我们书生大模型里面用了,大概 300~400 亿参数,这部分已经可以替代掉了。
Q:海光的卡有试过吗
A:我这边还没接触过
Q:寒武纪对现在的结果有什么反馈
A:他们两条,一个是说自己芯片能力上已经比较强的了,还是适配要再做;第二是说我们在预训练数据集上对他们开放不够,他们想一起参与开发。
Q:往后怎么看国产化
A:我们还能买到卡,但是 GPT 现在对算力需求太高了,所以还是很需要国产的。另外做智算中心的时候 ZF 是有要求的,最终是要达到 50%的国产化率。
Q:华为对目前结果是什么反馈
A:他们比较直接,说他们自己跑的还不错,可能我们技术不太行一类的。反正后来也没有谈成合作。内部也有一些沟通和判断,如果在最极限的情况下,因为我们一直听说华为的卡能达到 70%A100,但我们测下来还是有差距,最极限情况下可能深度合作一下,看看完全用另一套系统会是什么样子。
Q:目前对华为和寒武纪态度是一样的?
A:寒武纪会稍微好一点,寒武纪没有那么强势,还有他的芯片能力只是目前初步跑出来一般,但我觉得结果还可以,至少能用。而且去年年底的时候,我们跟寒武纪还申请了科技部算力中心的专项,所以是有一些深度合作绑定的。
Q:你们拿到 590 到得到结果花了多长时间
A:也就这一两个月吧,去掉刚开始做模型的阶段,可能时间更短一些。具体我不清楚,我是听了汇报说的是 590 可以用,有一定的替代,把结果给老板们看了。我觉得适配的再多一些,就可以卖了,毕竟现在很多市场对泛化的能力要求不高。而且现在我们 9~10月预购的芯片算力也卖完了,市场还是很缺货的。
Q:那就是要谈深入合作了是吧
A:对,现在就卡在这里,之前跟另一家说好要深入合作,结果芯片年底才能出来,寒武纪已经能用了,市场现在就是你有大模型,你有算力就能卖出去,而且还是溢价比较高的情况。
Q:另一家的芯片确定能用吗
A:年底才能出来,也不确定能不能用,适配也要时间。现在是市场最好的时候,我们现在想的是怎么样快速供货,做出规模化来。我们 3 万片 A100 的算力,两个月不到就全卖完了。
Q:细分看一下各方面表现,大模型是需要多卡分布式计算,显存、多卡互联、分布式技术,稳定性怎么样
A:第一点,多卡协同和分布式上,目前国产芯片里面是第一档,因为只有它能在大模型框架下去跑这个模型。第二点在芯片通信环节上,我们没有进行特别细的对比,现在看起来是可以通过一些软件调优的方式去优化,在多模态领域跟他上一代的卡对比了一下,比上一代还是强了不少。
Q:国内其他的国产卡目前适配怎么样A:智算联盟主要就是华为 壁韧 寒武纪,就这三家给的多一点。大模型来以后,主要就是适配的寒武纪新的 590 这张卡。按照经验判断,以往的卡在大模型上也是用不上的。以前在多模态上跑,可能都比不上寒武纪,大模型上就更不用说了。
Q:那就是说寒武纪是比较领先的
A:寒武纪应该是最领先的,从我们的角度来说。像没有深度合作和调优的情况下,可以拿来就用了。华为这种应该也能用,但是需要再深度合作。
Q:垂类和多模态的小模型,寒武纪表现怎么样
A:之前一代在书生大模型上就可以用,这个目前不是一个要求很高的很难的一个方向。
Q:涌现这个现象的本质原因,以及成本到底有多高呢
A:我们认为涌现本质是复杂系统的能力,涌现是基于内容情境的学习下,模型够大塑造了足够多的参数,也就是塑造了足够复杂的环境。维度越高,环境越复杂,然后再到数据进行训练学习,从我们自己来看,在这么复杂的环境下,必然会去高速迭代,出现一定的规律性,这种规律性不一定有意义,但也会产生一定的突变。这种突变可能就展现为智能的水平。
Q:出现涌现的成本该如何判断,会降低吗
A:以 GPT4 为例,强化学习这个过程没有带来模型的显著提升,模型能力核心还是对于训练数据集的优化。这个验证了我们的一个判断,涌现出智能最终的是在预训练阶段就让他获得一个足够复杂的推理能力,他就可能涌现出智能,其他都是锦上添花的。
Q:这里也会有一个模型参数量的概念吧,比如你孩子入学是由年龄要求的,不太可能让 3 岁的孩子掌握复杂的知识,也就是模型参数量要支撑涌现的话,需要多少参数量,之前论文基本到几百亿到千亿以上才有可能
A:首先智能是没有一个统一的判断,但是要我们说能够连续进行有意义的对话,并且在对话过程中能够体现出自主性的,我们认为千亿参数是比较保底的。几百亿参数的模型我们也做过,负担的 MOSS 模型,128 张卡,也能涌现出一些能力,但是稍微问一问强度大一点的就不行了,所以上线三天就下了。
Q:就是这个问题,模型的智商和参数量的关系,目前看至少千亿能达到一个还行的智商。垂直类呢,垂类应用的数据质量很高,模型参数量会有什么要求
A:对,垂类应用数据集质量会高很多,因为是垂类应用,所以对泛化要求比较低的,因为不会问一些奇怪的问题,哪怕问了,回答错了,客户也不在意。我个人保守一点,如果为几家三甲医院做个模型,我觉得数百亿就可以了。如果为医疗联合体做的话,那至少得千亿。好在每个医院都想要自己的垂类模型,目前我们做的都是数百亿接近千亿的参数。
Q:数百亿参数也不小了,也不是一张 A100 能够做的事了
A:对,这种垂类也是集群化的。
Q:也就是说这种垂类的,能涌现出智能的,也是高算力要求的,只不过没有 ChatGPT那么多,但也不少,从算力卡选择上还是 A100 H100 590 这样的卡
A:是的
Q:从您的角度判断,假设深度合作的话,寒武纪 590 能达到什么样的性能
A:理想情况下,一年以内可以达到 A100 50~70%水平,就可以大规模使用了,现在是30 左右,我觉得这个差距是能追的。另外我们觉得还是数据集的问题,我们还是拿的英文的开源数据集,国内就是没有好的数据集预训练,导致了一些问题。现在做垂类也是这个原因,找一个好点的数据集来训练大模型。
Q:那就是垂类的大模型,590 是可以用的
A:理论上是可以的,数据集质量好,卡也可以跑上千亿参数的大模型。
评 0
赞 0
牛
评论并转发至我的动态
发布
全部评论(
)
请选择关注类型
普通关注
特别关注