辰小序提示您:看后求收藏(新笔趣阁www.xbqg5200.com),接着再看更方便。
还举例道:“以现在的GPT4为例,如果想要一个2倍GPT4参数的大模型,对算力的需求大约会是多少呢?
“我计算过,大约需要十几倍。而且公式计算的只是理论效果,而更大规模的集群,片间互联的损失肯定也会更大,实际效果只会更差。”
孙博很是热情,只要不涉及他自己工作的机密和核心,只要他在的时候,那几乎是有问必答的。
纪弘也正好翻看到这儿,他没有过多的惊讶,片间互联损失这一块儿本身就不好解决,要不然超大规模智算中心也不至于这么稀有了——河州大学搞的那个还是纯国产第一例。
“按你这么说,微软这孤注一掷的效果,不一定会好啊!”有人回了一句
“效果不好是一定的,花费两倍的价格,可能能得到1.5倍的性能,最多也就如此了,想要赶上耳语的能力,我觉得不大行。
“其实OpenAi自己也知道,GPT4乃至后续没有发布的4.5版本,之所以没这么堆规模,就是在卡能效比的两个节点。
“他们也肯定知道,再堆规模,性价比不高,之前不去堆就是这个原因。但现在不是被耳语逼的没办法了吗?”
孙博本就是研究前沿理论的,现有模型的理论上限他清楚的很,哪个算力卡一下性价比最高他大约也都清楚。
到了一定程度,盲目的加规模确实得不偿失。除非迫不得已,一般不会这么干的。
纪弘一边看着孙博的回复,一边分析这个人,越分析越是感兴趣了——这是一个有真材实料的