孟繁岐的这番话,听起来让人觉得不是那么舒服。
言下之意,给人一种华国AI技术就是不如国外的感觉。
这是李彦弘不大喜欢的,毕竟他这么早就关注AI技术,就是为了研发最前沿最先进的技术。
孟繁岐大概猜到了他的想法,前世他也曾被早期华国大量发表的AI论文所迷惑。
觉得在这个新崛起的技术上,华国已经可以和美国分庭抗礼,不落下风。
虽然AlphaGO震惊了世人,但毕竟有些华而不实。
直到上千亿级别的语言大模型出现,这种纯硬核实力的比拼,让孟繁岐不得不甘拜下风。
实际上,并非是技术手段和算法层面上相差太远。
更多的还是因为优质数据的数量不足。
白度的文心一言,出图的时候甚至会将用户的中文输入翻译成英文,再去作图。
很多较真的网友故意测试了中英文差异很大的词汇,比如总线(Bus),鼠标(mouse)。
文心一言绘出的图像竟然是大巴车和老鼠,这从中文上是完全说不通的事情。
可见即便不是全部,文心一言这个所谓的专注中文的超级大模型,也在相当程度上借助了英文基础的模型权重和技术。
究竟为何要这么做,说到底还是基础不够扎实牢靠。
整理数据,清洗数据,给数据打上高质量的标签。
这些都是脏活累活,见效慢的工作。
把别人公开的数据拿过来跑一跑训一训,多么方便快捷?
以国内996大厂的内卷风气,很难容下长回报周期的基础建设。
早些时候看看不出区别,只觉得国内大厂频繁在XX榜单上露面,刷榜,又是超过这个,又是超过那个。
直到语言大模型阶段,基础语料数量和质量上的劣势才暴露无遗。
“其实这也不能完全怪华国的大厂风气,美国的互联网起步要早,并且很多领域的文献材料归档做得特别好。”
孟繁岐也曾仔细思索过这方面的问题。
();() “像github,arxiv这样的大型公开社区,里面都是非常优质的外文代码或者论文。
这些也不只是美国人自己的积累。
而是通过免费公用的形式,收割了全世界的数据。”
“华国人在github上贡献的代码行数也不在少数,反过来看看华国的论文社区,就比如知网,纯纯就是毒瘤。
里面屯点硕博生的论文,还要论页数收费。
就连下载之后的阅读器,甚至都需要专门的....”
此消彼长之下,差了多少珍贵的数据啊...
只是此时此刻,李彦弘应该还没有想到这么大规模的数据用于训练。
因而孟繁岐也不急于一时和他讨论后面语言类的技术,以及生成式的大模型。
最近一两年内,孟繁岐的重心还是在视觉图像算法这边。
“李总,我个人相信AI技术的开源程度是相对的,不可以一直这样透明下去。
夏露身边人都羡慕她,她不仅是上市公司的总经理,还有一个幸福美满的家庭,一个爱她的丈夫。只是让人没有想到的是,一向最疼爱她的丈夫,竟亲手将她从悬崖上退了下去!好在上天怜惜,让她带着记忆重生到了性命被谋害的一天,这一次夏露决定,开启复仇开挂之路,夺回属于自己的一切,打脸虐渣,让害了自己的小人受到应有的惩罚!...
团宠仙女人设1v1蜜宠一朝穿越,姜知绵成为姜家团宠,众星捧月,蜜罐里长大。然后,她给自己加上仙女人设之后,一切就变得疯狂了疼爱姜知绵的二伯上山,有野鸡飞到他锄头上,撞死了讨厌姜知绵的柳巧儿...
年过28岁,还不是虚岁,进宫13年从没睡过康熙一次,穿成这么一个老答应,琳琅觉得自己可以跳过宫斗,直接进入养老环节了本文已开启防盗,比例40,跳着看的姑娘们得等上一天了,麻烦大家了onnos买足一半章数...
简介彪悍兵王周天回归都市,美女纷纷暗送秋波能力越大,责任越大,他不羁的外表之下,心底热血未冷,当昔日兄弟有难,组织召唤,他再次出征,一双铁拳,再战天下...
红药是个陶俑,某知名亡朝暴君昏君墓穴里的陪葬陶俑,像他这样的还有一万八千个。可惜同俑不同命,昔日一个墓坑的同僚们都住进了博物馆豪华恒温恒湿展示柜,他却被某个不开眼的盗墓贼偷梁换柱搞出了博物馆晋升队伍...
骚气预收我靠天生媚骨爆红娱乐圈穿书沙雕预收我靠主角说台词暴富俩都求收本文文案林临穿书了系统说,这是一篇霸总文,而他穿的身份是替身男配,戏份只占全文5,走完剧情余生便可随便浪系统等剧...