在追赶Open AI这件事上,几乎每一个中国互联网大厂都是认真的。
比如阿里,公布了大语言模型“通义千问”之后没几天,就在2023年4月11日举行的阿里云峰会上,展示出了通义千问的种种应用能力——不光可以实现AI生成对话、AI生成图片等生成式AI产品的“常规操作”,还可以与“阿里全家桶”相结合:
在AI的支持下,新的天猫精灵在交流时更聪明、更像人,可以自由对话和随时打断、切换话题,随时生成内容;钉钉也加入了新的AI能力,推出了10个左右与AI有关的新功能,甚至可以实现零代码“拍照生成应用”。
(资料图片)
值得关注的是,没等阿里云峰会结束,飞书就发布了一则预告片,要“给你介绍一位AI新朋友。”
这是不是飞书的“Copilot”——微软近期python推出的智能文档助手——我们还不得而知,但肉眼可见,国内大语言模型研发已然在产业界呈现出燎原之势:这是每个中国互联网大厂,在2023年的必答题;也是观察各大互联网公司技术力、产品力和组织力的绝佳窗口。
阿里的船票到手
相比国内第一个发布大语言模型的“友商”,专门举办的那场隆重而审慎的发布会,通义千问的出场低调许多,是在阿里云每年都举办一次的峰会上正式出场的。
这就不得不提与阿里大模型通义千问有关的两件事:
一是就在前不久,马云重返国内。在杭州云谷学校的交流中,马云也聊起了ChatGPT。这一点让很多人印象深刻。对照阿里通义千问发布的时间,想必在和云谷学校交流之时,马云就已经知道乃至参与了通义千问的推出。
二是在2022年底的调整中,张勇亲自担任阿里云智能集团负责人,原来的负责人张建峰只负责阿里达摩院。而大语言模型,正是阿里达摩院深耕许久的产品。这次亮相,达摩院的成果第一次大规模且看得见、摸得着地出现在普通用户面前。
正因如此,通义千问在对于阿里云乃至整个阿里集团的意义,其重要性无论如何评估也不为过:这是阿里在AIGC时代的“船票”,一如微信之于迈向移动互联网时代的腾讯。
综合通义千问在对话场景和与天猫精灵、钉钉结合落地场景中的种种表现,在刺猬公社(ID:ciweigongshe)看来,通义千问是一个基本“堪用”的大模型,能够在对话、文档、群聊、会议和语音等各类高频场景中发挥作用。
先看通义千问AI对话的能力本身如何。随机选取一个司法考试考题对其进行测试,可以发现通义千问完全可以回答出正确答案,且附有详细的正确js解析;向通义千问问一些“弱智吧”问题,它有时看不出其中的逻辑悖论。
和它的国内外大语言模型同行们相比,其回答质量和时效性都处于中上水平。
再看它在群聊场景中的作用。在钉钉接入通义千问之后,可基于群内过往的聊天内容生成摘要,帮助用户快速了解群聊此前的沟通内容,并且根据需要生成待办事项。
这是一项相当“本土化”的AI创造。放到海外职场上,工作中的群聊场景较少,邮件才是职场沟通的主流,因此我们看到微软为其包括Outlook邮件系统在内的Office全家桶,配备了能够用AI生成多模态内容的Copilot,比如在邮箱中Copilot就可以起到起草回复草稿、管理收件箱等作用,且支持多种语气以及文本长度。
而在国内,各种办公软件上的群聊才是团队协作的主要平台,为了方便沟通,有人开发出了各类Bot,比如提醒开会等等,也就是群聊机器人。这次,接入AI之后的通义千问可以看作过去Bot的延续,功能比Bot强大得多。和群聊类似,在线上会议场景中,通义千问还可以自动生成字幕、自动总结要点、生成代办事项等。
最后,在文档场景,钉钉文档中接入通义千问之后,可以根据用户需求生成文字、图片等。这个功能已有国内的部分AI创业公司先行一步,国外也有微软的Copilot在前。但在国内,将AI生成与在线文档、办公沟通等所有能力打包起来的,钉钉确实是第一家。
值得一提的是,在生成式AI的辅助下,编写基于钉钉的定制应用,需要耗费的精力从低代码进化到了零代码。用户只要给产品草图拍个照上传,就能生成相应的应用。这再一次降低了开发的门槛,让人们可以专注于业务本身。这也从侧面说明,通义千问不止可以生成文字,还能生成可以用的代码。
至于天猫精灵,它在通义千问的支持下仿佛突然有了灵魂,有了更强大的和人交流的能力,而且还会创造出故事,并且朗读出来。这种根据用户需求生成多样内容的能力,让人们明显感觉到应用前后天猫精灵“智商水平”的不同。
如果通义千问对每个产品的赋能都如此立竿见影,那么它的未来则是相当可以期待的。
大模型,有大用
通义千问的应用范围,显然并不只钉钉和天猫精灵。
张勇在AI领域的“豪言壮语”是,“所有产品都值得用大模php型重做一次、全面改造”、“阿里巴巴决定未来将所有产品接入通义千问”。
对内,阿里要用通义千问“重构”所有产品,将AI能力与产品相结合。在BAT级别的互联网公司中,基于业务的真正需求,阿里大概率是最需要对话大模型的那一个。比如,阿里的业务中电商客服对于用户体验影响较大,如果能用通义千问进行适当的培训,很有希望能够解决这一内部的问题。
设想一下,当淘宝和天猫用上了javascript通义千问,我们在和客服沟通时,AI客服可以回答更为复杂的问题,而不必等待人工客服;通过对于商品和用户过往消费习惯、兴趣偏好等要素的学习,直接响应用户需求,为用户排列、推荐商品清单,甚至借助图像生成的能力,直接向用户展示试穿效果等。
对外,阿里云希望帮助更多企业用上大模型,让每家企业都能基于通义千问,拥有更懂自己公司和所在行业的专属大模型。
这里的企业并不只限于互联网行业,消费、出行、汽车、营销等不同行业的企业,都可以定制自己的大模型。编程客栈阿里云的说法是,每个企业都可以在阿里云上有专属的大模型空间,在上面既可以调用通义千问的全部能力,也可以结合自身行业知识和应用场景、使用自己存放在自有数据空间中的数据训练自己的大模型,比如智能客服、智能导购、智能语音助手、文案助手、AI设计师,乃至自动驾驶。
一般来说,这些行业需要的是营销获客或者企业管理系统,向他们提供足够的算力,以及算力背后的技术服务基本上就够用了,这也阿里云在过去的业务模式。但到了AI时代,用户不仅仅需要算力,还需要AI能力,来适应飞速变化的环境。
现阶段,还没有哪家厂商针对每家企业,进行大模型的研发和适配,顶多针对某一个或者几个相邻行业进行调优。在国内,阿里也是第一个提出要帮助每个企业用上大模型的。“一家企业的想象力终归是有限的,释放AI潜力要靠无数人探索。”张勇说。
如果阿里云能保持住这个先发优势,它在大模型领域也将实现后发先至,成为大模型的最直接受益者。从营收上看,阿里云也有望扭转近期增速降至个位数的颓势。这次,阿里云如果能一举打开大模型在实际应用上的局面,改变的也将不仅仅是自身的命运,也很有可能改变整个云计算市场的态势。
从2022年开始,国内云计算市场增速几乎停滞。究其原因,还是用户端需求不足,缺乏动力。大语言模型为互联网产业提供了新的想象力,一旦大规模应用,它能消耗的算力将是惊人的。比如ChatGPT,运行一轮问答的成本约为0.8美元。积少成多,它将有力带动云计算产业重回增长轨道。
大模型,就是要“大干快上”
在发布通义千问之前,阿里早就开始了大语言模型的研发。
远的不说,2021年,达摩院发布了一个名为M6的大模型,这是国内的第一个千亿级参数的大模型。同一年,达摩院先后推出了万亿和十万亿级别的大模型。到了十万亿级别,已经和Open AI的GPT3处在同一起跑线上了。
M6大模型生成的电商推荐理由
示例来源:达摩院网站
当时负责M6大模型研发的杨红霞表示,M6是“当前众多中文多模态下游任务最优模型”。在那时,它就已经可以实现生成对话、图片、文案等类型的内容,且在阿里新制造平台犀牛制造得到了应用。在计划中,M6可在一年内AI自动生成上万款高清服装设计图,相当于一个百人规模的设计师团队。
只不过当时普通用户的关注点不在AI领域,也没有做过多的对外展示。M6和Open AI 的GPT ,仍然处在默默无闻的状态。
大模型的研发负责人杨红霞,也在2022年9月选择离职。就在几个月后,以Chat GPT为代表的大模型迎来了真正的大爆发。2023年3月,杨红霞加入了字节跳动的AI研发团队,继续负责大语言模型的研发。
一位顶尖研究者的经历,恰好浓缩了近几个月国内大语言模型研发的影子。
第一梯队是AI投入最大、积累最深的百度,率先拿出了文心一言;同样有所积累、且对大语言模型有着较大应用需求的阿里,也在最近拿出了通义千问。
第二梯队的是BAT之外的互联网大公司:字节跳动——正如文章开头所言,它刚刚预告了大语言模型在飞书中的应用;360,周鸿祎在3月的一场发布会上,向人们展示了360版的Chat GPT;4月,昆仑万维和奇点智源宣布自研“天工3.5”即将发布,号称“中国第一个真正实现智能涌现的国产大语言模型”;在阿里云举办峰会的前一天,商汤科技又公布了“日日新SenseNova”大语言模型......
第三梯队是不在大公司体系内的AI创业者们:比如美团联合创始人王慧文的“光年之外”和搜狗创始人王小川的“百川智能”,以及无数正在研发大模型的中小创业团队。
“你可以把模型理解为和你对话的一个人。”一位AI创业者曾告诉刺猬公社,可以这样去理解AI。显然,每一个创造大模型的团队,都在塑造一个全新的智能,一个全新的“人”。
且不论这一个个“人”的命运终将如何,每一个大模型,都是一个互联网企业在AI时代交出的答卷。