By | 2023年7月3日

继海外多个大模型开源带来的生成式AI概念大热后,阿里也推出了首个中文AI模型社区,意为降低AI应用门槛,构建AI时代的“基础设施”。

行业内外也产生了新的讨论,即生成式AI(AIGC),能否让AI行业实现更大规模落地?

“AI的产业化落地,现在来看靠AI公司或者靠算法去落地是不现实的,需要业务、场景先行,靠产业里的人实现落地。”一位业内人士评价道。

今年6月,有阿里达摩院的员工发现,自己所在的业务团队改名了。此前,他所在的达摩院团队名称以业务目标来命名,现在则是以技术方向来给团队命名。

“团队名字的变化,就代表这个团队本身从算法的研发方式上发生根本性的转变。以前解决一些具体的业务问题,所以会取一个具体业务的名字。现在我们是做基础算法能力的研发,所以才会把团队改成一个算法方向的命名。”阿里资深技术专家、达摩院基础视觉实验室负责人赵德丽说。

达摩院发展过程中,也曾有过将人力投入非常具体的业务开发的阶段,这种做法既无法实现规模化,也耗费大量人力和成本。而后,达摩院逐渐转型,重点投入预训练基础模型的研发,并基于基础模型向外拓展,应用于多个行业,这次又进一步推出集合了诸多模型的AI模型开源社区。

11月3日,阿里达摩院牵头推出魔搭社区 ModelScope。社区首批上架超 300 个模型,其中中文模型超过 100 个,覆盖了视觉、语音、自然语言处理、多模态等 AI 主要领域,覆盖主流任务超过 60 个,均全面开源并开放使用。

同时,达摩院提出了新概念“模型即服务”(Model as a Service)。也就是说,把 AI 模型当作生产的重要元素,从模型预训练到二次调优,最后到模型部署,围绕模型的生命周期来提供相应的服务。

阿里巴巴集团资深副总裁、阿里达摩院副院长周靖人介绍,魔搭社区面向所有开发者开放,旨在推动AI大规模应用,不以盈利为目标。此次开源,目的是降低AI的应用门槛,释放AI潜能。

放眼海外,和魔搭社区发展路径类似的是刚拿到投资的Hugging Face。Hugging Face 作为AI开发者中的流行平台,托管预先训练的 AI 模型,包括 Craiyon 和 Stable Diffusion,这两者都是基于AI的图像生成器,目标是让程序员更容易构建AI 技术。

Hugging Face CEO克莱门特・德兰格说:“将会有一大批价值万亿美元的新公司诞生,这些初创公司将以这种新的技术为基础。”今年早些时候,Hugging Face 从 Lux Capital 和红杉资本等投资机构处筹集资金后,估值达20亿美元。

“开源开放一定是未来趋势。”赵德丽认为,在当下普遍开源开放的背景下,专门针对一个具体场景提供单个算法服务,这样方式的竞争力和商业价值都在快速下降。

而基础模型的意义,就是让底层架构的算法趋于统一,基于此开发的算法和应用,可迭代、可维护、可扩展,也就有机会诞生出一个系统级的AI应用。

“文生图是在开源模型生态里面,发展最快的一个例子。一旦有一个真正有竞争力的基础模型,开源之后带来的威力,大家都有目共睹。基础模型要想真正能发挥作用,也要基于比较好的生态才能更有可能。”赵德丽解释,阿里开放模型社区,也是为了建立完善的生态,促进AI更好更快发展。

今年以来,海外备受关注的DALLE2、Stable Diffusion等发展迅速的大模型,都是开放体验或者是已经开源的模式。基于这些大模型,AIGC得以迅速发展,出现了诸多火热的AI作画应用,引起人类画手圈热议。

9月以来,继AI生产文字、图片之后,硅谷科技巨头Meta、谷歌相继发布AI生成视频模型Make-A-Video和Imagen Video、Phenaki。但目前阶段看起来仅处于让图片“动起来”。

赵德丽判断,大概两年左右时间,AI生成视频也有望能达到文生图级别的效果。而目前的困难点在于,不论是质量还是数量都和文生图的数据有较大差距。“从这个角度来说,业内也需要技术模型的开源,来带动一些新的研究范式的出现。”

传统的任务型AI,运行1000个任务需要1000个模型,而以Transformer为标志的预训练模型出现,再到以GPT-3为代表的大模型,基于同一算法架构上的开源释放了生成式AI技术的进一步的创造力,从文生文,到文生图,再到文生视频,AIGC的内容边界在不断扩展。

自 2017 年以来,深度学习算法、应用和技术突飞猛进。尤其是Transformer(一种利用自注意力机制来提高算法能力的模型)的出现,这一类纯粹基于注意力机制的神经网络算法,在视觉和语言领域的成功很大程度上促成了统一算法架构的出现。

十多年前,AI学界的不同子领域之间几乎没有共通语言,但Transformer的到来表明了融合的可能性,暗含了全领域通用的潜力。

而基于Transformer和Diffusion model的基础模型,AI的底层架构算法趋于统一后,一个系统级的应用就出现了,即Defining model(基础模型)。基于此开发出的各类算法体系就可迭代、可维护、可扩展,就能诞生出这种架构范式下的百花齐放的应用范式。

中国计算机学会副理事长、澜舟科技创始人兼CEO周明博士表示,预训练模型有望让AI行业从依赖算法专家手工调参的手工作坊时代,走向大规模、可复制的大工业时代,这其中的关键一环就是AI模型社区,堪称AI时代的基础设施,能将预训练模型以较低门槛提供给广大开发者。

生成式AI的火热不仅意味着商业上的可能性,更代表着AI进入一个新世代,意味着AI技术从高校、大厂、AI创业公司、算法精英们的专属能力,进一步转移到能将AI技术落地的动漫、游戏、设计等垂直公司。

近些年来,超大规模预训练模型成为各大科技巨头在人工智能领域上寻求突破的新方向。

而就在阿里达摩院宣布推出中文AI模型社区的前一天(11月2日),谷歌也首次开放了自家文本图像模型Imagen的测试。自推出以来,Imagen一直被与OpenAI的DALL-E 2、Stability AI的Stable Diffusion相比较,但谷歌态度一直较为谨慎,没有将该模型向公众开放。

现在,谷歌终于宣布将把Imagen添加到其AI Test Kitchen应用中,作为一种收集关于该技术的早期反馈的方式。

AI Test Kitchen,是今年谷歌推出的一款用于对各种AI系统进行测试的应用程序,最初用户仅可以在上面与AI聊天机器人LaMDA 2进行交流,此次更新将添加两种与Imagen互动的新方式:城市梦想家(City Dreamer) 和Wobble。用户可以在“城市梦想家” 用文字命令建造主体城市,或者“Wobble”来创造会扭动的卡通形象等。

除此之外,谷歌一鼓作气发布了四项最新的AIGC技术成果,其能够根据文本提示生成高分辨率长视频、3D模型、音乐、代码、文字内容等。

过往,AI生成技术因其过高的技术门槛,多囿于科技界的小圈层。今年8月,文本-图像生成模型Stable Diffusion正式开源。此次开源,Stable Diffusion开放了其已经训练好的模型,后继者就能更好地借助这一开源工具,挖掘出更丰富的内容生态,为向更广泛的C端用户普及起到至关重要的作用。Stable Diffusion的火爆,本质上就是开源释放了创造力。

随着生成扩散模型和多模态预训练模型等技术的快速发展,在图文生成效果上有了显著进步,让AI可以快速、灵活地生成不同模态的数据内容。

在2021年之前,AIGC还主要是文字生成。而新一代的模型可以处理很多任何内容格式,包含文字、语音、代码、图像、视频、3D模型、机器人的动作等等。比如近期以DALL-E2和Stable Diffusion为代表的AIGC技术在图文生成效果上,能够广泛应用于内容生成、编辑和创作等领域。

一些风头正热的公司也获得了相应的弹药:OpenAI 获得了超过 10 亿美元的资金,刚获1亿美元融资的Stable Diffusion 开发商 Stability AI 正以高达 10 亿美元的估值筹集风险资金。

此前,风司红杉资本在其网站上发文表示:“从游戏到广告再到法律方面,生成式 AI 可能会改变所有需要人类创造力发挥作用的领域。这种技术有可能产生数万亿美元的经济价值。”有趣的是,这篇文章的一部分就是由 GPT-3 撰写的——一种生成文本的生成式 AI。

Compound VC 管理合伙人迈克尔・邓普西提到,以前仅限于实验室的技术进入主流的时刻“非常罕见”,也因此吸引了风险投资者的大量关注。但他同时警告说,生成式 AI 目前处于更接近炒作周期顶峰的“好奇心阶段”。处于这个阶段的公司比较危险,因为它们没有专注在企业或消费者付费意愿强的特定用途上。

事实上,海外淘到第一桶金的AIGC公司也都大多瞄准一个可落地的垂直场景,从而获得收益。

一家帮助客户优化营销文案的初创公司Copy.AI,两年内的ARR(年度经常性收入)就已达到1000万美元;最近刚完成1.25亿美元融资的Jasper公司,用AI帮助企业和个人客户写社交媒体、博客等内容,而距其产品上线个月。

如今,无论国内外的独角兽还是创业公司,AIGC在商业变现上还没有一个成熟模式,是否能够成为AI下一个阶段的引爆点,实现大规模应用落地,仍待观察。

本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注