划重点:
1通义千问是一个大模型,它的名称来源于“千万次的追问”这种人类获取智慧的方式。2评测通义千问是一项具有挑战性的任务,目前行业还没有一个标准。测试集包括创作、文案续写、推理和数学等多个方面。3通义千问在推理方面表现良好,但与ChatGPT相比还有不足之处。4未来发展方向是不断提高自身表现能力,并且推出更多的模型系列。对话访谈人:王兆洋 骆轶航
(相关资料图)
对话受访人:周靖人
对话整理人:李晓贤
4月7日,阿里巴巴旗下大语言模型——“通义千问”开启邀测。
开发“通义千问”的阿里巴巴达摩院如是解释这款大语言模型的命名:“千问,千万次的问,千万的学问,能问出千问的一定是真爱,能回答千问的,也一定是真有学问,以及,AI和我们一样,都有千万次交互的热情。”
而在使用邀请码对大模型产品测试了一天后,我们也有机会和它背后的负责人,阿里云智能CTO周靖人进行了一次独家对话,提出了我们的“千问”。
以下为对话实录:
“通义千问”不是起点也不是终点,而是既定路线上的一个节点
品玩:我们今天一直在使用通义千问,它的许多特点让我们印象深刻,网上也有了很多对产品的测试,我们很好奇你们会怎么测试它,如何判断它的表现?
周靖人:怎么去全面评测一个大模型本身是非常有挑战的。其实今天整个行业还没有一个标准。甚至每个人的评价其实也是很主观的,对吧?
有时候更多的是说,让模型能面对你的一些回复,揣测到你到底是喜欢哪一种说话的方式,然后会不断去调整,这本身就是模型在理解方面的一个能力。
我们会有一系列的评测,其中简单的测试包括一些创作,一些文案的续写,一些简单的推理,甚至一些简单的数学。包括今天跟一些多模态的延展,还有一些知识增强的测试。
现在我们内部是有一个测试集,而慢慢以后都会从让人去评价一个模型,变成用模型去评价一个模型本身,我们一定会走到这一步。
品玩:那么如果对标ChatGPT,通义千问现在是什么水平?
周靖人:我们要承认ChatGPT尤其是GPT4目前还是非常领先的。我觉得这是一个正常的过程。
但直接对比的话,这也很难评价。我们关注的是如何能够让我们的模型弥补自己的不足,甚至在更多的一些场景里面有突出的一些能力的表现。今天所有的模型离我们真正去模拟人类的智慧体还有很远的距离。
品玩:阿里并不是因为ChatGPT的出现才开始密集投入大模型的,之前也展示过很多模型研究的进展,那“通义千问”在阿里的大模型研究历程里是什么位置?
周靖人:这个产品是我们的一个中间态。
今天我们在不断探索基于多模态的大模型的路径上,或者说接近于多模态真正的趋近人类智慧体的路径上的一个节点。它不是起点也不是终点,是个既定路线上的节点。我们这次是把过去积累的一部分工作向社会,向开发者开放,但我们在这方面还有长足的工作,需要进一步地去突破去创新。
品玩:尽管你强调多模态,但我们注意到这一次并没有提供文生图的功能。
周靖人:对,很多公司在做文生图,其实达摩院也有相关的一系列工作发表了,像我们的Composer模型等,不光能够做文生图,还可以根据你的一些详细指令去修改这个图。所以给通义千问接入文生图并不是最难的,它更多是一个工程上的问题。
我们其实认为,今天更难的是把各个模态的模型能力融入进一个模型,比如怎么把视觉的能力融入到语言模型里面。因为一个人获取知识的方式有视觉、语言、听觉等,不会把它们用独立的形态分割开来,在人脑里它都是一个可贯通的知识体,能够把不同形式的输入有机的联合在一起。今后的多模态必然能够做到,不管是任何一个模态来的信息,你的知识体系或者接受到的信号都能够在一个高维的空间里有机融合在一起。
我觉得这个是必然会发生的。这个也是接下来GPT4或5一定会有突破的地方,我们也在这方面有不少的投入,也是我们认准的一个重要方向。
品玩:也就是说阿里的大模型路线,是多模态的一张蓝图绘到底,而这些都是计划的一部分。
周靖人:我们从 2019 年就开始尝试各种各样的大模型,从StructBERT到M6,再到PLUG再到最新的Composer等一系列视觉模型,其实本质都是在预训练大模型的整体思路上不断进行探索,不断创新。
我认为今天大模型其实在不断地逼近我们人的智慧。人的智慧很重要的一点就来自于语言,LLM(large language model )开始能根据自然语言理解有效地提取人类大量的知识体系,在这方面是非常独特的。
今天我们看到类似ChatGPT,类似通义千问所表现出来的一些能力,其实都是在这条道路上。所以对我们行业内的人来讲,我们并不认为这条道路好像就是2023 年突然出现。我们认为这是一个长期以来技术发展的演进过程。甚至我们认为今天看到的所谓大模型的能力也都是冰山一角,今后还会有整体更惊人的一系列表现。
我认为ChatGPT的推出,更重要的是教育了整个社会。上一次半年前我们聊到大模型的时候,可能连科技界部分工作者都还不看好这条路线。今天 ChatGPT 基于 Chat 这样一个产品的形态做得非常出色,把相关的能力有效地表达出来了,不光是对模型一线的工作者,更多是让大众和各行各业的人都突然有如梦惊醒的感觉。甚至,今天它给我们整个计算机科学领域都带来了一个惊讶的反应,或者说快速的教育过程,大家快速认识到基于一个智慧体的预训练大模型会有多么出色的表现。
在这个过程中间,我们对ChatGPT所采用的一些技术和各个方面能够达到的惊艳效果也是感到出乎意料。但阿里不是说今天有了ChatGPT,我们才加入这样一个阵列,或者说我们才能凑热闹,也来做一把模型。其实我们在这方面一直在积累,应该说是国内最早探索大模型方向的公司之一。
ChatGPT非常领先,但下次也许就是我们在引领技术的发展
品玩:所以对大模型而言,ChatGPT究竟改变了什么?
周靖人:它基于SFT(有监督精调),包括基于reinforcement learning(强化学习) 的调优方式让人眼前一亮。
今天其实我们回过头去看,模型中融入知识的潜力是巨大的,但是在InstructGPT 出来之前,其实缺乏一个有效的手段把这方面的能力释放出来。现在这些技术的使用能更有效地把模型作为知识体的能力释放出来,快速地去解决一些具体的问题。
品玩: 这对大模型研究路线有什么影响?
周靖人:首先,ChatGPT包括InstructGPT给我们很多启发,我相信 OpenAI 其实有长足的技术前瞻性,当他发布GPT3. 0 或者 3. 5 版本的时候,实际上是各个方面都陆陆续续已经准备好了。
但最终我们认为类似人类智慧体的预训练大模型一定是多模态的。我们长期以来在这方面做投入,因此ChatGPT的诞生并没有让我们转变投入方向。后来GPT4的发布其实在无形之中验证了大家实看法比较一致——AI会朝着多模态的体系进一步发展。
所以今天我们方向是一致的,在实现路径上我们要取长补短,这是科技发展的必经之路。今天ChatGPT有一些很出色的工作,我们要把他们的一系列工作和一些进展融入到我们技术路线里面来。
品玩:如何看AI行业的议程正在被ChatGPT设置这个事实,就是说无论其它玩家做什么,都会被拿来跟ChatGPT做对标。
周靖人:我觉得这就是科技的魅力。
这种你追我赶是今天科技健康发展的必经之路。任何一个科技都是处于你追我赶中,今天可能我有一些新的想法,能把科技再往前推一步,那下一次有可能是由你来承担这方面的一些创新,大家都是在互相取长补短,不断的去推进科技前进。
在不断取长的过程里,我们也不能妄自菲薄,我们同样也希望能不断地去推进最先进的技术进步,下次也许就是我们在推动行业的发展。只有这样人类的整体科技才能不断地提升,不断的创新,不断地进行突破。
至于今天整个 OpenAI 已经在给我们设置议程,我觉得那是因为它是领先者,这必须承认,而接下来,如何能快速追赶上,如何能快速地去迭代模型将成为一个制胜的关键。
也就是说今天我们不乏有一些新的想法,那今天我如何能够去尝试?如果说每一次的尝试它需要花的时间是几个月甚至更长,那今天你整个的创新速度是跑不起来的。
品玩:它变成了一个系统效率的比拼。
周靖人:今天创新迭代的速度一方面需要我们有一些新的想法,但更重要的是需要今天云的基础设施。它能够让我们去快速地去尝试,去试错,能够快速拿到反馈,才能让科技创新不断加速。
我们讲它是一个全方位的竞争,不单单是说今天是模型本身的竞争,其实今天它既是研究又是工程,是从云的基础设施到 AI 算法,到今天数据处理,全方位的一个竞争,甚至涉及到了今天我们计算机科学的方方面面。有各种各样的分布式系统重启、底层的网络存储各个方面都会涉及到。那之所以 OpenAI 能够做出非常出色的工作,也来源于今天它跟微软 Azure 的有机结合,其实在无形之中也是强联合,能够不断通过云的基础设施,通过整个系统的一系列优化带动了今天OpenAI不断创新的速度。
我认为在这一场竞争里面,是一个公司全方位能力的一个表现,如果在任何一个环节稍微落后一点,都会在整个竞争上处于劣势。
“通义千问”其实是一个MaaS(模型即服务)的底座
品玩:也就是可能这个模型并没有完全成熟,但是它也需要先投入到一个真实甚至是一个商业的环境中去。今天模型的研发跟行业的应用已经在并行进行。
周靖人:对,人们逐渐认识到基于大模型本身强大的对知识理解和推理能力,找到一个如SFT和Prompt等方向后,就能够把小宇宙慢慢释放出来。那当然会激发基于大模型的一系列模型应用。
今天一定程度上人工智能业务算法的算法体系已经在改变,今后大家要慢慢学会怎么在大模型上去做二次的开发,去做相关的一系列算法和工作,包括把它适配到不同的场景。
去年我们在国内首次推出 model as a service模型即服务(MaaS),甚至我们是在全球第一个提出来这样一个概念。那我们也比较欣慰的看到越来越多的行业、云计算厂商还有更多的互联网公司也开始认同这样的一个观点,甚至今天也开始按照这样一个观点去打造自己的产品服务体系。我们已经已经真正进入到了一个模型的世界。
品玩:那么MaaS会让我们和OpenAI走上不同的演进道路么?
周靖人:我们认为今后 AI 的开发门槛会越来越低,我们期待的是连小学生也能用各种模型进行开发。今后我们需要形成的是一个一个模型的不同层级的结构。
而且一个通用的模型其实也很难解决所有问题。从开发者的角度,它会更多的以模型为第一思考的角度和元素,也就是说今天围绕着模型作开发的范式会逐渐诞生。我们去年在ChatGPT出来之前就提出并一直在强调 MaaS,其实就是这样一个理念背后的一系列的思考。
我们在思考模型的生态如何快速发展,所以提出MaaS,为了加速MaaS,我们又创建了“魔搭”这样的社区。所以几乎这些工作都是相互强关联的,是在我们整个AI战略和模型战略的主线上。
品玩:通义千问其实也就是MaaS的成果之一,对吧。
周靖人:是的,今天通义千问是以对话作为一个能力的表现形式,但我们期待一些企业级的应用诞生在上面,也就是说今天真正把通义千问模型作为MaaS上面的一个底座,能够在上面进行额外的开发,能够真正应用到一些各行各业的场景里面去。那这样就是真正意义上形成了MaaS。
达摩院支持别人在阿里云上开发大语言模型
品玩:也就是在阿里云上别人也可以开发自己的模型。
周靖人:我们是非常欢迎的。我们并不认为今天大模型是一家独大。
我们希望阿里云能够为大家提供一个高效的算力,不简简单单是一个算力的数字,而是能够把这部分的基础设施更好地提供给我们中国的创业公司,帮助他们在 AI 方面实现自己的创新,这样才能让中国整体的 AI 能力有一个全方位的提升。
品玩:其实我们对于初创公司做模型这件事情,整个达摩院包括整个阿里的态度其实是相当开放的?
周靖人:对。
品玩:那初创公司做大模型呢?你们怎么看?
周靖人:我觉得对待大模型,我们科技界一定是要保持开放的心态,对吧?因为很多的创新来自许多新的想法,其实这个我们很难说处于一个垄断的状态。
阿里应该说在这方面非常开放,我们愿意把我们的模型供大家使用,另外一方面我们也把我们模型所依赖的这样一个云的能力也对外进行服务。虽然我们也认识到今天小公司在训练大模型的经费和技术上有门槛,但我觉得这个是问题本身的特点所带来的。我们希望有更多的参与者不断地加入到这方面的科技创新。
卖个关子,还有下一款“通义”模型
品玩:今天很多人把大模型的突飞猛进归结于涌现(emergence)。您是否可以描述一下,通义千问的哪一个研发场景,让我们觉得这个它可能它是实现了一次非常成功的大规模的涌现?
周靖人:我觉得涌现可能是一个主观的定义。
品玩:不是一个科学的词汇,是吗?
周靖人:对,为什么这么说,因为它是对某一个个体认知体系的一个冲击,这个叫做一个涌现。那当然每个人的认知是不一样的,所以大家看到同样结果,也许对我是一个冲击,对你就不是一个冲击。
所以对于我们这些科技工作者来讲,今天所有的科技发展都是一步步来的。所以我刚才讲到,我们之所以从几年前国内最早就在做相关大模型的研究,如此笃定,其实我们每年都会有各种各样的一个涌现,我们每一份工作其实都有各种各样的一个涌现,当然这一次看起来是全社会的一个涌现,每个人都参与,但我还是认为科技的发展总是有一定的积累后,到了一定时刻有一个突破,其实中间有很多的技术细节,很多的know-how。
品玩:所以这些know-how是什么?很多人说现在找不到,跟炼丹似的,您同意这个说法吗?
周靖人:我觉得应该说今天我们有点类似处于早期深度学习发展的那个阶段。那个时候大家对整个深度学习的理解,也觉得是“不知道为什么,反正管用”,这点毫无疑问。坦诚地讲,今天的进步确实有很多工程以及经验的因素在里面,这中间的的确确还有很多方面值得研究,包括这个模型深层次的机理。今天我们大概知道这个模型为什么会有这么突发的一个表现,但真实的情况我们还是需要有一些理论的研究。
品玩:现在通义千问最希望或者最需要解决的问题是什么?
周靖人:这个模型可以优化的地方还有非常多。我刚才强调,它只是整体规划的一个部分,让大家体验到我们在工作上的一些进展,但是离我们的整体设计还有长足的工作需要去完成。
比如从模型本身和系统层来讲,如何能够更高效的去服务更大规模模型的训练,如何接入更多模态,提高在推理侧的代码能力,提升辅助人类日常工作生活方方面面的能力,结合行业知识的定制化能力等。
但是解决过程也是我们科技发展的一个必经之路,今天如果到一个时间点我们都觉得问题解决完了,这个领域也就不再令人兴奋了。正因为今天这个是一个刚刚发展起来的崭新的领域,我们认为想象的空间是巨大的。
品玩:最后一个问题,为什么叫通义千问,一定要这么文绉绉的吗?
周靖人:我们去年9月份的时候就发布了“通义”大模型系列,我们整体一系列的发布不是为了某一次发布而改变的策略,我们是有一个体系化的思考。今天我们发布千问是在我们既定的路线上面的一个节点。
所以通义是一个模型系列的名字,千问主要是指它目前一个主要的对话形态。千万次的追问是人类获取智慧的方式,我们希望千问也能够不断地学习逼近人类的智慧。
通义千问成为我们通义模型系列中重要的一员。我们接下来很快还会测试另外一款通义的模型,现在卖个关子。它也会叫通义什么,并且代表今天我们在相关领域的又一个重要进展。
关键词: