旷视科技联合创始人、CEO印奇(来源:受访者提供)
钛媒体App获悉,北京时间3月15日凌晨,美国OpenAI公司正式发布多模态预训练大模型 GPT-4,实现了多个领域的飞跃式提升:强大的识图能力,文字输入限制提升至2.5万字,能够生成歌词、创意文本,实现风格变化等。
这一消息引发了 AI 技术圈内热议。短短五个小时,GPT-4推文阅读量超过367万。
实际上,近几个月,基于OpenAI GPT-3.5模型研发的对话产品 ChatGPT 掀起热潮,引起全球高度关注。从大学教授到创业者,从投资人到科技部部长,都在讨论这个60天月活超1亿、上知天文下知地理的ChatGPT,甚至引爆了全球科技巨头与 AI 行业的新一轮大模型军备竞赛。因此,GPT-4让人更加期待其带来的技术变革。
相对于OpenAI,尽管中国在 AI 领域进行了很多研究成果和布局,但目前要达到像OpenAI的效果可能还需时日。
科学技术部部长王志刚3月5日表示,ChatGPT证明了 AI 是大方向,而OpenAI在 AI 对话实时效果方面有优势,“比如发动机,大家都能做出发动机,但质量是有不同的。踢足球都是盘带、射门,但是要做到梅西那么好也不容易。”王志刚表示。
自1956年达特茅斯会议上创造 AI 这个术语以来,过去近60年间,全球共经历了三次 AI 浪潮。前两次 AI 浪潮中,不管是芯片“摩尔定律”速度跟不上 AI 的算力要求,还是数据量不够、算法不强、商业化不如预期,整个 AI 技术并未呈现机器特性。
直到2016年,谷歌DeepMind的“阿尔法狗”(AlphaGo)击败韩国围棋冠军,深度学习和新的学习框架Transformer的诞生,让 AI 算法、算力、数据“三驾马车”全面发力。
中国在 AI 技术领域发展迅速。据工信部科技司副司长任爱光公布的数据,目前中国 AI 核心产业规模达到5000亿元,企业数量接近4000家,覆盖芯片、开源框架、智能终端、智慧城市等领域。
那么,为什么在ChatGPT热潮中,中国 AI 领域却很难出现OpenAI公司或是ChatGPT?GPT-4 已经发布,中国企业如何攻坚 AI 大模型产业落地难题?
针对这些话题,近日,钛媒体App和旷视科技联合创始人、CEO印奇进行了一次深入交流。
旷视科技自2011年成立的12年来,一直致力于构建万物互联的 AI 基础设施,聚焦消费物联网、城市物联网、供应链物联网三大核心场景。根据美国机构ZetaAlpha基于2020年、2021年和2022年每年被引用次数最多的100篇论文最新数据显示,已发表 AI 论文高引用转化率的排名中,旷视排名全球第二,仅次于OpenAI。
作为最接近 OpenAI 的中国 AI 企业,印奇告诉钛媒体App,中国攻坚 AI 大模型要先把GPT-3.5复现出来,但过程没有想象的那么容易。相对于美国不计代价的纯技术创新,中国 AI 公司还是要面临相对短周期商业化的压力。“我们要有极强的危机感。”
“未来的一段时间,能不能有一个公司首先把大模型真的做出来,且性能真的是达到GPT-3.5,这是所有事情的起点。就像菜你没有炒过,不知道盐和味精怎么放,而且GPT所消耗的资源、门槛都非常高。”
印奇表示,因为大部分中国 AI 公司是不赚钱的,不会烧这么多钱。从务实角度,中国 AI 公司不可能拥有OpenAI和DeepMind那样奢侈的条件,因此,国内一方面要用最艰苦朴素、奋斗的状态来攻坚核心 AI 技术,另外中国 AI 公司想活得长,必须要把大模型商业化。
感知、决策、执行、反馈四大模块是重要的通用 AI 技术体系。在印奇看来,AI 未来会沿着两个大的方向演进:一是“AI in Digital”,以ChatGPT为代表的技术,将给数字世界带来新技术范式的迁移;二是“AI in Physical”,以特斯拉为代表的企业,将 AI 技术引擎与硬件载体结合,产生自动驾驶、机器人等不同类型的智能机器,对物理世界进行改造。
印奇表示,如果在 AI 核心技术上无法引领,旷视乃至中国的 AI 企业,就会在全球竞争中逐渐失去自己的位置。而旷视的目标是要做影响物理世界的 AI 技术创新,而且一直坚定的保持核心技术能力长期领先。“国内只要迎头赶上,还是有优势的,所以现在没有那么悲观。”
具体来说,印奇对钛媒体App表示,过去几年旷视一直深入大模型技术研究,而且有专门的技术团队研发原创的大模型成果。目前,旷视研究院基础模型科研聚焦于通用图像大模型、视频理解大模型、计算摄影大模型和自动驾驶感知大模型四个方向,提出了RepLKNet、RevCol等多个创新性模型,并与整个旷视产品应用结合,从而推动 AI 大模型商业落地。
不过,印奇也对ChatGPT赛道过热表示保持谨慎乐观的态度。他提到,大家对这个技术有的时候认知还没有那么深,但技术不是“大力出奇迹”,不能简单按照互联网逻辑发展 AI 技术,“大家对这个表示重视总是好的。”
此次交流过程中,除了谈及“技术信仰”,印奇还谈及了“价值务实”另一旷视技术DNA,回归业务本质去思考 AI 与商业目标之间的关系。
印奇并不避讳谈及目前外界对于 AI 公司规模化盈利难等诸多行业挑战,他表示,未来旷视不仅长期做技术投入,还要“降本增效”全力拼盈利。
当谈及旷视计划何时盈利时,印奇告诉钛媒体App,未来两三年内部定的两组关键词是技术领导力、全力拼盈利。他希望未来5年内,旷视科技能突破枷锁、实现盈利,从而打造一家商业化成功的 AIoT 公司。
“我们在减成本,公司运营能力在过去几年有很好的提升。我们要5年以内盈利,也可能是更短的时间。”印奇表示。
印奇对钛媒体App表示,真正的 AI 场景创新会发生在边端侧。未来,旷视主打4-5个大的垂类场景,包括智慧城市、运营商、智慧教育、工业领域(包括钢铁、煤炭)等领域,扎扎实实把合作伙伴服务好。
“我们内部有一个打法,旷视不用有那么多客户,只要在每个行业里面真正找到合适的头部企业、能够牵引你完成0至1的PoC(具体应用的概念验证测试)客户,做好深度服务,后面的事情就会自然发生。当你0-1做完之后,后面1到N一定是快速自然的过程。”印奇表示,在接下来4-5年的时间,旷视能有5-10个行业能够做得很扎实就很厉害了。
印奇强调,旷视“Power Humanity With AI”(用人工智能造福大众)使命一直没变。未来旷视不仅要推动通用 AI 技术最终到来,而且要成为一家商业化非常成功的 AIoT 公司,才有足够多的资源、资金、人才密度和数据去推动 AI 技术发展。
“中国和美国未来的 AI 技术路线会很不一样,很难去做对比。最早旷视成立的时候我们希望成为谷歌,但后来发现我们不会出来谷歌。我们要走出一条独特、正确的路线。”印奇对钛媒体App表示。
以下是钛媒体App和印奇的部分对话记录:
钛媒体App:AI 大模型落地还有哪些难点?
印奇:难题很多,首先,中国就没有谁能够迅速拥有GPT-3.5。其次,中国能够把两万块GPU卡训练出来的公司,只有5家企业以内。
此外,我认为最重要的事情就是现在能把GPT-3.5复现出来,这件事情没有想象的那么容易。在互联网时代,大家很多时候只讲what,不讲how,好像what想清楚了,how就很容易,大家没有想到,我做大模型后面做什么应用,你先把大模型做出来,如果看现在已经公布的大模型,跟3.5的差距非常大,而且这个差距有可能是本质的差距。
在未来的一段时间,能不能有一个公司首先把大模型真的做出来,且性能真的是达到GPT-3.5,这是所有事情的起点。就像这个菜你没有炒过,不知道盐和味精怎么放,而且这个东西所消耗的资源、门槛都非常高。
大家喜欢用类比,有人说这是一个iPhone时刻,有人说这是当年谷歌发明搜索引擎的时刻。你要真正对科技史了解的话,你会发现在谷歌之前有很多搜索引擎,跟谷歌是代际的差别。
我们来看数字引擎,包含两部分,一部分包含底层技术的突破,我是相信这个底层技术可能已经突破了,但是还有一些问题没有搞的特别清楚;还有一点,这个底层技术和核心应用真的要变成一个闭环。我们还没到“谷歌发明搜索引擎”的能力,但是有可能是前夕,大家比较兴奋也很合理。
钛媒体App:中国 AI 企业当中为什么没有出现 OpenAI 或是ChatGPT?
印奇:首先,我认为中国 AI 行业已经算挺争气了。其次,美国在中国最熟知的,除了互联网大厂之外就是DeepMind和OpenAI,美国也许对于纯技术创新方面确实有一个更大的资金量,而且很长期的投入,中国 AI 公司还是面临相对短周期商业化的压力,这个还是挺不一样的。
美国整体原创性的创新能力比我们要强,但我认为,至少在 AI 领域里面差距并没有那么大。
不过,我们要有极强的危机感。如果我们能够把GPT-3.5复现出来,至少对这件事情大家的认知接近,GPT-3.5是更重要的点,至少让大家在共同的基准上,这样后续无论是应用的创新、对技术的创新各方面至少有感觉。如果再晚去投入的话,至少是一个跨 10 亿美金起跳。这个门槛是比较高的。
国内只要迎头赶上还是有优势的,所以现在没有那么悲观。但不要指责中国 AI 企业,因为大部分中国 AI 公司是不赚钱的,不会烧这么多钱。而从务实角度,中国 AI 公司不可能像OpenAI和DeepMind,我们没有那么奢侈的条件。
所以在我看来,一方面,我们要用更艰苦奋斗、朴素、节约的状态来攻坚核心技术,这是最重要的能力,但是挑战很大,因为这是一个长期积累的过程;另一方面,别要有幻想,在中国 AI 公司想活得长,必须要商业化。这两件事都很重要。因此,大家对中国 AI 公司不用太苛责,我们已经挺努力了。
钛媒体App:对于爆火的ChatGPT,旷视有哪些看法和思考?
印奇:在过去四五年时间,旷视对大模型这件事情一直非常深度Follow(关注)的,而且,旷视还有很多一些原创、非常重要的大模型成果,旷视专门有个组叫Foundation Model,这个组只做核心的模型设计,不是做一个工程化。他们有非常强的技术方面的科研能力。
我给出三个很简单的结论:
第一、大模型这个方向是确定性的。我们不是因为今天热门了才做,而是已经做了有四、五年的时间了;
第二、大模型从Transformer之后,基本上形成大一统的局面,语言模型、视觉模型,甚至说谷歌的机器人控制模型,这里面基本上形成了非常明确的行业共识。比如你会发现真正抓住这波NLP机会的人,都不是传统NLP的人,因为传统NLP的人有一套建构性思维,逐步体系往前走,你会发现这波都是做深度学习(DeepLearning)的人,就是“暴力美学”的这帮人,这个已经形成了大一统。大模型是个确定性的方向。此外,大模型的多模态融合已经不那么区分细分领域,核心则是看其在深度学习领域的深度理解能力;
第三、旷视无论是以往的积累,还是未来,一定是非常坚定的投入,但是我们在应用方向上也很坚定,我们还是在AIoT大环境下,并不会去赶热点。举个最简单的例子,比如像自动驾驶领域,我们内部做了很多的研讨,ChatGPT具备很多带逻辑引擎的能力,这对实现自动驾驶未来真正的全面推广非常关键。
大家要把ChatGPT做区分,里面有两层,Chat是上面的应用我们不会做,但是下面的GPT-3.5核心技术能力,我们肯定会储备。本质上,GPT-3.5语言模型包括知识引擎、逻辑引擎,这两个东西不光是跟对话场景相关,是跟所有逻辑知识相关。下面大模型的技术能力旷视会非常坚定的投入,且我们认为现在的技术和条件都非常好。
钛媒体App:AIoT赛道玩家众多,旷视曾把华为、大华、海康威视当同行业可比公司,那么,旷视是想要做下一个华为、海康吗?还是有其他想法?
印奇:我们非常尊敬华为和海康、大华这些具有强实力的智能化转型的硬件厂商公司。不过,我们成为不了华为、海康、大华。所以,大家认为计算机视觉公司越来越像安防、视频监控等领域企业,但其实大家已经放弃这个幻想了,这个领域还是老玩家的天下。
不过,这个领域的边界扩的非常大,我们将持续专注在数字化感知,而不是安防。在数字化转型方面,我几乎看到所有的行业会发现上面那层叫“IT”,有些制造业下面有些是“oT”,中间有个非常大的空间叫 AIoT,中间这个空间不是视频监控,它可能更多是泛广义的数字化感知能力,跟很多核心业务整合。这个是我们想真正去长期耕耘、相对偏早期运营阶段的市场。
旷视要做万物互联的AI基础设施,里面我们非常强调边-端-侧,这是我们一直没变的。
总体来说,旷视战略逻辑比较清楚。我们认为,真正的 AI 场景创新会发生在边-端-侧,而边端侧的本质是要降低门槛。你发现,算法变便宜了,而且每个行业对算法的要求不一样,还要不断地迭代。算法装到一个硬件上,那个盒子传感器就得很标准化,这就是算法定义硬件。而且,我们会算法生成、计算平台、传感器,甚至未来会提供一个类似用模型去做、偏自动化编程的东西成为我们的产品。我认为,这套东西能把边端很多核心创新的部分核心解决掉,接下来每个行业的合作伙伴,再从上游去做更深度的应用逻辑、业务开发。
值得一提的是,降低 AI 门槛或价格不会导致毛利率的降低。而且,算法定义硬件,最终本质上硬件的平台越标准化、规模化,成本越低就越好,软件的比重会越来越高,而且还提供软件相关生态。因此,我们会坚定去做“算法定义硬件”。
钛媒体App:旷视现在处于活下去阶段,还是要考虑未来生态?
印奇:其实旷视的使命一直没变,叫“power humanity with AI”。中国很少有一家企业从出生开始就伴随着一个核心技术,且这个技术从底层业务创新到整体产业化的落地。之前我们说模式创新,旷视从一开头就跟 AI 这个技术相伴。
技术推动、商业化成功这两个东西很难说哪个是目的,哪个是手段。本质上,基于AI技术的到来,且能够造福大众,这件事情很重要。甚至回头来看互联网的发展、移动互联网的发展,是不是真正所有的技术保持着让整个大众或者社会群体能够变得更好。这是不一定的。
未来旷视阶段化发展有两点:第一个是推动 AI 的到来,而且真的对大众是有益处的,这件事情旷视一直没有变,推动技术最后的到来是很重要的点;第二个是打造一家商业化成功的公司。我自己一个很重要的想法是,想要推动通用人工智能(AGI)技术最终的到来,一定是要在一家非常商业成功的公司,才有足够多的资源、资金、人才密度和数据去推动这样技术的发展。
对于我们来说,目的和手段并不重要,但这两件事情必须同时达到。
钛媒体App:之前你提到非常关心脑科学领域,那么为了通用 AI,旷视未来是否也会做相关工作?
印奇:最早我非常关注脑科学,当时我认为对脑科学很多基本判断会帮助 AI 的发展,但逻辑反而是,AI 的快速发展促进了大家对大脑的认识。比如,飞机的发展,本质上是先研究了鸟,但发现做不出来,最后却突然做出了飞机,做出了飞机之后后面才衍生出了空气动力学,而不是研究了鸟,一下子就把飞行这件事情从物理领域解决了。我相信,AI 也会走这条逻辑。
人类对脑科学的研究进展没有那么快。这个时候用 AI 的方式,本质上是对人脑核心智能结构的判断,认为真的突破了,这个时候我们一定发现有个“智能算法”的东西。
旷视一直在做,技术都是长期积累、从量变到质变的过程。OpenAI 最牛的是,他们是大模型的原教旨。所以,我们一直说技术信仰很重要,同时价值务实也很重要,这是旷视核心的 DNA。
(本文首发钛媒体App,作者|林志佳)