港中文「1026实验室」往事:贾佳亚与他的学生们
发布时间: 2023-09-19作者: 行业新闻
2004年,完全算不上人工智能发展史的大年,却是计算机视觉先行者贾佳亚和他带领的学生们开创的黄金时代的开端。他们起身、行走,以好奇心为导航,在人工智能的茫茫星野中进行无穷尽的探索。有时发现一些闪着光的宝贝,他们拾起,在行业中应用,然后继续行走。行者无疆。
故事开端是那年秋天,一个小伙子穿梭在香港新界沙田的林荫大道上,目的地是香港中文大学(下文简称港中文)。
小伙子年仅25岁,刚从香港科技大学结束博士生涯,拿到一封微软原全球执行副总裁沈向洋的推荐信。他有两个选择,去美国如麻省理工这样的高校继续攻读博士后,或直接在香港高校任教职,但是没有想到香港中文大学直接给他发了offer。于是他投身于这所学术界圣殿,开启了近20年的教职生涯,并持续至今。
这个小伙子便是独角兽企业思谋科技 SmartMore 创始人、董事长,香港中文大学终身教授贾佳亚。
2000年前后,数码单反相机刚出现时,一张图像只有262万像素,模糊、噪声大、颜色不艳丽。
贾佳亚常常盯着照片思考:「DSLR本来就是数字化的数据,没有可能用先进计算机算法让数字相机拍出来的图像更漂亮?」
正是这一寻常的好奇,点燃了他选择研究计算机视觉最本真的初心,也成为了他终身的追求。
时间回退到2000年,贾佳亚从复旦大学本科毕业。恰逢国家教育部和香港科技大学保送计划选拔名额,排名前列的贾佳亚与刘江川(香港地区第一位微软学者,IEEE Fellow,加拿大院士)以及陶宇飞(ACM Fellow,现港中文任教)被保送至香港科技大学。
在香港科技大学读博期间,出于对图像的热爱,贾佳亚在「AI黄埔军校」微软亚洲研究院最辉煌的时期做了许多相关研究,跟随时任研究院视觉组长的沈向洋在第一线深耕后,希望在该方向继续有所造诣。
早期,他主要研究数字相机摄像头相关的图像问题,如图像增强(去雾、去模糊、去噪声、增强)、图像平滑等。这个方向有个鲜明的标签——“计算机早期视觉”,相对小众,关注图像视觉成像部分。他也是该领域的早期领军人物。
贾佳亚的好友、学生不止一个场合提到,他是一个无比勤奋刻苦的人,哪怕大年初一都在“肝”论文。
2002年1月13日晚,微软亚洲研究院灯火通明。这是中国传统节日大年初一,亦是SIGGRAPH2002截稿日的前几天,对于贾佳亚而言,这也是他连续五天通宵的日子。
在此之前,他与孙剑(生前为旷视科技首席科学家、旷视研究院院长)等人已经花了三个月准备SIGGRAPH。
每天工作很久,从10个小时到后来12-14个小时。临近截稿,他们干劲反倒愈足,只是体力实在略感吃力。
在这之后的两三年内,贾佳亚的名字频频出现在SIGGRAPH会议上。他和孙剑等人也是首批可以投SIGGRAPH论文的华人学者。
待到2004年博士毕业时,贾佳亚的手里已经有两篇SIGGRAPH,其中一篇他是一作,除此以外还有2篇TPAMI、3篇CVPR。
CVPR、TPAMI均是计算视觉的顶级学会,SIGGRAPH更是拥有40多年历史的图形学顶级会议,SIGGRAPH论文被誉为业界的魔鬼级论文,中标率只有10%,对技术创新性上、写作表达、demo展示等所有的环节要求均十分严格。
严格程度可通过一个细节佐证。如果你上网搜索SIGGRAPH,网上出现的攻略是《如何让你的论文被拒》。
2004年,凭借出色的学术研究资历和导师沈向洋的极力推荐,贾佳亚被港中文迅速录取为助理教授。因为录取时间接近年尾,贾佳亚要到第二年才能正式招生。
自开始做研究以来,他自己摸爬滚打,艰苦奋斗,养成了不喜欢求人的习惯。有时,他是一个喜欢自己在前沿研究无人区探索的「独行者」。
因为拉不下面子,所以开口向学校要科研经费,成了贾佳亚一大挑战。「那时候特别苦,经费也不多,自己探索的领域对外人而言很难明白」。
我要汇聚像我一样的研究人员,去跟美国名校的顶级学者和学生去竞争,我要证明,我们团队不输他们。
在清华计算机系的内部BBS上,贾佳亚丢出一道SIGGRAPH题目,并表示第一个做出来的人,就会成为他的麾下弟子。
但年轻单纯的贾佳亚为了信守承诺,硬是只为「全力培养最好的研究人员」招了一人(其实答对题的同学都可以招进来),真正开始他的教职生涯。后话:这个学生就是熊伟Wayne Xiong – 从贾佳亚那里毕业10年后作为第一作者和微软Fellow黄学东发表了一篇著名的论文(参见官宣:Microsoft researchers reach human parity in conversational speech recognition),宣布在计算机语音识别能力上用算法第一次超越了人的能力。此事按下不表。
早期发布SIGGRAPH的经历练就了他在写论文与做研究上的完美主义,亦拔高了他的眼界,在贾佳亚指导下,学生写的论文几乎都像艺术品一样,从语法到每一张图,都要反复雕琢。更有趣的是,体力好,能打仗也成为了他对学生资质的要求之一。
只是如此高的要求,使得贾佳亚在任教前五年,团队里没有博士生能顺利达到他以自己的画像为参照的要求,而难以拿到哲学博士(PhD)学位。他甚至一度感觉自己的要求是不是定得太高,这样下去学校对贾佳亚升任副教授要求的——至少一个博士毕业——就达不到了。
幸好世界这么大,不缺聪明而又身体好的学生。2007年,徐立加入了贾佳亚团队。
在武林江湖上,一代宗师的背后,往往站有一群有能力的顽徒。这个定理同样适用在贾佳亚身上。
香港中文大学工程院依山而建,绿荫环绕,工程院顶楼有个计算机视觉实验室,贾佳亚的学生都在这个实验室,门牌号是1026。
实验室人丁兴旺,传统良好,每天半夜都是灯火通明。研究生的习惯基本都是做科研到半夜,有时会议交稿期(deadline)来了,通宵也是常事。
徐立来了之后,逐步把它发展成为打三国杀的场地。研究做到半夜,通常会招呼大家一起打一局,前提是系里的教授都离开了办公室。那段时间里,贾佳亚往往是最后一个离开办公室的教授。
于是,年轻的学生往往被遣往侦察教授是不是离开了。这通常也是对新入学的师弟的考核:“学会怎么样侦察教授动向。”
当然,凡事都有例外,有时大家慢慢的开始了牌局,战斗正酣,忽然实验室门被打开,贾佳亚走了进来 (通常是走了之后又想起些什么再回来),七八个人面面相觑,动作石化。
体育界常常会形容某些球星自成体系,以此渲染他们的影响力,来到贾佳亚实验室后,徐立也很快形成了自己的影响力,只是没想到最先体现在带大家娱乐上。
徐立本硕毕业于上海交通大学,进入港中文时,贾佳亚已有了两年的指导经验,对招收优秀人才有了更多心得,例如他招生放宽了学历要求,但是对学生的综合能力提出了更高的要求。
在这种标准下,研究能力强、能说会道、头脑灵活,极其聪明又自带自由主义气质的徐立,被贾佳亚一眼相中。
贾佳亚是一个完美主义者,他交给学生做的许多工作,看到学生做得不满意,给他们讲了几次都听不明白,或者学生对问题的理解未达到他的深刻程度,贾佳亚就会自己接过来做,自己把问题解决。
贾佳亚审核论文非常认真负责。他还经常在觉得学生的论文实在差强人意之时拿来自己重写。有一次,贾佳亚住院大手术,醒了第一件事就是把马上要投稿的论文拿来一字一句的修改。他那时候不能忍受一句话中有明显的英语语法错误和不专业的问题。
当时贾佳亚的研究方向是“computational photography”(计算影像学),聚焦在前期视觉产生过程,包括抠图(matting)、图像重建(reconstruction)、超分(super-resolution)等,其中去模糊(deblurring)是图像重建的一个重要方向。
图像去模糊顾名思义便是使得失真的图像恢复到它本来的模样。把一张模糊图片交给人类设计师,处理起来也相当费力。
因为图像的模糊有很多种可能性:镜头的缺陷、相机的抖动、场景的运动、景深的限制、后期的处理等等,需要先判断到底是哪里出问题了,此外还得对整个图片模糊程度以及周围布局进行预判。在没有深度学习以前,贾佳亚的解决方法是思考怎么样把变模糊的数学过程还原回来。这样的一个问题被认为是传统图像处理大方向中皇冠上的明珠,2006年前后都还是没有合适的解法,里面涉及的非线性优化问题尤为棘手。
类似的工作还有视频去噪声(denoising),就是把一个低解析度的图像或视频变成高清的视频,不是单纯的放大,而是使其看上去很自然。这一系列的工作并不是空中楼阁,而有实实在在的应用场景。当时贾佳亚在香港找了一些机构合作,这些技术会应用于修复老电影,还有香港警方的办案中,早期Adobe里的PS技术和一些手机内置的图像美化软件应用了贾佳亚团队的一系列算法。
彼时的贾佳亚像一个精通视觉算法工艺的匠人,对算法精雕细琢,接着进行图像的去模糊等工作,他也是图像去模糊、滤波、图像稀疏处理、多波段图像信号融合等领域的代表性人物。
总结而言,他所做的研究一直是在用计算机解决人眼看不到,看不清,看不细的事情。
值得一提的是,贾佳亚团队2008年发布在SIGGRAPH的“High-quality Motion Deblurring from a Single Image”是盲反卷积算法的经典文献,是现代图像处理的优化方法的基石之作,后来的很多高效算法都是对它的改进。再后来,徐立在此基础上发表了一系列的更有效,更快速,更先进的算法,彻底奠定了传统优化时代中,贾佳亚团队在此领域的绝对领先地位。
除此之外,在港中文任教期间,贾佳亚共发表了200多篇顶级论文,被引用超过6万次。其算法产品界面日调用量已超过500万次。
徐立后面回忆道,“看过初稿后,贾佳亚不轻不淡地说了一句,「你能用人类能懂的语言写文章吗?」” 这句话一直成为之后师生之间的笑谈。
但徐立优于常人的点在于他一点就通,擅长举一反三。同时善于沟通,会与导师反馈自己的进展,及时作出调整方向。到徐立写第二篇、第三篇论文的时候,贾佳亚对他的干预就减少了。由于出色的学术表现,博士一年级徐立就获得“微软学者”的荣誉。
2009到2011年期间,经常有行业的老师会拿徐立的文章作为上课的课件。因为他的文章代码不超过100行,本科生就能复现出来,但观点却很有开创性。
回顾徐立的学术生涯,成就可圈可点, 他三年完成博士学位,在视觉领域国际顶级会议、期刊上发表超过50篇论文,引用超过13000;三个算法获得视觉开源平台OpenCV(世界上最流行的计算机视觉库之一)收录,其中L0 Smoothing为图形学期刊Transaction on Graphics (TOG) 五年论文引用之首(2011-2015)。这些成果都是他在创业之前完成的。
每次顶会的Deadline来临时候,师弟师妹们都很紧张,徐立还是很淡定,因为他能承受压力时候理清楚优先级,规划好每个步骤。甚至能在晚上有空带着大家娱乐。
「我人生中第一次知道,原来打牌打得好也是高智商、能做好学问的一个重要证明」贾佳亚说。
在大师兄徐立带领实验室集体打牌的那次,贾佳亚推门而入,全部的学生都在打牌,只有卢策吾在电脑面前。实际上卢策吾只是恰好要去挂程序所以才叫大伙先开打。(到卢策吾毕业前,贾佳亚都觉得卢策吾不打牌)。
2009年,卢策吾在中科院硕士毕业,他在微软亚洲研究院实习时就听过其在图像处理领域的大名和杰出成就,慕名申请贾佳亚的博士。
论文主要对图像平滑(改善图像质量的方法)进行了创新,以往一般的平滑方法是用一些平滑卷积核(比如高斯模糊核、均匀滤波等)滤波,模糊牺牲图像的的边缘,而这篇文章中提出一种基于梯度的平滑方法,在保留较大的梯度(图像边缘)同时去除较小的梯度(去噪、平滑)。
想法很好,并且给出了优化问题的闭式解,实现过程很简单,论文提供的代码加上注释只有几十行,非常的通俗易懂。
卢策吾是贾佳亚的第二个博士,「二师兄」是卢策吾对自己在团队中的角色定位,只是他这个定位与真正的二师兄之间差了点距离,当时他体重不够。
贾佳亚对卢策吾的指导也的确尽心尽力。有一次卢策吾投顶会论文,在论文返修环节。因为评委的各种磨人要求,所有人都觉得希望渺茫。但是贾佳亚没放弃,加班加点进行修改。
这其实与贾佳亚在研究上坚持的长期主义原则相关。在贾佳亚的世界,越是难以挑战的事情才越有进行的意义。
在学术上,贾佳亚是学生们的导师,生活上更像一个大哥哥——本来年龄也相距不远。卢策吾记得,来港中文的第一周,贾佳亚就带大伙去爬了香港著名的远足径麦理浩径。
贾佳亚一边举起相机,一边吆喝着要求大家站好。卢策吾对这一举动感到有些震惊。「老师怎么屈尊给我们服务拍照」。
后面才知道,原来贾佳亚不仅是个对相片质感和构图十分在意的摄影迷,更是一个注重版权的「大艺术家」,实验室的学生要写论文时,如果要用照片,就会去贾佳亚的个人网站上下载,贾佳亚一边笑着一边强调:「要注明版权,写明“Leos photo”」。
贾佳亚个人网站上有一个“Photos”的专栏,记载着他从2003年开始的生活随手拍、旅行见闻和与学生们的聚会、活动照片等等。其中生活随手拍、旅行见闻等照片已有了年头,没有再更新,只有和学生们聚会的照片会“always updating”。照片中不少徐立、卢策吾、戴振龙、石建萍,以及沈小勇、刘枢、李睿宇和周超等人的身影。
贾佳亚的图片说明写得非常幽默,跟他治学严谨的人设呈现出一种“反差萌”。例如在2011年5月一次和徐立、卢策吾、戴振龙等一群学生去户外活动的照片中,大家摆着夸张的姿势拍照,贾佳亚把这张照片命名为“狂舞——幸运的是没有观众”;
2015年7月,毕业季,贾佳亚和刘枢、周超、齐晓娟等人下馆子吃饭,大家拍照都摆出了标准笑容,而图片说明是“告别晚宴——眼泪在哪里?”。
除了一起出门游玩、吃烧烤、参加活动,贾佳亚也会与学生们聊人生谈想法,提倡个性发展,也会时时鼓励他们认清自己的目标,做正确而难的事情,从他实验室出去的人除了这批专攻视觉的顶尖人才外,还遍布各行各业,包括量化交易等领域。
2005年贾佳亚招入的第一个学生熊伟毕业后去微软当工程师,期间没有从事视觉研究;但他持续在微软摸爬滚打,加入了微软语音团队,现在是微软云和AI团队的合伙人级别管理者(Partner Group Manager)。
2009年到贾佳亚的团队的戴振龙现在在量化交易公司WorldQuant做研究,没有留在AI领域;同年加入的洪正浩是全球最顶尖100位编程大师之一,毕业后去了Quora(美国知乎),之后去了Robinhood(一家数据库公司),现在就职于谷歌。
2012年加入的张祺(写出了只需要用一行代码的“Rolling Guidance Filter”在去移除和平滑图像中的复杂的小区域时,还能保证大区域物体边界的准确性,在图像处理领域具有划时代的意义)毕业后去了Apple,2017年又跟Apple的一群同事出来创业,做了一个APP。
「我培养的学生不一定要做研究,能够继续科研,也可以去业界,可以做其他职业,也可以创业,只要他们喜欢、适合。研究思维应该是帮他们把路越走越宽,而不是越走越窄。」
除了师父带领的爬山活动,「大师兄」徐立带领的出海活动也很热闹,徐立为人大方,组织能力强,出海的时候,从租船到吃饭,他一个人能安排地明明白白,还会多次掏腰包给大伙请客。
在这样的氛围下,实验的同学们亲如一家,每天在一起十多个小时,笑声实时充斥着1026。
彼时,深度学习刚刚兴起,徐立研究方向迅速结合深度学习。产业化的故事则发生在和汤晓鸥的一次饭局之后。
汤晓鸥也是香港中文大学教授,被称为全球人脸识别的“开拓者”和“探路者”。
事后来看,当时的创业似乎是深度学习落地的必由之路。但在一切起步之际,徐立快速做了决策,加入创业的大军。汤晓鸥和徐立等一众联合创始人以香港科学园为创业基地,成立商汤科技。
这期间,香港AI科技产业发展势头却在悄然间发生了变化,2014年深圳政府工作报告首提湾区经济,加强与香港的联系被提到前所未有的高度。2015年,香港特区政府创新及科技局成立,旨在壮大香港创科人才库,推广本地科创产品和服务;同年12月,作为技术交流平台的香港科学院成立;特区政府设立了总额高达3亿港元的“青年发展基金”,以助青年创业。
在管理方面,读博期间形成的抽象归纳思维和对新事物、新行业的领悟力亦深刻的影响了他,他会用数学公式将其他公司商业模式全部拿来做一个聚类,再进一步抽象,最后再提出一个适用于商汤的函数,用于团队管理。
而听到徐立创业的贾佳亚,对此并不意外,对自身的这个学生,贾佳亚一直都给予高度评价。
时针回拨到2012年,贾佳亚迎来另一个得意门生沈小勇。彼时的他刚从浙江大学度过8年的本硕时间,在硕士导师刘利刚(图形学方向,与贾佳亚在微软研究院相识)的推荐下,来到贾佳亚门下。
沈小勇是贾佳亚的第五个能毕业的博士,在此之前除了徐立、卢策吾外,还有石建萍、严琼。
沈小勇主要负责图像对齐方向,“Cross-Field Joint Image Restoration via Scale Map”是他博士期间发布的第一篇论文,这是一个校企合作项目,研究将多个摄像头的图像融合在一起,拍出更清晰的图像,也是在这一段时期,贾佳亚团队逐渐跟高通、华为等企业有了合作,积累与企业打交道的经验。
彼时的实验室已经慢慢有了新的变化,狼人杀不再成为唯一的娱乐工具,顽徒们开始涉猎CS等在线游戏。不同的是,贾佳亚撞见后,只会默默把门关好,不多言语。
与这些细微变化一同发生的是团队研究方向的转变。2013年,贾佳亚团队发布了第一篇深度学习论文。
2014年、2015年贾佳亚团队全面关注深度学习,团队里的每个人手上都有两三个关于深度学习的idea在做。
而真正让贾佳亚团队在深度学习图像研究领域的名声一炮而响的是一篇题为“Pyramid Scene Parsing Network”的论文。
彼时的石建萍手里握着大量的计算资源,想参加2016年的ImageNet 场景解析挑战赛,石建萍找到了贾佳亚实验室的齐晓娟,彼时齐晓娟正在多伦多进行实习,只得远程指导赵恒爽(刚进入贾佳亚实验室第二年的博士生)进行,贾佳亚和王晓刚(商汤科技联合发起人王晓刚)给予了非常关键性的指导。
参赛橄榄枝再次抛向贾佳亚团队,只是这一次要打的MS COCO(图像识别领域的权威标杆大赛)。
刘枢本科毕业于华中科技大学,连续四年全系第一,2014年8月来港中文读博,读博方向十分坚定——深度学习。
2017年的MS COCO比赛是有史以来含金量最高的一年比赛,因为那一年的参赛者有孙剑(彼时是微软亚研院首席研究员)、何恺明(凭借深度残差网络ResNet-152,击败谷歌、英特尔、高通等业界团队的人工智能大神)、代季锋(谷歌学术统计获得了20000多次引用)、Ruslan Salakhutdinov(苹果首任AI总监)等计算机视觉的大牛,竞争十分激烈。
当时的刘枢带了一个还没有入学的师弟亓鲁,再加上刚开始在北大读硕士秦海芳,三个人组队(石建萍的参与不多),拿下了COCO实例分割(instance segmentation)任务的第一名。
这是COCO比赛最难的问题之一,因需要分割每一个像素,判断这个像素属于哪一个类别哪一个实例。相对上一年的冠军,刘枢团队取得了9.1个点的提升,相对提升达24%。后来刘枢追随老师贾佳亚创办思谋科技,在公司里常被同事戏称为“CO哥”,此乃后话。
听到这一条消息时,贾佳亚很是高兴,问刘枢是怎么做到的。这是一个淡然的回答,「和师父你一样,熬。」
为了这次COCO比赛,刘枢团队连续6个月连轴转,周六日基本没有休息。有一天晚上,大家一起吃饭,还喝了点小酒,刘枢醉得不行,踉踉跄跄地走回实验室,把实验挂起来。
2017年他们在MS COCO挑战赛上的夺冠,其实就是贾佳亚团队转向深度学习后的一次标志性成果。
赢了比赛之后,贾佳亚口中的刘枢从一个不知事的毛头小子转变为能担大任的大将。
刘枢和徐立吃了一次饭,对这个师兄,刘枢此前并没有打过多少交道,只是听过他两周赶出论文的壮举。
饭桌上,刘枢透露出自己对于找工作的迷茫。徐立便趁热打铁邀刘枢去商汤。刘枢只说自己考虑考虑。
最后刘枢婉拒了商汤的邀请。原因是他要跟随贾佳亚去另一个地方——腾讯优图。
沈小勇做事很有规划,十分理性,2017年正值他找工作之际,他此前考虑过入教职,但受到徐立的影响,感觉自己也想去产业界试试。
彼时的他其实已经与华为诺亚方舟实验室谈了很久,第一想法就是去华为(因为他的爱人彼时在南京)。
但当听到贾佳亚对他说,要去腾讯创建一个AI实验室,问他要不要一起过去时,沈小勇心里的那壶感性之水突然到达沸点。
改变和影响人很不容易。贾佳亚有一种润物细无声的力量,悄然之间让人愿意跟随。
「我相信他,也认可他。在跟随老师的过程中,我们确实得到了很好的成长,这是最重要的前提。一路过来,他始终在搭平台,让自己的学生不仅在学业上有很好的发展,也在事业上有更好的发展。Leo原先对我非常关照,我们两也非常有默契,这让我相信我们未来一定会创造出好的成绩。」
就这样,除沈小勇、刘枢外,还有别的硕士博士六名团队主力跟着贾佳亚加入了腾讯优图。
在贾佳亚的感知里,计算机视觉直到2015年才真正开始火起来。紧接而来的是2016年国内AI创业潮。在亿欧发布的2016年AI企业Top50的榜单中,有46%是2015年或2016年成立。
2016,斯坦福大学人工智能实验室主任李飞飞和前 Snapchat 研究主管李佳加盟谷歌,孙剑加入 AI 视觉创业公司旷视科技;何恺明加入了 Facebook(Meta);先后任职于微软亚洲研究院和商汤科技的曹旭东创办了无人驾驶技术公司 Momenta.......
彼时的腾讯内部已经有很多的AI团队。优图实验室在人脸识别领域也已多次在MegaFace 、LFW等国际人工智能的权威比赛中刷新世界纪录。
作为腾讯优图在人工智能布局的重要一子,腾讯许诺贾佳亚一进入便会是优图实验负责人,是 T5 级科学家,T5 级别在整个腾讯凤毛麟角,代表人物有中国黑客界“TK教主”于旸、互联网行业漏洞挖掘之王吴石等。
贾佳亚在视觉研究上的耀眼履历自不必说,他的团队在比赛中多次夺冠,强大的技术与工程能力是贾佳亚的无法遮掩的光芒,而贾佳亚培养人才的能力则是腾讯尤为欣赏的地方。
彼时,除了已成为商汤主力军的徐立和石建萍外,贾佳亚实验室毕业的卢策吾2015年去了斯坦福大学李飞飞的实验室做博士后,归国后,在2016年成为了上海交通大学的正教授,也被视为中国人工智能领域最有潜力的研究新星之一。贾佳亚另有不少学生都在百度、腾讯、商汤等科技公司任职,除此之外,还有很多学生在高校任教授职务。团队开枝散叶,根系遍布整个中国计算机视觉界。
而当时贾佳亚选择腾讯优图的原因则是看中了腾讯优图能带给他的优势互补效应,优图在视觉的很多领域都能做到产品在各个场景和云平台落地。
「我的学生不仅要有很好的学术发展,也要闯出事业的一片天,我得为他们搭平台」。
「我希望能把第一线研究创新的基因在腾讯平台上强化和扩大。我的目标是在团队里提供给尖端视觉科学家和一流研究人员所需的研发环境。我希望这些技术能够产生论文,专利,放到产品里面,让用户看到这一些产品,增强使用者真实的体验,丰富生活。」
希望、目标、尖端、一流,这些词汇交加在一起,彼时的贾佳亚无疑是「理想主义」的绝佳代名词。
开始产业探索之后,贾佳亚带领下的腾讯优图第一次出现在大众面前是一场别开生面的发布会。
2018年9月,中国上海,首届计算机视觉峰会,贾佳亚一席西装出现在大众面前,主导了这场技术发布会。
在会上,贾佳亚意气风发,决心满满,他介绍了优图的「一个核心、四大方向、十个领域」,给出了具体到每个领域的大量案例。
在此之前,贾佳亚带领优图已蛰伏一年,2017 ,优图实验室在 ICCV(国际计算机视觉大会,计算机视觉顶级会议之一)上,共计入选 12篇论文,居业界实验室前列,其中 3 篇被选做口头报告,该类论文仅占总投稿数的2.1%(45/2143)。
不过与外界看到光鲜亮丽不同,贾佳亚团队刚去腾讯的时候其实很困难,第一没有团队,第二不清楚方向。贾佳亚用了将近半年的时间组建团队,在腾讯内部频繁“刷脸”帮同事解决五花八门的需求来推销自己的团队。工作强度也跟在实验室差不多,晚上10点左右下班,周六周日有时候也会去公司。
转折点发生在2018年9月30日。腾讯宣布组织架构调整,公司业务从To C全力转向To B。
在组织架构调整前,腾讯优图的要输出给QQ、天天P图等腾讯内部产品;调整后,视觉AI能力拓展至赋能腾讯云业务以及外部的生态合作伙伴。
之前腾讯的很多AI团队都是各自为政,在优图实验室的助力下,腾讯的AI团队逐渐出现了一个多模态技术中台。贾佳亚团队业务涉及多个领域,如工业检测等。
在这个过程中,贾佳亚发现,这些高难度技术一旦形成,就会存在壁垒。在检测不一样的产品的瑕疵中,要一直优化服务(类似AutoML),所以他们就设计了一个自动化的算法构建流程,帮助客户解决问题。
优图实验室慢慢的变成为公司的核心技术落地团队,2019年,腾讯AI业务相当部分都是优图在支撑。
在贾佳亚的任职期间,优图实验室取得700多项全球专利,仅CVPR(计算机视觉领域的全球顶级会议)就有25篇论文被收录。
他本人也获得了2018年IEEE Fellow。IEEE Fellow(IEEE会士)为学会最高等级会员,是IEEE授予成员的最高荣誉,是学术界和科技界公认的权威荣誉和重要职业成就。当选人数不超过IEEE当年会员总人数的1‰,当选那年贾佳亚39岁。
2001年到2017年,IEEE Fellow提名(上)和当选(下)人的年龄分布,无论是提名还是当选,都是50~54岁年龄段最多,而31~39岁的候选人被称为青年才俊可谓实至名归。
腾讯组织架构调整后,业务形态更加多样化,对于贾佳亚而言,他自身的成长也迎来了重要更新——来自于一个液晶面板生产公司大单。
液晶面板生产的基本工艺十分精密,涉及上百道工序。稍有差池,便可在生产的全部过程中出现120种面板缺陷种类。高度依赖工序的优良和产品原材料的质量。而这千变万化的面板缺陷类似如果交给人工来识别,既难又十分低效。
但贾佳亚团队在刻苦攻关后设计的人工智能质检算法可以在5秒内识别出面板缺陷,减少六成质检人员。通过对面板不同缺损的分析,团队还帮工厂找到问题的源头,调整特定环节的生产的基本工艺,提高良品率。
贾佳亚手里面没有可以直接管理的销售、BD和产品人员。若无法直接优化前后端管理,研发离最后的落地应用和客户实在相隔甚远。一个负责人工智能的解决方案的销售需要达到的水平并不仅仅是会做PPT,还需要懂技术,又要实时跟上产品的迭代速度。这些壁垒很难一时间突破,只能科学家教,这导致团队决策链路长、沟通成本高。
2019年,香港出现暴力事件,港中文视觉实验室的同学想从香港回来,商汤包了车,把大家给拉回大陆,也包括贾佳亚在香港的学生。
也是在这个冬天,贾佳亚接受了来自IDG的牛奎光的投资建议。彼时牛奎光已经是IDG的资深合伙人,已经不看早期的创业项目。但是贾佳亚让他最后一次出山,做了思谋科技的天使投资人。
后来一个晚上贾佳亚拨通了一跨洋电话。电话那头是真格基金创始人徐小平,接到电话后,徐小平与贾佳亚畅聊了几个小时,随后,徐小平做了一个决定,也加入投资思谋科技的队伍中。
彼时的思谋科技刚刚成立,由贾佳亚带队,汇聚了沈小勇、周超、李睿宇和刘枢等多名学生。
2020年6月,思谋科技宣布完成数千万美元Pre-A轮融资,由IDG资本领投,真格基金和联想创投跟投。
四个月后,思谋科技拿到了超1亿美元的A轮融资,新投资方包括红杉中国、松禾资本、基石资本、闻天下投资等。
思谋科技的办公室也逐渐扩大,从三航大厦的一个房间扩展至半层,再到一层、两三层,后来人员太多,只得搬到前海嘉里中心,现在办公室足足有三层半。
以往在面板生产的经验使贾佳亚有感于计算机视觉在工业生产优化上的神奇作用,在启动思谋科技时,他就确定了接下来的赛道:工业制造。
思谋一开始想做的事情介于AI与设备公司之间。对于贾佳亚团队而言,最容易的事情是将思谋变成一家AI公司,提供SDK,但对工业里的客户来说,这远远不足,因为客户要的不是SDK,而是能够运动的整体机器。
以区间检测为例,需要把手机从产线上拿起来,将其拍照成像,然后传送给算法检测表面的合格线,再放回产线,只有完整提供这些功能,才能够解决计算机显示终端的完整需求。若无法,只对接集成商,问题便会出现。另外,如果只做软件,也可能被替换掉,
所以思谋迅速转变思路,创新自己的商业模式,开始大刀阔斧进入机械电气光学领域做高端制造和检测设备。这种变化,像极了当时在研究领域争分夺秒赶论文提交的日期,也像极了为了追求科研竞赛第一的成绩,每天都在尝试新方法和新思路。
AI设备公司这个赛道有实际的创收点,门槛很高,做得好做得踏实更难。仅从定位来看,其实已经敏锐的契合了当下智能制造时代的发展需求。
现在,思谋科学技术人才队伍已逐渐强大,团队中不仅有全球领军互联网公司的人才,还有来自传统制造业一线的全链条技术人才。
工业领域的大模型,是贾佳亚在思谋科技的新使命。就在6月底,思谋科技宣布行业首个工业大模型开发与应用底座SMore LrMo正式发布。
关于落地应用,思谋科技已主导完成多个大型智能制造项目,相关这类的产品涵盖新能源、消费电子、汽车制造、精密光学、教育与科研等领域,合作伙伴遍及超两百家世界500强等国内外龙头企业。
贾佳亚本人的角色也在不断转换,完美完成了从科学家到科学型企业家,再到企业型科学家的转型。
教育上他桃李满天下,自2005年招入第一个学生至今,贾佳亚团队中有 40 多名博士和研究员现在活跃在学术界和工业界,并已成为杰出的人工智能技术领导者,担任教授、主要研究实验室的主任以及多家成功初创公司的创始人。他现在还带领着超过三十个博士生的超大学术团队每天在科研第一线研发新的视觉语言大模型和其它AI技术。他创立的DV Lab 每年发布超过30项成果,全部开源在线。
创业上,他始终迎难而上,思谋科技的整个光学成像系统,既能够感知到多光谱的图像,又能感知到非常细小的东西。在工业质检上,小样本学习的准确度已经远超于人类,人做检测准确率可能只有90%,但机器能做到99.99%以上的准确率。
而当年在实验室玩闹、打牌的年轻人,到了如今,已经奔赴在各个赛道之上。腾讯优图之后,贾佳亚实验室的学生分散全球各个行业,他们一直带着对图像之美的追求,以更旺盛的斗志和多为行业创造更多的利益的目标继续自己的工作,永远行进着。
计算机视觉产业界所发生的故事远不止于此,还有大量未提到的精彩故事,欢迎添加作者微信:lionceau2046,互通有无。