关于“大器件+大模型”再下一城，商汤日益壮大的大模型体系引领“智能飞轮”的信息-百科互动

本篇文章百科互动给大家谈谈“大器件+大模型”再下一城，商汤日益壮大的大模型体系引领“智能飞轮”，以及对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。本文目录： 1、智慧城市开启规模化落地商汤科技加速布局

本篇文章百科互动给大家谈谈“大器件+大模型”再下一城，商汤日益壮大的大模型体系引领“智能飞轮”，以及对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录：

1、智慧城市开启规模化落地商汤科技加速布局
2、智慧交通领域，目前发展到什么阶段？
3、毫末DriveGPT雪湖·海若，让自动驾驶更早到来
4、只需要十分之一数据，就能通关四大视觉任务，居然还开源了

智慧城市开启规模化落地商汤科技加速布局

本报记者曲忠芳李正豪北京报道茄笑

自2008年“智慧城市”概念提出以来，中国智慧城市在十多年的时间里经历了探索实践、规范调整、基建部署等阶段，直到近两年在数字化浪潮的推动下，正加速全面数字化发展，开启规模化落地的阶段。

智慧城市究竟是什么样子？它能给人们的工作与生活带来哪些改变？针对这一问题，中国头部AI（人工智能）软件公司商汤科技抢先做出了自己的回答。今年，商汤科技上线了“新洲之窗”，它让位于上海徐汇区的商汤科技大厦化身为一个“微缩版”的智慧城市生态。

《中国经营报》记者从商汤科技方面了解到，基于计算机视觉和AIOT技术，整座大厦被“扫描、绘制”到数字空间，现实空间中的人、物、事件，在“新洲之窗”这个虚拟空间能够一一对应，覆盖范围不仅包括迎宾、办公、会议、防疫、消防、安全、就餐等主要场景，甚至包括背包、订书机、车钥匙、耳机等小物品的在线搜索，实现真正的数字孪生。

商汤科技 CEO徐立指出，数字化的实质在于构造一个数字化世界，对这个世界的访问、搜索、操作能够直接影响到真实物理世界。而判断一个数字化世界的建立，通常有三个标准，也是三个步骤，即场景的数据化、要素的结构化、流程的可交互化。以往很多大数据的应用只完成了第一步，数据与真实业务流程并没有真正结合。

记者注意到，智慧城市近年来在全国范围内频频落地，渗透率明显提速，给包括商汤科技在内的AI公司带来了广阔的市场空间。据商汤科技 IPO招股书，2021年1~6月，智慧城市业务板块成为该公司最大的营收来源，贡献占比达47.6%，与智慧商业两个板块的营收占比合计超过8成。AI公司在技术能力升级、服务标准化方面磨炼“内功”的同时，对于智慧城市发展“红利”的争夺也日趋激烈。

“微缩版”智慧城市聚焦三大方向

商汤科技智慧城市综合业务首席产品官张广程告诉记者，“新洲之窗”是商汤科技在智慧城市领域的实验场。以一个与员工息息相关的场景——就餐为例，大厦的食堂每天为2000人左右的员工提供餐饮服务，就餐排队的问题就成了影响就餐体验的最大问题。新洲之窗利用商汤科技的智能视觉技术，对排长队和餐桌空余数量进行实时的检测，并通过实时检测的数据，预测接下来的排队长度和取餐所需要耗费的时间，同时为员工推荐合适的就餐时间。通过这样的预测和推荐的手段，就实现了错峰就餐，一方面缓解了就餐排队的问题，提升了员工的就餐体验，另一方面也降低了疫情期间扎堆就餐的安全风险。值得一提的是，为了照顾一些因工作忙来不及去食堂就餐的同事，新洲之窗还提供了在线订餐的服务，员工只需要在小程序上完成订餐，机器人就会将餐食配送至指定地点，使用科技感满满的服务，提升员工在大厦内工作和生活的体验。目前“新洲之窗”已经落地的智能化服务包括食堂、卫生间、报事报修、智慧零售、智慧通行、掌上停车、综合安全、万物检测、综合导航等场景。

谈及智慧城市背后的技术支持，张广程介绍称，SenseCore商汤AI大装置，是支撑商汤所有业务落地产品和方案的AI基础设施，即AI能力“底座”。针对智慧城市管理的多样化场景，商汤提供基于“方舟”和“星云”的云与边端产品平台的体系化产品与方案。其中，“星云”家族包括前端软件、智慧相机、智能边缘盒、智能服务器和数智物联平台，可广泛用于城市智联、智慧园区、智慧电梯等场景，以AI技术为核心打通上下游生态，融合物联感知、智能视觉、数据融合、数据分析能力，为行业应用场景提供闭环支撑，打造行业数智化体系，助力行业客户实现从数字化到数智化的全面升级。

“方舟与星云的关系，可以简单地理解为，方舟相当于云端的大脑，而星云是智能化的前端触角。无论是方舟还是星云，对产业上下游的合作伙伴都是开放式的设计，实现对产品生岩裤态的东西南北全向融合。”张广程如是表示。

事实上，在“新洲之窗”上线之前，商汤方舟城市开放平台与星云智能端边家族已在全国多个城市落地应用。以西安昆明池为例，商汤科技与合作伙伴共同打造AI+3D可视化智慧景区综合解决方案，基于SenseNebula-AIS商汤星云AI服务器，实现了危险水域安全管理、进出游客数量统计、走失儿粗纳简童/老人找回、客流热力图、人群密集提醒等功能，有效提升景区管理安全和效率。商汤利用数字孪生和三维建模技术，对景区进行了1 1的建模还原，并通过物联网技术整合景区内所有视觉感知终端的视频信息，让管理者透过景区的3D鸟瞰图，以可视化的操作方式浏览景区各个角落。针对景区重点水域，实现了有效的入侵保护，既能保护景区环境，又能防止游客误入危险区域。据商汤科技招股书披露，截止到今年上半年，商汤方舟城市开放平台已在国内外119个城市落地部署。

贡献近5成营收共享智慧城市红利

第三方咨询机构艾瑞最新发布的《中国智慧城市服务平台发展报告》指出，智慧城市建设进入全面数字化阶段，中国数字基础设施建设全球领先，数字经济产业迸发活力，再加上国家和各地方层面积极推进，与此同时，相关的大数据、AI和区块链等数字技术不断迭代成熟，这些都为城市服务平台的发展提供了良好空间。从智慧城市的生态图来看，地方政府是城市公共服务类平台的主要推手，对平台健康发展起着火车头的角色；以大型科技公司为代表的建设方决定了城市服务平台的基础服务能力；运营方则是城市平台不断迭代提供优质服务的保证。此外，还有其他第三方企业给服务平台提供了更加灵活的技术和服务选择。

商汤科技方面表示，商汤方舟城市开放平台包含14000多个AI模型，与城市的IT基础设施无缝结合，将原始的城市数据实时转化成运营洞察、事件警报及管理行动。城市方舟不仅用于公共设施的管理，如消防栓、井盖、电线杆及道路标志，亦可用于公共事件的及时发现和解决，如交通事故、火灾及烟雾、紧急出口障碍、垃圾满溢、道路损坏及乱停乱放等，以及洪水及台风等自然灾害的影响分析及后续救灾措施实施进展的跟踪。商汤城市方舟促进城市管理由人力密集型向人机交互型、由经验导向型向数据驱动型、由被动处置型向主动发现型转变。城市方舟已成为数字城市运营的操作系统，并提高了城市的安全性、效率、便利性及环境质量。

张广程指出，智慧城市建设整体仍处于较早期的状态，在虚拟与现实结合中很多空间还没有被挖掘出来，当然这对于包括商汤科技在内的AI技术公司来说，未来面临庞大的市场需求以及巨大的商业空间。

无论是正在开启全面数字化、规模化落地的智慧城市，还是当下热炒的“元宇宙”，商汤科技方面认为，新一代人工智能技术起着举足轻重的作用。作为一家AI软件企业，必须要打造核心AI能力，赋能产业链上下游，将AI技术立足于产业的发展，真正解决客户的痛点与满足市场的需求，才能将AI技术的价值最大化地发挥出来。

有目共睹的是，在数字化浪潮推动下，智慧城市正在不断地渗透到各个地方、各个领域中，包括商汤科技为代表的人工智能企业，以及运营商、云服务商、软件厂商、数据公司等各方力量都在共享智慧城市发展“红利”，未来围绕这一领域的竞争也会不断升级。另一方面，智慧城市一个大的范畴，数字化涉及众多环节，在行业内激烈竞争的同时，智慧城市的建设更需要产业链上下游的合作与协同。

智慧交通领域，目前发展到什么阶段？

行业主要上市公司：海康威视(002415)、易华录(300212)、大华股份(002236)、千方科技(002373)、五洋停车(300420)、新智认知(603869)、众合科技(000925)、四维图新(002405)、皖通科技(002331)等

本文核心数据：智慧交通行业链、行业规模、应用市场结构、竞争格局、发展前景预测等

行业概况

1、定义：智慧交通概念源于智能交通更区别于智能交通

智慧交通的概念来源于智能交通，智能交通最早在1960年由美国智能交通协会提出，其认为智能交通系统ITS(Intelligent

Transportation

System)是将先进的信息技术、数据通讯传输技术、电子传感技术、控制技术及计算机技术等有效地集成并运用于交通系统，从而提高交通系统效率的综合性应用系统指昌慧。

2009年，IBM首次正式提出智慧交通的概念。2012年中国《国家智慧城市(区、镇)试点指标体系(试行)》当中，首次提出了智慧交通的概念。中国交通运输部规划研究院认为，智慧交通指的是在城市已有的道路基础设施的基础上，将信息技术集成运用于传统的交通运输管理中，整合交通数据资源的同时协同各个交通管理部门，由此形成的结合虚拟与现实的，提供一体化的综合运输服务的智慧型综合交通运输系统。

2、产业链剖析：智慧交通产业链覆盖范围广

智慧交通行业链上游主要是提供信息采集与处理的设备制造商，中游包括软件和硬件产品提供商、解决方案提供商，下游以运营/集成/内容等第三方服务商为主。

行业链各环节玩家众多，传统安防企业、互联网厂商、云计算服务商、算法提供商等均开始进入智慧交通各细分领域。

智慧交通行业上游制造商具体包括数据提供商、算法提供商与电子器件制造商，相关代表企业有商汤科技、腾讯、同有科技、拓尔思、金溢科技等。

中游产品与服务领域可以细分为智慧交通硬件制造商、软件开发商与解决方案提供商，硬件制造代表企业有海康威视、千方科技、天迈科技等;智慧交通软件开发企业包括四维图新、易华录、四创电子与三大互联网巨头等;一体化智慧交通解决方案代表企业主要有大华股份、佳都科技、万集科技与银江技术等。

在下游智慧交通服务市场，代表企业如多伦科技、车联网络与大众交通等，为交通领域提供智慧化的咨询与运营服务。

行业发展历程：当前中国智慧交通行业处于快速成长阶段

2010年至今，随着大数据、机器学习等技术的不断发展，基于人工智能的车路协同、自动驾驶、智能出行等将会成为智慧交通系统技术发展的关键方向。

相对比发达国家，中国智慧交通产业发展起步时间较晚，智能交通向智慧交通的演变历程，大致可以概况为以下四个发展阶段。当前，中国智慧交通行业处于快速成长阶段。

行业政策背景：智慧交通进一步发挥“新基建唯答”的支撑作用

从2015开始，政府层面持续出台相关政策法规推进智慧交通行业快速发展，以匹配现代化经济体系的建设需求，为全面建成社会主义现代化强国提供重迅饥要基础支撑。2020年以来，我国智慧交通相关政策更是频出，智慧交通基础建设成为行业发展重点，2021年9月交通运输部发布的《交通运输领域新型基础设施建设行动方案(2021—2025年)》提出到2025年，我国将打造一批交通新基建重点工程，智能交通管理将得到深度应用。

行业发展现状

1、行业市场规模：行业投资规模超3600亿元

随着智慧城市建设的转型升级，我国对智慧城市的投资规模也在不断扩大，根据中国信通院公布的智慧城市投资规模数据，2020年智慧城市相关项目总投资约为2.4万亿元，初步统计2021年约为2.6万亿元。以IDC统计的智慧交通占智慧城市的投资比重为14%进行测算，初步统计2021年中国智慧交通投资规模约为3640亿元。

2、行业招投标情况：行业招投标规模高速增长

——智慧交通千万项目规模快速增长

根据ITS114统计数据，2015年以来我国智慧交通市场呈现快速增长状态。根据ITS114不完全统计，2021年中国城市智慧交通(除停车)千万项目市场规模276.41亿，同比增长21.63%，项目数量1664个，项目平均投资规模1661.14万元;如果将135亿的停车项目加进来，那么千万项目总市场盘子超过了411亿，同比增长38.9%，项目数量1958项。

——运营商、互联网与传统交通建设企业为智慧交通领域主要中标人

据ITS114数据统计显示，截止2021年12月底，智能交通千万项目中标金额总和最高的是移动系，中标总金额为15.09亿元，中标项目有117项;排名第二的是电信系，中标金额为12.71亿元，中标项目有40项;排名第三的是德州静态交通，其单一中标项目金额达到7.39亿元;排名第四的是海信网络，中标总金额为7.22亿元，中标项目数30项。

3、智慧交通细分领域分布：智慧停车占据主要市场

根据ITS114统计，大型项目方面，2021年城市智慧停车中标过亿项目22个，总计为89.73亿，数量较多，规模大。

2021年城市智慧交通市场(除停车项目)中标过亿项目21个，中标过亿项目市场规模总计约为56.56亿。其中交通管控市场中标过亿项目7个，总计为17.84亿;智慧运输市场中标过亿项目13个，总计为29.13亿;其他项目1个，大理州城市感知能力提升项目(9.6亿)。

行业竞争格局

1、区域竞争：中国智慧交通企业主要分布在京津冀与东部沿海等交通发达地区

在国家政策牵引下，目前全国涌现出包括北京、上海、无锡、常州、重庆、长沙、武汉、海南等大量的示范区，进行智慧交通车路协同的业务应用示范。

截至2021年，全国已经有工信部和交通部批复共计40家智慧交通车联网业务应用示范区在全国落地，主要分布在中南部与东部沿海等交通发达地区。中国智慧交通行业示范区地域分布情况如下：

从前瞻统计的智慧交通行业30家代表性上市企业的区域分布来看，智慧交通行业的上市公司主要集中在北京、广东、上海与浙江等京津冀与东部沿海地区，其中北京与广东的代表性上市企业数量之和达14家，占比接近50%。

注：图中数据仅包含前瞻统计的30家上市企业。

从招投标市场来看，据ITS114统计数据，截至12月31日，2021年城市智慧交通市场(除停车项目)中标过亿项目20个，中标过亿项目市场规模总计约为55亿。从中标项目的区域分布来看，西南、华南、华北与华东地区为我国智慧交通行业发展的主要区域，四者合计占比超过90%。因此，从整体区域分布来看，中国智慧交通企业的区域集中度较高。

、企业竞争：传统交通信息化企业为行业主要玩家企业业务布局各有侧重

2021年11月，IDC发布的《智慧交通管理应用级解决方案市场份额，2020》数据显示，中国智慧交通行业依旧以传统交通信息化领域的玩家为主。其中，国内车路人云自主协同一体化智慧交通解决方案提供商千方科技以17%的市占率占据行业主导地位;专业从事交通智能化技术应用服务的企业银江技术以14%的市占率位居第二;海信网科围绕云计算、大数据、人工智能等技术构建的交管云脑解决方案为核心，占据近10%的市场占有率，位居全国第三。

注：截止2022年9月30日，暂未有权威机构统计2021年数据，故上述市场份额仅以2020年数据作以分析，仅供参考。

从智慧交通业务布局情况来看，代表性企业的重点布局区域侧重于京津冀及东部沿海等交通发达地区，比如千方科技主要布局长三角、珠三角及京津冀地区，佳都科技主要布局华东、华南的大型一线城市。

从中国智慧交通行业代表性企业的业务情况来看，行业龙头企业如千方科技的经营规模均明显高于其他企业，2021年智慧交通业务营业收入超过46亿元，而天迈科技与多伦科技的营业收入不足3亿元;从盈利情况来看，行业毛利率水平也因业务侧重点的不同而呈现出分层差异，例四维图新、万集科技与捷顺科技的毛利率水平均超过45%，而佳都科技与中远海科的毛利率平均水平不足20%。

整体来看，千方科技、四维图新与佳都科技等企业在中国智慧交通行业拥有较强的竞争力。

行业发展前景及趋势：智慧交通市场潜力巨大，未来有望保持高速增长

近年来我国公路、铁路、水运、航空等交通行业都得到了飞速发展，但是各种出行方式之间信息交互仍然滞后，未来随着信息化和智能化进一步提高，各种出行方式信息共享和智能化服务技术将得到充分发展和应用;在国家政策大力扶持、科学技术飞速前进的大背景下，巨大的市场空白及发展空间使各行业企业争相入驻，在各分支领域为出行者提供了更加精细、准确、完善和智能的服务;政府积极出台各项政策法规，为各行业参与智慧交通建设部门提供了政策支持和辅助。基于以上因素，我国智慧交通建设必将继续保持高速增长。

随着中国智慧城市建设加快，预计中国智慧城市行业市场规模将快速增长，到2027年，中国智慧交通行业的投资规模有望超过6400亿元。

更多本行业研究分析详见前瞻产业研究院《中国智慧交通行业市场前瞻与投资战略规划分析报告》。

毫末DriveGPT雪湖·海若，让自动驾驶更早到来

ChatGPT的火爆，让AI大模型成为各大科技巨头争相布局的重点。

无论是国外的微软、谷歌、Meta，还是国内的百度、华为、阿里、商汤等企业，都已经涉足AI大模型的研究与探索。

如同2016年AlphaGo的横空出世一般，AI大模型的爆发也是引发AI变革的划时代里程碑。阿里巴巴集团董事会主席兼CEO张勇甚至认为，所有行业、所有应用、所有软件、所有服务都值得基于新型人工智能技术以及大模型支撑重做一遍。

英伟达CEO黄仁勋也曾表达过同样的观点，他认为AI产业迎来“iPhone”时刻，AI技术爆炸、产业爆发的趋势已经势不可挡，甚至将撬动涵盖交通医疗、运输、零售及物流在内的百万亿美金的市场。

正如毫末智行董事长张凯在4月11日举办的第八届HAOMO AI DAY的演讲中所形容的，“距离上一届HAOMO AI DAY刚刚过去三个月，却仿佛跨入了一个新周期”，一系列AI大模型的陆续发布，让更多人相信人工智能技术迎来从量变到质变的重大节点。

在第八届HAOMO AI DAY上，毫末智行也发布了业内首个自动驾驶生成式大模型DriveGPT，中文名“雪湖·海若”。裂侍

△毫末智行董事长张凯、CEO顾维灏、COO侯军、CIO甄龙豹在HAOMO AI DAY现场

对于大模型，毫末并不陌生。此次发布自动驾驶生成式大模型DriveGPT雪湖·海若，既不是毫末的跟风之举，也不是为了蹭GPT的热点。

早在两年前，毫末就已经开始关注并投入到AI大模型技术的研发之中。在AI自动驾驶领域，毫末可以说是大模型研发和应用的先行者。

毫末为什么要研发DriveGPT雪湖·海若？

毫末智行CEO顾维灏说，他在这段时间经常会被问到这个问题。在毫末看来，DriveGPT雪湖·海若将会重塑汽车智能化技术路线，让辅助驾驶进化更快，让自动驾驶更早到来。

张凯判断，2023年智驾产品将进入全线爆发期，“生成式大模型将成为自动驾驶系统进化的关键”。

接下来，基于 Transformer 大模型训练的感知、认知算法会逐步在车端进行落地部署，而随着大模型开启在车端的落地应用，车主的使用频率和满意度成为产品竞争力的重要李卖衡量标准。张凯表示，“毫末不断进步的数据驱动的六大闭环能力，将进一步加速毫末进入自动驾驶3.0时哪源逗代的步伐，并形成相应的护城河”。

业内首个自动驾驶生成式大模型

最近一段时间，关于自动驾驶的未来，行业内出现了截然不同的观点。

乐观派认为到2030年之前L3级自动驾驶将会批量落地；悲观派断定，“十年内L3自动驾驶技术都不会到来”；唱衰派则称自动驾驶“都是扯淡...都是忽悠，就是一场皇帝的新装……最终就是一个高级辅助驾驶而已”。

无论哪一派观点，一个不容忽视的现实是，自动驾驶技术的变革才刚刚开始。特别是AI大模型引发的产业应用和变革，更是为自动驾驶技术发展注入全新的动力。

同济大学教授、汽车安全技术研究所所长朱西产也在第八届HAOMO AI DAY上分享了自己的观点：自动驾驶不能长期停留在L2+，还是要去做到L3、L4，最终走向终局的无人驾驶。

毫末也一直相信，AI大模型已成为自动驾驶技术进化的核心动力之一。在今年1月的第七届HAOMO AI DAY上，顾维灏就分享了其智算中心，以及从感知到认知以及仿真的五大大模型，包括视觉自监督大模型、3D重建大模型、多模态互监督大模型、动态环境大模型、人驾自监督认知大模型。

毫末这五大大模型，与如今爆火的AI大模型有很多共同之处。

据顾维灏介绍，DriveGPT雪湖·海若通过引入驾驶数据建立RLHF（人类反馈强化学习）技术，对自动驾驶认知决策模型进行持续优化。

现阶段，DriveGPT雪湖·海若主要用于解决自动驾驶的认知决策问题，后续持续会将毫末多个大模型的能力整合到DriveGPT，但最终目标是实现端到端自动驾驶。

目前，毫末DriveGPT雪湖·海若实现了模型架构与参数规模的升级，参数规模达到1200亿，预训练阶段引入4000万公里量产车驾驶数据，RLHF阶段引入 5万段人工精选的困难场景接管Clips。

DriveGPT雪湖·海若的底层模型采用GPT（Generative Pre-trained Transformer）生成式预训练大模型，不过与ChatGPT使用自然语言进行输入与输出不同，DriveGPT输入是感知融合后的文本序列，输出是自动驾驶场景文本序列，即将自动驾驶场景Token化，形成“Drive Language”，最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。

在实现过程上，DriveGPT雪湖·海若首先在预训练阶段通过引入量产驾驶数据，训练初始模型，再通过引入驾驶接管Clips数据完成反馈模型（Reward Model）的训练，然后再通过强化学习的方式，使用反馈模型去不断优化迭代初始模型，形成对自动驾驶认知决策模型的持续优化。

同时，DriveGPT雪湖·海若还会根据输入端的提示语以及毫末CSS自动驾驶场景库的决策样本去训练模型，让模型学习推理关系，从而将完整驾驶策略拆分为自动驾驶场景的动态识别过程，完成可理解、可解释的推理逻辑链生成。

随着技术不断优化，DriveGPT雪湖·海若将逐步应用到城市NOH、捷径推荐、智能陪练以及脱困场景中。

从用户可感知的角度来看，有了DriveGPT雪湖·海若的加持，车辆行驶会更安全；动作更人性、更丝滑，并有合理的逻辑告诉驾驶者，车辆为何选择这样的决策动作。也就是说车辆的智能驾驶系统会越来越像老司机，从而加强用户对智能产品的信任感。

顾维灏透露，DriveGPT雪湖·海若的首发车型是新摩卡DHT-PHEV，即将量产上市。

值得一提的是，毫末DriveGPT雪湖·海若已正式对外开放，开启对限量首批客户的合作，除了魏牌新能源，北京交通大学计算机与信息技术学院、高通、火山引擎、华为云、京东科技、四维图新、英特尔等已经加入。

毫末DriveGPT雪湖·海若将携手生态伙伴率先探索四大应用能力，包括智能驾驶、驾驶场景识别、驾驶行为验证、困难场景脱困。

这将有效促进自动驾驶从业者和研究机构快速构建基础能力。

数据驱动技术升级

毫末一直坚信数据是人工智能最大的驱动力，并一直以数据驱动的方式来推动自动驾驶产品的升级。

截止到2023月4月，毫末辅助驾驶用户行驶里程已经突破4000万公里，小魔驼的配送量也超过了16万单，MANA的学习时长超过56万小时，虚拟驾龄相当于人类司机6.8万年。

顾维灏表示，这些数据每时每刻都在增长变化，2023年将迎来指数级增长。

在对数据的大量应用过程中，毫末已经逐步建立起一套基于4D Clips驾驶场景识别方案，并将逐步向行业开放使用。

毫末这套场景识别方案具备极高性价比。比如，给出正确的场景识别标注结果，行业内普遍的价格是一张图片约5元；而使用DriveGPT雪湖·海若的场景识别服务，一张图片的价格将下降到0.5元。

此前有业内人士提到，自动驾驶一年要做大概1000万帧图像人工标定，如果单帧图片整体标注成本降低到行业的1/10，这将极大地降低自动驾驶使用数据的成本，并且提高数据质量和效率，从而加速自动驾驶技术的快速发展。

毫末打造的中国首个自动驾驶数据智能体系MANA，在经过一年多的应用迭代后，本次AI DAY也迎来了全面的升级，并正式对外开放赋能。

顾维灏介绍，MANA计算基础服务针对大模型训练在参数规模、稳定性和效率方面做了专项优化，并集成到OASIS中；其次，MANA感知和认知相关大模型能力统一整合到DriveGPT雪湖·海若中；第三，增加了使用NeRF技术的数据合成服务，降低Corner Case数据的获取成本。

与此同时，针对多种芯片和多种车型的快速交付难题，MANA优化了异构部署工具和车型适配工具。

此外，MANA的视觉感知能力持续提升，一方面可同时学习三维空间结构和图片纹理，并将纯视觉测距精度超过了超声波雷达，BEV方案也拥有了更强的通用性和适配性；另一方面可实现单趟和多趟纯视觉NeRF三维重建，道路场景更逼真，肉眼几乎看不出差异。

通过NeRF进行场景重建后，可以编辑合成真实环境难以收集到的Corner Case。在原有的全局视角修改、添加光照/天气效果的基础上，新增合成虚拟动态物体的能力，可以在原有设定的运动轨迹上，合成各种Hard Case，模拟城市复杂交通环境，用更低成本测试提升城市NOH能力边界，更好提升应对城市复杂交通环境。

值得一提的是，面对目前行业里最难的视觉任务之一——单目视觉测量，继特斯拉后，毫末也在中国率先开始验证能否使用鱼眼相机代替超声波雷达进行测距，以满足泊车要求。

毫末把视觉BEV感知框架引入到了车端鱼眼相机，做到了在15米范围内达到30cm的测量精度，2米内精度高于10cm的视觉精度效果。泊车场景使用纯视觉测距来取代超声波雷达，将进一步降低整体智驾成本。

四大战役全面突围，拿下三大主机厂定点

作为中国唯一聚焦自动驾驶 AI 技术的盛宴，每届HAOMO AI DAY，毫末都会分享最前沿的自动驾驶行业趋势，发布最新的技术和产品进展。

这一次也不例外。

张凯以《HAOMO SPEED，AI SPEED》为题，分享了对于2023年自动驾驶发展宏观趋势的判断，以及毫末四大战役及商业化发展的最新进展。

张凯认为，智驾产品正在进入快速增长的全线爆发期，2023年将是智能驾驶冲刺之年、大考之年。

首先，城市导航辅助驾驶产品在2023年将围绕量产上车发力，主要玩家的城市导航辅助驾驶产品进入到真实用户覆盖和多城市落地的比拼。

其次，行泊一体和末端物流自动配送产业商业化将成为自动驾驶公司深耕的重点。

在乘用车领域，搭载行泊一体功能的智驾产品将迎来前装量产潮；在末端物流自动配送领域，末端物流自动配送车在商超、快递等场景迎来爆发，2023年将在这些场景实现可持续商业化闭环。

在第七届HAOMO AI DAY上，毫末提出要打响“2023 年四大战役”。如今这四大战役在短短三个多月时间内已经取得了快速进展。

首先，在“智能驾驶装机量王者之战”上，据张凯介绍，首款搭载HPilot3.0的新摩卡DHT-PHEV即将重磅上市，第二款搭载毫末HPilot3.0的车型魏牌蓝山也将在今年发布。

截至目前，毫末HPilot整体已搭载近20款车型。用户辅助驾驶行驶里程突破4000万公里，HPilot2.0辅助驾驶日均行驶里程使用率达到了12.6%，而且这一比例也在随着用户认可度的提高不断增加。

在海外布局方面，搭载毫末HPilot的车辆已运往欧盟、以色列等地区和国家，陆续交付到用户手中，接下来将在中东、南非、澳大利亚等市场陆续投放；同时，毫末HPilot即将量产墨西哥版本及俄罗斯版本。

今年3月，高工智能汽车研究院基于前装量产数据库及定点车型库数据进行的年度综合评估中，毫末凭借前装近20款车辆的优异表现，获颁年度高阶智能驾驶系统量产份额领军奖。第三方数据佐证毫末是中国量产自动驾驶绝对领军者，毫末持续引领中国自动驾驶第一名。

其次是“MANA大模型巅峰之战”，中国首个自动驾驶数据智能体系MANA架构已迎来全线升级。到2023年4月，MANA学习时长超56万小时，相当于人类司机6.8万年。毫末DriveGPT雪湖·海若，已经完成基于4000万公里驾驶数据的训练，参数规模达1200亿。

第三是“城市NOH百城大战”，中国首款可大规模量产落地、重感知城市NOH，已在北京、保定、a class="82b4-e668-4a9d-4646 baikekeyl" href="-

【本文来自易车号作者出行范儿，版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点，与易车无关】

只需要十分之一数据，就能通关四大视觉任务，居然还开源了

Github链接：

家人们，你们有没有这种苦恼？

搬一次家就换一次家具，那些又贵又重的家具既不好搬运，又不好全部带走。

下一次又重新购置一遍家具，浪费钱不说，关键是来来回回都做一样的事情！家具还没用仿凳过几次，利用率不高呀！

这种搬家的苦恼，就好比AI领域，做几个任务就需要开发几个高度定制的模型，不仅所需的数据采集量非常大，每次还都得从头标注。既提不起数据的学习效率，又耗费巨大的数据获取成本。

光是AI前端研究就耗费如此巨大的精力，更别提应用场景中数以万计的长尾任务。

那怎么办？

做一款通用的深度学习模型，才是关键。

1 通用，才是技术根本

目前，通用语言模型（GLM）已经取得了令人瞩目的进展，比如BERT、T5和GPT-3，它们在应对广泛的语言下游任务时已经游刃有余。

相形之下，通用视觉模型（GVM）的研究迟迟未交出一份令人满意的答卷。

以往的大多数 GVM 研究主要利用一种监督信号来源，如 ViT-G/14 采用有标签监督，SEER 采用样本的不同增强之间的对比学习，CLIP采用图片文本对进行监督。如果是在单个监督信号下进行的预训练，这几种范式确实能够生成在固定场景下表现良好的模型。但如果用在场景多元、任务多样的下游场景，这些模型就难以胜任了。

比如现在最火的自动驾驶，汽车处于移动状态，既要看到路况，又要看到红绿灯，还要注意行人，甚至在智能座舱兴起后，还要和语言技术、LBS场景服务协同，这么多的感知数据与协同任务，这么多随机的新任务，无论在体量还是维度方面，都对视觉模型的要求极大提高。

这时，打造一款通用视觉模型，降低研发门槛，尤其是学术界的时间成本、资金成本，才能畅享下游的极致场景体验。

去年11月，上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学发布通用视觉技术体系“书生”（INTERN），一套持续学习框架，用于系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。

前不久，上海人工智能实验室联合商汤科技发布通用视觉开源平台OpenGVLab，面向学术界和产业界开放其超高效预训练模型、超大规模公开数据集，以及业内首个针对通用视觉模型的评测基准。

这些开源技术，究竟有何魔力？

2 大力出奇迹，打造通用视觉模型

“书生” （INTERN），就是练就通用视觉能力的底层技术。

从技术实现上讲，“书生”技术体系由由七大模块组成，包括三个基础设施模块和四个训练阶段构成。

书生（INTERN）结构图

首先，通用视觉数据系统。

这是一个超大规模的精标数据集，拥有100亿个样本和各种监督信号，并依照四大视觉任务分别设置了四个数据子集：多模态数据GV-D- 10B分类标注的GV-Dc-36M、检测标注的GV-Dd-3M、分割标注的GV-Ds-143K。

另拆慧外，这一数据集还包含11.9万的标签系统，不仅涵盖了自然界的众多领域和目前计算机视觉研究中的几备御旅乎所有标签，还扩充了大量细粒度标签，涵盖各类图像中的属性、状态等。

而这，就是书生“大力出奇迹”的一大注脚。

其次，通用视觉模型结构。

它是由一个具有CNN和Transformer的统一搜索空间构建而成。

为何要建立这样的混合结构？要知道，多年来，卷积神经网络（CNN）一直主导着视觉表征学习，并在图像分类、目标检测和语义分割等下游任务中表现出稳定的可迁移性。但最近几年，Vision Transformer (ViT)仅使用普通的Transformer结构就能作为图像编码模型在ImageNet-1k上取得媲美 CNN 的性能，在大规模数据集上 ViT 更是展示出比 CNN 更大的潜力。

尽管ViT在性能上有优点，但纯Transformer网络相比卷积神经网络缺乏某些归纳偏置（inductive biases），因此需要更多的数据和计算资源。此外，自注意的计算成本相对于输入的数量是平方的，限制了对高输入分辨率的应用。因此，将CNN和Transformer和MLP结合起来，平衡效率和有效性两个方面，才是模型通用的关键。

这种兼具更好的泛化能力和更高的模型容量的模型结构名为MetaNet。在MetaNet网络结构族里面进行网络结构搜索，从而得到最优的一个模型训练结构。

统一搜索的MetaNet架构：Conv和Trans分别表示卷积和Transformer。C和S为每一阶输出通道数和步幅。

具体来看，MetaNet不仅基于强化学习的PPO算法提出了统一搜索架构，并且，为了避免传统的下采样模块会成为模型性能的瓶颈，“书生“结合了包含 local-global-DSM (LG_DSM) 和 global-DSM (G-DSM)的context-aware down-sampling modules (DSM)，用来代替原本的下采样模块。

因此，在浅层，模型依然使用卷积来提取特征，但在深层，模型却能将Transformer模块和LG-DSM结合使用，以便于更好地提取全局信息。

同时，书生还基于最大的MetaNet-B15蒸馏出了多达13种不同的模型结构，共24种不同的模型权重，现已全部开源。

这些模型结构基本涵盖了现有市面上大部分的主流backbone，不仅能够很轻易地迁移到所需要的算法框架作为新网络预训练的初始化，而且只需要更短的训练时间就可以达到比原来更好的训练效果。

MetaNet 模型与其他模型结构比较，结果如下：

基于卷积、Transformer和两者混合的结构，分别用C，T和H表示，可以看出，在图像分类性能上，MetaNet系列的MN-B1，MN-B4和MN-B7，和其他的SOTA模型相比，不仅有更高的精度，还有更低的FLOPS和参数量。

除了分类任务，把MetaNet做为检测和分割的backbone，在COCO数据集上使用Mask R-CNN结构训练，结果发现：在模型参数量更小的前提下，MN-B4比Swin-T精度高出2到4个点。另外还在ADE20K数据集上进行了语义分割任务，MN-B4的mIoU指标比Swin-T高出5个点之多。

上述两个实验结果表明，MetaNet系列模型结构，在模型精度与计算量之间，都达到了新的SOTA！

最后，通用视觉评测基准。

视觉评测基准GV-B ，就像是一个「擂台」。

如下表所示，测评基准收集了 26 个下游任务数据集，囊括了 4 种视觉任务类型：分类，检测，分割和深度估计。

在设置上，该基准引入了百分比样本（percentage-shot），只需要选取整个数据集的一部分，例如 10%、20% ，对比缩小下游任务的训练数据量后的模型性能。

与传统的少样本设置相比，这种百分比样本设置可以很好地保留原始数据集的长尾分布等属性，并减轻对样本选择的敏感性。因为有一些数据集样本类别分布不平衡，比如下表中的VOC07+12，百分比数据的划分方式却会继承这种分布情况。

右侧三列avg，min和max，分别表示在10%的数据中，不同类别样本数量的平均值，最小值和最大值。

结合上述数据集和任务类型，论文选取了一些具有代表性的模型来做评测对比。为了比较公平性，该对比使用了这些模型的官方预训练权重。这些模型包括：

有了超大精标数据集、模型结构，以及评测基准后，已经是万事俱备，只欠训练。

书生作为中国古代读书人的经典形象，代表着一个通过不断学习、不断成长进而拥有各方面才能的人格化角色：从基础的知识技能学习开始，到对多种专业知识触类旁通，进而成长为拥有通用知识的通才。借此意象，“书生”（INTERN）系统可通过持续学习，举一反三，逐步实现通用视觉领域的融会贯通，最终实现灵活高效的模型部署。

下面就来看看，这套系统是如何通过训练，一步步从生手变成专家再到多面手，最终在各种任务中大显身手。

第一阶段，训练的是基础能力，被称为“基础模型”（Amateur）。

然而CLIP需要400M的图像-文本对进行前训练，囿于极大的数据量，CLIP很难进一步发展。但“书生”提出了一种新的训练范式，DeCLIP（Data efficient CLIP ），能够同时使用来自图像-文本、图像-图像和文本-文本对的监督信号进行模型预训练，从而更有效地实现通用性。

此外，为了充分利用大规模多模态数据获取基础模型的优势，这一阶段提出了Upstream-Amateur (Up-A)视觉语言预训练框架，同时挖掘模态内和跨模态知识。

这一训练框架分为两个预训练阶段：Upstream-Amateur for Global Representation (Up-A-G)和Upstream-Amateur for Local Representation (Up-A-L)。

其中，Up-A-G(左)使用群体监督功能，从更丰富的监督中学习。Up-A-L(右)采用局部自我监督学习方法，对训练好的视觉-语言模型进行调整，从而提高自身在密集预测CV任务中的表现。

Upstream-Amateur的框架

得益于这些内在的监督，DeCLIP-ResNet50可以在ImageNet上实现60.4%的zero-shot 精度第一。这比CLIP-ResNet50高出0.8%，数据使用量少了81%。当迁移到下游任务时，DeCLIP-ResNet50在11个视觉数据集中有8个优于CLIP。

更关键的是，训练完成的Upstream-Amateur为后续的训练阶段提供了一个很高的起点。

第二阶段，训练的是专业能力，被称为“专家模型”（Expert）。

Up-A阶段得到的基础模型，在一般的视觉识别问题上显示出优异的性能。但要完全掌握检测、分割等更具体的任务，还需要在每个任务中进行更专业的预训练，这就促成了第二个阶段的到来，专家模型。

对于每个专家，“书生”采用了一种简单的多头设计，每个头是一个特定数据集的子网络，从一个公共的、共享的“主干”分支出来。比如Up-E (C)、Up-E (D)和Up-E (S)，分别用于图像分类、对象检测和语义分割。

第三阶段，训练的是组合能力，被称为“通才模型”（Generalist）。

上述的多任务是指不同数据集(如ImageNet和CIFAR)的一个视觉问题(如分类)，或一个数据集的多个视觉问题(如分类和检测)。但关键是，如何将专家整合到一个统一的模型中，获得一个更加通用的视觉模型。因此，在预训练“专家”阶段之后，又将“通才”作为第三个预训练阶段，以进一步统一特征表示。

“书生”提出了一个新的范式，名为“混合参数共享”，从而开发一个名为“多面手”的通才模型。

具体来说，由于专家捕获的知识是相互关联的，当专家的特征融合为一个共享的表示形式时，再利用基于软共享的跨任务知识转移和基于硬共享的通用表示学习的方法，在不引入任务冲突的情况下在专家之间传递信息（特征转移），从而进一步提高了多任务训练的模型(专家)性能，即“通才”能力。

在结构上，通才模型是所有专家的一个相互关联的版本，因此可以把每个“专家主干”称为“通才分支”。此外，我们还可以根据训练相应专家的任务将通才中的每个分支分为图像、补丁和像素。但无论是软共享还是硬共享，都意味着从专家模型到通才模型的一次跃升。

在经历了前三个训练阶段模块后，终于来到最后的任务迁移阶段（Adaptation）。

这个阶段属于技术链条的下游，用来解决各式各样不同类型的任务，而这也是最考验“书生”举一反三能力的时刻。它需要在这个阶段把之前学到的通用知识，融会贯通地应用到不同特定任务中。

在此之前，很多迁移学习方法确实取得了很多进步，但问题是，这些方法既没有利用上游预训练中的隐含信息，也没有考虑到下游数据在少镜头场景中的不足。

因此，“书生”提出了一种Multi-stage Fine-tuning (MF)方法，缓解在数据较少的情况下传输的困难，再通过将上游数据编码成生成模型，即VQ-GAN，可以将预训练的模型转移到多个任务和领域，而无需每次都使用上游数据，而这也使得“书生”更具通用性和可扩展性。

多级微调(MF)概述：VQ-GAN模型首先在第一阶段使用上游数据进行训练，然后在第二阶段由它重构下游数据。在此之后，第三阶段只对新增任务的特定参数进行重新表示的图像训练，第四阶段则通过下游数据对整个模型进行微调。

至此，一个具有持续学习能力的通用视觉模型终于出世。

而具体有哪些提升，不如看一下更直观的实验数据对比！

3 一网打尽视觉领域四大任务

视觉领域，任务繁多，主流任务包含分类、目标检测、语义分割、深度估计四大类型。

在这四大任务中，最强大的视觉模型还是去年OpenAI发布的CLIP模型。但相比较而言，“书生”则在准确率和数据使用效率上都有所提升。

1、精度表现

通过对“书生”训练出的模型在GV-B上的评测对比，发现经过多阶段预训练的MetaNet精度表现优异。

在ImageNet等26个最具代表性的下游场景中， “书生”在分类、目标检测、语义分割及深度估计等四大任务上，平均错误率分别降低了40.2%、47.3%、34.8%和9.4%。

书生（INTERN）与CLIP-R50x16在不同样本量上的性能对比，正确率展示

2、数据使用效率

“书生”在数据效率方面的提升尤为瞩目：只需要1/10的下游数据，就能超过CLIP基于完整下游数据训练的准确度。

以CLIP-R50x16和Up-G MN-B15在GV-B的评测对比为例，分别在分类、目标检测、语义分割、深度估计四大类型的26个下游任务数据集上进行了评测，仅使用了10%数据进行训练的Up-G MN-B15模型，在绝大部分数据集上都能比使用了全部训练数据的CLIP-R50有更好的精度表现。这表明，经过多阶段预训练的MetaNet具有极强的泛化能力，能够在仅有少量的训练样本情况下，达到SOTA的精度表现。

在下游视觉场景中，小样本训练带来的是极高的训练速度，以及极低的训练成本。

例如在花卉种类识别任务上，“书生“只需要每一类型的花卉提供两个训练样本，就能实现99.7%的准确率。

这个花卉数据集由102种英国常见的花组成，每个类别有40至258张图片。其中包含有很大的比例、姿势和光线变化。

102个类别的花卉数据集：

4 通用视觉平台，已正式开源

如此强大的通用视觉训练模型已经正式开源！

更关键的是，连同上述讲到的标签数据集、网络结构以及评测基准，均在OpenGVLab被统一打包开源。

其中的网络结构除了MetaNet，还包含大家普遍使用的ResNet， MobileNet， ViT， EfficientNet等，以满足不同场景的应用，赋能计算机视觉。

然而，「书生」的布局不止于此。

OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab、OpenDILab一道，共同构筑开源体系OpenXLab，持续推进通用人工智能的技术突破和生态构建。

一位已经使用过此次开源平台的自动驾驶算法研究员表示：“书生系列模型充分覆盖了从移动可部署的小模型，到超大规模自研结构，为行业带来了希望，尤其是它的收敛速度，大幅节省了训练开销，是技术落地的一大助推器。“

不仅是自动驾驶领域，智慧城市、智慧医疗、智慧交通，以及千千万万其他的智能化领域，都将获得通用视觉模型带来的技术红利。

一位腾讯研究员大赞OpenGVLab：“能把这么大的工作开源出来真的是业界良心。简单用了一下，确实比CLIP要更fine-grained（细粒度更高）。”

而来自学界的师生也对此感慨有加：“OpenGVLab集成了大量各种量级的state-of-the-art（先进）模型，使用起来更得心应手，省去了对不同codebase、不同模型繁琐调研的烦恼。”

换句话说，当那些代码和公式脱去了枯燥乏味的外衣，人们才发现了真正的创造力。而这，也是技术创新与平台开源的魅力所在。

往近了说，用这款通用视觉模型打比赛，怕不是奖金多到飞起！在技术生产力的道路上，又诞生了一个致富小妙招！

目前，“书生”技术报告《INTERN: A New Learning Paradigm Towards General Vision》已在arXiv平台发布。

论文地址：arxiv.org/abs/2111.08687

“大器件+大模型”再下一城，商汤日益壮大的大模型体系引领“智能飞轮”的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于、“大器件+大模型”再下一城，商汤日益壮大的大模型体系引领“智能飞轮”的信息别忘了在本站进行查找喔。

关于“大器件+大模型”再下一城，商汤日益壮大的大模型体系引领“智能飞轮”的信息

热点资讯 2023-04-17

本文目录：

智慧城市开启规模化落地商汤科技加速布局

智慧交通领域，目前发展到什么阶段？

毫末DriveGPT雪湖·海若，让自动驾驶更早到来

只需要十分之一数据，就能通关四大视觉任务，居然还开源了

相关推荐

科陆电子(002121SZ):上半年净亏损1.37亿元_科陆电子2020年业绩

电商平台自营商品包邮门槛下调40元_商家自营和电商平台的区别

关注8月24日外汇市场的趋势:欧元、英镑和日元的技术分析,外汇欧元兑英镑

赤子城科技(09911)李平:创新业务取得突破，未来三年打造五款长期精品游戏的简单介绍

最近发表

热门文章

标签列表

关于“大器件+大模型”再下一城，商汤日益壮大的大模型体系引领“智能飞轮”的信息

热点资讯 2023-04-17

本文目录：

智慧城市开启规模化落地 商汤科技加速布局

智慧交通领域，目前发展到什么阶段？

毫末DriveGPT雪湖·海若，让自动驾驶更早到来

只需要十分之一数据，就能通关四大视觉任务，居然还开源了

相关推荐

科陆电子(002121SZ):上半年净亏损1.37亿元_科陆电子2020年业绩

电商平台自营商品包邮门槛下调40元_商家自营和电商平台的区别

关注8月24日外汇市场的趋势:欧元、英镑和日元的技术分析,外汇欧元兑英镑

赤子城科技(09911)李平:创新业务取得突破，未来三年打造五款长期精品游戏的简单介绍

最近发表

热门文章

标签列表

智慧城市开启规模化落地商汤科技加速布局