关于商汤回应自研大模型图片制作问题:二画SenseMirage包含自研AIGC大模型，也提供第三方开源模型的信息-百科互动

本篇文章百科互动给大家谈谈商汤回应自研大模型图片制作问题:二画SenseMirage包含自研AIGC大模型，也提供第三方开源模型，以及对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。本文目录： 1、ai运动产品生产模式有哪些

本篇文章百科互动给大家谈谈商汤回应自研大模型图片制作问题:二画SenseMirage包含自研AIGC大模型，也提供第三方开源模型，以及对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录：

1、ai运动产品生产模式有哪些
2、只需要十分之一数据，就能通关四大视觉任务，居然还开源了

ai运动产品生产模式有哪些

AIGC 即 AI Generated Content，利用人工智能技术来生成内容，它被认为是继PGC、UGC之后的新型内容历租创作方式。2022年AIGC高速发展，这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能，成为AIGC发展的“加速度”。

2、AIGC有哪些应用价值？

AIGC将有望成为数字内容创新发展的新引擎。1）AIGC能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动，从技术层面实现以低边际成本、高效率的方式满足海量个性化需求。2）AIGC能够通过支持数字内容与其他产业的多维互动、融合渗透从而孕育新业态新模式。3）助力“元宇宙”发展。通过AIGC加速复刻物理世界、进行无限内容创作，从而实现自发有机生长。

1）AIGC+传媒：写稿机器人、采访助手、视频字幕生成、语音播报、视频锦集、人工智能合成主播

2）AIGC+电商：商品3D模型、虚拟主播、虚拟货场

3）AIGC+影视：AI剧本创作、AI合成人脸和声音、AI创作角色和场景、AI自动生成影视预告片

4）AIGC+娱乐：AI换脸应用（如FaceAPP、ZAO）、AI作曲（如初音未来虚拟歌姬）、AI合成音视频动画

5）AIGC+教育：AI合成虚拟教师、AI根据课本制作历史人物形象、AI将2D课本转换为3D

6）AIGC+金融：通过AIGC实现金融资讯、产品介绍视频内容的自动化生产，通过AIGC塑造虚拟数字人客服

7）AIGC+医疗；AIGC为失声者合成语言音频、为残疾人合成肢体投影、为心理疾病患者合成医护陪伴

8）AIGC+工业：通过AIGC完成工程设计中重复的低层次任务，通过AIGC生成衍生设计，为工程师提供灵感

3、AIGC商业模式如何？

1）作为底层平台接入其他产品对外开放，按照数据请求量和实际计算量计算：GPT-3对外提供API接口，采用的四种模型分别采用不同的按量收费方式

2）按产出内容量收费：包括DALL·E、Deep Dream Generator等AI图像生成平台大多按照图像张数收费

3）直接对外提供软件：例如个性化营销文本写作工具AX Semantics则以约1900人民币/月的价格对外出售，并以约4800欧元/月的价格提供支持定制的电子商务版本。大部分C端AGC工具则以约80人民币/月的价格对外出售

4）模型训练费用：适用于NPC训练等个性化定制需求较强的领域

5）根据具体属性收费：例如版权授予（支持短期使用权、长期使用权、排他性使用权和所有权多种合作模式，拥有设计图案的版权）、是否支持商业用途（个人用途、企业使用、品牌使用等）、透明框架和分辨率等

4、AIGC的行业门槛及壁垒是什么？

1）打造一体化解决方案服务能力：AIGC本质上提供的是内容的生成工具，和传统的内容辅助编辑逻辑是相同的。采集、生产、媒资管理、分发消费等视频整个生命周期，一般都需要覆盖内容生成的全生命周期。

2）与行业的深度绑定关系：通过和行业形成深度绑定关系，接入相关平台或底层系统的，与原来的内容载体建立良好的合作关系，除去说明场景可行性外，还需要强调对方在基础架构上的配合意愿。

3）构建业务闭环：创作型的工具如何得到反馈的手段，需要新的模式形成闭环。需要从“拼接式”（需要大量的人工标注数据，只能针对具体任务，不会自我成长）到“进化式”（创造特定条件和核心能力，使之能够完成通用任务并自我成长），并与用户增加对话轮次、建立情感链接。

5、AIGC技术处于什么发展阶段？

2021年之前，AIGC生成的主要是文字，而新一代模型可喊烂梁以处理的格式内容包括：文郑运字、语音、代码、图像、视频、机器人动作等等。AIGC被认为是继专业生产内容（PGC，professional-generated content）、用户生产内容（UGC，User-generated content）之后的新型内容创作方式，可以在创意、表现力、迭代、传播、个性化等方面，充分发挥技术优势。

2022年：AIGC高速发展，其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能，成为AIGC发展的“加速度”。

6、AIGC的发展面临什么挑战？

AIGC在引发全球关注的同时，知识产权、技术伦理将面临诸多挑战和风险。同时AIGC距离通用人工智能还有较大的差距。

1）知识产权争议。AIGC的飞速发展和商业化应用，除了对创作者造成冲击外，也对大量依靠版权为主要营收的企业带来冲击。

2）关键技术难点。AIGC距离通用人工智能还有较大差距，当前热门的AIGC系统虽然能够快速生成图像，但是这些系统未必能够真正理解绘画的含义，从而能够根据这些含义进行推理并决策。

3）创作伦理问题。部分开源的AIGC项目对生成的图像监管程度较低，数据集系统利用私人用户照片进行AI训练，侵权人像图片进行训练的现象屡禁不止。一些用户利用AIGC生成虚假名人照片等违禁图片，甚至会制作出暴力和性有关的画作。由于AI本身尚不具备价值判断能力，一些平台已经开始进行伦理方面的限制和干预，但相关法律法规仍处于真空阶段。

7、如何看待AIGC的未来趋势？

据李彦宏判断，未来AIGC将走过三个发展阶段：助手阶段、协作阶段、原创阶段。

在第一阶段，AIGC将辅助人类进行内容生产；

第二阶段，AIGC以虚实并存的虚拟人形态出现，形成人机共生的局面；

第三阶段则是原创阶段，AIGC将独立完成内容创作。Gartner预计，到2025年，生成式人工智能将占所有生成数据的10%。

推动这一变化发生的驱动力在于：

1）核心技术升级不断发展。AIGC的三大基础能力包括内容孪生、内容编辑、内容创作，将随着产业发展而逐渐升级。

2）产品类型逐渐丰富。人工智能的不断发展及推进，也将使AIGC模态不再仅仅局限于文本、音频、视觉三种基本形态。嗅觉、触觉、味觉、情感等多重信息感知和认知能力将以数字化的形式传输并指导人工智能进行内容创作，甚至创造出酸甜苦辣外的另一种味道。

3）场景应用趋于多元。目前，AIGC已经在多个领域得到广泛应用，如金融、传媒、文娱、电商等，未来应用场景会进一步多元化。除应用场景的横向扩展外，场景与场景的融合交互也是未来的发展趋势之一。

4）生态建设日益完善。技术研发的不断创新将强有力地推动内容创作，提高生成内容质量，使内容更接近人类智力水平和审美标准，同时应用于各类行业各种场景。AIGC的繁荣发展将促进资产服务快速跟进，通过对生成内容的合规评估、资产管理、产权保护、交易服务等构成AIGC的完整生态链，并进行价值重塑，充分释放其商业潜力。

8、AIGC未来市场空间有多大？

随着标注数据累积、技术架构完善、内容行业对丰富度/事实性/个性化的要求越来越高，AIGC行业即将被推向前台。

在未来2-3年间，AIGC的初创公司和商业落地案例将持续增加。目前由人工智能生成的数据占所有数据的1%不到，根据Gartner预测，到2025年，人工智能生成数据占比将达到10%。根据《Generative AI：A Creative New World》的分析，AIGC有潜力产生数万亿美元的经济价值。

9、AIGC的产业链分布如何？

我国的AIGC行业尚未发展成型，目前，AIGC代表公司较少，且上游还有众多欠缺。

国内的AIGC场景开发较少：在我国，由于技术发展不足以及投资环境的影响，AIGC大多被作为公司的部分业务、乃至相对边缘化的功能进行研发开发，独立运行的初创公司数量明显少于国外，大部分细分赛道的初创玩家在5家以下，这也间接导致了国内的AIGC场景开发较少。

AIGC应用场景深度不足：国内布局最多的赛道是写作和语音合成领域，虚拟人赛道刚刚开始兴起基本均停留在内容领域。而在国外延展领域得到了更为充分的挖掘，例如个性化文本生成、合成数据等赛道均是重点布局领域。此类业务拓展的综合性要求较高，需要客户方的数字化程度以及对对应行业的充分了解。

10、AIGC相关公司有哪些？

上市公司

300418 昆仑万维

业务布局：公司在AIGC领域已经投入了近两年的时间，国内最早布局AIGC领域的公司之一。公司成立了MusicX Lab，致力于打造领先的人工智能音乐生成技术，目前已正式销售AI作曲，具备成熟专业的全链路音乐制作和全球音乐发行能力。22Q3 MusicXLab再推10首新作AI歌曲，算法模型及AIGC能力不断优化提升。目前新歌已在国内外各大平台上线。

客户类型：22Q3在国内外各大平台再推新歌的基础上，也积极拓展了车企、教育、时尚、游戏、娱乐等各个行业的合作生态，达成了歌曲代销、车机音源、公播音乐、AI音乐辅学、品牌联名主题曲、有声书及视频配乐等落地业务。例如，MusicXLab与音乐公司达成歌曲代销合作，与头部车企达成AIGC战略合作，与游戏公司签约BGM长期合作，与教育机构达成AI音乐评价辅学合作等。先进科技的持续赋能和产品矩阵的不断丰富将为StarX发展注入强劲动力。

301270 汉仪股份

公司以技术驱动设计，近年来针对字库产品设计、生产、传输、储存到识别的全业务链条进行持续不断的研发投入，实现了全面的技术储备以保证公司业务持续高效的发展。同时，公司紧随信息技术、人工智能的发展步伐，及时将先进的信息技术应用于字库行业，形成了以大数据、人工智能为基础的技术储备。

300364 中文在线

公司已推出AI绘画功能和AI文字辅助创作功能，其中AI文字辅助创作功能已上线，该功能已向公司旗下17K文学平台全部作者开放。公司深度结合作者的真实写作场景，作者在使用AIGC功能时，通过针对不同的描写场景填写关键词和辅助短语，即可生成对应的文字内容描写，提高写作效率。目前可针对人物、物品等进行AI辅助创作，并针对不同的作品类别如古风、都市等进行语言调整，带来最佳的内容产出体验，大幅提升创作效率和内容的可读性。

000681 视觉中国

公司在AI方面持续投入，已发售数轮AI数字藏品，并使用AIGC方式创作图片内容，目前平台仍在大力投入AI布局。

300624 万兴科技

公司已布局虚拟数字人、虚拟场景、虚拟直播等创新业务领域；近日在2022全球元宇宙大会论坛上宣布布局AIGC赛道，公司旗下首款AI绘画软件“万兴AI绘画”正式开启公测。

300229 拓尔思

公司已落地了一批服务型虚拟人项目，其中与广东省共建“南方乡村振兴新农人AI数智赋能平台”，定位于农产品直播内容智能创作的AIGC在线服务平台，主要面向农产品电商主播提供直播脚本智能创作、带货虚拟人全链租用等知识赋能服务。

2022年世界杯举办期间，公司将利用自研互联网大数据资讯平台，对世界杯相关的热点和话题进行大数据分析和研判，通过AIGC的内容自动创作和虚拟数字人进行联合，开展“大数据看世界杯”的虚拟数字人系列服务。

002657中科金财

今年服贸会期间，公司发布了中科金财“元宇宙技术服务矩阵”，其中，公司基于WEB3.0规则架构，研发了数字人内容制作引擎、元宇宙场景开发工具，并通过AIGC的企业级内容互动创作平台，实现与中科金财元宇宙数字化营销平台“觅际”融合，公司作为邮储银行北京分行在服贸会上的合作伙伴，通过上述技术服务，首次实现了“沉浸式购物+数字人民币”场景落地。

BIDU 百度

在9月23日举办的2022万象·百度移动生态大会上，百度发布了AI助理，覆盖了各种AIGC应用，包括AI自动生成文字、图片以及图片转换成视频。借助AIGC的力量，百度希望为现有的500多万百家号创作者带来一套AI生产内容工具，帮助他们更快更好地产出视频内容，从而增加百度百家号等产品的用户粘性，以反击头部短视频平台。目前百度已经和数十家权威媒体成立“AIGC媒体联盟”。

300130 新国都

公司全资子公司新国都智能基于图像深度学习、计算机视觉等前沿AI技术，积极探索AI人工智能技术在AIGC、智能驾驶等领域的应用。

0700 腾讯

腾讯AI Lab基于自己的多模态学习及生成能力在游戏领域进行了全流程的布局。「绝悟」AI通过强化学习的方法来模仿真实玩家，包括发育、运营、协作等指标类别，以及每分钟手速、技能释放频率、命中率、击杀数等具体参数，让AI更接近正式服玩家真实表现，将测试的总体准确性提升到95%。目前腾讯绝悟在环境观测、图像信息处理、探索效率等方面的创新算法已经突破了可用英雄限制（英雄池数量从40增为100 ），让 AI 完全掌握所有英雄的所有技能并达到职业电竞水平，能应对高达10的15次方的英雄组合数变化。目前，腾讯AI Lab还与腾讯 AI Lab 还与王者荣耀联合推出了AI开放研究平台「开悟」，并积极举办相关赛事。

MFST 微软

微软亚洲研究院支持图像变为动态、文本生成视频、文本生成图像、图像补全、图像生成的NUWA-Infinity

BABA 阿里巴巴

阿里巴巴智能设计实验室研发虚拟模特塔玑及AI视觉物料生成系统阿里鹿班。

NVDA 英伟达

在视觉生成研究领域始终位于前沿，代表作品包括CycleGAN、GauGAN、EditGAN、GANverse3D、Instant NeRF等。

未上市公司

小冰公司

成立时间及融资轮次：2020年 A轮（估值已达10亿美元独角兽，高瓴领投）

AIGC相关亮点：作为“AI being”派虚拟人。小冰的产品虚拟人、音频生成、视觉创造、文本创造、虚拟社交、Game AI等。

客户范围：客户已覆盖金融、智能车机、零售、体育、纺织、地产、文旅等十多个垂直领域，并提出了以“人力”的逻辑去进行商业报价的虚拟人商业模式。

DeepMusic（灵动音科技）

成立时间及融资轮次：2018年 A轮（TME领投，单轮融资数千万人民币）

AIGC相关亮点：产品包括针对视频生成配乐的配乐猫、支持非音乐专业人员创作的口袋音乐、可AI生成歌词的 LYRICA、AI作曲软件LAZYCOMPOSER。目前已与国内多家音乐平台厂商达成合作。其音乐标注团队已形成了全球最精确的话语歌曲音乐信息库。

倒映有声

成立时间及融资轮次：2019年 Pre-A轮（中文在线投资，单轮融资千万人民币级）

AIGC相关亮点：倒映有声通过神经渲染技术快速构建AI数字分身，通过语音+图像生成技术，生成和驱动数字分身的唇形、表情、动作、肢体姿态，创造表情自然、动作流畅、语音充满情感的高拟真度数字分身IP。2021年3月倒映有声和中央广播电视总台音频客户端「云听」签署战略合作协议。

rct AI

成立时间及融资轮次：2018年 A3轮（元宇宙资本和Springwind Ventures领投，单轮融资额超千万美元）

AIGC相关亮点：通过简单设计并调整不同的参数，rct AI的混沌球（Chaos Box）算法可以在游戏中大规模地轻松生成具有智能意识的虚拟角色。他们的行为和对话不会重复，皆为动态生成。目前，rct AI已凭借核心技术Chaos Box帮助了10余家企业，完成包括对战游戏、虚拟人铸造等多种类型的项目，与世界范围内 20+ 游戏厂商建立了深入合作，触达超过 2 亿用户。

超参数

成立时间及融资轮次：2019年 B轮（红杉中国领投，估值已达10亿独角兽，单轮融资1亿美元）

AIGC相关亮点：超参数科技提供的AI bot支持玩家陪玩、多人团队竞技（球球大作战）、非完美信息博弈AI（斗地主、德扑、麻将等）等。目前，超参数AI Bot已在多款千万日活的产品中上线，每日在线数峰值将近百万，业内率先实现在3D FPS领域的大规模商业化落地。

影谱科技

成立时间及融资轮次：2018年 D轮（单轮融资13.6亿元，商汤科技领投）

AIGC相关亮点：在视频生成相关领域支持结构化视觉分析、影像自动合成技术、智能视频编辑、视频内容生产等。

Zyro

围绕垂直业务场景，结合业务knowhow 组织相关AIGC能力

围绕电商场景，通过AIGC生成网站搭建过程中所需的各类素材，具体业务包括针对性生成公司介绍、企业价值、Slogan、自动提升图片清晰度、自动生成logo等。

聆心智能

基于多模态对话生成系统，该公司专注于针对精神心理的AI驱动的高质量数字疗法，让AI围绕认知、情绪和行为三个维度对用户进行评估和干预，生成千人千面的情绪治疗方案，目前已与北医六院、湘雅二院、中日友好医院、清华大学玉泉医院等达成合作。

OpenAI

将其底层模型对外开放商用，开创基础设施型的商业模式。GPT-3目前已经开始对外提供API，并分为四种模型按照用量对外收费。

Gliacloud

输入文本链接，软件能够自动对其中的标题和文字进行区分表示，并根据不同层级自动匹配素材和文字的转场、格式等，进而形成说明式的视频。该方式能够增加10倍的视频产量。类似公司包括：Gliacloud、Synths.video、lumen5、Pencil。

Rosebud.ai

Rosebud.ai能够生成非真实的人脸图像，并在该图像中匹配相关衣物等所需素材。此外，模型面孔可以根据对应受众的相关数据进行调整。该公司声称，其生成模型能够使活动点击率提升22%。

只需要十分之一数据，就能通关四大视觉任务，居然还开源了

Github链接：

家人们，你们有没有这种苦恼？

搬一次家就换一次家具，那些又贵又重的家具既不好搬运，又不好全部带走。

下一次又重新购置一遍家具，浪费钱不说，关键是来来回回都做一样的事情！家具还没用仿凳过几次，利用率不高呀！

这种搬家的苦恼，就好比AI领域，做几个任务就需要开发几个高度定制的模型，不仅所需的数据采集量非常大，每次还都得从头标注。既提不起数据的学习效率，又耗费巨大的数据获取成本。

光是AI前端研究就耗费如此巨大的精力，更别提应用场景中数以万计的长尾任务。

那怎么办？

做一款通用的深度学习模型，才是关键。

1 通用，才是技术根本

目前，通用语言模型（GLM）已经取得了令人瞩目的进展，比如BERT、T5和GPT-3，它们在应对广泛的语言下游任务时已经游刃有余。

相形之下，通用视觉模型（GVM）的研究迟迟未交出一份令人满意的答卷。

以往的大多数 GVM 研究主要利用一种监督信号来源，如 ViT-G/14 采用有标签监督，SEER 采用样本的不同增强之间的对比学习，CLIP采用图片文本对进行监督。如果是在单个监督信号下进行的预训练，这几种范式确实能够生成在固定场景下表现良好的模型。但如果用在场景多元、任务多样的下游场景，这些模型就难以胜任了。

比如现在最火的自动驾驶，汽车处于移动状态，既要看到路况，又要看到红绿灯，还要注意行人，甚至在智能座舱兴起后，还要和语言技术、LBS场景服务协同，这么多的感知数据与协同任务，这么多随机的新任务，无论在体量还是维度方面，都对视觉模型的要求极大提高。

这时，打造一款通用视觉模型，降低研发门槛，尤其是学术界的时间成本、资金成本，才能畅享下游的极致场景体验。

去年11月，上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学发布通用视觉技术体系“书生”（INTERN），一套持续学习框架，用于系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。

前不久，上海人工智能实验室联合商汤科技发布通用视觉开源平台OpenGVLab，面向学术界和产业界开放其超高效预训练模型、超大规模公开数据集，以及业内首个针对通用视觉模型的评测基准。

这些开源技术，究竟有何魔力？

2 大力出奇迹，打造通用视觉模型

“书生” （INTERN），就是练就通用视觉能力的底层技术。

从技术实现上讲，“书生”技术体系由由七大模块组成，包括三个基础设施模块和四个训练阶段构成。

书生（INTERN）结构图

首先，通用视觉数据系统。

这是一个超大规模的精标数据集，拥有100亿个样本和各种监督信号，并依照四大视觉任务分别设置了四个数据子集：多模态数据GV-D- 10B分类标注的GV-Dc-36M、检测标注的GV-Dd-3M、分割标注的GV-Ds-143K。

另拆慧外，这一数据集还包含11.9万的标签系统，不仅涵盖了自然界的众多领域和目前计算机视觉研究中的几备御旅乎所有标签，还扩充了大量细粒度标签，涵盖各类图像中的属性、状态等。

而这，就是书生“大力出奇迹”的一大注脚。

其次，通用视觉模型结构。

它是由一个具有CNN和Transformer的统一搜索空间构建而成。

为何要建立这样的混合结构？要知道，多年来，卷积神经网络（CNN）一直主导着视觉表征学习，并在图像分类、目标检测和语义分割等下游任务中表现出稳定的可迁移性。但最近几年，Vision Transformer (ViT)仅使用普通的Transformer结构就能作为图像编码模型在ImageNet-1k上取得媲美 CNN 的性能，在大规模数据集上 ViT 更是展示出比 CNN 更大的潜力。

尽管ViT在性能上有优点，但纯Transformer网络相比卷积神经网络缺乏某些归纳偏置（inductive biases），因此需要更多的数据和计算资源。此外，自注意的计算成本相对于输入的数量是平方的，限制了对高输入分辨率的应用。因此，将CNN和Transformer和MLP结合起来，平衡效率和有效性两个方面，才是模型通用的关键。

这种兼具更好的泛化能力和更高的模型容量的模型结构名为MetaNet。在MetaNet网络结构族里面进行网络结构搜索，从而得到最优的一个模型训练结构。

统一搜索的MetaNet架构：Conv和Trans分别表示卷积和Transformer。C和S为每一阶输出通道数和步幅。

具体来看，MetaNet不仅基于强化学习的PPO算法提出了统一搜索架构，并且，为了避免传统的下采样模块会成为模型性能的瓶颈，“书生“结合了包含 local-global-DSM (LG_DSM) 和 global-DSM (G-DSM)的context-aware down-sampling modules (DSM)，用来代替原本的下采样模块。

因此，在浅层，模型依然使用卷积来提取特征，但在深层，模型却能将Transformer模块和LG-DSM结合使用，以便于更好地提取全局信息。

同时，书生还基于最大的MetaNet-B15蒸馏出了多达13种不同的模型结构，共24种不同的模型权重，现已全部开源。

这些模型结构基本涵盖了现有市面上大部分的主流backbone，不仅能够很轻易地迁移到所需要的算法框架作为新网络预训练的初始化，而且只需要更短的训练时间就可以达到比原来更好的训练效果。

MetaNet 模型与其他模型结构比较，结果如下：

基于卷积、Transformer和两者混合的结构，分别用C，T和H表示，可以看出，在图像分类性能上，MetaNet系列的MN-B1，MN-B4和MN-B7，和其他的SOTA模型相比，不仅有更高的精度，还有更低的FLOPS和参数量。

除了分类任务，把MetaNet做为检测和分割的backbone，在COCO数据集上使用Mask R-CNN结构训练，结果发现：在模型参数量更小的前提下，MN-B4比Swin-T精度高出2到4个点。另外还在ADE20K数据集上进行了语义分割任务，MN-B4的mIoU指标比Swin-T高出5个点之多。

上述两个实验结果表明，MetaNet系列模型结构，在模型精度与计算量之间，都达到了新的SOTA！

最后，通用视觉评测基准。

视觉评测基准GV-B ，就像是一个「擂台」。

如下表所示，测评基准收集了 26 个下游任务数据集，囊括了 4 种视觉任务类型：分类，检测，分割和深度估计。

在设置上，该基准引入了百分比样本（percentage-shot），只需要选取整个数据集的一部分，例如 10%、20% ，对比缩小下游任务的训练数据量后的模型性能。

与传统的少样本设置相比，这种百分比样本设置可以很好地保留原始数据集的长尾分布等属性，并减轻对样本选择的敏感性。因为有一些数据集样本类别分布不平衡，比如下表中的VOC07+12，百分比数据的划分方式却会继承这种分布情况。

右侧三列avg，min和max，分别表示在10%的数据中，不同类别样本数量的平均值，最小值和最大值。

结合上述数据集和任务类型，论文选取了一些具有代表性的模型来做评测对比。为了比较公平性，该对比使用了这些模型的官方预训练权重。这些模型包括：

有了超大精标数据集、模型结构，以及评测基准后，已经是万事俱备，只欠训练。

书生作为中国古代读书人的经典形象，代表着一个通过不断学习、不断成长进而拥有各方面才能的人格化角色：从基础的知识技能学习开始，到对多种专业知识触类旁通，进而成长为拥有通用知识的通才。借此意象，“书生”（INTERN）系统可通过持续学习，举一反三，逐步实现通用视觉领域的融会贯通，最终实现灵活高效的模型部署。

下面就来看看，这套系统是如何通过训练，一步步从生手变成专家再到多面手，最终在各种任务中大显身手。

第一阶段，训练的是基础能力，被称为“基础模型”（Amateur）。

然而CLIP需要400M的图像-文本对进行前训练，囿于极大的数据量，CLIP很难进一步发展。但“书生”提出了一种新的训练范式，DeCLIP（Data efficient CLIP ），能够同时使用来自图像-文本、图像-图像和文本-文本对的监督信号进行模型预训练，从而更有效地实现通用性。

此外，为了充分利用大规模多模态数据获取基础模型的优势，这一阶段提出了Upstream-Amateur (Up-A)视觉语言预训练框架，同时挖掘模态内和跨模态知识。

这一训练框架分为两个预训练阶段：Upstream-Amateur for Global Representation (Up-A-G)和Upstream-Amateur for Local Representation (Up-A-L)。

其中，Up-A-G(左)使用群体监督功能，从更丰富的监督中学习。Up-A-L(右)采用局部自我监督学习方法，对训练好的视觉-语言模型进行调整，从而提高自身在密集预测CV任务中的表现。

Upstream-Amateur的框架

得益于这些内在的监督，DeCLIP-ResNet50可以在ImageNet上实现60.4%的zero-shot 精度第一。这比CLIP-ResNet50高出0.8%，数据使用量少了81%。当迁移到下游任务时，DeCLIP-ResNet50在11个视觉数据集中有8个优于CLIP。

更关键的是，训练完成的Upstream-Amateur为后续的训练阶段提供了一个很高的起点。

第二阶段，训练的是专业能力，被称为“专家模型”（Expert）。

Up-A阶段得到的基础模型，在一般的视觉识别问题上显示出优异的性能。但要完全掌握检测、分割等更具体的任务，还需要在每个任务中进行更专业的预训练，这就促成了第二个阶段的到来，专家模型。

对于每个专家，“书生”采用了一种简单的多头设计，每个头是一个特定数据集的子网络，从一个公共的、共享的“主干”分支出来。比如Up-E (C)、Up-E (D)和Up-E (S)，分别用于图像分类、对象检测和语义分割。

第三阶段，训练的是组合能力，被称为“通才模型”（Generalist）。

上述的多任务是指不同数据集(如ImageNet和CIFAR)的一个视觉问题(如分类)，或一个数据集的多个视觉问题(如分类和检测)。但关键是，如何将专家整合到一个统一的模型中，获得一个更加通用的视觉模型。因此，在预训练“专家”阶段之后，又将“通才”作为第三个预训练阶段，以进一步统一特征表示。

“书生”提出了一个新的范式，名为“混合参数共享”，从而开发一个名为“多面手”的通才模型。

具体来说，由于专家捕获的知识是相互关联的，当专家的特征融合为一个共享的表示形式时，再利用基于软共享的跨任务知识转移和基于硬共享的通用表示学习的方法，在不引入任务冲突的情况下在专家之间传递信息（特征转移），从而进一步提高了多任务训练的模型(专家)性能，即“通才”能力。

在结构上，通才模型是所有专家的一个相互关联的版本，因此可以把每个“专家主干”称为“通才分支”。此外，我们还可以根据训练相应专家的任务将通才中的每个分支分为图像、补丁和像素。但无论是软共享还是硬共享，都意味着从专家模型到通才模型的一次跃升。

在经历了前三个训练阶段模块后，终于来到最后的任务迁移阶段（Adaptation）。

这个阶段属于技术链条的下游，用来解决各式各样不同类型的任务，而这也是最考验“书生”举一反三能力的时刻。它需要在这个阶段把之前学到的通用知识，融会贯通地应用到不同特定任务中。

在此之前，很多迁移学习方法确实取得了很多进步，但问题是，这些方法既没有利用上游预训练中的隐含信息，也没有考虑到下游数据在少镜头场景中的不足。

因此，“书生”提出了一种Multi-stage Fine-tuning (MF)方法，缓解在数据较少的情况下传输的困难，再通过将上游数据编码成生成模型，即VQ-GAN，可以将预训练的模型转移到多个任务和领域，而无需每次都使用上游数据，而这也使得“书生”更具通用性和可扩展性。

多级微调(MF)概述：VQ-GAN模型首先在第一阶段使用上游数据进行训练，然后在第二阶段由它重构下游数据。在此之后，第三阶段只对新增任务的特定参数进行重新表示的图像训练，第四阶段则通过下游数据对整个模型进行微调。

至此，一个具有持续学习能力的通用视觉模型终于出世。

而具体有哪些提升，不如看一下更直观的实验数据对比！

3 一网打尽视觉领域四大任务

视觉领域，任务繁多，主流任务包含分类、目标检测、语义分割、深度估计四大类型。

在这四大任务中，最强大的视觉模型还是去年OpenAI发布的CLIP模型。但相比较而言，“书生”则在准确率和数据使用效率上都有所提升。

1、精度表现

通过对“书生”训练出的模型在GV-B上的评测对比，发现经过多阶段预训练的MetaNet精度表现优异。

在ImageNet等26个最具代表性的下游场景中， “书生”在分类、目标检测、语义分割及深度估计等四大任务上，平均错误率分别降低了40.2%、47.3%、34.8%和9.4%。

书生（INTERN）与CLIP-R50x16在不同样本量上的性能对比，正确率展示

2、数据使用效率

“书生”在数据效率方面的提升尤为瞩目：只需要1/10的下游数据，就能超过CLIP基于完整下游数据训练的准确度。

以CLIP-R50x16和Up-G MN-B15在GV-B的评测对比为例，分别在分类、目标检测、语义分割、深度估计四大类型的26个下游任务数据集上进行了评测，仅使用了10%数据进行训练的Up-G MN-B15模型，在绝大部分数据集上都能比使用了全部训练数据的CLIP-R50有更好的精度表现。这表明，经过多阶段预训练的MetaNet具有极强的泛化能力，能够在仅有少量的训练样本情况下，达到SOTA的精度表现。

在下游视觉场景中，小样本训练带来的是极高的训练速度，以及极低的训练成本。

例如在花卉种类识别任务上，“书生“只需要每一类型的花卉提供两个训练样本，就能实现99.7%的准确率。

这个花卉数据集由102种英国常见的花组成，每个类别有40至258张图片。其中包含有很大的比例、姿势和光线变化。

102个类别的花卉数据集：

4 通用视觉平台，已正式开源

如此强大的通用视觉训练模型已经正式开源！

更关键的是，连同上述讲到的标签数据集、网络结构以及评测基准，均在OpenGVLab被统一打包开源。

其中的网络结构除了MetaNet，还包含大家普遍使用的ResNet， MobileNet， ViT， EfficientNet等，以满足不同场景的应用，赋能计算机视觉。

然而，「书生」的布局不止于此。

OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab、OpenDILab一道，共同构筑开源体系OpenXLab，持续推进通用人工智能的技术突破和生态构建。

一位已经使用过此次开源平台的自动驾驶算法研究员表示：“书生系列模型充分覆盖了从移动可部署的小模型，到超大规模自研结构，为行业带来了希望，尤其是它的收敛速度，大幅节省了训练开销，是技术落地的一大助推器。“

不仅是自动驾驶领域，智慧城市、智慧医疗、智慧交通，以及千千万万其他的智能化领域，都将获得通用视觉模型带来的技术红利。

一位腾讯研究员大赞OpenGVLab：“能把这么大的工作开源出来真的是业界良心。简单用了一下，确实比CLIP要更fine-grained（细粒度更高）。”

而来自学界的师生也对此感慨有加：“OpenGVLab集成了大量各种量级的state-of-the-art（先进）模型，使用起来更得心应手，省去了对不同codebase、不同模型繁琐调研的烦恼。”

换句话说，当那些代码和公式脱去了枯燥乏味的外衣，人们才发现了真正的创造力。而这，也是技术创新与平台开源的魅力所在。

往近了说，用这款通用视觉模型打比赛，怕不是奖金多到飞起！在技术生产力的道路上，又诞生了一个致富小妙招！

目前，“书生”技术报告《INTERN: A New Learning Paradigm Towards General Vision》已在arXiv平台发布。

论文地址：arxiv.org/abs/2111.08687

关于商汤回应自研大模型图片制作问题:二画SenseMirage包含自研AIGC大模型，也提供第三方开源模型和的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

关于商汤回应自研大模型图片制作问题:二画SenseMirage包含自研AIGC大模型，也提供第三方开源模型的信息

热点资讯 2023-04-18

本文目录：

ai运动产品生产模式有哪些

只需要十分之一数据，就能通关四大视觉任务，居然还开源了

相关推荐

科陆电子(002121SZ):上半年净亏损1.37亿元_科陆电子2020年业绩

电商平台自营商品包邮门槛下调40元_商家自营和电商平台的区别

关注8月24日外汇市场的趋势:欧元、英镑和日元的技术分析,外汇欧元兑英镑

赤子城科技(09911)李平:创新业务取得突破，未来三年打造五款长期精品游戏的简单介绍

最近发表

热门文章

标签列表