指数资本
  • 指数文化
  • 投行案例
  • 投资案例
  • 指数思考
  • 指数交易
  • 联系指数

31家最赚钱的AI小公司_图像/音视频工具篇

vol.21 AI小公司


一批新生代AI公司正在验证商业的另一种可能:以极小团队服务海量用户,在冷门场景赚取亿万收入,用细微创新引爆行业变革。

文 | 指数资本数据中心


2025年5月,美国著名投资人Henry Shi在Linkedin发布了《顶尖精益AI Native公司排行榜》,其中列举了31家平均成立时间不足3年的AI创业公司,它们都展现出了极强的盈利能力。指数资本从数据角度出发,详尽研究了这些新锐公司,试图找出“AI小公司赚钱公式”。

31家最赚钱的AI小公司_图像/音视频工具篇


这个系列研究分为上、中、下三篇,上篇已经分享过10个针对个人用户的实用工具;本篇,我们将继续讨论12家音视频、图像领域的公司。


中篇12个案例:

1)   AI图像-Midjourney

2)   AI语音-Eleven Labs

3)   AI图像-Photoroom

4)   AI视频-AKOOL

5)   AI 图像、音视频托管-FaLai

6)   AI图像-OpenArt

7)   AI图像-AragonAI

8)   AI语音-RetellAI

9)   AI语音-Vapi

10)  AI视频-SubMagic

11)  AI视频-Arcads

12)  AI视频-Icon



Midjourney – 更具艺术想象力的文生图工具


2021年  美国旧金山  40名员工

ARR:$5亿(2025年3月)


核心产品  基于Stable Diffusion技术的图像生成平台。其中「AI图像编辑器」支持对生成或外部导入的图像进行局部编辑,例如调整构图、扩展画面边界等;「3D生成系统」结合NeRF技术,允许用户通过文本生成三维场景,适用于游戏、影视等领域的沉浸式内容创作。


主要用户  专业创意设计人群(占比约40%)、艺术从业者(占比约20%)、自媒体从业者(占比约15%)及其他非专业个人用户(占比约25%)。


产品亮点  对比市场上通用的文生图工具,Midjourney对于一些虚拟的、超现实的场景描述,在艺术性和想象力方面表现更优。


31家最赚钱的AI小公司_图像/音视频工具篇

▲     三个不同文生图工具的视觉效果对比

提示词:艺术画,梦幻般的风景,云朵由棉花糖组成,河流流淌着液体黄金



数 读 Midjourney


增长迅速且盈利能力强


31家最赚钱的AI小公司_图像/音视频工具篇




Midjourney 做对了哪些事



驱动Midjourney盈利能力的关键因素主要源于其易用性、多样的艺术风格选择、显著的时间和成本效率、高度的定制化能力、高质量的输出以及对商业用途的支持。


01

获客成本低

依托Discord社区迅速积累种子用户,并基于图像生成风格鲜明、质量高,实现口碑发酵,付费用户迅速提升。

02

前期投入低

得益于创始人在前一段成功创业经历中的人脉积累,公司在成立之初获得了1万张高性能GPU算力赞助,大幅压缩了创业初期的成本投入。

03

强需求替代

Midjourney的产品具有鲜明的艺术风格和想象力,精准切中创意设计者、艺术创作者、自媒体从业者的需求;30秒至5分钟快速生成,1小时内完成微调的时间效率精准切中用户时间成本痛点;高频技术迭代使Midjourney在文本理解能力、生成一致性、生成质量等维度不断提升,目前版本已在探索3D内容生成和视频生成。

04

终端购买力强

海外版税和购买图片的授权费用较高,且市场已完成版权付费教育,用户对于购买Midjourney作为生产力工具没有障碍。Midjourney目标客群为终端艺术创作需求者,这类人群的营销预算相对充裕,用Midjourney根据需求进行创作,降本增效更加明显。




Eleven Labs – 用AI消除语言障碍


2022年  英国伦敦  50名员工

ARR:$1亿+(2025年6月)


核心产品  为播客、视频、电子学习课程、有声读物等音频内容创作配音,极大提升内容的吸引力和感染力 。辅助语言学习者练习口语,提供标准的发音和语调示范。为残障人士提供语音辅助工具。


技术壁垒  ①情感语音合成专利(行业唯一实现“恐慌”语调的AI);②低数据依赖:1分钟克隆vs竞品需数小时音频。


主要用户  B端客户收入占比70%,包括媒体巨头、大型企业;C端内容创作者。


团队背景  CEO Mati Staniszewski 为前Palantir部署策略师,精通产品战略与市场拓展;CTO Piotr Dabkowski 为前谷歌机器学习工程师,牛津/剑桥计算机背景。两人为高中挚友,出生和成长于波兰,在英国完成了大学学业。他们在各自的工作经历中积累了深厚的技术与行业经验,技术与商业能力互补,被投资人称为“小熊软糖组合”,即「技术硬核+用户体验」相结合。



数 读 Eleven Labs


增长迅速,造血能力强

31家最赚钱的AI小公司_图像/音视频工具篇


已完成4轮融资,累计2.81亿美元

31家最赚钱的AI小公司_图像/音视频工具篇




Eleven Labs 做对了哪些事



基于对儿时外国电影配音低劣质量的“痛苦回忆”,Eleven Labs的创始人决定搭建一个由人工智能驱动的高质量音频平台。从波兰“单声道”配音的个人经历,到构建全球领先的语音模型,Eleven Lab以其技术稀缺性、高需求场景、灵活的商业模式、全球化布局与生态壁垒在AI语音赛道占据高附加值环节,在短短几年内实现了从demo到亿级收入的跨越式成长。


01

场景聚焦

Eleven Lab瞄准内容创作、游戏、影视配音、广告等需求旺盛的行业,提供高效配音解决方案,切中60亿美元配音市场痛点,使好莱坞级质量成本降幅达90%。对于身处AI赛道的中国创业企业来说,Eleven Lab避免泛通用模型,聚焦高价值场景的思路,具备参考价值。

02

增长黑客策略

Eleven Lab利用病毒营销获得大量曝光,使得C端用户数迅速扩大,免费工具则同步吸引B端转化;设计「免费用户→创作者→企业」的分层定价策略,漏斗转化率达25%。

03

生态护城河

早期开放免费试用,用户可克隆自己或名人的声音生成创意内容,UGC内容引发大量自发传播,迅速建立“AI语音克隆=Eleven Labs”的品牌认知。垂直社区渗透带来高粘性用户,间接推动API调用量增长。




Photoroom – 一键抠图

换背景


2019年  法国巴黎  50名员工

ARR:$7000万(2025年4月)


核心产品  AI照片编辑工具,可实现高精度背景及瑕疵移除,生成高质量工作室级别图片背景。


主要用户  主要针对小B用户,包括电商卖家和摄影工作室,占比约70%;另有30%为内容创作者和个人用户。


团队背景  创始人Matthieu Rouif拥有斯坦福大学材料科学硕士学位,曾任视频编辑应用Stupeflix产品负责人,2016年Stupeflix被GoPro收购,Matthieu Rouif成为GoPro的产品经理,利用人工智能自动化复杂的照片编辑任务,如背景移除、润饰和图像生成。另一名联合创始人Eliot Andres是计算机视觉专家,精通TensorFlow,出版过计算机视觉专著。



数 读 Photoroom


不足20人的小团队,ARR超6500万美元

31家最赚钱的AI小公司_图像/音视频工具篇


用户续约和超高月活

月活超700万

用户续约率50%~60%

已完成5轮融资,累计6400万美元

31家最赚钱的AI小公司_图像/音视频工具篇




Photoroom 做对了哪些事



01

精准拿捏电商卖家的痛点,

依托电商卖家迅速起量

电商卖家SKU量大,需要不断维护、推陈出新,营销图片的生成需求巨大。


普通电商运营人员3000-5000月薪,仅能做比较基础的处理,复杂的PS技能则需要招聘更专业的修图师、设计师,月薪通常需要5000-10000元。如果设计外包,每张图片100-300元,成本开支巨,且人工处理图片效率低,一张图片要5分钟到30分钟,而AI工具则几秒钟就能够处理一张,AI工具无论在成本还是效率方面,都带来巨大的变革。

02

自研模型,针对电商图片处理做定向优化

Photoroom基于扩散模型(Diffusion Model)架构自研的 “Photoroom Instant Diffusion”,专门针对电商图像优化,尤其擅长高精度主体识别与背景生成。


对比其他图片生成工具有显著优势:(1)相比通用模型,处理速度快 40%;(2)通过并行计算优化 GPU 资源分配,支持单次批量处理上千张图片;(3)针对电商图片做了定向优化,训练数据来自专业图库(如 Shutterstock)和电商平台产品图,强化了对商品边缘(如透明玻璃、毛发)的识别能力;(4)自研的边缘检测算法、光影匹配算法,抠图、光影优化效果优于其他同类产品。




AKOOL – 让企业以极低成本获得好莱坞级视频内容


2022年  美国圣克拉拉  50名员工

ARR:$4500万


核心产品  全栈式工具链,唯一覆盖“生成+编辑+直播+分析”全流程,企业无需切换多平台即可完成生成式AI视频广告、虚拟数字人、人脸/语音替换、AI视频增强等功能。


技术壁垒  先进的人脸AIGC编辑和生成技术是核心优势。具体来看,拥有下述两方面的高壁垒。1. 自主研发,从算法的设计开发、数据的采集整理到技术的部署应用,都实现了全流程的自主掌控;2. 快速迭代,算法核心迭代周期约2~6周。


主要用户  面向B端,聚焦高定制化数字人内容,服务于奢侈品、医疗等对视觉质量要求严苛的行业,服务付费意愿更高的企业客户。


团队背景  AKOOL 的创始团队由 AI 研究专家、计算机视觉工程师和连续创业者组成,核心成员均来自 Meta、Google DeepMind、MIT 和 Stanford 等顶尖科技公司与高校,在生成式 AI、计算机视觉和商业化落地方面拥有丰富经验。中国籍创始人兼CEO吕家俊博士是人工智能领域资深专家,曾于任职苹果期间参与Face ID戴口罩识别技术开发。



数 读 AKOOL


人效达到90万美元

31家最赚钱的AI小公司_图像/音视频工具篇



AKOOL 做对了哪些事



AKOOL以其革命性的AI技术和企业级市场深度服务,为广告营销领域带来前所未有的变革。从面部增强到实时数字人,再到未来新一代的视频编辑器,不仅提升了广告的互动性和个性化,还为品牌提供了全新的传播渠道,在竞争激烈的AI营销赛道中脱颖而出。


01

差异化定位,精准匹配真实的市场需求

在应对AIGC市场的同质化挑战中,AKOOL认为更专注细分市场,趋动产品更受目标用户喜爱是更有效的策略。因此,与市面上多数针对C端用户、提供免费服务的AIGC工具不同,AKOOL专注于商业应用领域,并提供超越现有竞争者的独特服务和高附加值的解决方案,以实现更大的商业回报,在竞争激烈的市场中找到差异化定位。

02

积累标杆客户,提升客户粘性

AKOOL通过服务大客户,利用标杆资源和案例,吸引到更多新客户。例如,可口可乐在营销APP中集成AKOOL的API,用户可基于品牌元素生成个性化广告物料,提升用户参与度;与可口可乐联合推出换脸互动广告,用户上传自拍后替换游戏角色形象,增强品牌沉浸感。

31家最赚钱的AI小公司_图像/音视频工具篇

与此同时,AKOOL规避了一开始就投入大量资源进行客户教育的路线,而是选择从简单易用的界面和功能入手,让用户能够快速上手,从而降低学习曲线,培养了极高的客户忠诚度。

03

全球化布局

AKOOL的全球化并非简单的“复制粘贴”,而是通过“支持140+种语言翻译”的技术适配和本土化运营的组合拳,在降低跨国摩擦的同时,抓住各地市场的独特机会。




Fal AI – 图片/视频生成平台


2021年  美国旧金山  17名员工(截至2024年9月)

ARR:$1000万(2024年9月)


核心产品  图片及视频生成平台,主要有两种产品模式:

1. 私有管理计算工作流:使用公司部署好的GPU更好的训练或使用用户自己的模型;2. 开源模型API:使用公司部署好的模型更快的生成图片和视频。


主要用户  主要针对小B用户,包括电商卖家和摄影工作室,占比约70%;另有30%为内容创作者和个人用户。


团队背景  由前Coinbase机器学习负责人Burkay Gur和前亚马逊软件工程师Gorkem Yurtseven创立。Burkay Gur在MIT获得本科和硕士学位,在甲骨文和Coinbase都分别有过4年以上工作经验,在机器学习方面有深厚积累,Gorkem Yurtseven则在Amazon有过7年以上工作经验,工程经验丰富。核心成员由AI领域资深专家、开源社区贡献者和云计算工程师组成,在机器学习、分布式系统等领域有深厚积累。



数 读 Fal AI


ARR同比10倍增长

31家最赚钱的AI小公司_图像/音视频工具篇


已完成2轮融资,累计2300万美元

31家最赚钱的AI小公司_图像/音视频工具篇




 Fal AI 做对了哪些事



01

超高性能的推理引擎,推理速度行业领先

Fal AI 自研的推理引擎可将 Diffusion 模型(如 Stable Diffusion、视频生成模型)的延迟降低 4 倍,显著优于传统云平台。例如,其 SDXL Lightning 模型单次推理仅需 0.38 秒,成本低至 $0.00042/次,满足实时生成需求(如广告个性化、实时视频处理)。

02

全球分布式 GPU 网络

通过边缘计算优化,将推理节点部署靠近用户区域,进一步提升响应速度与稳定性,支持高并发请求,日均生成超5000万媒体资产。

03

差异化的赛道选择,

专注多媒体生成模型的基础设施

避开主流大语言模型(LLM)云服务竞争,专注图像、视频等多媒体生成模型的推理优化,填补市场空白。




Open Art – 不用画笔

也能当毕加索


2022年  美国旧金山  10名员工(截至2025年6月)

ARR:$1600万(2025年6月)


31家最赚钱的AI小公司_图像/音视频工具篇


核心产品  AI生成图像/视频工具+创意社区。拥有全流程创作工具链,图像生成支持文生图(txt2img)、图生图(img2img)、自定义风格,如折纸风、3D微观世界、动漫壁纸等。视频生成集成Animated Diff V2等模型,可生成高质量短视频。专业编辑工具包括背景移除、人脸替换、局部编辑、图像混合器等功能。


产品亮点  除常规的生成式图文工具外,用户可上传4张以上图片微调专属模型,且支持LoRA训练。


技术亮点  ①敏捷集成前沿技术。快速跟进Stable Diffusion升级、ControlNet控制技术、Flux视频模型等,新技术上线周期仅1-2周。②云端ComfyUI工作流。支持云端运行复杂工作流,实现跨设备协作与高效资源管理,无需本地高性能硬件。③低门槛交互设计。简化提示词输入,提供1000万+提示词库;支持无提示交互(如拖拽编辑)。④增强技术。2倍/4倍面部与动漫图像超分辨率优化,提升细节逼真度。

31家最赚钱的AI小公司_图像/音视频工具篇

▲     OpenArt核心产品技术矩阵


团队背景  由前谷歌员工 Coco Mao 和 John Qiao 联合创立。CEO Coco Mao主导商业化与社区运营,CTO John Qiao主导技术架构,强调“易用性+前沿技术快速集成”的产品哲学。团队小而美,是连续创业者+谷歌技术背景的敏捷组合,技术响应周期以周为单位快速迭代。


用户画像   艺术家、设计师、游戏开发者为主。



数 读 Open Art


双轨制转化,快速增长

31家最赚钱的AI小公司_图像/音视频工具篇


用户黏性高

7个月内ARR突破500万美元

月活用户500万

用户续约率50%~60%



Open Art 做对了哪些事



总体上,Open Art与Midjourney的产品相似性较高,可以让用户免费使用部分基础功能,付费套餐价格也比Midjourney更低。在产品相似的基础上,依然能快速增长的主要原因在于产品功能层面的创新,而非底层技术层面的创新。


01

易用性

可视化的交互窗口,比MJ在discord网页上的交互更加便捷,也支持云端多用户协同编辑,适合团队合作使用。

02

快速迭代

团队小而敏捷,新技术出现后往往在一两周内就集成到产品中。例如 Stable Diffusion 的模型升级、ControlNet 控制技术、新的开源模型(如 Flux)等。

03

艺术性、想象力虽不如MJ,

但一致性、可控性强





Aragon AI – AI重构

专业摄影


2022年  美国旧金山  10名员工

ARR:$1000万(2024年底)


核心产品  AI肖像生成平台。包括两个细分产品,①AI Headshots:个人用户上传12-20张自拍照,AI在30-90分钟内生成40-100张专业证件照,支持一键更换服装、背景(如商务正装、休闲装等),适用于LinkedIn、简历等场景。B端客户提供批量生成员工肖像的解决方案,支持统一企业VI(如领口角度、背景灰度),成本仅为传统拍摄的1/10。②AI Avatars:生成150+种风格的个性化头像(如动漫、卡通、写实),用于社交媒体(TikTok、Tinder等)。


31家最赚钱的AI小公司_图像/音视频工具篇


技术亮点  ①生成对抗网络(GAN),结合深度学习模型,确保生成图像的逼真度和多样性。②专业场景优化,训练模型识别200种商务场景的光影逻辑,自动矫正领带角度、眼镜反光等细节。③通过合规性认证(如FDA认证),允许AI生成的医师肖像用于医疗文件申报。④隐私保护,采用AES-256加密技术,承诺用户数据不用于模型训练或出售。

31家最赚钱的AI小公司_图像/音视频工具篇


团队背景  由华人创始人 Wesley Tian 与其联合创始人共同创立。Wesley Tian拥有北京大学计算机本科、斯坦福硕士学位,前Meta算法工程师。团队包含算法工程师和光影专家,取代传统摄影师角色。



数 读 Aragon AI


市场聚焦 分层定价

31家最赚钱的AI小公司_图像/音视频工具篇


用户与收入均快速增长

2年内ARR突破 1000万美元

月收入90万美元

服务超120万用户

生成2500万张肖像



Aragon AI 做对了哪些事



01

定位准确,市场聚焦

只做人物半身肖像,准确切中商务形象照刚需。

02

生成效果逼真

由于市场足够细分,需求明确,所以可以通过特定数据库进行定向优化,训练成本较低。

03

对比传统照相馆,降本增效成果显著

31家最赚钱的AI小公司_图像/音视频工具篇





Retell AI – 更接近真人的

AI客服


2023年  美国  7名员工(截至2025年5月)

ARR:$720万(2025年5月)


核心产品  为中型企业(100-500座席规模)提供端到端AI呼叫中心解决方案,替代或辅助人工座席。产品架构围绕“自然对话引擎”展开,深度融合语音识别(ASR)、大型语言模型(LLM)和语音合成(TTS)技术,并通过企业级工具链实现灵活部署。


技术亮点  ①低延迟响应,平均响应时间800毫秒,接近人类对话节奏,解决传统语音AI的卡顿问题。②专有话轮转换模型,结合语义与音频信号,在100-200毫秒内预测用户话语结束点,避免打断或反应迟钝。支持自然中断处理,提升对话流畅度。③全栈集成能力,支持主流LLM(如GPT-4、Llama 3)和CRM(如Salesforce)无缝集成。提供SIP中继兼容传统VoIP系统,实现AI与人工座席协作。④增强功能,语音克隆、环境噪音模拟、实时字幕显示。


团队背景  创始团队成员包括 Michael Giardino(CEO)、Sidhant Bendre(CTO)和Achraf Golli(CPO)等。他们在自身学习过程中,感到现有教育体系无法满足每个学生的独特学习需求,希望利用AI技术,为学生提供定制化学习路径和即时帮助。



数 读 Retell AI


按使用量付费

依据不同模型、不同形式、不同附加服务有不同的定价

已完成 1 轮融资

31家最赚钱的AI小公司_图像/音视频工具篇


实现盈利

ARR 720万美元(截至2025年5月)

用户数100+



Retell AI 做对了哪些事



01

产品优势,理解人类对话的语义和语气,

超低延迟语音响应

Retell AI可实现 ≤800毫秒 的平均响应速度(行业平均>2秒),通过自研动态话轮转换模型,精准预测用户话语结束点,避免AI打断或反应迟钝。独创 语义+音频双信号分析,在100-200毫秒内完成话轮切换,逼近人类对话流畅度。

02

切中市场需求,

从开发者工具转型企业呼叫中心解决方案

公司创立之初 API 主要面向构建语音 AI 产品的开发者,客户用它来开发 AI 治疗师、语言学习教练等。发展过程中,公司认识到语音模型的巨大潜力,于是快速转向,为中端市场企业构建 AI 电话呼叫中心平台。

31家最赚钱的AI小公司_图像/音视频工具篇




Vapi – 几分钟内部署

语音代理


2023年  美国旧金山 

ARR:$1000万(2025年4月)


核心产品  提供API和低代码工具,支持企业快速创建、测试和部署语音代理,应用于客服支持、外呼销售、远程医疗、订餐服务等场景。


特色功能  ①低延迟优化,利用优化的 GPU 推理、智能缓存和低延迟音频流,确保响应迅速的语音交互。②中断处理,实施复杂的中断检测,使对话感觉更自然和人性化。③可扩展性,通过精心设计的 Kubernetes 集群,可处理多达 100 万以上的并发呼叫。④函数调用,允许集成外部动作,如预约预订、数据查找和表单填写,以增强语音代理能力。⑤多平台支持,提供适用于 Web、iOS、Flutter、React Native 和 Python 的客户端 SDK,实现跨多个平台的部署。



数 读 Vapi


模仿典型运营商的商业模式

以成本加成法定价,把模型、语音和电话服务等方面的开支,按实际使用量转嫁给用户,具体收费类似电信运营商,收取“号码费用+通话时长费”

已完成 1 轮融资


31家最赚钱的AI小公司_图像/音视频工具篇


数十万月活用户

ARR 1000万美元

月活用户数十万



Vapi 做对了哪些事



01

敏捷部署、价格低,性价比突出

Vapi将语音代理的部署时间缩短到分钟级别,比较适合中小型客户;推理成本显著低于传统方案,通过量化压缩技术降低算力消耗。弹性资源分配避免闲置算力浪费,例如,其通话成本仅为同类云服务的60%–70%,对价格敏感的中小企业吸引力显著。

02

部分技术性能远超同类产品

vapi.ai 的超低延迟与高并发能力直接解决企业级语音落地的核心痛点。例如,其采用与Google Meet相同的WebRTC协议保障音视频流稳定性,而竞品多依赖第三方传输服务。

03

企业级产品闭环能力,

可调用其他常用软件系统(CRM等)

通过功能调用(Function Calling),语音代理可直接操作外部系统(如CRM、数据库查询、日历日程安排),实现“语音-业务”闭环。竞品如ElevenLabs仅聚焦语音生成,需额外集成自动化工具。

04

数据飞轮效应

客户包括Deepgram(语音技术商)、Speaksage(客服自动化)等垂直领域领导者,其使用数据反哺模型优化,形成场景理解壁垒。相比之下,开源语音模型(如Meta的Voicebox)缺乏真实商业场景训练数据。




SubMagic – 高效生成动态

字幕与视频切片


2023年  法国巴黎  14名员工(截至2024年)

ARR:$800万(2024年底)


31家最赚钱的AI小公司_图像/音视频工具篇


核心产品  专注于短视频AI编辑工具,提供动态字幕生成、长视频切片等核心功能,旨在帮助内容创作者快速生成高质量的短视频。


特色功能   ①动态字幕生成。SubMagic对加字幕这件事做了足够细节的设计,在细分需求上深度打磨。支持48种语言,自动识别语音生成字幕,并可添加动态效果如关键词高亮、emoji插入;生成字幕时提示语法错误,支持自定义词库,如创作者专属术语等;拥有28种模板,用户可调整颜色、大小、位置,部分模板支持内容关联emoji,而非模板化统一样式。实时编辑与低延迟处理,2分钟内生成字幕,高清视频处理仅需数分钟。②长视频切片。一键将横屏长视频剪成15-30秒竖屏短视频,自动添加字幕、镜头特效(如推拉变焦);AI分析视频亮点,生成10+高质量片段,适配TikTok/Reels/Shorts等平台。③B-Roll第二画面和转场动效素材库。针对很多创作者口播视频画面单一的痛点,集成Storyblocks专业素材库,内置450万免费视频素材,支持自动添加B-roll,智能匹配第二画面与转场特效,增强视频叙事。④AI辅助工具。包括自动生成吸睛标题和话题标签,提升视频曝光;支持降噪与自动缩放,优化音画质量,突出关键内容。


用户画像  短视频创作者、社交媒体经理、营销团队、教育机构及企业用户。


数 读 SubMagic


相较竞品,优势显著

31家最赚钱的AI小公司_图像/音视频工具篇




SubMagic 做对了哪些事



Submagic在视频编辑巨头垄断(如Capcut月活3亿)的赛道中,以“极致单品+用户共创”实现突围。


01

增长飞轮显著

盈利模式为功能阶梯设计,能够将用户群体尽量推向Growth、Business版本,使得商业化进程能够健康、快速推进。订阅制贴合创作者需求,KOL分成模式撬动低成本增长飞轮。

02

规划了良好的获客模式,增长路径清晰

公司依靠内容本身实现冷启动,通过官方TikTok账号密集发布展示产品功能的短视频(如“特效字幕生成效果对比”),首月即获得上百万点击量,转化数百名付费用户,并带动Google搜索量飙升。增长期依靠精准的数据分析和投放策略,转向与YouTube、Instagram、TikTok和LinkedIn的创作者合作,激励KOL创作专属推广内容,通过KOL引流或口碑推荐实现用户增长。上线一年后进入爆发期,积累了一定的原始用户和口碑后,通过Google/Meta付费广告规模化引流。

03

机制聚焦,建立差异化优势

SubMagic深耕“字幕+切片”两大刚需,做到体验最优,以 “多语言+实时性”巩固基础功能优势,覆盖10亿级非英语创作者。

31家最赚钱的AI小公司_图像/音视频工具篇




Arcads – 一句文案生成

广告大片


2023年(据业务进展推算)  法国巴黎  5名员工

ARR:$500万


核心产品  全自动广告生成系统,用AI重新定义内容生产流程。支持端到端流程自动化,用户仅需输入一句核心文案,系统便可自动完成「场景构建→AI演员表演→口播录制→成片输出」的全过程,将传统2周的广告制作周期缩短至半天。支持35种语言,内置300+AI演员形象,可一键生成针对不同文化市场的定制广告。


团队背景  公司创始人Jeddi Mees是前欧洲风投机构Fabric Ventures项目经理,主导部署超400万欧元资金,活跃于多个线上业务和创业项目,接受过 TheFamily、Theschool.ai 等创业加速器训练,擅长系统化流程设计。公司内部部署了7个专用AI Agent,替代传统人力,以“AI 代理+小团队”的组合,让 Arcads 在保持精简结构的同时,实现了远超同规模公司的产出效率。


用户画像  适用于需要频繁测试不同创意的电商品牌、缺乏专业广告团队的中小企业,以及预算有限但需求迫切的初创公司。



数 读 Arcads


商业模式

  1. 针对电商和初创企业推出“按转化付费”模式,仅当广告产生实际销售时收取费用,降低客户试错成本;


  2. 按广告条数与复杂度计价,15秒广告70美元起,60秒广告130美元起;


  3. 企业定制服务,针对大客户提供批量生成与本地化套餐,单价可协商;


人效百万美元

ARR 500万美元

人效100万美元

仅有5名员工



Arcads 做对了哪些事



Arcads的成功书写了AI创业的新范本,代表了“向落后流程开战”的AI创业方向,也证明了在传统行业中找到“高摩擦、低数字化”环节,用AI系统重构流程,比单纯追求技术参数更具商业爆发力。


01

颠覆传统流程,用AI重构广告生产链,

解决“快、便宜、精准”的不可能三角

Arcads构建了一套完整的AI Agent系统,覆盖从市场分析到客户转化的全流程,将单条广告成本降至传统制作的1/10,并大幅提升广告制作效率,日均生成500+条广告,满足短视频平台高频内容更迭需求。

02

合作模式创新,与真人创作者分成合作,

平衡AI效率与内容真实性

AI演员均基于真人创作者训练(如网红Ariel Marie),通过Fiverr平台签约创作者录制动作/语音素材,生成可控的“数字分身”。创作者从每次AI生成内容中获得收益,这种独创的版权分成机制也解决了法律风险并拓展了创作者收入渠道。

31家最赚钱的AI小公司_图像/音视频工具篇




Icon –1美元造爆款,AI把广告变科学实验


2024年  美国纽约  16名员工(截至2025年5月)

ARR:$500万(截至2025年4月)


31家最赚钱的AI小公司_图像/音视频工具篇


核心产品  全栈AI广告平台,替代传统“ChatGPT+CapCut+Canva”工具链,提供AI驱动的广告创作服务,核心产品被称为“AI CMO”(AI首席营销官),能够自动完成广告策划、创意生成、视频剪辑、用户生成内容(UGC)制作等任务,效率碾压传统团队10倍。支持竞品广告克隆,能够智能分析爆款广告,提取排版、色彩、文案结构等设计元素,生成高度还原的复刻广告,成本颠覆性降至1美元/条。


技术优势  ①AdGPT推理引擎,基于GPT-4o开发,增加专属推理层,深度分析网站数据、客户评价,避免ChatGPT常见的虚假场景编造问题;②动态素材库,将视频素材智能标记为“广告积木”(如特写、开箱镜头),支持重复调用与组合;③多模态生成能力,生成逼真AI演员配音、音乐及动态字幕,替代真人拍摄与录音。


团队背景  公司创始人Kennan Davison 19岁从哥大辍学,曾任职Pinterest,创办过一家名为Skio的电商SaaS公司,三年内实现了年收入突破1000万美元。团队成员来自Meta、谷歌、英伟达等大厂,团队文化追求极致效率。


用户画像  预算有限、缺乏专业团队的初创企业与中小电商,以及专注于高频广告测试需求头部DTC品牌。



数 读 Icon


订阅制+按量付费+企业级定制

对标企业过去2,000 ~ 30,000/月的多工具组合成本,月费不足百元;

每条生成广告收取$0.99,与GPU成本耦合,实现边际收益最大化;

为年营收1亿+的DTC品牌提供私有化部署方案,客单价5万+/年,占收入40%+。


已完成2轮融资

31家最赚钱的AI小公司_图像/音视频工具篇


高效迭代,快速增长

30天内ARR飙升至 500万美元

公司人效30万美元

日均分析200万+竞品素材,提取高转化模板

每6小时迭代广告创意

广告生成成本最低仅需0.99美元/条



Icon 做对了哪些事



01

高效的获客模式

Icon构建了一整套针对不同用户圈层的获客策略,精准狙击用户痛点,实现精准获客。以“1美元成本+千条级测试量”直击DTC品牌增长焦虑;以免费试用钩子、低价锚定策略、100%退款保证,降低用户付费心理门槛;在Reddit r/PPC、电商Slack群组投放“1美元广告挑战”案例,吸引精准流量;创始人通过Twitter宣布“30天达成500万ARR”,并开出$6万工程师推荐奖金,制造技术精英人设与话题性,实现IP化运营,快速提升品牌知名度。

02

短期目标和长期目标清晰

Icon在创立初期聚焦解决存量市场的“效率断层”问题,通过成本成本1美元/条的全栈自动化和分层定价模式,迅速抢占中小品牌增量市场,短期内为公司构建了比追逐技术前沿更强调可持续增长动能;通过企业级定制服务绑定大客户,积累私有行业知识图谱,向“广告操作系统”演进,为公司构建良好的长期生态打下基础。





1

END

1




Copyright © 指数资本 京ICP备11046062号 京公网安备110108008324号