从被100家VC拒绝到英伟达、字节抢着投，AI视频独角兽CEO揭秘“奇葩”用人哲学：不招精英

文章来源：万象ai发布时间：2025-07-29 10:31:31

AI视频平台的发展史，几乎就是一部特效升级的编年史：从基础的文本转视频，到动态捕捉、场景生成，技术复杂度呈指数级攀升。这些复杂的技术背后，一个根本性问题却被多数人忽视：当企业HR需要制作员工培训视频时，当电商卖家想要快速生成产品介绍时，这些炫酷的技术究竟能带来多少实际价值？

当Runway、MagicLight等AI视频平台争相推出炫酷特效和复杂功能时，Synthesia却选择了一条与众不同的道路。这家英国初创公司没有盲目追逐技术炫技，而是敏锐地捕捉到了一个最朴实的用户痛点：让视频制作变得像做PPT一样简单。

近日，Synthesia的联合创始人兼CEOVictorRiparbelli在YouTube平台分享了一段视频，讲述了他从怀揣一个疯狂的AI视频想法，到历经艰难创立Synthesia并将其发展壮大的创业历程。

历时7年，靠着两代产品ARR冲到7亿多

Synthesia由来自伦敦大学学院(UCL)、斯坦福大学(Stanford)、慕尼黑工业大学(TUM)和剑桥大学的AI研究人员和创业者团队于2017年创立。几位主要创始人为：VictorRiparbelli、SteffenTjerrild、LourdesAgapito以及MatthiasNiessner。

值得一提的是，MatthiasNiessner和LourdesAgapito是计算机视觉领域的全球顶尖教授。

作为专注于企业级AI视频解决方案的平台，Synthesia的核心使命是帮助客户以最具参与度和有效性的方式，向客户、员工及合作伙伴传递信息。当时，Synthesia平台的愿景是让任何会使用PowerPoint的人都能轻松制作视频，重新定义了“通过视频交流”这一信息传递的高效方式。而这一切的起点，源于对一个核心问题的洞察：人们并非想“玩技术”，而是想解决实际问题——在Synthesia的场景中，这个问题就是“轻松制作视频”。

于是Victor和联合创始人们决心围绕AI视频技术创办一家商业化公司。

但创业初期的挑战远超想象。

2017年公司成立时，正值人工智能寒冬，技术不成熟导致大量AI公司折戟，Synthesia的愿景被普遍视为“疯狂”。团队曾被100位投资者拒绝，直到向亿万富翁投资者MarkCuban发送了一封冷邮件——他成为唯一认同其未来愿景的人，不纠结于短期评估，而是相信团队有能力打造真正有价值的东西。“你只需要一个人说‘是’，这就够了。”Roelli坦言，早期的关键是找到与自己对未来有相似认知的人，而非试图说服怀疑者。

就这样，有了MarkCuban的支持后，Synthesia才算真正开始走上正轨。

2020年夏天，Synthesia发布了首款商业化产品STUDIO，目前，该产品已被60多万家公司使用，其中财富500强企业占比超60%。

据Victor介绍，Synthesia的软件采用了由LourdesAgapito和MatthiasNiessner开发的深度学习架构，整个平台都建立在深度学习的基础上——借鉴好莱坞视觉特效中的许多已知流程，并训练深度学习网络进行大规模复制。Synthesia的系统能够在几分钟内合成逼真的人物头像风格视频，使其能够轻松、快速且可扩展地制作用于商业用途的视频。

从技术上讲，Synthesia的系统使用各种深度学习和计算机视觉技术，包括GAN（生成对抗网络）。

Synthesia有何不同？

借助技术平台，Synthesia将整个视频制作流程简化为一次API调用——平均只需3分钟即可制作一个视频，而传统制作方式则需要数周时间。企业客户和个人创作者可以无限扩展其制作规模（一个视频大约需要1美元），并根据个人用户、公司或员工的需求定制视频内容。

例如在一个例子中Synthesia为梅西为百事可乐的乐事系列广告，共制作了6.5亿个不同的视频版本。仅在这个项目中，粉丝们就制作了数十万个视频。

Synthesia平台还提供一系列内置演员，所有客户均可使用，包括每月30美元的套餐。这些演员均为真实演员，每次有人与他们合作拍摄视频，他们都会获得报酬。

Synthesia平台支持40种语言。

到了2024年6月，Synthesia2.0正式推出。

Synthesia2.0的核心是推出个人AI头像。Synthesia推出了全球首款ExpressiveAI虚拟形象，它由EXPRESS-1模型驱动。这些虚拟形象能够理解自己在说什么以及应该如何表达，并根据脚本的上下文调整语调、面部表情和肢体语言。

许多客户都希望拥有自己的虚拟形象，使用Synthesia2.0，客户有两种方式创建个人头像：

在工作室使用高清摄像机拍摄的富有表现力的头像，给人一种专业的感觉；

无论家中还是外出，都能在自然背景下使用您的网络摄像头或手机，打造自定义虚拟形象。这些全新虚拟形象在原来已有的网络摄像头服务基础上进行了改进，提供更佳的唇音同步和更自然的声音，并能够以30多种语言复制客户的声音；

据Victor透露，用户增长的核心在于区分“真实用户”与“尝鲜者”。平台推出首个头像MVP（最小可行产品）时曾病毒式传播，大量用户因觉得“有趣酷炫”而来制作免费演示视频，但留存率极低。

Victor指出，关键是识别那些因“反复出现的实际用例”而来的用户——他们不将平台视频与专业相机视频比较，而是与文本文档对比，对质量和功能的需求更贴合实际场景。正是这群用户，支撑起了平台可持续的增长，推动收入从100万ARR到300万ARR，再不断翻倍、三倍增长。如今，SynthesiaARR已经突破1亿美元（约合人民币7亿元）。

在产品与增长策略上，Synthesia走出了一条“自下而上+自上而下”的融合之路。尽管企业客户是核心价值来源，但团队意识到，让更多人通过免费试用发现自身用例，再由销售团队跟进转化，比单纯依赖企业销售更有效。这种“产品主导型增长（PLG）”的模式，需要平衡小公司与大企业的需求，更需要融合“自助型”与“企业销售型”两种文化——这对资源有限的初创公司而言，是不小的挑战，但Synthesia最终找到了平衡之道。

英伟达、字节跳动入股，估值破百亿

今年1月份，Synthesia获得了由NEA领投的1.8亿英镑（2.26亿美元）D轮融资，使得其估值达21亿英镑（25.8亿美元）。Uber以及TikTok母公司字节跳动等公司均是其投资组合公司。Synthesia还得到了芯片巨头英伟达的支持。

据技术市场情报公司Dealroom称，这项投资使Synthesia成为英国估值最高的GenAI媒体公司。

值得一提的是，Synthesia目前没有积极布局并购领域。迄今为止，Synthesia尚未进行任何收购。

Victor表示，其更倾向于自主开发技术，同时使用API来处理自身未开发的技术。例如，Synthesia与ElevenLabs合作开发语音技术，并利用和微调各种第三方大型语言模型，而不是自行构建。

Victor认为，该公司通过专注于商业用户而具有优势，其投资者表示，这正是这家初创公司具有吸引力的原因。

“Synthesia是少数几家能够将真正尖端的人工智能技术转化为实际应用的公司之一，”谷歌风投驻伦敦合伙人ViduShanmugarajah在接受采访时表示。“它极其注重客户体验，致力于在实际场景中创造价值。将所有这些整合到一个安全合规的平台上，难度极大。”

Atlassian参与此轮融资也颇具看点。该公司一直在为其各种应用注入AI功能，而像Jira这样的平台或许会开始在其应用中添加更多视频工具，这似乎只是时间问题，这将为其与投资组合公司的合作打开大门。

“找到不那么起眼的人一起工作”

随着产品被更多人使用，Synthesia内部团队也在不断扩大。

目前，Synthesia的年收入有一半以上来自美国客户，而欧洲则占了近一半。

Synthesia也在加大招聘力度。该公司今年年初聘请了前亚马逊高管彼得·希尔(PeterHill)担任首席技术官。如今，该公司在全球拥有400多名员工。

Victor的团队建设理念同样独特。Victor认为，初创公司不应执着于从谷歌、Meta等大厂挖人，那些“不那么显眼”却充满“饥饿感”的人才往往更有潜力——他们可能没在顶级公司任职，却在管理优秀开源项目中展现出韧性，愿意为初创公司投入全部精力。

Victor在视频分享中表示：“我认为人们经常犯的一个错误，尤其是那些可能在大型科技公司或类似成功公司工作过的人，他们出去后，尝试从谷歌、Meta、OpenAI等当时的热门公司挖人，然后说，我有这个很酷的创业想法，你为什么不加入我，我不会付给你那么多，但我会尽量支付差不多的薪水等。当然这是可行的，有很多非常聪明的人也想创业。但很多时候你就是无法直接得到他们，或者如果你得到了他们，他们习惯了非常高的薪水以及在大型科技公司工作的截然不同的生活方式，最终也可能也不会留下来。所以这实际上通常不是最好的路径。”

所以他才去的方式是去招聘一些不那么“起眼”的人。真正要考虑的是一个人的行动力和建设性思维。

“没有什么能让你为真正创业做好准备。就像在麦肯锡工作四年并不会让你成为更好的企业家——它可能只会让你积累更多人脉，或者在融资时稍微轻松一些。但创业真正的内核在于行动力与建设性思维。这也解释了为什么我们在招聘时特别看重那些“不起眼的人才”——那些虽然没有光鲜履历，但持续在开源项目耕耘、始终保持更新迭代的人。如果你内心深处知道自己想建立一家公司，如果你本质上是一个“建筑者”，那么我认为你应该尽快开始，不要害怕行动得太早。厄运场景很少像人们想象的那样可怕。事实上，大多数大公司都会珍惜那些勇于尝试的人，即使他们最终失败了。”

这种敢于尝试的精神，正是推动技术变革的核心动力。就像我们现在正在见证的媒介形态转型——我确实认为世界上的文字会越来越少，但这不意味着文本信息会完全消失。就像我们现在仍然会去剧院，仍然会听黑胶唱片一样，文字肯定会继续存在它的位置。这种演进不是非此即彼的替代，而是使用场景的自然分化。在信息共享、知识培训等领域，我认为我们将进入一个几乎所有内容都以视频和音频形式被消费的世界。未来10～20年内，VR和AR技术可能会进一步改变这个局面。

参考链接：

https://www.youtube.com/watch?v=d9SKd-zqYAc

https://techcrunch.com/2025/01/14/synthesia-snaps-up-180m-on-a-2-1b-valuation-for-its-b2b-ai-video-platform/

本文来自微信公众号“AI前线”（ID：ai-front），作者：冬梅，经授权发布。