查看原文
其他

对话波形智能姜昱辰:用户一年写了200亿字,现在她要让这个AI自我进化了

Yoky 硅星人Pro
2024-09-06

作者Yoky
邮箱yokyliu@pingwest.com

在这个遍地都是“AI产品”时代,你每天使用它们的时长是多久?

对于「蛙蛙写作」的付费用户来说,这个答案是:6.53个小时,相较于两个月前,又增长了1.8小时。

上线一年,注册用户超过30万,生成将近 200 亿字数的文本,付费用户平均每天使用时长超过6小时,这款网文小说创作工具,用数据证明了它的生命力。

但在这份成绩单披露之前:网文写作工具有什么想象力?那么多做LLM产品的,接个大模型就可以了吧?98年的CEO?

这些争议一直围绕着「蛙蛙写作」的公司波形智能和创始人姜昱辰(Eleanor Jiang)。

2023年3月,在ChatGPT爆火之后,和大部分创业者一样,波形智能创始人& CEO姜昱辰(Eleanor Jiang)看到了项目落地的可能。她当即开始组建团队,于3月30日正式创立波形智能。在近一年半的时间里,波形智能基于自主研发的无限个性化内容生成大模型「Weaver」,并开发了由其驱动的网文写作产品「蛙蛙写作」。

7月28日,在波形智能Summer DevDay上,波形智能发布了全新的个性化大模型技术Life-long Personalized AI(以下简称LPA),并提出了对于“让每个人拥有专属AI”的未来构想。

我们发现,「蛙蛙写作」只是波形智能将技术连接市场的第一步,基于一个大众化的场景+一个80分的产品,得到的是用户的真实使用数据和反馈推动着技术和产品的不断进化,在这个过程中锻造的是波形的无限长文本输出能力、大模型记忆能力以及基于隐私保护的个性化大模型。

如同字节跳动的技术原点是个性化推荐能力,张一鸣在「今日头条」前,也尝试过地产推荐的产品一样,姜昱辰认为,大模型产品的核心是技术的自生长力,然后在适合的场景下,就能不断复用直到找到最佳PMF(Product-Market Fit)。

本期,我们将对话姜昱辰,聊聊她对AGI的理解和实现路径。

1

一、98年、NLP博士、LLM,buff叠满的创业者

1、昱辰是从什么时候开始想要创业的,为什么会选择在23年年初的时候创立波形智能?

Eleanor Jiang:创业的想法是一直存在的,但这波出来(创业)是因为有了时代的机遇,和以前做的事情不再是一个量级了。比如之前创业想做的AI留学文书写作,评估的时候发现太贵了,光数据标注就要花几百万欧元,但那时候资本根本不青睐NLP创业,像2021年的时候,我看到YC的项目里只有Jasper一个NLP项目。前期如果找不到资本的支持,其实能做的事情是很有限的,我们只能round一些相对在技术范围内,并且成本不是很高的事。

比如说,我做了一个侧重于数据分析的新闻聚合器,虽然一开始是想做个性化博客生成,后来找了以色列的团队认真评估后判断技术还在lab阶段、很难商业化,就又退而求其次做了数据分析。

但这波创业就不一样了,到了2022年底、2023年初,Gen AI已经到了一个完全可以落地的阶段。首先是大众心智已经有了,市场推广变得容易, 其次是我们不再需要做大规模的数据标注,启动成本低了很多倍,这是一个相当 “industry-ready”的时刻,我们觉得必须要抓住机遇做点什么。

2、我看到昱辰是98年的,又是为数不多的女性创业者,在创业过程里有哪些挑战?

Eleanor Jiang:会有被挑战的时候,比如在投融资的时候,有人民币背景的投资方会直接表示不投资“女CEO”。但也有好的一面,大家看到你展现出自己作为企业家的做事习惯和风格的时候,就不会再用这样的标签了,甚至可能会更加深刻的印象,给予更多的尊重吧。

3、选择LLM方向创业,是因为你PhD的专业是NLP(自然语言处理),还是你真的认为LLM是通往AI Native的一条可行性道路?

Eleanor Jiang:我觉得这是一个很好的问题,LLM其实是一个很新的词,以前我们讲language model,现在是large language model。大概在2017、2018年我开始做NLP科研的时候,大部分人其实是做CV(计算机视觉)的,那个时候CV的商业化更好,甚几次我有创业想法找co-founder都是CV背景的,他们劝我转CV方向。

但是我一直认为智能是建立在思维的交流上,而语言是人思维的载体。那时候Transformer还没有出现,我们依然在用RNN这样的结构推理,就觉得有点失望。现在通过大语言模型,机器可以更好地理解人类的意图、情感和思维。LLM的出现,让我们有机会创造出真正理解语言、生成自然文本的智能系统。

对于创业而言,我们一直讲PMF,从第一天就要思考这个产品是能够长大、能够迭代以及能够穿越经济周期的。就像字节一开始可能没有想要做抖音或者TikTok,但是它做一套基于算法的个性推荐系统,这套系统是可以不断发展的,我认为LLM时代LPA技术有这样的发展潜力。

4、在突如其来的创业热潮中这一年多的感受如何?从2023年3月到现在,你觉得最困难的时刻是什么?

Eleanor Jiang:最难的时刻往往是需要做出重大战略决策的时候。比如最早期我们其实做的是一个纯toC的互动小说的内容平台,现在的蛙蛙写作只是当时的一个创作者工具,但是后面我们发现纯AI生成的互动小说还无法达到TPF(Technology Product Fit),所以做了战略转向,现阶段更专注于创作者工具,砍掉了很多功能也放弃很多想法。

这无论是在感性或者理性层面都是很难的决定。情感上,因为技术和产品团队都投入了很多,内心肯定会有挣扎和不舍;理性上,你面对投资人,做一个更大的内容平台,当然听起来就很酷很有想象力,吸引到更多融资。但是我们作为创业公司早期资源和精力是有限的,竞争也非常激烈,现阶段我们必须集中弹药把一个地方打透,所以才有了现在的「蛙蛙写作」。

5、一开始为什么选了网文这个赛道?毕竟网文听起来本身就不那么“酷”,以及它的产业链在中国本身已经很成熟了,有没有被投资人挑战过?

Eleanor Jiang:首先,在技术上,我们团队在长文本生成方面有深厚的技术积累。我在微软期间参与了大规模长中英翻译数据集的建设,天然在长文本处理方面我们有明显优势,这是我们的技术底气。更重要的是我觉得这是一个选场景的问题,网文听起来可能没有那么fancy,但实际上它触及了非常广泛的用户群体和需求。

小说是一种高频且普遍的娱乐形式,无论用户的背景如何,青少年、中年、老年都有阅读小说的需求。我认为AI的本质是要发挥“效用”,我们思考的是AI能帮助多少人提高生产力以及服务多少人,从这个角度思考,产业链成熟、受众群体广泛反而是一个好场景,市场空间也很大。

1

二、从通用模型到个性化模型,用AI技术为人类创造价值

6、为什么要做个性化的模型?通用大模型在哪些场景里无法满足个体差异化所产生的需求?

Eleanor Jiang:我有一条一直坚信的原则,就是市场虹吸技术。从波形成立的第一天开始,我们就在思考,到底什么是“真正为人类创造价值的AI”?从用户真实的使用场景中,我们得到了答案,即个性化AI。我们发现在过去的一年中,有很多作者都表达了类似的需求,想要模型“越写越懂我”,变得更聪明更加个性化。

所以我们开始想,能不能去做一个让每个人都能够普惠化地拥有的,能够“越来越懂你”的这样的一个私人语言模型?LPA就是在这样的思考中虹吸出来的。

7、完成每个人都拥有一个“专属AI”的目标,需要经历几个阶段?

Eleanor Jiang:我们一开始的想法是,先做一款80分的产品,让用户用起来,把他们的需求和反馈收集回来,再迭代产品,给技术更明确的发展方向。AI就是如果没有用户的数据,那算法再牛也没用。很多大模型厂商的问题就是闭门造车训练模型,然后发现没有场景。互联网的公开数据都用完了,需要产品进入场景中,通过真实的数据来“卷”模型。

但想要做一个80分的产品,就要在一致性和可控性上下功夫。比如说小说的男女主性格、经历都要保证一致。慢慢就会发现模型开始懂套路了,而不是说我一开始就要做一个“懂套路的大模型”。在这个过程中我们也裂变出来了关于模型记忆的a系统(代号)、一致性和可控性的b系统,以及像我们刚刚发布的LPA技术等等。

同时要设计一个好的数据反馈闭环。等产品的用户量达到一定规模后(对我们来说用了半年),就可以上“个性化”了。现在归纳来看,想要实现这个目标所需要的其实就是三大技术点,长记忆、可控性和自进化,最后实现终身个性化。

8、据我所知,波形其实一直做在可控长文本方向上的工作。但大家在提“长文本”的时候,可能首先想到的是长文本输入的能力,而「蛙蛙写作」一直在强调无限长文本输出,输入和输出有什么差异?

Eleanor Jiang:这确实是两个完全不同的技术,长文本输入主要涉及理解和分析上下文的能力,不过准确的说现在模型只能分析上文,但是一个模型Transformer的固定长度就这么大,所以要增强输入的能力,本质上也是增大模型,也就是大模型公司思考的问题。而长文本输出则是指生成大量连贯、一致和有逻辑的文本内容。

这要求模型不仅要有良好的记忆能力,还要能够保持生成内容的一致性和连贯性。我们团队以及我本人都是在Decoding(解码)这一层做了比较多的研究。Decoding算法用于在语言模型提供的概率分布中选择最合适的输出。长文本的输出就是在通过不停的找到逻辑关联性的文本,在保证一轮又一轮生成的过程中,让模型把该记住的信息记住、该忘记的信息忘了,教会模型什么信息应该存在短期记忆内,什么信息是储存在长期记忆中。

9、波形通过什么样的方法让大模型拥有记忆?目前行业里比较普遍的一种方法是向量数据库+RAG(向量检索)的方式,但是这种方法可能无法做到“该忘记的信息忘记”这一步。

Eleanor Jiang:对,将信息存储在向量数据库中通过RAG检索的方式,本质上是在寻找向量的相似性,它的准确性取决于你中间embedding model(向量化模型)的能力。但是我们发现写小说的场景中有的技法叫作伏笔。它可能跟我今天写的任何一个语义和句子都不相关,这种技术方案就没有办法实现。

那我们怎么做的呢?

我们去做端到端的训练模型,我觉得大模型时代最糟糕的事就是给模型很多预设,而最简单也是最直接有效的方法是设计一个很好的机制,给它足够多的数据,然后告诉它记忆、遗忘和更新分别是哪一部分,训练得多了,它就能做到了。

10、这些特定性的数据的来源是什么?它是不是也需要大量的用户去生产出来数据来训练模型形成数据飞轮?在这个过程中,又如何保证用户数据的隐私安全?

Eleanor Jiang:是的,这是一个和用户共创的过程。在产业化落地中最大的问题其实是用户隐私的问题。所以我们的技术团队一直也在思考,如何通过技术手段做到二者兼得。

在我们最新更新的「蛙蛙写作2.0」的版本中,就是加入了LPA技术,提供千人千面的个性化模型的同时,保证用户的隐私和安全性。简单的说LPA技术是一种端云结合的技术解决方案,我们搭建了一套persona系统,存储了比如个人身份信息:年龄、住所、国籍或者MBTI以及一些点击行为,还有一些还有模型通过你生成的内容分析行为偏好等等个性化数据,我们把它存储在端侧,不用来训练大模型,但是它会指导你的模型在本地进行解码,也就是刚刚提到的Decoding的能力,用个性化的persona不断指导模型完成个性化的进化。

LPA技术还有一个特点叫作持续自进化,我们希望用户用得越多、模型效果越好,所以要建立一套机制,通过用户的使用来迭代模型。结合我们之前做过的Self-Evolving Agent框架,把用户的行为数据,全部做成了一个“轨迹”,用户今天创作这个作品所有交互的数据都按照时间轴通过数学模型计算出轨迹,积累得越多,轨迹越鲜明也越准确。

1

三、市场虹吸技术,用户反哺产品

11个性化、自进化、一致性、可控性,我听下来的感觉是,除了PMF,你也格外看重TMF,技术和市场之间的关系是什么?如何找到实际适配的真实使用场景?

Eleanor Jiang:是的,就像我说的,市场虹吸技术,不管我们在技术层面对LPA做了多少工作,最终还是要看它在场景,在产品上的“效用”。用蛙蛙作为例子,一致性、可控性的应用,就是让蛙蛙生成的内容文风上下文连贯,即便写了几百万字也不会跑偏;自进化让它能够越写越懂你,只要你使用的时长越多,和AI的交互越久,蛙蛙就能不断学习你的文风和偏好。在这些基础上实现的个性化,蛙蛙才真正意义上成为用户的私人AI助手。

12除了蛙蛙写作,目前LPA技术还被应用在了哪些场景中?

Eleanor Jiang:现阶段我们思考的是把这个技术应用在更多场景中,伴随着「蛙蛙写作2.0」的升级,我们还发布了一款叫作 「AI Learning」的个性化培训产品,它的作用是帮助一线的销售人员进行1V1的培训,给每个销售人员制定专属的培训计划以及辅导。

以及我们也在探索更多普遍人群都需要的场景。未来我认为,大模型的发展会越来越个性化,这个事情也一定会做得更加端侧,比如App、网页怎么做个性化?现在的做法是把每一个人的数据隔离,未来更大的场景是就是存储在端侧,可能连我自己都无法访问,让隐私保障再上一个台阶。

13、刚刚聊创业初衷的时候,你有提到过做一款AI Native的产品,现在你们做了LPA技术,所以你会认为个性化AI就是AI Native么?你如何定义AI Native?

Eleanor Jiang:对,我认为个性化会是之后的大趋势。当然,这个问题我还有一个相对比较特别的观点,我认为AI Native产品,需要有产品自增强力。

就是今天这个产品有十个用户、一百个用户、一万个用户、一百万个用户,会对产品体验带来本质区别。这和互联网时代的产品有一定的区别。互联网时代形成的是网络效应和用户壁垒,举个例子,十个人和一百万的人用微信,微信本身是不变的,变的是用户体验,它的底层逻辑是网络效应和用户难以迁移的壁垒。

但AI Native是通过数据机制,让产品所提供的服务完全不一样,十个人的时候做不到的,但是一百万用户共同探索AI的边界,给产品带来了颠覆性的改变,这是我认为AI Native的核心。

点个“在看”,再走吧
继续滑动看下一个
硅星人Pro
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存