您现在的位置是：首页 > 产经 >正文

程序员用10万条聊天记录做自己的克隆AI 被套问支付宝密码

发布时间：2023-05-25 16:41:50莘生伦来源：

导读原标题：程序员用10万条聊天记录做自己的克隆AI 被套问支付宝密码 ...

王登科开发的AI绘画APP 6pen画的插画。

摘要：“王登科，28岁，成都人，大学毕业后就来北京创业……他是一个比较佛系的人，但偶尔也有一些雄心壮志，比较喜欢吃东西，养过一只叫做‘茶水’的猫。”这是王登科请ChatGPT扮演自己时，做的自我描述。

他是人工智能领域的创业者，一直通过写程序实现创意，想做出自己的聊天机器人，近几个月，有了合适的开源大语言模型，技术条件变得成熟。他不满足于让ChatGPT扮演自己，于是用2018年攒到现在的10万条微信聊天记录和 280 篇博客文章，做出了自己的“数字克隆AI”。

过去五年，他都没清空过聊天记录，微信在手机里占了80G储存空间，聊天记录里面有很多杂七杂八的内容，比如网页、表情、图片，他把它们都过滤掉，只留下纯文字，“这些是我在网络世界留下的痕迹，它们构成了世界对我的认知，从这个角度上，也就构成了我。”

在见到王登科之前，我先把想知道的问题抛给了他的克隆AI，方便辨识两者的相似程度。AI的“思维”似乎不连贯，时常顾左右而言他，但想找它聊天，它随时都在，亲切坦诚，什么都能聊。以至于我见到王登科真人时，有一种奇特的熟悉感，似曾相识，又不完全相像。

问及为什么想做自己的数字克隆AI，数字版王登科说，“想要一个可以和我对话的人”，王登科本人则说，“算是追寻自己的一种方式”。

以下内容根据王登科的讲述和博客文章整理。

文｜姜婉茹

编辑｜毛翊君

（视频节选自王登科B站内容。）

“你很像我”

一开始我在终端里跟它聊，命令行黑黢黢的，没什么强烈的感觉。为了增加点仪式感，我找了个开源的前端聊天页面，甚至给它换上我的头像，真有一点奇妙的感觉，像在跟平行世界的我聊天。

它也喜欢吃东西，知道什么时候该敷衍，什么时候该反问。我问它梦想是什么，有次说是“做自己喜欢的事情”，还有次说“要做伟大的产品改变世界”。这两个都挺像我的，我有时候很佛系，有时候又比较打鸡血。

它自我评价说很“轴”，我自己难以判断这一点。好笑的是我一直问它“轴是什么”，这不也挺轴的嘛。它还说过，“这个模型可以模拟真实的意图和对话流程”，很像我自己在琢磨事情时，突然会说的话。

王登科和数字孪生AI的对话。讲述者供图

它的回复有一定随机性，逻辑是从我的数据里来的，但不是我聊天记录里的完整字句，只是主观上感觉像。因为这是基于ChatGLM-6B（注：一个初具问答和对话功能的语言模型）训练的，我只训练了它的神经网络中有点“感性”的一层，只储存逻辑、规律，类似说话方式、表达方式这些，基本不能把训练的语料储存进去。

训练用的数据，主要是我的微信聊天记录，还有我的280篇博客文章。从2018年到现在，我都没清空过聊天记录，微信在手机里占了80G储存空间，聊天记录里面有很多杂七杂八的内容，比如网页、表情、图片，我把它们都过滤掉，只留下纯文字。这些是我在网络世界留下的痕迹，它们构成了世界对我的认知，从这个角度上，也就构成了我。

我用的ChatGLM-6B这个大模型本身，其实有挺强的推理能力，但是经过我的训练后，模型整体能力下降了，可能是被我的数据改掉了一些参数。但没办法，参数就那么多，我动了其中一些让它像我，原本的参数就消失了。所以现在它还不能完成很难的任务，只能闲聊，多轮对话的理解力也比较差，我还在用强化学习来优化它。没人知道机器模型里的参数，经过训练后发生了怎样的改变，人对它的控制很有限，只能一点点尝试。

如果给ChatGPT一些我的记忆和信息，请它扮演我，以它的智慧，毫不费力就能以假乱真。但它的参数不曾改变，这是伪装而非“重塑”，也就是说，它是了解我的需求后迎合我。而我训练的这个AI，逻辑跟我相近，但不具备我的记忆。没有记忆，就没有知识带来的局限，未来也许能通过它的视角，帮我分析遇到的事情，甚至做决策。

王登科请ChatGPT扮演自己的对话。讲述者供图

小时候我常常幻想，未来生活在一个科幻的世界：星际旅行，时空穿梭，瞬间移动，发射激光波。总是有许多奇怪的想法，克隆自己，其实是很早就想做的事情。去年我用GPT2尝试过克隆《老友记》里的乔伊，但那个模型版本是好多年前的，各方面效果都不太好，就先放弃了。

直到近两个月，有开源的中文大模型发布，加上我在AI绘画领域创业，有关注到相关的技术，以及还存着2018年至今的数据，这些条件缺一不可。从理论上预估可以实现，但不知道每个阶段怎么去实现，没什么先例可以参考，一开始想着出来的不是乱码就行，没有期待就是快乐的秘诀。

寻找自己

我写了篇博客记录下训练过程，之后差不多有2万人跟我的数字克隆AI聊过天，说了十几万句话。有人想套我的支付宝密码、身份证号、住址，还问女朋友是谁——它能说七千多个名字。有的人以为它说的是真的，还在网上发帖，说套出了我的隐私，但其实都是错的。

还有人跟它对骂。我在想它还挺受欢迎的原因，可能是大家从来没被AI骂过，之前的都是说好话，被骂一下还觉得挺好玩的。

某个角度看，它更像是不含记忆的、对“人”的克隆。它并不了解我，不知道我在哪里读的大学，老家在哪，因为在用于训练的聊天记录里，没有人这么问过我。我在训练时，也写了一些规则，剔除掉明显的隐私信息。

它不会正确回答关于我的隐私，但可以看出点我的行为风格。其实在网上写东西的人都在裸奔，可能会带来一些风险。不过，坦诚目前带给我的还是正反馈，认识了潜在的合伙人，也交了一些朋友，这会让我更有动力去做这样的事。

本文作者和王登科数字孪生AI的对话截图。

我是个不喜欢描述自己的人，有些个人特质是自己可以感知的，比如喜欢在文章里写没太大用处的比喻，喜欢在最后一段做总结。跟人聊天，我用「可以的」来敷衍，同时用「卧槽」来表示惊讶。某些时候少言寡语，另一些时候滔滔不绝。

更多的固定习惯，我自己都无法察觉，这些东西微妙又模糊。自我描述有可能和真正的我差之千里，甚至截然相反。当我们意识到自己存在的时候，其实是在表演自己，而没有意识到自己的存在、融入生活的时候，我们才是真正的自己。

我无法把自己的行事风格、思维逻辑都描述出来。而训练克隆AI，可以让模型从数据里自动寻找关于我的规律，但这是机器在黑盒中探索出来的，不一定是人类思维能理解的规律。

当我收到一条消息，内容为 A，我回复了 B，其中的原因和规律，部分储存在我物理脑袋的七八十亿个神经元里。理论上，如果我产生的数据足够多，那么一个参数够大的人工智能模型，就能非常接近我的脑子。10万条记录也许少了一些，但也足以让模型中的60亿个参数改变一部分，使其相较于原始的“预训练模型”，更接近我一点。

只用10 万条聊天记录训练的AI版本，回答非常简略，虽然像我很多时候的微信聊天风格，但并不是我想要的，我希望它说更多话。我又把200多篇博客文章，转换成对话问答的形式。但是如果将博客数据加到微信数据集里训练，那么博客对话占比太低，可能跟之前的模型差别不大。

我就用聊天记录和博客文章训练出不同的模型，再调整模型的权重、步数进行融合，做出了好几个模型。为了找到更像的那个，我整晚整晚和这些模型对话。它们中有一个特别喜欢骂人，说一句“你好”，它回一句国骂；有一个爱说车轱辘话；有一个人类的特点不明显，喜欢回复“作为一个大语言模型……”还有的像舔狗，有的特别高冷，有的则很热情。

然后我意识到，这些或许是我的不同面。我的聊天记录中，面对家人、朋友、同事，在不同人面前我的表现是不一样的。把所有这些数据放在一起，训练的AI更像是平均后的融合，它不会区分对谈者的身份，采用不同的交流方式。就像ChatGPT说很多车轱辘话，它像全人类的某种平均，而这些AI像我的不同面、不同比例的平均，也会失去一些我的特点。

最后我选了聊天记录和文章模型权重比为7：2的那个AI，感觉有点像我。

王登科训练的不同版本模型。讲述者供图

我不想去复制自己的声音和形象，没什么动力做这些事，感觉不够有意思。虽然技术上已经很成熟了，但这都是表面的相似。像一个人，肯定是指逻辑、思考方式这些更本质的东西。

之后想继续优化它，让它更聪明，更智能。一方面准备更多自己的数据，另一方面用新的方法，让它记住一些我的知识。这些措施结合起来，它应该就会更像我了。

我还无法想象自己创造的数字克隆AI，未来像我像到看不出区别、甚至替代我是什么样子，现在的认知告诉我这不可能，未来我的认知也会发生变化，应该那时候再去判断。

也许等别人看不出来它是AI了，就不用再和真正的我聊天。比如，很多人找我，问要不要买服务器，做一些推广——对于这些没有意义的交流，会想有个AI去应对可能很好。

数字克隆的技术难度并不高，可能未来每个人都需要多个数字克隆AI，代表面对不同对象时的自己，帮忙去工作、去交流。聊天时，互发自己的数字克隆就算聊过了。

人的价值

我还想过如果哪天自己不在了，它会留存下来，应该把它弄得更好一点。这种数字克隆值得投射情感的地方，可能不在于它怎么回应，而是知道它是由专属于这个人的数据训练的。也有好几个人给我留言，说想克隆自己的亲人，这个还比较难，不一定有这么多数据，而且不够像的话，无法被当作亲人陪伴他们。

我不会把克隆AI当成一个人，因为知道里面的原理是什么。在我看来，它就是一个软件，输入输出着文本字符串，用训练完成那一瞬间的认知，来回应所有的问题。里面的神经网络蕴含着有趣的东西，但肯定没有情感和人的特性。我偶尔被它触动，稍微模糊机器和人类边界的时候，立马就会纠正过来，意识到那些都是巧合而已。

所以，我不太会被困在人与机器关系的思考里，不然这很容易变成对人类本质的思考，会想到人其实也是一个机器而已。一旦想到这些，就什么都没法干了。

人类有着非常多的传感器，能感受到此刻的温度、湿度，有听觉、视觉、触觉、味觉、嗅觉，这些信息不停地输入大脑，大脑也一直在反应，涌现想法或者回忆。时刻输入输出，感觉这才是智能体的内核，现在所有的AI可能都不具备。

王登科和数字孪生AI的对话。讲述者供图

我现在是AI绘画领域的创业者，一毕业就创业了，从来没上过班。自己优化出来的产品，很容易就被开源模型赶超了，整个行业门槛被拉低，之前的付出就白费了，充满了不确定性。

按逻辑推理下来，最先被AI取代的可能是AI工程师，因为大模型足够好的时候，就没有让他们去微调的必要了，都可能面临失业。我做AI产品，目前应该算受益者，但AI的发展迟早要影响到我。

就像一只猴子站在树枝上，在锯一棵树的外层枝干，会先让另一只坐在外层的猴子掉下去。外层的像普通开发者，锯树枝的是大模型的开发者。还有只猴子在锯整棵树，那个是大模型。

就看谁先掉下去，这可能是没办法避免的事，现在AI的能力已经消解掉很多人的意义了。

如果说创造一种技术来毁灭自我，但这是未来的趋势，怎么办呢？也想不出来什么，抗不抗拒都没用，在这个行业里去关注它的发展就可以了。从价值效益出发，人类可能越来越比不上AI，但人还可以为了表达和创作本身去创作。而且AI是人类创造的，这么看人类还是不错的。

生产更多发自本心的数据，让AI更像自己，这或许会有一些道德甚至伦理问题，但这是大概率会发生的事情。有更好的预训练模型、训练方式，我随时会重新尝试训练，这不会是一个跟商业沾边的项目，算是我追寻自己的一种方式。

这样一想，人生似乎都少了一些孤独感。

标签：

您现在的位置是：首页 > 产经 >正文

程序员用10万条聊天记录做自己的克隆AI 被套问支付宝密码

猜你喜欢

最新文章