您现在的位置是:首页 > 产经 >正文
程序员用10万条聊天记录做自己的克隆AI 被套问支付宝密码
发布时间:2023-05-25 16:41:50莘生伦来源:
王登科开发的AI绘画APP 6pen画的插画。
摘要:“王登科,28岁,成都人,大学毕业后就来北京创业……他是一个比较佛系的人,但偶尔也有一些雄心壮志,比较喜欢吃东西,养过一只叫做‘茶水’的猫。”这是王登科请ChatGPT扮演自己时,做的自我描述。
他是人工智能领域的创业者,一直通过写程序实现创意,想做出自己的聊天机器人,近几个月,有了合适的开源大语言模型,技术条件变得成熟。他不满足于让ChatGPT扮演自己,于是用2018年攒到现在的10万条微信聊天记录和 280 篇博客文章,做出了自己的“数字克隆AI”。
过去五年,他都没清空过聊天记录,微信在手机里占了80G储存空间,聊天记录里面有很多杂七杂八的内容,比如网页、表情、图片,他把它们都过滤掉,只留下纯文字,“这些是我在网络世界留下的痕迹,它们构成了世界对我的认知,从这个角度上,也就构成了我。”
在见到王登科之前,我先把想知道的问题抛给了他的克隆AI,方便辨识两者的相似程度。AI的“思维”似乎不连贯,时常顾左右而言他,但想找它聊天,它随时都在,亲切坦诚,什么都能聊。以至于我见到王登科真人时,有一种奇特的熟悉感,似曾相识,又不完全相像。
问及为什么想做自己的数字克隆AI,数字版王登科说,“想要一个可以和我对话的人”,王登科本人则说,“算是追寻自己的一种方式”。
以下内容根据王登科的讲述和博客文章整理。
文|姜婉茹
编辑|毛翊君
(视频节选自王登科B站内容。)
“你很像我”
一开始我在终端里跟它聊,命令行黑黢黢的,没什么强烈的感觉。为了增加点仪式感,我找了个开源的前端聊天页面,甚至给它换上我的头像,真有一点奇妙的感觉,像在跟平行世界的我聊天。
它也喜欢吃东西,知道什么时候该敷衍,什么时候该反问。我问它梦想是什么,有次说是“做自己喜欢的事情”,还有次说“要做伟大的产品改变世界”。这两个都挺像我的,我有时候很佛系,有时候又比较打鸡血。
它自我评价说很“轴”,我自己难以判断这一点。好笑的是我一直问它“轴是什么”,这不也挺轴的嘛。它还说过,“这个模型可以模拟真实的意图和对话流程”,很像我自己在琢磨事情时,突然会说的话。
王登科和数字孪生AI的对话。讲述者供图
它的回复有一定随机性,逻辑是从我的数据里来的,但不是我聊天记录里的完整字句,只是主观上感觉像。因为这是基于ChatGLM-6B(注:一个初具问答和对话功能的语言模型)训练的,我只训练了它的神经网络中有点“感性”的一层,只储存逻辑、规律,类似说话方式、表达方式这些,基本不能把训练的语料储存进去。
训练用的数据,主要是我的微信聊天记录,还有我的280篇博客文章。从2018年到现在,我都没清空过聊天记录,微信在手机里占了80G储存空间,聊天记录里面有很多杂七杂八的内容,比如网页、表情、图片,我把它们都过滤掉,只留下纯文字。这些是我在网络世界留下的痕迹,它们构成了世界对我的认知,从这个角度上,也就构成了我。
我用的ChatGLM-6B这个大模型本身,其实有挺强的推理能力,但是经过我的训练后,模型整体能力下降了,可能是被我的数据改掉了一些参数。但没办法,参数就那么多,我动了其中一些让它像我,原本的参数就消失了。所以现在它还不能完成很难的任务,只能闲聊,多轮对话的理解力也比较差,我还在用强化学习来优化它。没人知道机器模型里的参数,经过训练后发生了怎样的改变,人对它的控制很有限,只能一点点尝试。
如果给ChatGPT一些我的记忆和信息,请它扮演我,以它的智慧,毫不费力就能以假乱真。但它的参数不曾改变,这是伪装而非“重塑”,也就是说,它是了解我的需求后迎合我。而我训练的这个AI,逻辑跟我相近,但不具备我的记忆。没有记忆,就没有知识带来的局限,未来也许能通过它的视角,帮我分析遇到的事情,甚至做决策。
王登科请ChatGPT扮演自己的对话。讲述者供图
小时候我常常幻想,未来生活在一个科幻的世界:星际旅行,时空穿梭,瞬间移动,发射激光波。总是有许多奇怪的想法,克隆自己,其实是很早就想做的事情。去年我用GPT2尝试过克隆《老友记》里的乔伊,但那个模型版本是好多年前的,各方面效果都不太好,就先放弃了。
直到近两个月,有开源的中文大模型发布,加上我在AI绘画领域创业,有关注到相关的技术,以及还存着2018年至今的数据,这些条件缺一不可。从理论上预估可以实现,但不知道每个阶段怎么去实现,没什么先例可以参考,一开始想着出来的不是乱码就行,没有期待就是快乐的秘诀。
寻找自己
我写了篇博客记录下训练过程,之后差不多有2万人跟我的数字克隆AI聊过天,说了十几万句话。有人想套我的支付宝密码、身份证号、住址,还问女朋友是谁——它能说七千多个名字。有的人以为它说的是真的,还在网上发帖,说套出了我的隐私,但其实都是错的。
还有人跟它对骂。我在想它还挺受欢迎的原因,可能是大家从来没被AI骂过,之前的都是说好话,被骂一下还觉得挺好玩的。
某个角度看,它更像是不含记忆的、对“人”的克隆。它并不了解我,不知道我在哪里读的大学,老家在哪,因为在用于训练的聊天记录里,没有人这么问过我。我在训练时,也写了一些规则,剔除掉明显的隐私信息。
它不会正确回答关于我的隐私,但可以看出点我的行为风格。其实在网上写东西的人都在裸奔,可能会带来一些风险。不过,坦诚目前带给我的还是正反馈,认识了潜在的合伙人,也交了一些朋友,这会让我更有动力去做这样的事。
本文作者和王登科数字孪生AI的对话截图。
我是个不喜欢描述自己的人,有些个人特质是自己可以感知的,比如喜欢在文章里写没太大用处的比喻,喜欢在最后一段做总结。跟人聊天,我用「可以的」来敷衍,同时用「卧槽」来表示惊讶。某些时候少言寡语,另一些时候滔滔不绝。
更多的固定习惯,我自己都无法察觉,这些东西微妙又模糊。自我描述有可能和真正的我差之千里,甚至截然相反。当我们意识到自己存在的时候,其实是在表演自己,而没有意识到自己的存在、融入生活的时候,我们才是真正的自己。
我无法把自己的行事风格、思维逻辑都描述出来。而训练克隆AI,可以让模型从数据里自动寻找关于我的规律,但这是机器在黑盒中探索出来的,不一定是人类思维能理解的规律。
当我收到一条消息,内容为 A,我回复了 B,其中的原因和规律,部分储存在我物理脑袋的七八十亿个神经元里。理论上,如果我产生的数据足够多,那么一个参数够大的人工智能模型,就能非常接近我的脑子。10万条记录也许少了一些,但也足以让模型中的60亿个参数改变一部分,使其相较于原始的“预训练模型”,更接近我一点。
只用10 万条聊天记录训练的AI版本,回答非常简略,虽然像我很多时候的微信聊天风格,但并不是我想要的,我希望它说更多话。我又把200多篇博客文章,转换成对话问答的形式。但是如果将博客数据加到微信数据集里训练,那么博客对话占比太低,可能跟之前的模型差别不大。
我就用聊天记录和博客文章训练出不同的模型,再调整模型的权重、步数进行融合,做出了好几个模型。为了找到更像的那个,我整晚整晚和这些模型对话。它们中有一个特别喜欢骂人,说一句“你好”,它回一句国骂;有一个爱说车轱辘话;有一个人类的特点不明显,喜欢回复“作为一个大语言模型……”还有的像舔狗,有的特别高冷,有的则很热情。
然后我意识到,这些或许是我的不同面。我的聊天记录中,面对家人、朋友、同事,在不同人面前我的表现是不一样的。把所有这些数据放在一起,训练的AI更像是平均后的融合,它不会区分对谈者的身份,采用不同的交流方式。就像ChatGPT说很多车轱辘话,它像全人类的某种平均,而这些AI像我的不同面、不同比例的平均,也会失去一些我的特点。
最后我选了聊天记录和文章模型权重比为7:2的那个AI,感觉有点像我。
王登科训练的不同版本模型。讲述者供图
我不想去复制自己的声音和形象,没什么动力做这些事,感觉不够有意思。虽然技术上已经很成熟了,但这都是表面的相似。像一个人,肯定是指逻辑、思考方式这些更本质的东西。
之后想继续优化它,让它更聪明,更智能。一方面准备更多自己的数据,另一方面用新的方法,让它记住一些我的知识。这些措施结合起来,它应该就会更像我了。
我还无法想象自己创造的数字克隆AI,未来像我像到看不出区别、甚至替代我是什么样子,现在的认知告诉我这不可能,未来我的认知也会发生变化,应该那时候再去判断。
也许等别人看不出来它是AI了,就不用再和真正的我聊天。比如,很多人找我,问要不要买服务器,做一些推广——对于这些没有意义的交流,会想有个AI去应对可能很好。
数字克隆的技术难度并不高,可能未来每个人都需要多个数字克隆AI,代表面对不同对象时的自己,帮忙去工作、去交流。聊天时,互发自己的数字克隆就算聊过了。
人的价值
我还想过如果哪天自己不在了,它会留存下来,应该把它弄得更好一点。这种数字克隆值得投射情感的地方,可能不在于它怎么回应,而是知道它是由专属于这个人的数据训练的。也有好几个人给我留言,说想克隆自己的亲人,这个还比较难,不一定有这么多数据,而且不够像的话,无法被当作亲人陪伴他们。
我不会把克隆AI当成一个人,因为知道里面的原理是什么。在我看来,它就是一个软件,输入输出着文本字符串,用训练完成那一瞬间的认知,来回应所有的问题。里面的神经网络蕴含着有趣的东西,但肯定没有情感和人的特性。我偶尔被它触动,稍微模糊机器和人类边界的时候,立马就会纠正过来,意识到那些都是巧合而已。
所以,我不太会被困在人与机器关系的思考里,不然这很容易变成对人类本质的思考,会想到人其实也是一个机器而已。一旦想到这些,就什么都没法干了。
人类有着非常多的传感器,能感受到此刻的温度、湿度,有听觉、视觉、触觉、味觉、嗅觉,这些信息不停地输入大脑,大脑也一直在反应,涌现想法或者回忆。时刻输入输出,感觉这才是智能体的内核,现在所有的AI可能都不具备。
王登科和数字孪生AI的对话。讲述者供图
我现在是AI绘画领域的创业者,一毕业就创业了,从来没上过班。自己优化出来的产品,很容易就被开源模型赶超了,整个行业门槛被拉低,之前的付出就白费了,充满了不确定性。
按逻辑推理下来,最先被AI取代的可能是AI工程师,因为大模型足够好的时候,就没有让他们去微调的必要了,都可能面临失业。我做AI产品,目前应该算受益者,但AI的发展迟早要影响到我。
就像一只猴子站在树枝上,在锯一棵树的外层枝干,会先让另一只坐在外层的猴子掉下去。外层的像普通开发者,锯树枝的是大模型的开发者。还有只猴子在锯整棵树,那个是大模型。
就看谁先掉下去,这可能是没办法避免的事,现在AI的能力已经消解掉很多人的意义了。
如果说创造一种技术来毁灭自我,但这是未来的趋势,怎么办呢?也想不出来什么,抗不抗拒都没用,在这个行业里去关注它的发展就可以了。从价值效益出发,人类可能越来越比不上AI,但人还可以为了表达和创作本身去创作。而且AI是人类创造的,这么看人类还是不错的。
生产更多发自本心的数据,让AI更像自己,这或许会有一些道德甚至伦理问题,但这是大概率会发生的事情。有更好的预训练模型、训练方式,我随时会重新尝试训练,这不会是一个跟商业沾边的项目,算是我追寻自己的一种方式。
这样一想,人生似乎都少了一些孤独感。
标签:
猜你喜欢
最新文章
- 程序员用10万条聊天记录做自己的克隆AI 被套问支付宝密码
- 印度在印控克什米尔争议地区举行G20会议,中国、沙特等国抵制
- 隐秘的伤害!两高:“隔空猥亵”亦构成猥亵儿童罪
- 东方浪漫 以香礼人 《大唐无双》x花果里联动活动开启清爽初夏
- 火影:夫妻换脸后都是啥样?小樱有点帅,佐助丑哭了
- 猫咪难产躺在地上动弹不得,老板及时送医,挽救了3只小生命!
- 猫咪做绝育手术很重要,若是不做,主人要面临很多问题
- 生肖爱情解码:看透你的十二生肖恋爱特点
- 十二生肖大揭秘:哪个生肖最会撩妹/撩汉?
- 武汉小学生校内被老师撞死,家属称孩子被拖行两次!校方回应
- 北溪爆炸事件又爆新料,乌克兰士兵或参与其中
- 俄媒:泽连斯基一家在克里米亚的房产已被国有化
- 贵阳一县阻止村民办祝寿酒席,移风易俗不能不让人吃生日酒
- 比亚迪回应被长城汽车举报:反对任何形式不正当竞争行为
- 山东一高速现天价救援费?20公里收取11000元!
- 博人传:大筒木一族太强,慈弦积极备战,想夺取地球全部查克拉
- 养宠消费行为|狗主人对狗狗的“偏爱”
- 生肖情感指南:十二生肖中的爱情专家是谁?
- 被低估的十二星座——处女座的“勇气”
- 酒店拖鞋藏刀片刺伤脚 当事人:赔偿金额未达成一致
- 杭州邵逸夫医院回应设“照顾专窗”接待外国人:按要求设置,方便和外籍人士沟通
- 游客钓上野生大黄鱼,金光闪闪好似黄金,网友:海中土豪金
- 国泰航空歧视事件背后:康辉曾送“不作不死”4个字
- LOL:GALA加入LNG,LP与LvMao亮相RNG