生成式AI再迎爆发期后发者将面临更大难题

字号:TT 2023-12-11 09:00 作者：HEA.cn 来源：家电网

家电网－HEA.CN报道：值得庆幸的只有，目前AIGC仍不算完美，机械式的文字构成以及露馅的图片细节，让人仍能轻易分辨内容是否出自AI。然而，随着AIGC的更新迭代，分辨的难度将会不断提高。而目前为止，如何跟踪和识别大模型生成内容的机制尚不明确，如果继续大规模地从互联网上爬取数据，训练新版本的大模型将变得原来越困难。

去年年底ChatGPT引发全球轰动的一年后，生成式AI再度引发热议，一边是OpenAI的“宫斗”引发全球围观，一边是谷歌在ChatGPT的巨大威胁下，加快了AI大模型的开发进程，并在当地时间12月6日公布了新的语言大模型Gemini。宣称“最大、最强、最通用”的Gemini将以更快地速度落地应用，据悉Gemini将被运用在谷歌Pixel 8 Pro智能手机以及聊天机器人Bard。

谷歌引发全球震动的余波没有结束，苹果供应链分析师郭明錤就发帖表示，鉴于生成式人工智能(AIGC)在2023年爆红的势头，不难预测苹果公司将会在iPhone 16中推出相关的创新功能。关键在于是否存在相关的证据可以支持这一预测，郭明錤指出，苹果在今年第三季度改组了Siri团队，此举的目标就是在于整合AIGC功能和大语言模型(LLM)。

谷歌迎头赶上

去年ChatGPT的发布对谷歌带来的巨大压力，导致其在今年二月初匆忙推出的对话人工智能服务Bard不仅引发互联网群嘲，还让谷歌市值蒸发了超千亿美元。作为人工智能的拥护者，谷歌制定了人工智能聊天机器人长远的投资计划，并在谷歌旗下的实验室里诞生了不少成果。

然而，去年年末引发质变的却是微软投资的OpenAI，这让谷歌不得不加快人工智能的研发进程，并在今年结束前夕通过Gemini扳回了一局。在OpenAI内部的宫斗大戏引发投资者对人工智能技术发展进程担忧的情况下，谷歌新语言大模型的发布，稳定了投资市场的信心，也重新推高了谷歌的股价。

截至周四美股收盘，谷歌股价大幅上涨，涨幅达到5.31%，创下7月以来最大单日百分比涨幅，总市值超过1.7万亿美元。谷歌市值一晚增加逾870亿美元，其一晚市值增量相当于ChatGPT开发商OpenAI的最新估值——未上市的OpenAI估值目前在800亿至900亿美元之间。

尽管谷歌在人工智能领域具有不少的开发经验以及技术积累，但其在AI大模型领域取得的所有成就远不如OpenAI开发的GPT-4在AI大模型领域的影响力。而Gemini的横空出世，改变了这个状况。

据谷歌介绍，Gemini在MMLU（大规模多任务语言理解）的得分率达到90.0%，是第一个在MMLU测试中超过人类专家的模型。Gemini将包括一套三种不同规模的模型，其中，Gemini Ultra被定位为GPT-4的竞争对手，Gemini Pro的性能优于GPT-3.5，Gemini Nano则用于特定任务和移动设备。

仍需警惕AIGC“污染”互联网

谷歌的迎头追赶证明其仍保持较强的技术创新活力，避免了其在AIGC商业化浪潮中落后。事实上，AIGC在商业领域的应用越来越普遍，国内不少平台已经出现了大量人工智能生产的内容，其中问答平台知乎成为了人工智能“群魔乱舞”的舞台，不少答案充斥着“人工智能”的气息。

业内人士表示，AIGC的内容仍然和人工生产的内容存在明显区别和较大差距。人工智能生产的内容更加“无脑”。这些内容描述简短、概括性十足，细看逻辑混乱、错误百出。而在今日头条，人工智能生产的内容也随处可见，正在对互联网产生“污染”。事实上，人工智能生产的内容仍不足以称为“有效信息”。

人工智能生产内容正在呈现泛滥的趋势，被“营销公司”运用在各个领域中企图抢占其产品目标用户的心智。目前微博、小红书甚至是淘宝、抖音等平台已经能够获得人工智能生产的文本信息以及图片信息。

而更大的难题发生在大模型的开发一侧。莱斯大学和斯坦福大学的科学家研究发现，这些低质、同质化、未经证实的“AI语言”如果不加以甄别，进一步被抓取作为训练AI的语料，AI大模型将会走向崩溃。

据悉，模型崩溃是一种影响学习生成模型的退化过程，其中生成的数据最终会污染下一代模型的训练集；使用被污染数据进行训练，会导致模型误解现实。

从这个角度来看，后发者在大模型开发上将会拥有更大的难度。人工智能生产的内容成本不高，在很短的时间内就能生产大量内容，并进入到互联网中，最终对下一代的模型训练集产生污染。后来的开发者，可能需要剔除人工智能生产的内容后，再训练大语言模型，这将增加额外的时间成本和资金成本，而导致进一步落后。

值得庆幸的只有，目前AIGC仍不算完美，机械式的文字构成以及露馅的图片细节，让人仍能轻易分辨内容是否出自AI。然而，随着AIGC的更新迭代，分辨的难度将会不断提高。而目前为止，如何跟踪和识别大模型生成内容的机制尚不明确，如果继续大规模地从互联网上爬取数据，训练新版本的大模型将变得原来越困难。

(家电网® HEA.CN)

责任编辑：编辑E组