关闭 家电网微信二维码

首页| 新闻| 产品| Discover| 智能手表| 数字家庭| 智能盒子| 空调| 电冰箱| 洗衣机| 厨房卫浴| 生活电器| 专题| 微发现| 标签| 论坛| @家电网

首页| 新闻| 产品| Discover| 智能手表| 数字家庭| 智能盒子| 空调| 电冰箱| 洗衣机| 厨房卫浴| 生活电器| 专题| 微发现| 标签| 论坛| @家电网

首页 新闻频道 Insider深度内幕 观点个评 正文

生成式AI再迎爆发期 后发者将面临更大难题

字号:TT 2023-12-11 09:00 作者:HEA.cn 来源:家电网

家电网-HEA.CN报道:值得庆幸的只有,目前AIGC仍不算完美,机械式的文字构成以及露馅的图片细节,让人仍能轻易分辨内容是否出自AI。然而,随着AIGC的更新迭代,分辨的难度将会不断提高。而目前为止,如何跟踪和识别大模型生成内容的机制尚不明确,如果继续大规模地从互联网上爬取数据,训练新版本的大模型将变得原来越困难。

去年年底ChatGPT引发全球轰动的一年后,生成式AI再度引发热议,一边是OpenAI的“宫斗”引发全球围观,一边是谷歌在ChatGPT的巨大威胁下,加快了AI大模型的开发进程,并在当地时间12月6日公布了新的语言大模型Gemini。宣称“最大、最强、最通用”的Gemini将以更快地速度落地应用,据悉Gemini将被运用在谷歌Pixel 8 Pro智能手机以及聊天机器人Bard。

谷歌引发全球震动的余波没有结束,苹果供应链分析师郭明錤就发帖表示,鉴于生成式人工智能(AIGC)在2023年爆红的势头,不难预测苹果公司将会在iPhone 16中推出相关的创新功能。关键在于是否存在相关的证据可以支持这一预测,郭明錤指出,苹果在今年第三季度改组了Siri团队,此举的目标就是在于整合AIGC功能和大语言模型(LLM)。

图片

谷歌迎头赶上

去年ChatGPT的发布对谷歌带来的巨大压力,导致其在今年二月初匆忙推出的对话人工智能服务Bard不仅引发互联网群嘲,还让谷歌市值蒸发了超千亿美元。作为人工智能的拥护者,谷歌制定了人工智能聊天机器人长远的投资计划,并在谷歌旗下的实验室里诞生了不少成果。

然而,去年年末引发质变的却是微软投资的OpenAI,这让谷歌不得不加快人工智能的研发进程,并在今年结束前夕通过Gemini扳回了一局。在OpenAI内部的宫斗大戏引发投资者对人工智能技术发展进程担忧的情况下,谷歌新语言大模型的发布,稳定了投资市场的信心,也重新推高了谷歌的股价。

截至周四美股收盘,谷歌股价大幅上涨,涨幅达到5.31%,创下7月以来最大单日百分比涨幅,总市值超过1.7万亿美元。谷歌市值一晚增加逾870亿美元,其一晚市值增量相当于ChatGPT开发商OpenAI的最新估值——未上市的OpenAI估值目前在800亿至900亿美元之间。

尽管谷歌在人工智能领域具有不少的开发经验以及技术积累,但其在AI大模型领域取得的所有成就远不如OpenAI开发的GPT-4在AI大模型领域的影响力。而Gemini的横空出世,改变了这个状况。

据谷歌介绍,Gemini在MMLU(大规模多任务语言理解)的得分率达到90.0%,是第一个在MMLU测试中超过人类专家的模型。Gemini将包括一套三种不同规模的模型,其中,Gemini Ultra被定位为GPT-4的竞争对手,Gemini Pro的性能优于GPT-3.5,Gemini Nano则用于特定任务和移动设备。

仍需警惕AIGC“污染”互联网

谷歌的迎头追赶证明其仍保持较强的技术创新活力,避免了其在AIGC商业化浪潮中落后。事实上,AIGC在商业领域的应用越来越普遍,国内不少平台已经出现了大量人工智能生产的内容,其中问答平台知乎成为了人工智能“群魔乱舞”的舞台,不少答案充斥着“人工智能”的气息。

业内人士表示,AIGC的内容仍然和人工生产的内容存在明显区别和较大差距。人工智能生产的内容更加“无脑”。这些内容描述简短、概括性十足,细看逻辑混乱、错误百出。而在今日头条,人工智能生产的内容也随处可见,正在对互联网产生“污染”。事实上,人工智能生产的内容仍不足以称为“有效信息”。

人工智能生产内容正在呈现泛滥的趋势,被“营销公司”运用在各个领域中企图抢占其产品目标用户的心智。目前微博、小红书甚至是淘宝、抖音等平台已经能够获得人工智能生产的文本信息以及图片信息。

而更大的难题发生在大模型的开发一侧。莱斯大学和斯坦福大学的科学家研究发现,这些低质、同质化、未经证实的“AI语言”如果不加以甄别,进一步被抓取作为训练AI的语料,AI大模型将会走向崩溃。

据悉,模型崩溃是一种影响学习生成模型的退化过程,其中生成的数据最终会污染下一代模型的训练集;使用被污染数据进行训练,会导致模型误解现实。

从这个角度来看,后发者在大模型开发上将会拥有更大的难度。人工智能生产的内容成本不高,在很短的时间内就能生产大量内容,并进入到互联网中,最终对下一代的模型训练集产生污染。后来的开发者,可能需要剔除人工智能生产的内容后,再训练大语言模型,这将增加额外的时间成本和资金成本,而导致进一步落后。

值得庆幸的只有,目前AIGC仍不算完美,机械式的文字构成以及露馅的图片细节,让人仍能轻易分辨内容是否出自AI。然而,随着AIGC的更新迭代,分辨的难度将会不断提高。而目前为止,如何跟踪和识别大模型生成内容的机制尚不明确,如果继续大规模地从互联网上爬取数据,训练新版本的大模型将变得原来越困难。

(家电网® HEA.CN)

责任编辑:编辑E组

家电网微博


热点推荐