人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

全球大型網(wǎng)站正在阻止 OpenAI 等人工智能爬蟲訪問其內(nèi)容

微新創(chuàng)想(idea2003.com) 9月2日消息:根據(jù)人工智能內(nèi)容檢測器 Originality.AI最新數(shù)據(jù),全球前 1000 個網(wǎng)站中有近 20% 阻止爬蟲機(jī)器人收集網(wǎng)絡(luò)數(shù)據(jù)用于 AI 服務(wù)。

在缺乏明確法律或監(jiān)管規(guī)定管理 AI 使用版權(quán)材料的情況下,大小不一的網(wǎng)站都自行采取措施。

OpenAI 于 8 月初推出了其 GPTBot 爬蟲,并宣布所收集到的數(shù)據(jù)「可能被用于改進(jìn)未來模型」,承諾排除付費內(nèi)容并指導(dǎo)網(wǎng)站如何禁止該爬蟲。隨后,包括《紐約時報》、路透社和 CNN 等知名新聞網(wǎng)站開始阻止 GPTBot,并且許多其他網(wǎng)站也效仿。

根據(jù) Originality.AI 的數(shù)據(jù),在全球前 1000 個最受歡迎的網(wǎng)站中,阻止 OpenAI ChatGPT bot 的數(shù)量從 8 月 22 日 9.1% 增加到 8 月 29 日 12%。封鎖 ChatGPT bot 的最大網(wǎng)站是亞馬遜、Quora 和 Indeed。數(shù)據(jù)顯示,更大型的網(wǎng)站更有可能已經(jīng)封鎖了 AI 爬蟲機(jī)器人。

Common Crawl Bot 是另一個定期收集某些 AI 服務(wù)使用的 Web 數(shù)據(jù)的爬蟲程序,在全球前 1000 個頂級網(wǎng)站上被屏蔽率為 6.77%。

任何您可以從 Web 瀏覽器訪問的頁面都可以被爬蟲程序「抓取」,它們就像瀏覽器一樣運行,但將材料存儲在數(shù)據(jù)庫中而不是向用戶顯示。

這就是搜索引擎如 Google 收集信息的方式。網(wǎng)站所有者一直有能力發(fā)布指令,告訴這些爬蟲程序離開他們的網(wǎng)站,但合作完全是自愿性質(zhì),并且惡意操作者可以忽略這些指令。

谷歌和其他網(wǎng)絡(luò)公司認(rèn)為其數(shù)據(jù)爬蟲工作屬于合理使用范圍,但許多出版商和知識產(chǎn)權(quán)持有人長期以來一直反對此做法,并且該公司因此面臨了多起訴訟。大型語言模型和生成式 AI 的興起使得這個問題重新受到關(guān)注,因為 AI 公司派出自己的爬蟲程序收集數(shù)據(jù)以培訓(xùn)其模型并提供聊天機(jī)器人所需素材。

自從 Google 和其他搜索網(wǎng)站將用戶引導(dǎo)至其支持廣告的網(wǎng)站后,一些出版商至少認(rèn)為允許搜索爬蟲程序進(jìn)入其網(wǎng)站具有某種價值。然而,在 AI 時代中,出版商更積極地阻止爬蟲程序進(jìn)入其網(wǎng)站,因為暫時沒有將其數(shù)據(jù)交給 AI 公司的好處。許多媒體公司目前正在與 AI 公司就以費用向其授權(quán)數(shù)據(jù)進(jìn)行談判,但這些談判還處于早期階段。

在過去 20 年中被 Google 拿走了一些東西的媒體機(jī)構(gòu)對 OpenAI 等快速商業(yè)化的 AI 服務(wù)持?jǐn)骋夂汀肝覀儾粫偕袭?dāng)」的態(tài)度。據(jù) The Information 報道,OpenAI 預(yù)計在未來一年內(nèi)將帶來超過 10 億美元的收入。

新聞媒體公司正在努力找到平衡點,在接受和抵制人工智能之間掙扎。一方面,該行業(yè)迫切需要尋找創(chuàng)新方法來提高勞動密集型業(yè)務(wù)的利潤率。

另一方面,在人們對新聞媒體公司的信任度處于歷史低點之際,將人工智能引入新聞編輯室的工作流程,會帶來具有挑戰(zhàn)性的道德問題。

而如果太多的網(wǎng)絡(luò)阻礙人工智能爬蟲,它們的所有者可能會發(fā)現(xiàn)更難改進(jìn)和更新他們的人工智能產(chǎn)品——而且好的數(shù)據(jù)也變得越來越難找到。

Originality.AI 的發(fā)現(xiàn)顯示,前 1000 個網(wǎng)站中 GPTBot 的屏蔽率每周增加約 5%

您可能還喜歡...

發(fā)表回復(fù)

您的郵箱地址不會被公開。 必填項已用 * 標(biāo)注