全球大型網(wǎng)站正在阻止 OpenAI 等人工智能爬蟲訪問其內(nèi)容

由微新創(chuàng)想 · 2023年 9月 5日

微新創(chuàng)想(idea2003.com) 9月2日消息:根據(jù)人工智能內(nèi)容檢測器 Originality.AI 的最新數(shù)據(jù)，全球前 1000 個網(wǎng)站中有近 20% 阻止爬蟲機(jī)器人收集網(wǎng)絡(luò)數(shù)據(jù)用于 AI 服務(wù)。

在缺乏明確法律或監(jiān)管規(guī)定管理 AI 使用版權(quán)材料的情況下，大小不一的網(wǎng)站都自行采取措施。

OpenAI 于 8 月初推出了其 GPTBot 爬蟲，并宣布所收集到的數(shù)據(jù)「可能被用于改進(jìn)未來模型」，承諾排除付費內(nèi)容并指導(dǎo)網(wǎng)站如何禁止該爬蟲。隨后，包括《紐約時報》、路透社和 CNN 等知名新聞網(wǎng)站開始阻止 GPTBot，并且許多其他網(wǎng)站也效仿。

根據(jù) Originality.AI 的數(shù)據(jù)，在全球前 1000 個最受歡迎的網(wǎng)站中，阻止 OpenAI ChatGPT bot 的數(shù)量從 8 月 22 日 9.1％增加到 8 月 29 日 12％。封鎖 ChatGPT bot 的最大網(wǎng)站是亞馬遜、Quora 和 Indeed。數(shù)據(jù)顯示，更大型的網(wǎng)站更有可能已經(jīng)封鎖了 AI 爬蟲機(jī)器人。

Common Crawl Bot 是另一個定期收集某些 AI 服務(wù)使用的 Web 數(shù)據(jù)的爬蟲程序，在全球前 1000 個頂級網(wǎng)站上被屏蔽率為 6.77％。

任何您可以從 Web 瀏覽器訪問的頁面都可以被爬蟲程序「抓取」，它們就像瀏覽器一樣運行，但將材料存儲在數(shù)據(jù)庫中而不是向用戶顯示。

這就是搜索引擎如 Google 收集信息的方式。網(wǎng)站所有者一直有能力發(fā)布指令，告訴這些爬蟲程序離開他們的網(wǎng)站，但合作完全是自愿性質(zhì)，并且惡意操作者可以忽略這些指令。

谷歌和其他網(wǎng)絡(luò)公司認(rèn)為其數(shù)據(jù)爬蟲工作屬于合理使用范圍，但許多出版商和知識產(chǎn)權(quán)持有人長期以來一直反對此做法，并且該公司因此面臨了多起訴訟。大型語言模型和生成式 AI 的興起使得這個問題重新受到關(guān)注，因為 AI 公司派出自己的爬蟲程序收集數(shù)據(jù)以培訓(xùn)其模型并提供聊天機(jī)器人所需素材。

自從 Google 和其他搜索網(wǎng)站將用戶引導(dǎo)至其支持廣告的網(wǎng)站后，一些出版商至少認(rèn)為允許搜索爬蟲程序進(jìn)入其網(wǎng)站具有某種價值。然而，在 AI 時代中，出版商更積極地阻止爬蟲程序進(jìn)入其網(wǎng)站，因為暫時沒有將其數(shù)據(jù)交給 AI 公司的好處。許多媒體公司目前正在與 AI 公司就以費用向其授權(quán)數(shù)據(jù)進(jìn)行談判，但這些談判還處于早期階段。

在過去 20 年中被 Google 拿走了一些東西的媒體機(jī)構(gòu)對 OpenAI 等快速商業(yè)化的 AI 服務(wù)持?jǐn)骋夂汀肝覀儾粫偕袭?dāng)」的態(tài)度。據(jù) The Information 報道，OpenAI 預(yù)計在未來一年內(nèi)將帶來超過 10 億美元的收入。

新聞媒體公司正在努力找到平衡點，在接受和抵制人工智能之間掙扎。一方面，該行業(yè)迫切需要尋找創(chuàng)新方法來提高勞動密集型業(yè)務(wù)的利潤率。

另一方面，在人們對新聞媒體公司的信任度處于歷史低點之際，將人工智能引入新聞編輯室的工作流程，會帶來具有挑戰(zhàn)性的道德問題。

而如果太多的網(wǎng)絡(luò)阻礙人工智能爬蟲，它們的所有者可能會發(fā)現(xiàn)更難改進(jìn)和更新他們的人工智能產(chǎn)品——而且好的數(shù)據(jù)也變得越來越難找到。

Originality.AI 的發(fā)現(xiàn)顯示，前 1000 個網(wǎng)站中 GPTBot 的屏蔽率每周增加約 5%。

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

全球大型網(wǎng)站正在阻止 OpenAI 等人工智能爬蟲訪問其內(nèi)容

您可能還喜歡...

發(fā)表回復(fù) 取消回復(fù)

熱門文章

熱門文章

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

全球大型網(wǎng)站正在阻止 OpenAI 等人工智能爬蟲訪問其內(nèi)容

您可能還喜歡...

上汽大眾與芯馳科技成立聯(lián)合創(chuàng)新中心，共同打造未來智能汽車軟硬件平臺

?AI 2.0時代，再看消費物聯(lián)網(wǎng)十年

B站UP主用1300條B站熱門標(biāo)題訓(xùn)練AI 自制“賽博主編”

發(fā)表回復(fù) 取消回復(fù)

熱門文章

熱門文章

?AI 2.0時代，再看消費物聯(lián)網(wǎng)十年