磨削技術
創造AI的原數據的安全 |
發布時間:2023/9/16 |
生成式人工智能的繁榮正在助長一場“數據的影子戰爭”。 隨著內容創建者意識到他們的數據被用來與他們競爭,強烈的反對正在醞釀之中。 生成式人工智能熱潮始于2022年底ChatGPT的驚人成功。現在,似乎每家公司都在嘗試使用該技術。 該技術背后的人工智能模型是使用來自數百萬個不同來源的高質量數據集構建的。用行業術語來說,這些是模型“訓練”的原材料。 Github前首席執行官納特·弗里德曼 (Nat Friedman) 在最近接受科技分析師本·湯普森 (Ben Thompson) 采訪時表示:“這是正在發生的事情表面之下的秘密故事。” Nvidia GPU是AI模型訓練所需的主要硬件。 “但另一個關鍵輸入是數據,”弗里德曼說。“因此,目前在表面之下正在發生一場關于數據的影子戰爭,最大的人工智能實驗室正在花費巨額資金來獲取更有價值的代幣,要么花錢請專家生成代幣,要么通過標簽公司工作”。 許多訓練數據都是從互聯網上抓取并未經許可使用的。 渴望更多培訓數據的科技公司也授予自己新的權限,以使用更多的信息。 從互聯網上抓取的信息的使用引發了關于這個新人工智能世界中版權和許可的未來的爭論。 基于免費信息共享的在線社區也正在被顛覆。當這些數據可能會被納入人工智能模型并最終與你競爭時,為什么還要繼續在線共享呢? 來自熱門編碼問答網站Stack Overflow的數據已用于AI模型訓練。最近幾個月,隨著人工智能模型直接提供編碼答案,無需訪問網站并提出問題,流量出現下降。 公司、內容創作者和其他網絡企業逐漸意識到他們的作品正在被秘密利用來對付他們。 這破壞了網絡的大交易,并引發了強烈反對。 Salesforce首席執行官兼《時代》雜志所有者馬克·貝尼奧夫(Marc Benioff)表示:“媒體公司開始覺醒,意識到他們的很多信息都被盜了——可能你的一些信息也被盜了。” “作為媒體所有者,這是一個主要問題,因為我確實會去看模特,我會在那里找到《時代》雜志的材料,然后說,‘等一下,那是我的內容,’”他補充道。 越來越多的網站正在屏蔽網絡爬蟲,這些爬蟲是用于在網絡上搜尋數據以進行人工智能模型訓練的技術工具。據Insider8月份報道,來自ChatGPT創建者OpenAI的GPTbot在短短兩周內就被100個最受歡迎網站中超過15% 的網站屏蔽,其中包括亞馬遜和Quora。 Reddit要求為其數據付費,這些數據是人工智能模型訓練的常見來源。 領先的法律信息提供商LexisNexis不得不警告客戶不要上傳或與人工智能模型和相關機器人共享其數據。 Sarah Silverman 起訴OpenAI和Meta,聲稱他們在沒有補償或未經許可的情況下使用她的書來訓練他們的人工智能模型。 包括瑪格麗特·阿特伍德(Margaret Atwood)和詹姆斯·帕特森(James Patterson)在內的8000多名作者簽署了一封公開信,要求人工智能公司賠償,因為他們未經許可使用他們的作品來訓練人工智能。 人工智能公司正在做出回應,主要是試圖降低法律風險。 Meta 和其他科技公司已停止披露他們用于訓練人工智能模型的訓練數據。這部分是出于競爭原因,但觀察人士表示,這也是為了避免法律風險。 根據8月份發布的研究顯示,OpenAI 的ChatGPT試圖隱瞞自己接受過受版權保護的材料(例如 JK 羅琳的哈利波特系列叢書)的訓練。 其他研究人員開發了一種人工智能模型,可以刪除數據以降低法律風險。在此過程中,他們還創建了一種方法來衡量特定數據對人工智能模型輸出的貢獻。 |
產品展示
聯系我們
公司地址:南通市通州區通揚南路588號
聯系電話:0513-87119922
聯系人:李先生
手機:15606292777
郵箱:sales@nt2mt.com
網址:http://www.dell-d630.com.cn
聯系電話:0513-87119922
聯系人:李先生
手機:15606292777
郵箱:sales@nt2mt.com
網址:http://www.dell-d630.com.cn