只需幾分鐘的範例影片和 1,000 美元成本,品牌就可以 24 小時不間段的直播銷售其產品
翻看凌晨 4 點中國最受歡迎的電子商務平台淘寶上的直播視頻,你會發現它異常忙碌。雖然大多數人都在熟睡,但許多勤奮的主播仍然在凌晨向鏡頭展示產品並提供折扣。
但如果你仔細觀察,你可能會注意到,這些直播影響者中的許多人似乎略顯機械化。他們的嘴唇的動作大致匹配他們所說的話,但總是有那麼幾個時刻看起來不自然。
這些主播不是真人:他們是真實主播的AI生成克隆。隨著創建逼真頭像、語音和動作的技術變得更先進和實惠,這些換臉技術在中國的電商直播平台上的受歡迎程度飆升。
直播很早已成為中國產品銷售的主要營銷渠道。在淘寶、抖音、快手或其他平台上的影響者可以在幾個小時內達成大規模的交易。過去頂級的 KOL 可以在一個晚上賣出超過十億的商品,並獲得像大電影明星一樣的皇室地位。但同時,培訓直播主播、留住他們以及弄清楚直播的技術細節對小品牌來說意味著高昂的成本。因此如果能夠用 AI 自動化這項工作,成本上會便宜許多。
從深度造假到電子商務
自從2010年代末合成媒體開始成為頭條新聞,尤其是當一個名為“deepfake”的Reddit用戶將面孔換到色情片中時。自那時以來,這項技術已經演變,但想法是一樣的:用一些技術工具,可以生成或操縱面孔,使其看起來像特定的真實人類,並做實際的人從未做過的事情。
Deepfake 研究人員長期以來一直擔心這一天的到來。
這項技術大多因其在報復色情、身份詐騙和政治誤導中的問題性用途而聞名。但它始終只是一個新奇的玩意。但現在,中國的AI公司似乎找到了一個相當不錯的新用例。
總部位於南京的新創公司 Silicon Intelligence 成立於 2017 年,專注於自然語言處理,特別是 robocall 工具等文字轉語音技術。但其創始人兼執行長司馬華鵬表示,他的公司在 2020 年首次開始看到人工智慧作為直播工具的潛力。
當時,Silicon Intelligence 需要 30 分鐘的訓練影片來產生一個可以像人類一樣說話和行動的數位克隆。第二年,是 10 分鐘,然後是 3 分鐘,現在只需要一分鐘的影片。
隨著科技的進步,服務也變得更便宜。現在,產生一個基本的人工智慧複製需要客戶花費約 8,000 元人民幣(1,100 美元)。如果客戶想要創建一個更複雜、更強大的串流媒體,價格可能會高達數千美元。除了電費之外,該費用還包括一年的維護費用。
Silicon Intelligence 產生的 AI 串流影片。
一旦生成化身,它的嘴和身體就會隨著腳本音訊而移動。雖然這些腳本曾經是由人類預先編寫的,但該公司現在也使用大型語言模型來產生它們。
現在,人類所要做的就是輸入基本信息,例如所銷售產品的名稱和價格,校對生成的腳本,並觀看數字影響者的上線。該技術的更先進版本可以發現即時評論,並在資料庫中找到匹配的答案來即時回答,因此看起來人工智慧主播正在積極與觀眾交流。司馬說,它甚至可以根據觀眾數量調整行銷策略。
中國人工智慧公司小冰的虛擬影響者直播業務總監黃偉表示,這些直播人工智慧克隆接受了電子商務影片中常見腳本和手勢的訓練。該公司擁有包含近百種預先設計機芯的資料庫。
例如,[當真人主播說]『歡迎來到我的直播頻道。移動你的手指並點擊關注按鈕,他們肯定會將手指指向上方,因為這是大多數行動直播應用程式螢幕上的「關注」按鈕的位置,」黃說。同樣,當主播介紹新產品時,他們會向下指向購物車,觀眾可以在其中找到所有產品。
小冰的人工智慧主播複製了所有這些常見的技巧。「我們希望確保口語和肢體語言相符。您不希望它在拍手時談論“關注”按鈕。那看起來很奇怪,」她說。
小冰於 2020 年從微軟亞洲軟體技術中心分離出來,一直專注於創造更擬人的人工智慧,特別是能夠表達情感的化身。「對大多數顧客來說,傳統的電子商務網站就像是貨架。是冷的。在直播中,主播和觀眾之間有更多的情感聯繫,他們可以更好地介紹產品。
在去年與一些客戶進行試點後,小冰今年正式推出了產生低於 1,000 美元數位克隆的服務;與矽谷智能一樣,小冰只需要主播提供自己的一分鐘影片。
與競爭對手一樣,小冰的客戶可以花更多的錢來微調細節。例如,中國體育播音員劉建紅在2022年世界盃期間製作了自己的精美克隆體,在抖音上朗讀比賽結果和其他相關新聞。
人工的廉價替代品
這些產生的主播將無法擊敗明星電子商務影響者,但它們足以取代中階主播。人類創作者,包括那些使用影片來訓練人工智慧克隆人的創作者,已經在某種程度上感受到了來自數位競爭對手的擠壓。iiMedia Research(艾媒諮詢)的數據顯示,今年電商直播主播的工作越來越難,中國直播主播的平均薪資較2022年下降了20% 。
但是,公司有可能透過在觀看人數較少的時間內保持直播來補充人類工作,這意味著很難證明僱用真正的主播的成本是合理的。
這已經發生了。在午夜過後,淘寶和京東等熱門電子商務平台上的許多串流媒體頻道都會出現這些人工智慧生成的主播。
目前已經有很多數據指出,深度造假技術不需要完美就能欺騙觀眾。2020年,一名騙子借助簡陋的換臉工具冒充中國著名演員,仍然從毫無戒心的愛上他影片的女性那裡騙取了數千美元。
「如果一家公司僱用 10 名直播主播,他們的技能水平就會有所不同。也許兩到三個頂級主播就貢獻了總銷售額的 70% 到 80%,」量子星球 AI 的首席執行官陳丹說
目前中國的 AI 相關技術的公司專注在將 AI 技術打包並將其出售給企業客戶 - 虛擬直播主播可以取代其餘的六、七個主播,但貢獻較少且投資報酬率較低。而且成本也會大幅下降。
很明顯的今年將會有更多品牌對人工智慧主播的興趣大大增加,部分原因是每個人都在尋求「降本增效」——降低成本、提高效率,這是隨著國內經濟放緩而成為中國科技公司的新流行語。
現在有 100 多個客戶使用小冰的服務,這些虛擬主播已經帶來了數百萬美元的銷售額。一位小冰主播在短短一小時內就帶來了超過 10,000 元(1,370 美元)的收入。
目前的技術演進
他說,仍然存在缺點。例如,他的許多客戶都是家具品牌,雖然人工智慧足夠聰明,可以說話和使用手勢,但它不能真正坐在沙發上或躺在床上,因此流缺乏真實用戶測試的吸引力產品。
除了矽谷智慧和小冰等小型新創公司之外,主要科技公司也在測試人工智慧生成的直播。阿里巴巴、騰訊、百度和京東今年都推出了相同服務的一些變體,允許其平台上的品牌產生自己的人工智慧主播。
僱用大量主播的行銷公司也注意到了這個趨勢。頂級直播行銷機構之一佛山悠旺科技宣布與小冰達成策略合作;芯智科技也與中國前「直播女王」薇婭背後的公司成立了一家合資企業。
人工智慧直播的日益普及也引起了抖音(中國版 TikTok)等視訊平台的關注,儘管它採取了與其他科技巨頭不同的方法。它似乎更關心透明度,並在五月的一份文件中表示,所有由人工智慧生成的影片都應該在平台上明確標記,並且虛擬影響者需要由真人操作。該平台一直禁止使用錄製的影片進行直播。人工智慧生成的直播沒有錄製的鏡頭,也幾乎沒有即時的人工輸入,跨越了這項規則。
中國政府在過去兩年中製定了幾項關於合成媒體和生成人工智慧的法律,這些法律將適用於電子商務串流媒體的使用。但政府和平台監管的影響仍有待觀察,因為該技術仍然太新,無法嚴格執行。
對於矽谷智能來說,下一步是在人工智慧主播中添加“情感智能”,司馬說:“如果有辱罵性的評論,那就很難過;如果產品賣得好,那就很高興了。” 該公司也致力於讓人工智慧主播互動並相互學習。
該公司從一開始就有一個令人著迷但令人恐懼的目標:它希望在 2025 年創造「1 億個矽基勞動力」。Sima 表示,目前該公司已經產生了 40 萬個虛擬串流媒體。還有很長的路要走。
這意味著他們不只是重複同樣的信息,而是能夠根據觀眾的反應和評論來調整他們的表現。這項技術應該在未來的幾個月內推出。
隨著技術的發展,運用AI主播的潛力將增加。在未來幾年內,能夠自主創建和適應其表現的虛擬影響者將變得越來越普遍。而對於這些AI主播背後的人類創作者來說,這也許會成為一個雙面刃。如果他們的虛擬版本太過成功,那麼這些創作者本身的價值將如何?
在這個不斷發展的數字世界中,人類創造力和真實性的價值也許將成為一個值得深入探討的問題。