Sora:從文字建立視頻
February 22, 2024

Photo by cw from google
【本文想讓你知道】
1. 什麼是Sora?
2. Sora採用什麼技術?
3. Sora模型目前的缺陷?
4. 哪些人可以使用Sora?
5. Sora何時開放使用?
上週OpenAI新發布的影片生成AI-Sora引起全球廣泛關注,尤其在影視創作領域引起熱烈討論。在OpenAI的論壇上,某些以「Sora可能毀了許多人的人生」為主題掀起了一波強烈討論。對於Sora的反對者來說,他們擔心這項技術的誕生可能意味著攝影師、藝術家、製片商等職業生涯的結束。這引發了有關創作者未來面臨的種種挑戰和機遇的深入思考。一位前迪士尼動畫師表示,現在對於AI生成影片對產業的衝擊擔憂,與幾十年前動畫產業從2D轉為3D時的擔憂完全相似。

Photo by OpenAI from google
Sora生成的視頻右下角會附上直條形浮水印,這是為了提供視覺證據,用以辨識此視頻是否由AI生成而非真人拍攝。這一設計旨在確保觀眾能夠明確區分出由Sora製作的內容,從而保持透明度和準確性。这种辨識標誌的引入旨在促進對AI生成內容的認知,同時保障觀眾對於影片真實性的理解。
那麼,究竟什麼是Sora?以下是六個探討Sora的關鍵問題:
- 什麼是Sora?
Sora是由OpenAI推出的一種生成式AI模型,可以根據文字指令創建現實且富有想像的場景視頻。根據OpenAI的說明,下達文字指令後,模型可以生成最長長達1分鐘的影片內容,同時保持視覺品質和對用戶提示的遵從。OpenAI表示,他們正在教導AI理解和模擬物理世界的運動,目標是訓練能夠幫助人們解決需要真實世界互動的問題的模型。
提示:一位時尚的女士穿梭在東京街頭,街上充滿著溫暖發光的霓虹燈和動畫城市標誌。她穿著一件黑色皮夾克,搭配一條長長的紅色連衣裙和黑色靴子,手提一只黑色手袋。她戴著太陽眼鏡,擦著紅色口紅。她步履自信、悠閒地走著。街道潮濕且有反射,營造出色彩繽紛的燈光的鏡面效果。許多行人在街上走動。
- Sora採用什麼技術?
Sora是一種擴散模型,通過首先生成看起來像靜態噪音的視頻,然後在許多步驟中逐漸消除噪音的方式來生成視頻。Sora能夠一次性生成整個視頻,或者延長已生成的視頻使其更長。通過讓模型一次性預見多幀,解決了確保主題即使暫時離開視野,也能保持不變的問題。
與GPT模型類似,Sora使用變形器架構,實現卓越的擴展性能。
視頻和圖像表示稱為“patches”的較小數據集合,每個“patch”類似於GPT中的令牌。通過統一數據表示的方式,可以在更廣泛的視覺數據上訓練擴散變形器,跨足不同的持續時間、分辨率和寬高比。Sora建立在過去在DALL·E和GPT模型中的研究基礎上。它使用了DALL·E 3中的重新標題技術,其中包括為視覺訓練數據生成高度描述性的標題。因此,模型能夠更忠實地遵循用戶在生成的視頻中給予的文本指令。提示:加利福尼亞淘金時期的歷史影片。
- Sora模型目前的缺陷?
目前的模型仍然存在一些缺陷。它可能難以準確模擬複雜場景的物理原理,並且可能無法理解因果關係的具體實例。例如,一個人可能咬下一口餅乾,但餅乾上可能沒有咬痕。
該模型還可能混淆提示的空間細節,例如混淆左右方向,並且可能難以精確描述隨著時間推移發生的事件,例如遵循特定的相機軌跡。
提示:以35毫米電影膠片方式拍攝一個人跑步場景。
- 哪些人可以使用Sora?
OpenAI表示,正在與紅隊成員(red teamers,錯誤訊息、仇恨內容和偏見等領域的領域專家)合作,他們將對該模型進行對抗性測試。同時,OpenAI邀請了一些設計師、製片商和視覺藝術家參與試用,以獲得他們的意見和建議,進一步優化Sora的性能和應用。 - Sora何時開放使用?
OpenAI並未提供明確的開放時間。同時強調,在開放給一般大眾使用之前,除了要經歷安全演練和虛假訊息測試外,他們也正在測試工具來協助偵測具有誤導性的內容。理想情況下,未來一旦開放使用,任何涉及色情、暴力、仇恨、名人等方面的指令都將被偵測並拒絕處理。
—
資料來源:OpenAI