Sora：從文字建立視頻

February 22, 2024

Photo by cw from google

【本文想讓你知道】
1. 什麼是Sora？
2. Sora採用什麼技術？
3. Sora模型目前的缺陷？
4. 哪些人可以使用Sora？
5. Sora何時開放使用？

上週OpenAI新發布的影片生成AI-Sora引起全球廣泛關注，尤其在影視創作領域引起熱烈討論。在OpenAI的論壇上，某些以「Sora可能毀了許多人的人生」為主題掀起了一波強烈討論。對於Sora的反對者來說，他們擔心這項技術的誕生可能意味著攝影師、藝術家、製片商等職業生涯的結束。這引發了有關創作者未來面臨的種種挑戰和機遇的深入思考。一位前迪士尼動畫師表示，現在對於AI生成影片對產業的衝擊擔憂，與幾十年前動畫產業從2D轉為3D時的擔憂完全相似。

Photo by OpenAI from google

Sora生成的視頻右下角會附上直條形浮水印，這是為了提供視覺證據，用以辨識此視頻是否由AI生成而非真人拍攝。這一設計旨在確保觀眾能夠明確區分出由Sora製作的內容，從而保持透明度和準確性。这种辨識標誌的引入旨在促進對AI生成內容的認知，同時保障觀眾對於影片真實性的理解。

那麼，究竟什麼是Sora？以下是六個探討Sora的關鍵問題：

什麼是Sora？

Sora是由OpenAI推出的一種生成式AI模型，可以根據文字指令創建現實且富有想像的場景視頻。根據OpenAI的說明，下達文字指令後，模型可以生成最長長達1分鐘的影片內容，同時保持視覺品質和對用戶提示的遵從。OpenAI表示，他們正在教導AI理解和模擬物理世界的運動，目標是訓練能夠幫助人們解決需要真實世界互動的問題的模型。

提示：一位時尚的女士穿梭在東京街頭，街上充滿著溫暖發光的霓虹燈和動畫城市標誌。她穿著一件黑色皮夾克，搭配一條長長的紅色連衣裙和黑色靴子，手提一只黑色手袋。她戴著太陽眼鏡，擦著紅色口紅。她步履自信、悠閒地走著。街道潮濕且有反射，營造出色彩繽紛的燈光的鏡面效果。許多行人在街上走動。
Sora採用什麼技術？

Sora是一種擴散模型，通過首先生成看起來像靜態噪音的視頻，然後在許多步驟中逐漸消除噪音的方式來生成視頻。Sora能夠一次性生成整個視頻，或者延長已生成的視頻使其更長。通過讓模型一次性預見多幀，解決了確保主題即使暫時離開視野，也能保持不變的問題。

與GPT模型類似，Sora使用變形器架構，實現卓越的擴展性能。

視頻和圖像表示稱為“patches”的較小數據集合，每個“patch”類似於GPT中的令牌。通過統一數據表示的方式，可以在更廣泛的視覺數據上訓練擴散變形器，跨足不同的持續時間、分辨率和寬高比。Sora建立在過去在DALL·E和GPT模型中的研究基礎上。它使用了DALL·E 3中的重新標題技術，其中包括為視覺訓練數據生成高度描述性的標題。因此，模型能夠更忠實地遵循用戶在生成的視頻中給予的文本指令。

提示：加利福尼亞淘金時期的歷史影片。
Sora模型目前的缺陷？

目前的模型仍然存在一些缺陷。它可能難以準確模擬複雜場景的物理原理，並且可能無法理解因果關係的具體實例。例如，一個人可能咬下一口餅乾，但餅乾上可能沒有咬痕。

該模型還可能混淆提示的空間細節，例如混淆左右方向，並且可能難以精確描述隨著時間推移發生的事件，例如遵循特定的相機軌跡。

提示：以35毫米電影膠片方式拍攝一個人跑步場景。
哪些人可以使用Sora？

OpenAI表示，正在與紅隊成員（red teamers，錯誤訊息、仇恨內容和偏見等領域的領域專家）合作，他們將對該模型進行對抗性測試。同時，OpenAI邀請了一些設計師、製片商和視覺藝術家參與試用，以獲得他們的意見和建議，進一步優化Sora的性能和應用。
Sora何時開放使用？

OpenAI並未提供明確的開放時間。同時強調，在開放給一般大眾使用之前，除了要經歷安全演練和虛假訊息測試外，他們也正在測試工具來協助偵測具有誤導性的內容。理想情況下，未來一旦開放使用，任何涉及色情、暴力、仇恨、名人等方面的指令都將被偵測並拒絕處理。

—

資料來源：OpenAI