OpenAI Sora โมเดล Text-to-video: การปรับตัวและโอกาสของ Marketer

สวัสดีค่ะเพื่อนๆ หลังจากที่เมื่อสัปดาห์ที่แล้ว Google ปล่อย Gemini Advanced ออกมา เป็นคู่แข่งที่สำคัญของ ChatGPT และแน่นอนค่ะว่า,, นิกยังไม่ทันได้ลองใช้ Gemini แบบเต็มๆ ทาง OpenAI ก็ปล่อยของใหม่ออกมา ซึ่งนับว่าเป็น Model ที่จะมาปฏิวัติวงการ Marketer (ในมุมมองของนิกนะคะ^^) นั่นก็คือ OpenAI’s Sora ซึ่งเป็นโมเดลที่มีความสามารถของ Text-to-video กล่าวคือ เราสามารถสร้างวิดีโอที่เราต้องการได้ง่ายๆ โดยการ Prompting ค่ะ

ดังนั้นในฐานะของ User อย่างพวกเรา=>> หมายความว่า มีของใหม่ที่น่าสนใจมากๆ มาให้เราตาม ลองใช้ (ถึงแม้ว่าเราอยากจะบอกนักพัฒนาทั้งหลายว่า,, พักบ้างงงง ตามไม่ทันแล้ว (ToT)/~~) เพื่อที่เราจะสามารถเพิ่ม Productivity ให้กับการทำงานของเรา

ซึ่งสำหรับตัว OpenAI’s-Sora นี้ถือเป็นหนึ่ง AI โมเดลที่มีประโยชน์มากๆ โดยเฉพาะอย่างยิ่งสำหรับงานด้านการตลาด และชาว Marketer อย่างพวกเราค่ะ

เพราะสิ่งนี้ถือเป็นการเปลี่ยนแปลงครั้งใหญ่ในวิธีที่เราใช้สร้าง บริโภค และคิดค้นเนื้อหาทางการตลาดต่างๆ ดังนั้นนักการตลาดอย่างพวกเราจึงไม่มีเหตุผลที่จะไม่รีบขึ้นรถไฟความเร็วสูงขบวนนี้ เพื่อคว้าโอกาสสำคัญในการเพิ่มความสามารถในการแข่งขัน =>> สรุปคือหยุดตามไม่ได้ค่ะ,, Let’s go (☞ﾟヮﾟ)☞

OpenAI’s Sora คืออะไร?

Sora เป็นโมเดล AI ที่สามารถสร้างวิดีโอจากคำสั่งข้อความที่เรียกว่า Prompt ที่เราคุ้นเคยกันดี โดยใช้เทคนิคที่เรียกว่า “การสังเคราะห์วิดีโอจากข้อความ” หรือ “Text-to-video” โดยการสังเคราะห์หรือแปลงนี้ใช้กระบวนการของ Natural Language Processing ในการแปลงข้อความเป็นการแสดงภาพ ทั้งในรูปแบบของภาพหรือวิดีโอเองก็ตาม

โดย Text-to-video นับว่าเป็นการสร้างโมเดลที่ค่อนข้างยากค่ะ เพราะต้องการให้โมเดล AI เข้าใจความหมายและบริบทของข้อความ รวมถึงลักษณะทางภาพและกายภาพของวิดีโอ เพื่อให้สามารถสร้างเป็นวิดีโออกมาได้

นิกขอยกตัวอย่างง่ายๆ เช่น โมเดลต้องรู้ว่ามีวัตถุและองค์ประกอบอะไรบ้างในฉาก โดยองค์ประกอบแต่ละส่วนต้องอยู่ในสภาพอย่างไร ขยับได้อย่างไร มีการโต้ตอบกันอย่างไร และได้รับผลกระทบจากสภาพแวดล้อมอย่างไร จากข้อความ (Text หรือ Prompt) ที่เราป้อนเข้าไป อย่างแม่นยำ เพื่อให้สามารถสร้างสิ่งที่เราต้องการได้

โดยโมเดลนี้เป็น Deep learnig Nueral Network ที่ Trainnig มากจากฐานข้อมูลวิดีโอขนาดใหญ่ที่ครอบคลุมหัวข้อ รูปแบบ และประเภทของ Features ต่างๆ และสร้างวิดีโอจากการวิเคราะห์คำสั่งข้อความ และสกัดคำหลักที่เกี่ยวข้อง เช่น หัวข้อ การกระทำ สถานที่ เวลา และอารมณ์ จากนั้นจะค้นหาวิดีโอที่เหมาะสมที่สุดจากฐานข้อมูลที่ตรงกับคำหลักเหล่านั้น และผสานรวมกันเพื่อสร้างวิดีโอใหม่

นอกจากนี้ยังมีการใช้เทคนิคที่เรียกว่า “Style Transfer” ซึ่งช่วยให้สามารถปรับเปลี่ยนลักษณะ และบรรยากาศของวิดีโอตามความชอบของ User ยกตัวอย่างเช่น หาก User ต้องการวิดีโอที่มีสไตล์ภาพยนตร์ ถ่ายทำด้วยฟิล์ม 35 มม. และมีสีสันที่สดใส ตัว Sora ก็สามารถ Provide Results ตาม Prompt ที่ป้อนให้ได้ผ่านการเปลี่ยนแปลงการจัดแสง สี และมุมกล้อง

และความว้าวอีกอย่างก็คือ โมเดลนี้สามารถสร้างวิดีโอที่มีความละเอียดสูงถึง 1920×1080 และ 1080×1920 ได้ ทั้งยังสามารถสร้างวิดีโอจากภาพนิ่งหรือขยายฟุตเทจที่มีอยู่ด้วยเนื้อหาใหม่ เช่น หากเรามีภาพนิ่งของป่า โมเดลนี้ก็จะสามารถทำให้ภาพนั้นเคลื่อนไหว และเพิ่มองค์ประกอบ ลงไปได้ด้วย เช่น แมวดำ จระเข้ นก งู หรือคน เป็นต้น หรือแม้แต่หากเราต้องการให้ Product ของเราเข้าไปปรากฎอยู่ในวิดีโอ โมเดลก็สามารถขยายวิดีโอนั้น และเพิ่ม Product หรือรูปภาพ แบรนด์ ของเราเข้าไปเป็นองค์ประกอบได้เลยค่ะ^^

#สรุปเพิ่มเติมด้าน Technical

จากที่กล่าวมาข้างต้น เพื่อนๆ น่าจะเห็นภาพคร่าวๆ ว่า OpenAI’s-Sora คืออะไร แล้วเราจะสามารถใช้งานได้อย่างไรบ้าง สำหรับงานทางการตลาดให้เบื้องต้น 😄🧐

ซึ่งเพื่อให้เห็นภาพได้ชัดเจนมากยิ่งขึ้น นิกขออนุญาตเล่าให้อ่านเพิ่มเติมและสรุป Keywords ที่ทุกท่านควรทราบเกี่ยวกับ Sora ดังนี้ค่ะ

ตัวโมเดลที่ใช้เป็นโมเดลฐานคือ Diffusion Model ที่สร้างจากการเรียนรู้บน GPT และ DALL.E
โมเดลนี้ใช้สถาปัตยกรรมแบบ Transformer model
พิจารณาองค์ประกอบ และ Patches ของภาพเป็น Token
ตัวโมเลสามารถสร้างวิดีโอจากภาพนิ่ง และทำให้ภาพนั้นเคลื่อนไหว พร้อมกับใส่ Details เล็กๆ น้อยๆ ลงไปได้ ตลอดจนสามารถเพิ่มความยาวจากวิดีโอเดิมได้ด้วย

source: https://synthedia.substack.com/p/openais-sora-text-to-video-demonstrations

OpenAI Sora กับ Marketer

นิกอยากชวนทุกท่านลองนึกถึงการสร้างวิดีโอคุณภาพสูงเพื่อประกอบแคมเปญการตลาดของเรา ผ่านการแค่พิมพ์คำสั่ง แก้ไข ตามความต้องการได้ง่าย และรวดเร็วเพียงใน One click =>>

ว้าวใช่ไหมคะเพื่อนๆ และนี่คือซึ่งที่ Sora provide ให้กับนักการตลาดอย่างพวกเรา หรือ Content creators ค่ะ ซึ่งนั่นหมายความว่าพวกเราสามารถลดเวลาและค่าใช้จ่ายในการสื่อวิดีโอต่างๆ ได้อย่างมหาศาล หรือหากคุณเป็นสร้างวิดีโอ หมายความว่าเราสามารถวางโครงหรือปรับแต่งวิดีโอของเราได้ง่ายดายมายิ่งขึ้น ทำให้การสร้างเนื้อหาวิดีโอเป็นไปได้มากขึ้นกว่าเดิม ไม่ต้องมีทีมขนาดใหญ่หรือต้องเป็นทีมผู้เชี่ยวชาญเท่านั้น ทำให้คนทั่วไปก็สามารถเป็น video creator ได้ (แต่ส่วนตัวนิกคิดว่าคุณภาพและความแปลกใหม่คงไม่เท่าการสร้างจากทีมผู้เชี่ยวชาญค่ะ)

นอกจากนี้จากการที่เราสามารถสร้างวิดีโอตามความยาวที่เราต้องการ พร้อมด้วยฉาก ตัวละคร และการเคลื่อนไหว ตลอดจนแทรก Product หรือแคมเปญ ของเราเข้าไปผ่านการ Prompting ทำให้ Marketer สามารถโฟกัสสิ่งที่ตรงประเด็นที่ต้องการจะสื่อสารกับกลุ่มลูกค้าได้ยิ่งขึ้น และสามารถปรับปรุงแต่ละวิดีโอให้มีความเป็น Personalize ได้ง่ายและรวดเร็ว เพื่อเพิ่มผลสัมฤทธิ์ด้านการตลาด และการมีส่วนร่วมในแคมเปญ (ﾉ◕ヮ◕)ﾉ*:･ﾟ✧

source: https://openai.com/research/video-generation-models-as-world-simulators

#สรุปเพิ่มเติมด้าน Marketing

สรุปแล้วหากเรามีการนำเอา OpenAI’s-Sora มาช่วยงานทางด้านการตลาด ทั้งในส่วนของการโฆษณาเอง ตลอดจนการทำการตลาดแบบ Personalized หรือการ Create video สำหรับแคมเปญ จะส่งผลให้การทำ Marketing ของเราได้รับ Benefits ดังนี้ค่ะ

ความเร็ว/ประสิทธิภาพ: จากคอนเซปต์ง่ายๆ เลยค่ะว่า เป็นการสร้างในเวลาไม่กี่นาที ไม่ใช่หลายสัปดาห์เช่นเคยอีกต่อไป
ต้นทุน: ลดงบประมาณการผลิตวิดีโอ โดยคุณภาพยังคงใกล้เคียงเดิม หรืออยู่ในคุณภาพที่รับได้
Innovation: เป็นการเปิดโอกาสใหม่ๆ สำหรับการเล่าเรื่องหรือสื่อสาร ที่สร้างสรรค์ผ่านการแสดงออกของแบรนด์ที่มีเบื้องหลังเป็น AI
ความเท่าเทียมทางการแข่งขัน: ทำให้การผลิตวิดีโอที่ซับซ้อนเป็นเรื่องง่ายสำหรับพวกเราทุกคน ทำให้ Marketer รายเล็กๆ สามารถแข่งขันกับรายใหญ่ได้

ข้อจำกัดในการใช้งาน (เฉพาะตอนนี้นะคะ)

จากการที่ OpenAI’s-Sora เป็นโมเดลที่พึ่งถูกปล่อยออกมาใหม่ทำให้ยังสามารถพบ Challenge ในการใช้งานบางอย่างดังนี้ค่ะ:

จากการอยู่ภายใต้เงื่อนไขการให้บริการของ OpenAI ซึ่งห้ามการใช้งานโมเดลสำหรับสร้างเนื้อหาที่เกี่ยวข้องกับ “ความรุนแรงสุดขีด, เนื้อหาทางเพศ, ภาพที่เป็นการเกลียดชัง, การเลียนแบบคนดัง, หรือลิขสิทธิ์ของผู้อื่น” นอกจากนี้ OpenAI ยังตรวจสอบการใช้งาน และมีสิทธิ์ถอนการเข้าถึงหรือปรับเปลี่ยนผลลัพธ์หากตรวจพบการละเมิดหรือการใช้งานในทางที่ผิดได้ ซึ่งนั่นหมายความว่าพวกเราต้องพยายามไม่ Create อะไรที่สุ่มเสี่ยงต่อการถูกแบนด์ค่ะ^^
จากการที่เป็น Transformer model เช่นเดียวกับ ChatGPT หรืออื่นๆ หมายความว่า โมเดลนี้ก็มีโอการ Hallucinate หรือ “หลอน” เช่นเดียวกันค่ะ ทำให้อาจมีการสร้างเนื้อหาที่ไม่ถูกต้อง หรือมีการบิดเบือนข้อเท็จจริง การละเมิดความเป็นส่วนตัว หรือส่งเสริมอคติ เกิดขึ้นได้ เพราะฉะนั้นก่อนการ Public วิดีโอออกไป พวกเราก็ควรทำการตรวจสอบความถูกต้องให้ชัดเจนค่ะ
ตัวโมเดลอาจยังไม่สามารถจัดการกับคำสั่งที่ซับซ้อนหรือคลุมเครือได้ค่ะ เช่น คำสั่งที่ประกอบด้วยประโยคหลายประโยค การใช้เหตุผลตามหลักตรรกะ หรือแนวคิดที่เป็นนามธรรม ที่อาจทำให้โมเดลงงๆ และสร้างผลลัพธ์ที่ผิดพลาดได้