xs
xsm
sm
md
lg

กระหึ่ม AI ผลงานอาลีบาบา คลาวด์ "Tongyi Wanxiang" เนรมิตรูป "ModelScopeGPT" ลุยงานซับซ้อน

เผยแพร่:   ปรับปรุง:   โดย: ผู้จัดการออนไลน์


ภาพที่ Tongyi Wanxiang สร้างขึ้นมาหลังจากป้อนข้อความว่า ธรรมชาติที่สวยงาม ซ้อนทับกับเครื่องหมายที่วนซ้ำไม่สิ้นสุด และมีสีสันสดใส
แจ้งเกิด 2 เทคโนโลยี AI มาแรง "Tongyi Wanxiang" หรือทงอี้ ว่านเซี่ยง ('Wanxiang' หมายถึง 'ภาพนับหมื่นๆ ภาพ) ที่หน่วยงานหลักด้านอินเทลลิเจนซ์ของอาลีบาบา กรุ๊ปอย่างอาลีบาบา คลาวด์ได้เปิดตัวไว้ที่งาน World Artificial Intelligence Conference 2023 อีกเทคโนโลยีคือ "ModelScopeGPT" เฟรมเวิร์กที่มีความสามารถรอบตัวและออกแบบมาเพื่อช่วยผู้ใช้งานบรรลุเป้าหมายการทำงานด้าน AI ที่ซับซ้อนและเฉพาะทางทั้งโดเมนภาษา วิชัน และคำพูด ด้วยการใช้ประโยชน์จากโมเดล AI ต่างๆ ที่ ModelScope มีให้

นายจิงเหริน โซว ประธานเจ้าหน้าที่ฝ่ายเทคโนโลยีของอาลีบาบา คลาวด์ กล่าวว่า Tongyi Wanxiang เป็นตัวแทนของอีกหนึ่งความสำเร็จครั้งสำคัญในการสรรหาโมเดล generative AI ที่ล้ำหน้า เช่นเดียวกับที่บริษัทยังเดินหน้าสำรวจเทคโนโลยีที่เป็นการเปลี่ยนกระบวนทัศน์ต่างๆ เพื่อส่งเสริมให้ธุรกิจและชุมชนสามารถนำพลังแห่งความคิดสร้างสรรค์ และความสามารถในการสร้างผลงานออกมาใช้งานได้มากขึ้น

"การเปิดตัว Tongyi Wanxiang จะช่วยให้การสร้างรูปภาพด้วย generative AI คุณภาพสูงได้รับการใช้งานอย่างกว้างขวางมากขึ้น และช่วยสนับสนุนการพัฒนาศิลปะที่เป็น innovative AI และการแสดงออกที่สร้างสรรค์ของธุรกิจในหลากหลายอุตสาหกรรม เช่น อีคอมเมิร์ซ เกม การออกแบบ และการโฆษณา"

อีกตัวอย่างการสร้างรูปภาพจากข้อความโดย Tongyi Wanxiang
ความพิเศษของ Tongyi Wanxiang อยู่ที่การเป็นโมเดล generative AI ที่ล้ำสมัย และพร้อมให้ลูกค้าองค์กรในประเทศจีนได้ทดสอบการใช้งานแบบ beta แล้ว เบื้องต้น Tongyi Wanxiang เป็นส่วนหนึ่งของโมเดล generative AI นี้สามารถจัดการงานต่างๆ ได้อย่างเชี่ยวชาญ สามารถตอบสนองต่อการป้อนข้อความ (text prompts) ภาษาจีนและภาษาอังกฤษ เพื่อสร้างรูปภาพที่เก็บรายละเอียดได้มากและหลากหลายสไตล์ ไม่ว่าจะเป็นภาพที่ใช้สีน้ำ สีน้ำมัน และจิตรกรรมจีน ไปจนถึงแอนิเมชัน ภาพสเกตช์ ภาพประกอบที่เน้นความเรียบง่าย (flat illustration) และการ์ตูนสามมิติ

นอกจากนี้ โมเดลยังสามารถแปลงรูปภาพใดก็ได้ให้เป็นรูปภาพใหม่ที่มีสไตล์คล้ายกัน และกำหนดสไตล์ของรูปภาพผ่านการทรานส์เฟอร์สไตล์ ซึ่งจะคงเนื้อหาของรูปภาพต้นฉบับไว้ในขณะที่ใช้การมองเห็นสไตล์ของอีกภาพหนึ่ง

"โมเดลนี้ใช้ประโยชน์จากการฝึกและเรียนรู้เนื้อหาจากแหล่งที่มาหลายภาษา ที่ขับเคลื่อนโดยเทคโนโลยีการจัดเตรียมด้านความรู้ วิชวล AI และการประมวลผลภาษาธรรมชาติ (NLP) ที่ล้ำหน้าของอาลีบาบา คลาวด์ จึงสามารถเข้าใจความหมายของคำได้ดีมาก ดังนั้นจึงสามารถสร้างรูปภาพได้ถูกต้องและตรงตามบริบทที่ป้อนเข้ามายังโมเดลมากขึ้น"

ในอีกด้าน การเพิ่มประสิทธิภาพให้กระบวนการกระจายที่มีความละเอียดสูงตามอัตราส่วน signal-to-noise โมเดลนี้สามารถสร้างความสมดุลระหว่างความแม่นยำขององค์ประกอบและความคมชัดของรายละเอียด ในขณะที่เพิ่มความสามารถในการสร้างรูปภาพที่มีคอนทราสต์สูง สวยงามตระการตา และมีพื้นหลังที่สะอาดตา

Tongyi Wanxiang พัฒนาโดยใช้ Composer ซึ่งเป็นโมเดลขนาดใหญ่ที่อาลีบาบา คลาวด์ เป็นเจ้าของ ช่วยให้สามารถควบคุมเอาต์พุตขั้นสุดท้ายของรูปภาพได้เป็นอย่างดี เช่น การจัดวางเชิงพื้นที่ (spatial layout) และกลุ่มเครื่องมือที่ใช้กำหนดคุณสมบัติต่างๆ ของรูปภาพ (palette) ในขณะที่ยังคงรักษาคุณภาพการผสานรวมรูปภาพและความคิดสร้างสรรค์ไว้ได้

เพียงป้อนข้อความว่า "ภาพทิวทัศน์ของเมืองในยามโพล้เพล้ โลกที่ผสานสถาปัตยกรรมสมัยใหม่กับสุนทรียภาพแห่งอนิเมะ" ระบบก็จะสร้างภาพขึ้นมา

หรือแม้แต่ข้อความที่ป้อนว่า ธรรมชาติที่สวยงาม ซ้อนทับกับเครื่องหมายที่วนซ้ำไม่สิ้นสุด และมีสีสันสดใส

นอกจากนี้ อาลีบาบา คลาวด์ ยังเปิดตัว ModelScopeGPT เพื่อจัดการกับงาน AI ที่ซับซ้อน เพราะเฟรมเวิร์กทรงพลังที่ใช้ประโยชน์จากประสิทธิภาพของโมเดลด้านภาษาขนาดใหญ่ต่างๆ (LLMs) ที่มีอยู่บนแพลตฟอร์ม โดย ModelScopeGPT จะใช้ LLMs เป็นเครื่องมือควบคุมการเชื่อมต่อกับโมเดลที่เชี่ยวชาญเฉพาะโดเมนจำนวนมากใน ModelScope open-source community

ภาพที่ได้จากการป้อนข้อความ เด็กหญิงอายุหกขวบที่แต่งกายด้วยชุดสไตล์จีนของชาวฮั่น  อยู่ด้านหน้าราวแขวนเสื้อผ้า
ทั้งนี้ ModelScopeGPT สร้างอยู่ภายในระบบนิเวศ Model-as-a-Service ที่พรั่งพร้อม และใช้ความสามารถด้าน AI ต่างๆ ที่ให้บริการบนอาลีบาบา คลาวด์ ทั้งนี้องค์กรและนักพัฒนาสามารถใช้ ModelScopeGPT ได้ฟรี โดยสามารถเข้าถึงและใช้โมเดลที่เหมาะกับตนเองมากที่สุดเพื่อการทำงานด้าน AI ที่ซับซ้อนตามคำขอของผู้ใช้งาน เช่น การพัฒนาวิดีโอหลายภาษา

การเปิดตัวนี้จะต่อยอดถึงโมเดลขนาดใหญ่ด้านภาษา (LLM) ที่เพิ่งเปิดตัวในชื่อว่า Tongyi Qianwen เมื่อเดือนเมษายน และวางแผนที่จะนำ LLM นี้ไปใช้กับธุรกิจต่างๆ ของอาลีบาบาในอนาคตอันใกล้

"เพื่อเพิ่มประสบการณ์ที่ดีให้ผู้ใช้งาน ลูกค้าของบริษัทฯ และนักพัฒนาจะสามารถเข้าใช้โมเดลนี้เพื่อสร้างฟีเจอร์ AI ที่เหมาะกับตนเองด้วยค่าใช้จ่ายที่ไม่แพง ทั้งนี้ตั้งแต่เปิดตัวโมเดลนี้มามีคำขอเข้าทดสอบแบบเบต้ามากกว่า 300,000 รายการจากองค์กรหลายภาคส่วน เช่น ฟินเทค อิเล็กทรอนิกส์ ภาคการขนส่ง แฟชั่น และผลิตภัณฑ์จากนม"

นอกจากนี้ ยังมีการนำ Tongyi Qianwen ผสานรวมกับ Tingwu ซึ่งเป็นผู้ช่วยที่ชาญฉลาดของอาลีบาบา คลาวด์ เพื่อช่วยให้ผู้ช่วยนี้เข้าใจและวิเคราะห์เนื้อหามัลติมีเดียได้อย่างแม่นยำและมีประสิทธิภาพสูง ตั้งแต่เปิดตัวมามีผู้ใช้งานผู้ช่วยที่ขับเคลื่อนด้วย AI นี้กว่า 360,000 ราย


กำลังโหลดความคิดเห็น