OpenAI เตรียม ChatGPT และ Dall-E มาทำงานร่วมกัน เพื่อการสร้างภาพในมิติใหม่พร้อมสำหรับคนทำงาน

ก่อนหน้านี้ OpenAI ได้เปิดตัว Dall-E 3 ซึ่งเป็นเวอร์ชันถัดไปของเครื่องมือปัญญาประดิษฐ์จากการแปลงข้อความเป็นรูปภาพ Dall-E 3 จะวางจำหน่ายให้กับลูกค้า ChatGPT Plus และ Enterprise ในเดือนตุลาคมนี้

OpenAI กล่าวว่าเครื่องมือนี้จะรวมเข้ากับแชทบอท AI เจนเนอเรชั่น ChatGPT และเราจะสามารถสร้างและปรับรูปภาพที่สร้างขึ้นด้วยความช่วยเหลือของ ChatGPT

แล้ว DALL-E 3 คืออะไร?

DALL-E 3 เป็นตัวอย่างของโมเดลปัญญาประดิษฐ์ที่ถูกพัฒนาโดย OpenAI ซึ่งเป็นตัวอัพเกรดของ DALL-E 2 โมเดลนี้ใช้ในการประมวลผลข้อมูลที่มาจากทั้งข้อความและรูปภาพ ดังนั้นเราสามารถเรียก DALL-E 3 ว่า “การรวมข้อความและรูปภาพแบบปัญญาประดิษฐ์” เป็นโมเดลที่เชี่ยวชาญในการเชื่อมโยงแนวคิดของข้อความและรูปภาพในพื้นที่ความคิดสร้างสรรค์และจินตนาการของมันเอง

DALL-E 3 รุ่นนี้ได้รับการฝึกฝนด้วยคู่ข้อความ-รูปภาพจำนวนมากจากอินเทอร์เน็ตเพื่อเรียนรู้การเชื่อมโยงระหว่างคำศัพท์และภาพที่มีอยู่ในข้อมูลเหล่านั้น โดยการเรียนรู้ความสัมพันธ์ระหว่างข้อความและรูปภาพ โมเดลนี้สามารถสร้างรูปภาพขึ้นมาในการตอบสนองกับข้อความที่ได้รับ โดยใช้ความคิดสร้างสรรค์และจินตนาการของมันเอง

ข้อมูลที่ DALL-E 3 รับเข้ารหัสมีโทเค็นสูงสุด 1280 รายการ โทเค็นเป็นสัญลักษณ์ของคำศัพท์ที่ไม่ต่อเนื่อง ซึ่งแปลว่าแต่ละโทเค็นเป็นส่วนของคำหรือคำสัญลักษณ์ที่เข้ารหัสความหมาย โทเค็นของข้อความถูกเข้ารหัสด้วย BPE (การเข้ารหัสคู่ไบต์) โดยที่โทเค็นสูงสุดในข้อความที่ได้รับคือ 256 โทเค็น

ในกรณีของรูปภาพ DALL-E 3 ใช้ VQ-VAE (ตัวเข้ารหัสอัตโนมัติแบบแปรผันเชิงเวกเตอร์เชิงปริมาณ) ในการเข้ารหัสรูปภาพ โดยที่รูปภาพถูกแปลงเป็นลำดับของโทเค็น โทเค็นสูงสุดในรูปภาพคือ 1024 โทเค็น

ด้วยข้อมูลข้อความและรูปภาพที่เข้ารหัสด้วยโทเค็นเหล่านี้ โมเดล DALL-E 3 สามารถแปลงข้อมูลเหล่านี้ให้อยู่ในพื้นที่ความคิดสร้างสรรค์และจินตนาการเพื่อสร้างรูปภาพในการตอบสนองกับข้อความที่ได้รับ การใช้โทเค็นในการเข้ารหัสทั้งข้อความและรูปภาพเป็นวิธีที่ DALL-E 3 ใช้ในกระบวนการสร้างสรรค์ภาพและคำขึ้นมาในสตรีมข้อมูลเดียวกัน โดยที่ข้อมูลที่ใช้เป็นสตรีมข้อมูลเดียวคือข้อความและรูปภาพที่ถูกเข้ารหัสด้วยโทเค็นของโมเดลนี้

การฝึกฝน DALL-E 3 ใช้วิธีความน่าจะเป็นสูงสุด (maximum likelihood) คือการทำให้โมเดลเรียนรู้และสร้างความน่าจะเป็นสูงสุดของแต่ละโทเค็นและคู่ข้อความ-รูปภาพที่ได้รับในข้อมูลการฝึกฝน โมเดลจะพยายามให้ความน่าจะเป็นสูงสุดของความหมายของโทเค็นแต่ละตัวและความสอดคล้องระหว่างข้อความและรูปภาพที่มีอยู่ในข้อมูล การใช้วิธีนี้ทำให้ DALL-E 3 เรียนรู้ความสัมพันธ์ระหว่างคำศัพท์และภาพอย่างเหมาะสมในข้อมูลฝึกฝน

ด้วยการฝึกฝนด้วยวิธีความน่าจะเป็นสูงสุด เราสามารถสร้างรูปภาพที่สอดคล้องกับข้อความที่ได้รับโดย DALL-E 3 โดยการเพิ่มความน่าจะเป็นสูงสุดของแต่ละโทเค็นและคู่ข้อความ-รูปภาพที่เข้ารหัสข้อความและรูปภาพนั้น นี่หมายความว่า DALL-E 3 สามารถสร้างรูปภาพตั้งแต่เริ่มต้นหรือสร้างส่วนใดๆ ของรูปภาพที่มีอยู่ใหม่ และรูปภาพนั้นจะสอดคล้องกับข้อความที่ถูกให้เข้ารหัส

DALL-E 3 เปรียบเสมือนความก้าวหน้าที่สำคัญในด้านคุณภาพของรูปภาพที่สร้างขึ้น

ความสามารถในการบูรณาการกับ ChatGPT ยังเพิ่มความสะดวกในการใช้งาน โดยเชื่อมต่อระบบที่มีปัญญาประดิษฐ์และการเข้าสนองต่อคำถามและคำแนะนำของผู้ใช้ได้อย่างราบรื่นและธรรมชาติ รวมทั้งช่วยให้ผู้ใช้สามารถสร้างภาพและข้อความอย่างมีประสิทธิภาพและสร้างความสามารถในการสร้างสรรค์ที่ยิ่งใหญ่ขึ้นในการใช้งาน DALL-E 3 ในสถานการณ์ต่างๆ

ทั้งหมดนี้ช่วยให้ DALL-E 3 ถือว่าเป็นความก้าวหน้าอันมีคุณภาพสูงและมีความสามารถที่มีประสิทธิภาพมากขึ้นเมื่อเทียบกับ DALL-E ในหลายด้านของคุณภาพ ความเข้าใจของข้อความ และความสะดวกในการใช้งานในการสร้างภาพและข้อความจากข้อความที่กล่าวถึงและข้อมูลที่มีอยู่ในรูปแบบภาพในการตอบสนองหรือการสร้างสรรค์

นอกจากนี้ OpenAI ยังระบุมาตรการป้องกันบางอย่างที่จะใช้กับ Dall-E 3 มาตรการป้องกันบางส่วนรวมถึงการปฏิเสธคำของานศิลปะที่แสดงถึงบุคคลสาธารณะ และการจำกัดความสามารถของเครื่องมือในการสร้างเนื้อหาที่มีความรุนแรง ผู้ใหญ่ หรือแสดงความเกลียดชังได้อีกด้วย

DALL-E 3 สร้างภาพประเภทใดได้บ้าง

DALL-E 3 เป็นโมเดลปัญญาประดิษฐ์ที่มีความสามารถในการสร้างภาพที่แสดงออกในภาษาธรรมชาติและเป็นไปได้มากมาย ตัวอย่างความสามารถของ DALL-E 3 ในการสร้างภาพที่หลากหลายและสร้างสรรค์ได้ดี ได้แก่

1. รูปภาพของวัตถุหรือสัตว์ที่มีลักษณะเหมือนมนุษย์

DALL-E 3 สามารถสร้างรูปภาพของสัตว์หรือวัตถุที่มีลักษณะคล้ายกับมนุษย์โดยใส่ลายเสื้อสูทหรือผูกเน็คไทต์เข้าไป เช่น แมวในชุดสูทและผูกเน็คไท

2. รูปภาพของวัตถุหรือสัตว์ผสมกัน

DALL-E 3 สามารถสร้างรูปภาพของสัตว์หรือวัตถุที่ผสมกันจากสองชนิดขึ้นไป เช่น สุนัขที่มีปีกผีเสื้อหรืองูที่มีหัวสิงโต

3. รูปภาพของวัตถุหรือสัตว์ที่ถูกดัดแปลง

DALL-E 3 สามารถสร้างรูปภาพที่มีการดัดแปลงหรือเพิ่มเติมลักษณะของวัตถุหรือสัตว์ เช่น รถยนต์ที่มีล้อเป็นชีสหรือดอกไม้ที่มีกลีบแก้ว

4. รูปภาพของวัตถุหรือสัตว์ในจินตนาการ

DALL-E 3 สามารถสร้างภาพที่ไม่มีอยู่ในความเป็นจริง แบบฉบับสรรค์ เช่น ยูนิคอร์นสีชมพูหรือมังกรไฟ

5. รูปภาพของฉากหรือทิวทัศน์ที่สมมติขึ้น

DALL-E 3 สามารถสร้างภาพที่ไม่มีอยู่ในความเป็นจริงและไม่สอดคล้องกับสถานที่จริงใดๆ เช่น เมืองลอยฟ้าหรือป่ามหัศจรรย์

6. รูปภาพของการเปลี่ยนแปลงหรือการดัดแปลงรูปภาพที่มีอยู่

DALL-E 3 สามารถเปลี่ยนแปลงบางสิ่งของรูปภาพหรือแก้ไขรูปภาพต้นฉบับ เช่น เปลี่ยนสีผมหรือดวงตาของบุคคลหรือเพิ่มหรือลบสิ่งของในรูปภาพ

DALL-E 3 น่าสนใจอย่างยิ่งเนื่องจากความสามารถในการสร้างรูปภาพที่มีความคิดสร้างสรรค์และหลากหลายจากข้อความที่ให้เข้ารหัส และมีคุณภาพสูง ทำให้มีประสิทธิภาพในการสร้างภาพที่เชื่อมโยงกับคำและความคิดของมนุษย์ได้แบบธรรมชาติและน่าสนใจมากขึ้นในหลายสาขาของสร้างสรรค์และการสร้างรูปภาพ

Comments are closed.