ไปฟังเรื่อง Statistical machine translation ของ CAS-ICT

ตามที่ได้เมล์มาจาก http://groups.google.com/group/thlta/browse_thread/thread/633acafdd560b738 มีบรรยายเรื่อง SMT ที่ CAS-ICT โดย Prof. Dr. LIU Qun วันนี้ก็ได้ไปฟังมาแล้ว ได้ความรู้มากกว่าที่คาดไว้อีก เรื่องแปลโดยใช้ Forest ผมโหลดไฟล์มาแล้ว แต่ยังไม่ได้อ่าน พอไปฟังแล้วก็จับประเด็นได้เลย ^_^

จัด 10 โมงเช้าเวลากำลังดีครับ แต่ก็อย่าที่ทราบกันว่า อุทยานวิทยาศาสตร์ ออกจะไกลสักหน่อย ผมก็เลยตื่นมาตั้งแต่ 6 โมงครึ่ง แล้วก็ไม่รู้ทำอะไรอยู่กว่าจะได้ออกจากบ้างก็ 8 โมง แต่ก็ไปทัน

PA227457.JPG

ให้ดูว่าผมไปทันด้วย😛

ไม่นานนัก ดร.เทพชัย ก็เปิดงาน

PA220003.JPG

เริ่มบรรยายแล้ว

Prof. Dr. Lui Qun

ภาพของบนใช้โทรศัพท์มือถือถ่าย แต่ว่าสิ่งที่สนใจคือ มี Vauquois triangle บน slide ด้วย แต่ว่าเขียนมาเพื่อใช้อธิบาย SMT เวลานี้

PA227461.JPG

Prof. Dr. LIU Qun แบ่งระดับการวิเคราะห์ที่ใช้ในการแปลเป็น 2 ระดับ คร่าวๆ คือ Phrase-based SMT และ Syntax-based SMT

Syntax-based SMT ยังแบ่งได้เป็น 2 ระดับย่อยๆ อีกคือ แบบที่ใช้ linguistic syntax กับ formal syntax แบบ linguistic syntax คือใช้ต้นไม้ที่อ้างอิงความรู้ทางภาษาศาสตร์ ส่วน formal syntax ก็ออกมาเป็น tree เหมือนกัน แต่ tree ที่สร้างไม่จำเป็นต้องเป็น tree ที่ถูกต้องตามหลักภาษาศาสตร์

SMT ที่แปลง tree แบบ linguistic syntax ไปเป็น อีกข้อความอีกภาษาเรียกว่า Tree-to-String SMT

ถ้าผมเข้าใจผิดก็ช่วยทักท้วงด้วยนะครับ

PA227463.JPG

ตามธรรมเนียมก็มอบของที่ระลึกกันไป ขอโทษที่ไม่ชัดนะครับ

Sunlong bus

เสร็จงานแล้วผมก็นั่งรถเมล์ ปอ. 29 กลับมาจากธรรมศาสตร์ ศูนย์รังสิต ครับ 20 บาท ถ้วน ถูกกว่า 510 ขาไป 4 บาท ขากลับรถเมล์ก็มาจากจีนครับยี่ห้อ Sunlong

นอกจากเรื่องวิชาการแล้วแนวการทำงานวิจัย CAS-ICT ก็ดูเน้นทางวิทยาการคอมพิวเตอร์มากกว่าภาษาศาสตร์ ถ้าผมจำไม่ผิดที่นั่นมีนักศึกษาปริญญาเอก ประมาณ 10 คน ปริญญาโทอีกประมาณ 10 คน software engineer อีก 3 คน ไม่มีนักภาษาศาสตร์เลย แม้แต่คนเดียว ผมคิดว่าที่ทำแบบนี้ได้น่าจะเป็นเพราะภาษาจีนมีทรัพยากรณ์ทางภาษาเช่น คลังต้นไม้ (Treebank) และ คลังข้อความขนาน (Parallel corpus) มากพอ งานที่นักภาษาศาสตร์ก็อยู่ในคลังต้นไม้อยู่แล้ว

งานที่น่าสนใจอีกอย่าง เขาทำระบบแปลสิทธิบัตรด้วย ที่พิเศษคือผู้ใช้ สามารถสร้าง template ได้เอง template ก็คล้ายๆ กับเป็นกฎแบบหนึ่ง ลักษณะประมาณนี้

c1 c2 c3 $X c4 $Y c5 c6
e1 $Y e2 $X e3 e4

โดยที่ e1, e2, e3 … เป็นคำภาษาอังกฤษ และ c1, c2, c3 … เป็นคำภาษาจีน ส่วน $X และ $Y ก็เป็นตัวแปรที่จะเปลี่ยนไปได้เรื่อยๆ (ผมเขียนแบบนี้เพราะจำตัวอย่างชัดๆ ไม่ได้)

ทุกภาพในบันทึกนี้สามารถคลิกดูภาพใหญ่ได้ครับ ทุกภาพใช้สัญญาอนุญาตแบบ Attribution-Noncommercial-No Derivative Works 2.0 Generic (คร่าวแล้วก็คือเอาไปใช้ได้นั่นเองครับ ส่วนรายละเอียดสามารถตามลิงค์ไปอ่านได้)

ใส่ความเห็น

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / เปลี่ยนแปลง )

Twitter picture

You are commenting using your Twitter account. Log Out / เปลี่ยนแปลง )

Facebook photo

You are commenting using your Facebook account. Log Out / เปลี่ยนแปลง )

Google+ photo

You are commenting using your Google+ account. Log Out / เปลี่ยนแปลง )

Connecting to %s