แนวทางในการแก้ให้ ICU ตัดคำภาษาลาวได้

หลังจากที่ได้ word list จาก au8ust มาผมก็ยังไม่ได้ทำอะไรกับ word list เลย. แต่เท่าที่ดูแล้วโปรแกรมที่แก้แล้วน่าจะมีประโยชน์กับหลายๆโปรแกรมน่าจะเป็น icu. อย่างเช่น OpenOffice.org เป็นต้น (แต่ก็ไม่รู้ว่าจริงหรือเปล่า)

หลังจากที่ดูคร่าวๆ แล้วไฟล์แรกที่น่าจะต้องแก้น่าจะเป็น source/common/dictbe.h ที่ในนั้นมี ThaiBreakEngine อยู่ ก็เลยคิดว่าก็คงต้องมี LaoBreakEngine ด้วยเหมือนกัน แก้กฎข้างในเล็กๆ น้อยๆ พวกไม้ยมก ก็คงจะไม่เหมือนกันหรือเปล่า … อันนี้ก็ไปแก้ใน source/common/dictbe.cpp

ตอนนี้แผนต่อไปก็คงต้องลงมือทำดูพร้อมเขียน test อะไรประมาณนั้น

ป.ล. libthai ก็ดูน่าสนใจดี มีใช้หลายโปรแกรมเหมือนกัน แต่ libthai ตัดคำภาษาลาวด้วยก็ดูแปลกๆ หรือเปล่า?

9 thoughts on “แนวทางในการแก้ให้ ICU ตัดคำภาษาลาวได้

  1. word list อันนั้น based on libthai ผมได้ทำการแก้ไขบางส่วนไปแล้ว แต่ดูเหมือนจะยังไม่สมบูรณ์เสียทีเดียว คงต้องปรับแก้กันอีกสักพักกระมัง แต่เบื้องต้นคงต้องรบกวนคุณวีทดสอบดูก่อน ว่ามันทำงานได้ตามที่คาดหวังหรือเปล่า

    ป.ล. คนถัดไปคิดว่า?

  2. เป็น แนวทางที่ดี ครับ

    ตอนนี้ผม ยัง ไม่มีฟามรู้อะไรเลย เอาไว้แล้วผมจะ เดีนตามไป ไปช้าๆ
    อิอิ
    ขอบใจ พี่ วีครับ

  3. เฮ้ กำลังจะทำใน libthai อยู่เลยครับ แต่อยากปรับเพิ่มขนาด index ของ datrie ก่อน

    แต่ภาษาลาว เคยเห็นคนลาวอธิบายว่าสามารถใช้ rule-based ได้เลยนี่ครับ

ใส่ความเห็น

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / เปลี่ยนแปลง )

Twitter picture

You are commenting using your Twitter account. Log Out / เปลี่ยนแปลง )

Facebook photo

You are commenting using your Facebook account. Log Out / เปลี่ยนแปลง )

Google+ photo

You are commenting using your Google+ account. Log Out / เปลี่ยนแปลง )

Connecting to %s