0

wordcut 0.7.0 เรียกใช้จาก command line ได้แล้วครับ

wordcut คือโปรแกรมตัดคำ (word segmentation)

วิธีติดตั้ง

npm install -g wordcut

เวลาใช้ก็จะประมาณนี้อะครับ

$ wordcut
กากากา
กา กา กา

คือพิมพ์ กากากา เข้าไปมันก็ตัดได้ กา กา กา ออกมา

More info: http://github.com/veer66/wordcut

0

Keon + Thai keyboard

Keon + Thai keyboard

 

ขอบคุณ patch โดย @pittaya และวิธี install จาก https://hacks.mozilla.org/2013/06/updating-and-tweaking-your-firefox-os-developer-preview-phonegeeksphone/

สิ่งที่ผมลงไปคือ สิ่งนี้ วิธีคร่าว ๆ ก็คือลง rom nightly แบบวิธีตาม link ข้างบนแล้วก็ clone Gaia มา build แต่ว่าใช้ branch master เลย แล้วก็ merge กับ patch ของ @pittaya

20

โปรแกรมตัดคำ แบบใช้ PHP ล้วน ๆ

ที่ผ่านมามีหลายท่านสนใจถามเข้าหลังจากที่แสดงตัวอย่างเรียก Swath จาก PHP ให้ดู แต่ส่วนมากพอใช้บน Windows หลายคน ก็งง ๆ ผมก็งง ก็เลยจัดอันนี้ไป โปรแกรมตัดคำมันบน PHP ล้วน ๆ เสียเวลาเขียนไปหลายชั่วโมงอยู่ครับ น่าจะมี bug อะไรเต็มไปหมดถ้าท่านใดพบกรุณาแจ้งไปที่ https://github.com/veer66/PhlongTaIam/issue เดี๋ยวนี้ใช้ github แล้วครับ เพื่อท่านใดจะช่วยแก้จะได้ fork แล้ว pull request กลับมาได้เลย ไม่ต้องเสียเวลาย้ายไปย้ายมาให้ลำบากเหมือนโครงการก่อน

เข้าไป download ที่ https://github.com/veer66/PhlongTaIam ได้เลยครับ ถ้าเอาง่าย ๆ ก็ click ที่ปุ่มที่เขียนว่า zip และมีรูปเมฆมีลูกศรชี้ลงครับ ก็ได้ code ไปทั้งหมด เอาไปวางใน htdocs ก็น่าจะใช้ได้เลย

แต่ก็อาจจะเจ๊งบน Windows หรือสิ่งแวดล้อมที่ต่างจากที่ผมใช้อยู่อยู่ดี ถ้าปัญหาอะไรก็ถามไว้ที่นี่ได้ครับ แต่ว่าส่วนมากผมมักจะตอบไม่ได้  แต่ก็เผื่อมีท่านอื่นตอบได้ครับ

0

ตรวจความยาว string เวลาทำ UI (ของ Android)

เวลาแปล strings.xml ของ Android เป็นภาษาไทย บางทีมันยาวเกินแล้ว layout มันจะเละ ก็เลยเขียนโปรแกรมเล็ก ๆ มาตรวจดู โหลดได้จาก andthlen ต้องใช้ thailang4r ด้วยนะครับ มันพิเศษนิดนึง แต่ไม่รู้มีประโยชน์หรือเปล่าคือเวลาเปรียบเทียบ ผมตัดพวก สระอิ สระอู อะไรที่มันอยู่ข้างล่างข้างบนออกไป แล้วค่อยนับความยาว string … แต่เพื่อไม่ให้มันออกมามากเกินไป ผมเลือกเอาเฉพาะ string ที่ไทยยาวกว่าเกินอังกฤษ 20% เท่านั้น

0

สิ่งที่ควรทำก่อนใช้ LibreOffice กับภาษาไทย

ก่อนใช้ LibreOffice กับภาษาไทยทีแรกผมก็งง ๆ มันต้องเข้าไปที่ LibreOffice -> Preferences … แล้วก็เข้าไปทำตามรูปครับเลือก Enabled for complex text layout (CTL) ซะ เลือกภาษาไทยด้วย

libr

ทำแบบนี้แล้วสังเกตว่าอะไรจะราบรื่นขึ้น โดยเฉพาะเวลาที่ไปแก้ style

0

Part-of-speech tagger สำหรับภาษาไทย

โพสนี้จะใช้ model ที่ได้มาจาก corpus ของ NAiST Lab นะครับ ส่วนโปรกรมก็จะใช้ Jitar เนื่องจากว่า Jitar เขาใช้ Java นะครับ ก่อนอื่นก็ต้องติดตั้ง JDK ก่อน จากนั้นก็โหลด Jitar และ Model มาได้เลย  ตาม URL นี้ http://naist.cpe.ku.ac.th/pkg/jitar_model_large.zip และ http://naist.cpe.ku.ac.th/pkg/jitar-20100224.zip

พอแตก Zip ออกมาได้หาไฟล์ jitar-0.0.4.jar, ngrams และ lexicon ลากไปอยู่ใน folder เดียวกัน จากนั้นก็สร้างไฟล์สำหรับลองใช้โปรแกรมผมใช้ชื่อ test.txt เขียนข้างในว่า “ฉัน กิน ข้าว” อย่าลืมเว้นวรรคด้วยนะครับ ต้องใช้ charset เป็น UTF-8 ด้วย

เสร็จแล้วก็ลองรันดูแบบนี้ครับ java -cp jitar-0.0.4.jar org.langkit.tagger.cli.Tag lexicon ngrams < test.txt ก็จะได้ผลลัพธ์ออกเป็น pper vt ncn

pper คือ สรรพนามสำหรับแทนคน

vt คือ สกรรมกริยม

ncn คือ สามัญนาม