Citar – ซอฟตแวร์เสรีสำหรับระบุชนิดของคำ

เดิมที่ใช้ acopost แต่ว่า acopost พอเอาไปใช้บนเครื่อง amd64 ทั้งหลายแล้วออกอาการรวนๆ ผลลัพธ์ไม่เหมือนบนเครื่อง i386 ก็เลยมองหาตัวใหม่

แต่ pos tagger ตัวอื่นก็มีตั้งเยอะ ทำไมต้อง citar ก็เพราะว่า citar ไม่ค่อยมี code ที่ผูกติดกับภาษาใดภาษาหนึ่ง หรือว่า tag ของ ค่ายใดค่ายหนึ่ง (code ที่ผูกติด เช่น เช่น if pos == “NNP” แบบนี้เริ่มไม่น่าใช้แล้ว) พอไม่ผูกติดก็เอามาใช้กับาภาษาไทยได้เลย

citar ใช้ C++ เขียนไม่พอยังต้องลง QT รุ่นเท่ากับหรือใหม่กว่า 4.5 ด้วย ไม่ได้ทำ gui อะไรแต่ว่าใช้พวก QStringList อะไรทำนองนี้เป็นต้น วิธีการใช้ก็คล้าย acopost

พอ build citar เสร็วแล้ว เราก็เรียกคำสั่ง train corpus.txt lex.dat ngram.dat

corpus.txt เราก็ใส่พวก ฉัน/noun กิน/verb ข้าว/noun อะไรแบบนี้ไว้เยอะ เวลาเอาไปใช้ก็เรียก

tag lex.dat ngram.dat แล้วพิมพ์ข้อความเข้าไป แบบเว้นวรรคด้วยมันก็จะใส่ part-of-speech มาให้

วิธี download มาใช้ก็สั่ง git clone git://gitorious.org/citar/citar.git มันก็มาแล้ว ถ้ามี QT อยู่ก็จะมี qmake ด้วยก็สั่ง qmake citar.pro พอได้ไฟล์ Makefile ก็สั่ง make

ใส่ความเห็น

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / เปลี่ยนแปลง )

Twitter picture

You are commenting using your Twitter account. Log Out / เปลี่ยนแปลง )

Facebook photo

You are commenting using your Facebook account. Log Out / เปลี่ยนแปลง )

Google+ photo

You are commenting using your Google+ account. Log Out / เปลี่ยนแปลง )

Connecting to %s