Yaitron in TEI P5 format

Yaitron สร้างมาจากการนำ LEXiTRON โดย NECTEC ที่อยู่ใน format คล้ายๆ XML มาแก้ให้เป็นเอกสาร XML และมีเอกสารอธิบาย tag ด้วย โดยที่แปลง format ให้คล้าย TEI กับ CDM.

TEI นี้ freedict บอกว่าจะใช้ด้วย (แต่ว่าลองดูใน cvs หรือว่า download มา ผมก็เจอแต่ format แบบ dictd -_-!). ผมก็แอบหวังว่าถ้าแปลง format มาเป็นแบบ TEI แล้วอาจจะใช้งาน tool หรืออะไรอื่นๆ ที่ใช้กับ freedict ได้ด้วย. ทำไปทำมา TEI ก็มีหลาย version ตอนนี้ freedict ยังใช้ P4 อยู่เลย แต่ว่าตอนนี้ TEI รุ่นปัจจุบันเป็น P5 แล้ว -_-!. ผมก็คิดต่อไปอีกว่าทำเป็น P5 ไปเลยก็ได้มั้งทำไปรอ เผื่อมี tool ตามมาทีหลัง.

แต่ยังมีกรณีที่ไม่แน่ใจอยู่มากเช่น classifier ผมแปลงไปเป็น

<xr type=”cl”><ref>ตัว</ref></xr>

ที่ในตัวอย่างไม่มี type=”cl” แต่ก็แปลงไปแล้ว.

อีกกรณีหนึ่งคือ translation-similar ผมแปลงเป็นแบบข้างล่าง

<cit type=”translation” subtype=”similar” xml:lang=”th”>

ที่ subtype=”similar” ก็ไม่มีในตัวอย่างเหมือนกัน ไม่รู้ว่าควรใช้หรือเปล่า

กรณี antonym ก็ไม่แน่ใจใช้ type=”ant” ไปที่ไม่มีในตัวอย่างเหมือนกัน

มากไปกว่าใน entry ใน yaitron มีหลายภาษามีก็ไปแทรก xml:lang=”th” หรือ xml:lang=”en” ใน เช่น <entry xml:lang=”th”> ก็ไม่รู้ว่าจะเข้าท่าหรือเปล่า

download ข้อมูลทั้งหมดได้ที่ http://basaasa.googlecode.com/files/yaitron-20081202.tei.bz2 นะครับ โดยมีสัญญาอนุญาตตามนี้ http://code.google.com/p/basaasa/wiki/LEXiTRONLicense. ส่วนโปรแกรมที่ใช้แปลงอยู่ใน http://code.google.com/p/basaasa/source/browse/?r=37#svn/trunk/yaitron

TEI format ดูได้จาก http://www.tei-c.org/release/doc/tei-p5-doc/en/html/DI.html

ใส่ความเห็น

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / เปลี่ยนแปลง )

Twitter picture

You are commenting using your Twitter account. Log Out / เปลี่ยนแปลง )

Facebook photo

You are commenting using your Facebook account. Log Out / เปลี่ยนแปลง )

Google+ photo

You are commenting using your Google+ account. Log Out / เปลี่ยนแปลง )

Connecting to %s