ดูด parallel corpus จาก mozilla

  1. ดูดภาษาอังกฤษ hg clone http://hg.mozilla.org/mozilla-central mozsrc
  2. ดูดภาษาไทย hg clone http://hg.mozilla.org/l10n-central/th mozth
  3. แล้วลงตัวแกะ dtd https://github.com/veer66/dtdmsg สั่ง  mvn jetty:run
  4. แล้วก็ลงตัวดูด https://github.com/veer66/mcorpusext แล้วก็สั่ง ruby extract.rb ถ้าเจ็งก็แก้ config.yaml ก่อน
  5. ก็จะได้ parallel corpus อยู่ในรูปแบบ json

 

ใส่ความเห็น

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / เปลี่ยนแปลง )

Twitter picture

You are commenting using your Twitter account. Log Out / เปลี่ยนแปลง )

Facebook photo

You are commenting using your Facebook account. Log Out / เปลี่ยนแปลง )

Google+ photo

You are commenting using your Google+ account. Log Out / เปลี่ยนแปลง )

Connecting to %s