การแปลง .doc หรือ .docx หลาย ๆ ไฟล์ ไปเป็น plain text

ผมใช้ abiword, find และ xargs

find . -name ‘*.docx’  | xargs -P 8 -I ‘{}’ abiword -t txt ‘{}’

การใช้ xargs -P 8 นี่ทำให้ใช้เครื่องที่มี cpu หลาย ๆ core ให้เป็นประโยชน์ด้วย มันจะ fork abiword มาที 8 ตัวเลย

เทียบกับ unoconv แล้ว abiword มันเร็ว!

Posted in ไม่มีหมวดหมู่

ใส่ความเห็น

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / เปลี่ยนแปลง )

Twitter picture

You are commenting using your Twitter account. Log Out / เปลี่ยนแปลง )

Facebook photo

You are commenting using your Facebook account. Log Out / เปลี่ยนแปลง )

Google+ photo

You are commenting using your Google+ account. Log Out / เปลี่ยนแปลง )

Connecting to %s