Extracting only Thai text using Python

import codecs
import re
import sys

for line in codecs.open(sys.argv[1], encoding="UTF8", errors='ignore'):
    for unit in re.split('([\u0E00-\u0EFF]+)', line):
        if re.match('[\u0E00-\u0EFF]+', unit):
            print(unit)

(I used Python 3.2.x)

Advertisements

ถ้าเธอทั้งหลายจักขุ่นเคือง หรือจักโทมนัสน้อยใจในคนเหล่านั้น อันตรายจะพึงมีแก่เธอทั้งหลาย เพราะเหตุนั้นเป็นแน่

“พระผู้มีพระภาคตรัสว่า ดูกรภิกษุทั้งหลาย คนพวกอื่นจะพึงกล่าวติเรา ติพระธรรม ติพระสงฆ์ ก็ตาม เธอทั้งหลายไม่ควรอาฆาต ไม่ควรโทมนัสน้อยใจ ไม่ควรแค้นใจในคนเหล่านั้น ดูกรภิกษุทั้งหลาย คนพวกอื่นจะพึงกล่าวติเรา ติพระธรรม ติพระสงฆ์ ถ้าเธอทั้งหลายจักขุ่นเคือง หรือจักโทมนัสน้อยใจในคนเหล่านั้น อันตรายจะพึงมีแก่เธอทั้งหลาย เพราะเหตุนั้นเป็นแน่ ดูกรภิกษุทั้งหลาย คนพวกอื่นจะพึงกล่าวติเรา ติพระธรรม ติพระสงฆ์ ถ้าเธอทั้งหลายจักขุ่นเคือง หรือจักโทมนัสน้อยใจในคนเหล่านั้น เธอทั้งหลายจะพึงรู้คำที่เขาพูดถูก หรือคำที่เขาพูดผิดได้ ละหรือ?”

http://etipitaka.com/read?keywords=%E0%B8%AD%E0%B8%B1%E0%B8%99%E0%B8%95%E0%B8%A3%E0%B8%B2%E0%B8%A2&language=thai&number=3&volume=9