เกี่ยวกับ web scraping

อ่านเรื่อง web scraping ที่ท่าน Arm Adisorn กรุณาแบ่งปันมา แล้วพิจารณาอยู่สักพัก

ผมคิดว่าเครื่องมือแกะ HTML แบบไม่ต้องรัน JS ที่ง่ายที่สุดเท่าที่ผมเคยใช้มาคือ Nokogiri กับ Ruby

โดยใน Nokogiri .css ทำให้ดึง node ได้ท่าเดียวกับ $(‘…’) ของ jQuery และ .text ก็ดึงเนื้อหาออกมาได้ดื้อ ๆ เลย เอามาใช้ร่วมกับ .map  ของ Ruby นี่สะดวกมาก ๆ

ดูเพิ่ม
http://ruby.bastardsbook.com/chapters/html-parsing/

Advertisements
This เรื่อง was posted in ไม่มีหมวดหมู่. Bookmark the permalink.

ใส่ความเห็น

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / เปลี่ยนแปลง )

Twitter picture

You are commenting using your Twitter account. Log Out / เปลี่ยนแปลง )

Facebook photo

You are commenting using your Facebook account. Log Out / เปลี่ยนแปลง )

Google+ photo

You are commenting using your Google+ account. Log Out / เปลี่ยนแปลง )

Connecting to %s