สิ่งที่ผมรู้ หากคุณอ่าน คุณจะรู้ตามผมไปด้วย

01-10-2007

Information Extraction (IE)

Filed under: Information Extraction — ejeepss @ 15:08:50

Information Extraction

หมายถึงกระบวนการในการสกัดสารสนเทศ ออกจากเอกสารที่เราสนใจ ตัวอย่างเช่น หากเราอ่านหนังสือพิมพ์ 1 เล่ม เราคงเลือกอ่านเฉพาะคอลัมน์ที่สนใจ และในคอลัมน์ที่เราสนใจนั้น อาจยาวมาก ซึ่งหลายท่านอาจจะอ่านเฉพาะย่อหน้า หรือจุดที่สนใจเท่านั้น ดังนั้น หากเราจะทำอย่างไรให้คอมพิวเตอร์เข้าใจและสกัดเฉพาะสารสนเทศ ที่เราสนใจ เราอาจต้องใช้เทคนิค หรือ Algorithm ที่จะทำให้คอมพิวเตอร์เข้าใจเนื้อหาข้อเอกสารข้อความ และสกัดเอาสิ่งที่เราสนใจออกมา

ในงานด้าน Search Engine นั้น ถามว่าได้่ใช้หลักการ Information Extraction หรือไม่? คำตอบคือจำเป็นต้องใช้เป็นอย่ากมาก ตัวอย่างเช่น Google ใช้ Google Bot (โปรแกรมไต่ตาม Link Webpage เพื่อเก็บข้อมูลใน Index Server เพื่อให้ผู้ใช้มาค้นได้อย่างรวดเร็ว) นั้น ยิ่งใช้หลักการของ Information Extraction เป็นอย่างมาก เนื่องจากเมื่อ Google Bot มาไต่ไปยังเว็บเป้าหมาย ก็จะเก็บเอกสาร HTML ทั้งหมด ไปเพื่อวิเคราะห์ว่า ในหน้า Webpage นี้ มี Title Body <H1> มีคำว่าอะไร และแต่ละคำนั้น เกี่ยวข้องกับเรื่องใดบ้าง เพื่อจะจัดเก็บใน Index Server ได้ถูกต้องว่า Webpage นี้เกี่ยวกับอะไร เช่น Webpage นี้เกี่ยวกับ กีฬา เกี่ยวกับ คอมพิวเตอร์ และด้านไหน เพื่อให้ผลลัพท์ของการค้น ตรงใจผู้ใช้ที่ต้องการค้นหามากที่สุด

หลักการของ IE นั้น ก็เพื่อสกัดสารสนเทศ หรือข้อมูลที่เราสนใจ ออกจากเอกสารประเภทตัวอักษร ทั้งในเอกสารที่มีรูปแบบมีโครงสร้างบางส่วน (Semi-structure) และเอกสารที่ไม่มีโครงสร้าง (Unstructured) ซึ่งโดยทำการแปลงเอกสารที่ได้กล่าวมาแล้ว จากเอกสารขนาดใหญ่ที่เป็นเอกสารสำหรับเรียนรู้ (Corpus) ตัวอย่างงานด้านต่าง ๆ ที่นำ IE ไปใช้ดังนี้

  • Newspaper articles การหาสารสนเทศที่สนใจ จากหนังสือพิมพ์โดยอัตโนมัติ
  • Web pages หาข้อมูลที่สนใจจาก WebPage ตัวอย่างเช่น Google Bot เป็นต้น
  • Newsgroup messages จากสารสนเทศจากข้อความในกลุ่ม เช่น สกัดหาข้อมูลจาก Mail เพื่อหาข้อมูลที่สนใจ
  • Classified ads หาเฉพาะสารสนเทศโฆษณาที่สนใจจากโฆษณาทั้งหมด

ตัวอย่างเช่น CIA และ NSA ใช้ IE ในการสกัดหาแนวโน้ม หรือการส่งสัญญาณ จากตัวอักษรผ่านทางหนังสือพิมพ์ทุกฉบับ เว็บไซต์ที่ต้องสงสัย หรือเอกสารอื่น ๆ เพื่อหาแนวโน้มการโจมตีจากจากผู้ก่อการร้าย เป็นต้น

amazon.jpg
อีกตัวอย่างที่สนใจ เช่น Website Amazon หากเราต้องการเก็บข้อมูลหนังสือต่าง ๆ โดยเราสามารถใช้ Amazon เป็นฐานข้อมูลก็ย่อมทำได้ เนื่องจาก Amazon นั้น มีการจัดเรียง และจัดเก็บข้อมูลเป็นหมวดหมู่ เราเพียงสร้าง Bot ที่มีความสามารถในการเรียกเก็บข้อมูลไปเรื่อย ๆ และเราก็นำเอาเอกสาร Html มาสกัดหา สารสนเทศที่เราสนใจ ได้ เช่น หากเราต้องการเก็บหนังสือเกีี่่ยวกับ ธุรกิจ เราก็อาจใช้คำค้น โดยดึงเอาเฉพาะ Title ชื่อผู้แต่ง บทนำ มาเก็บไว้ในฐานข้อมูลเรา ซึ่งวิธี IE นี้จะสกัดสารสนเทศที่ต้องการออกมา จะเหมาะกับการ Mining สารสนเทศที่เราสนใจ ตัวอย่างเช่น เราต้องการค้นหาหนังสือที่เป็นหนังสืออ่านสบาย ๆ ที่มีบรรยากาศชนบท จากหนังสือใน Amazon โดยวิธีการคือ เขียน Bot ไปไล่เก็บ HTML จาก Amazon ต่างๆ โดยสกัดเอาคำเกี่ยวกับ ชนบท เช่น คำว่า ไ่ร่นา ทุ่งขาว บรรยากาศดี อากาศสบาย เป็นต้น เพื่อสกัดเอาคำที่สนใจและเอาเอกสารมา Mining ประเภท Classification เช่น Naive Bayes Rocchio kNN เป็นต้น เพื่อจะบอกได้ว่าเอกสารใดบ้างมีเกี่ยวข้องกับสิ่งที่เราค้นหา

amazon_html.jpg

ตัวอย่างเอกสาร HTML หนังสือจาก Amazon

amazon_html1.jpg
เมื่อ Extraction จะได้สารสนเทศที่สนใจ

การ Extraction เอกสาร HTML นั้น อาจเรียอีกอย่างหนึ่งได้ว่า Web Extraction ซึ่งส่วนใหญ่จะเป็นการสกัดสารสนเทศจากเอกสาร HTML (Semi-structured) หรืออาจเรียกได้ว่า wrapper หรือ screen scraping Website ที่จะถูกสกัดสารสนเทศได้นั้น จะต้องมี Template เช่น Amazon หรือ HTML ที่มี Template ที่ชัีดเจนเท่านั้น เทคนิคนั้นจะใช้ Pattern ในการสกัดเอกสารเช่น

Amazon list price:
Pre-filler pattern: “<b>List Price:</b> <span class=listprice>”
Filler pattern: “\$\d+(\.\d{2})?\b”

แต่ปัญหาที่มักจะเกิดขึ้นนั้นคือ ภาษาของเอกสารนั้น ๆ หากเป็นภาษา English จะมีข้อดีคือ คำแต่ละคำจะถูกแบ่งด้วยช่องว่าง (Space) แต่สำหรับภาษาไทยนั้น เป็นเรื่องยาก เนื่องจากเป็นภาษาที่เขียนติด ๆ กันจึงทำให้ต้องใช้หลักการ NLP (Natural Language Processing) เข้ามาช่วย ตัวอย่างเช่นคำว่า ตากลม (ตา-กลม) กับ ตากลม (ตาก-ลม) นั้น เป็นเรื่องยากที่จะให้คอมพิวเตอร์เข้าใจ จึงต้องใชหลักการทาง NLP เข้ามาช่วย อาจใช้ n-Grams หรือการดูคำใกล้เคียงจาก Curpus หรือใช้เทคนิค Dictionary ฯลฯ เพื่อให้สามารถสกัดเป็นคำภาษาไทยได้อย่างถูกต้องและถูกความหมาย

ขอบพระคุณที่สนใจอ่าน

Reference : info_extraction.pdf

Powered by WordPress