BeautifulSoup เพื่อคว้าเนื้อหาเว็บเพจในห้านาที - ผู้เชี่ยวชาญด้านซอลท์

Beautiful Soup เป็นแพ็คเกจ Python ที่ใช้สำหรับการแยกวิเคราะห์เอกสาร XML และ HTML มันสร้างการแยกวิเคราะห์ต้นไม้สำหรับหน้าเว็บและพร้อมใช้งานสำหรับ Python 2 และ Python 3 หากคุณมีเว็บไซต์ที่ไม่สามารถคัดลอกได้อย่างถูกต้องคุณสามารถใช้กรอบงาน BeautifulSoup ที่แตกต่างกันได้ ข้อมูลที่แยกจะมีความครอบคลุมอ่านง่ายและปรับขนาดได้ซึ่งมีคำหลักสั้นและหางยาวจำนวนมาก

เช่นเดียวกับ BeautifulSoup lxml สามารถรวมเข้ากับโมดูล html.parser ได้อย่างสะดวก หนึ่งในคุณสมบัติที่โดดเด่นที่สุดของภาษาการเขียนโปรแกรมนี้คือมันให้การป้องกัน สแปม และผลลัพธ์ที่ดีกว่าสำหรับข้อมูลตามเวลาจริง ทั้ง lxml และ BeautifulSoup นั้นเรียนรู้ได้ง่ายและมีฟังก์ชั่นหลักสามอย่าง: การจัดรูปแบบการแยกวิเคราะห์และการแปลงต้นไม้ ในบทช่วยสอนนี้เราจะสอนวิธีใช้ BeautifulSoup เพื่อคว้าข้อความของหน้าเว็บต่างๆ

การติดตั้ง

ขั้นตอนแรกคือการติดตั้ง BeautifulSoup 4 โดยใช้ pip แพ็คเกจนี้ใช้ได้ทั้ง Python 2 และ 3 BeautifulSoup ได้รับการบรรจุเป็นรหัส Python 2 และเมื่อเราใช้กับ Python 3 มันจะได้รับการอัปเดตโดยอัตโนมัติเป็นเวอร์ชั่นล่าสุด แต่รหัสนั้นไม่ได้รับการอัปเดตเว้นแต่เราจะติดตั้งแพคเกจ Python แบบเต็ม

การติดตั้ง Parser

คุณสามารถติดตั้ง parser ที่เหมาะสมเช่น html5lib, lxml และ html.parser หากคุณติดตั้ง pip คุณจะต้องนำเข้าจาก bs4 หากคุณดาวน์โหลดซอร์สคุณจะต้องนำเข้าจากไลบรารี Python โปรดจำไว้ว่า lxml parser มาในสองเวอร์ชัน: XML parser และ HTML parser parser HTML ทำงานไม่ถูกต้องกับ Python เวอร์ชันเก่า ดังนั้นคุณสามารถติดตั้งตัวแยกวิเคราะห์ XML ได้หากตัวแยกวิเคราะห์ HTML หยุดตอบสนองหรือติดตั้งไม่ถูกต้อง ตัวแยกวิเคราะห์ lxml เปรียบเทียบได้อย่างรวดเร็วและเชื่อถือได้และให้ผลลัพธ์ที่แม่นยำ

ใช้ BeautifulSoup เพื่อเข้าถึงความคิดเห็น

ด้วย BeautifulSoup คุณสามารถเข้าถึงความคิดเห็นของเว็บเพจที่ต้องการ ความคิดเห็นมักจะถูกเก็บไว้ในส่วนวัตถุความคิดเห็นและใช้เพื่อแสดงเนื้อหาของหน้าเว็บอย่างถูกต้อง

ชื่อลิงค์และส่วนหัว

คุณสามารถแยกชื่อหน้าลิงค์และส่วนหัวได้อย่างง่ายดายด้วย BeautifulSoup คุณเพียงแค่ต้องได้รับมาร์กอัปของหน้าเว็บด้วยรหัสเฉพาะ เมื่อได้รับมาร์กอัปคุณสามารถ ขูดข้อมูล จากส่วนหัวและหัวเรื่องย่อยได้เช่นกัน

นำทาง DOM

เราสามารถนำทางผ่านต้นไม้ DOM โดยใช้ BeautifulSoup การผูกแท็กจะช่วยให้เราดึงข้อมูลเพื่อวัตถุประสงค์ SEO

สรุป:

เมื่อขั้นตอนที่อธิบายไว้ข้างต้นเสร็จสมบูรณ์คุณจะสามารถคว้าข้อความหน้าเว็บได้อย่างสะดวก กระบวนการทั้งหมดจะใช้เวลาไม่เกินห้านาทีและสัญญาผลลัพธ์ที่มีคุณภาพ หากคุณต้องการดึงข้อมูลจากเอกสาร HTML หรือไฟล์ PDF จากนั้นทั้ง BeautifulSoup และ Python จะไม่ช่วยคุณ ในกรณีเช่นนี้คุณควรลองใช้เครื่องมือขูด HTML และวิเคราะห์เอกสารเว็บของคุณได้อย่างง่ายดาย คุณควรใช้ประโยชน์จากคุณสมบัติของ BeautifulSoup ในการขูดข้อมูลเพื่อการทำ SEO แม้ว่าเราจะชอบ parsers HTML ของ lxml เราก็ยังสามารถใช้ประโยชน์จากระบบสนับสนุนของ BeautifulSoup และสามารถได้ผลลัพธ์ที่มีคุณภาพในเวลาไม่กี่นาที