การทำ Web scraping ด้วย ChatGPT ทดลองดึงข้อมูลจาก Amazon

การทำ Web scraping ด้วย ChatGPT ทดลองดึงข้อมูลจาก Amazon

สวัสดีค่ะเพื่อนๆ ในฐานะที่พวกเราอยู่ในแวดวงของการตลาดกัน,, นิกเชื่อว่าหลายๆ ท่านคงคุ้นเคยกับการดึงข้อมูลจากแหล่งต่างๆ ด้วยวิธีที่หลากหลาย โดยวิธีหนึ่งที่เป็นที่นิยมกันก็คงต้องมีเรื่องการทำ Web Scraping นั่นเองค่ะ

ซึ่งในบทความนี้เราจะมาอาศัยพลังของ Generative AI ตัวดังอย่าง ChatGPT ในการช่วยเราทำ Web Scraping โดยนิกจะขอพาทุกท่านลองดึงข้อมูลจาก Amazon ด้วยการยกตัวอย่าง ChatGPT Promt เพื่อให้ทุกท่านเห็นภาพ และสามารถต่อยอดนำไปประยุกต์ใช้กับข้อมูลที่เราสนใจกันได้,,,, ว่าแล้วก็มาเริ่มกันเลย (^∇^*)♪

การทำ Web Scraping ของ Kindle books จาก Amazon

ด้วยความที่นิกเป็นลูกค้าของ Kindle books จากค่าย Amazon และเชื่อว่ามีหลายๆ ท่านที่ชื่นชอบการอ่านหนังสือเช่นเดียวกัน เลยจะขอยกตัวอย่างเป็นการตามหาข้อมูลเพื่อมาวิเคราะห์ว่า หนังสือประเภทไหน ที่เป็นหนังสือขายดี หรือหนังสือที่กำลังเป็นเทรนด์ เพื่อเอาไว้พิจารณาค่ะว่า ในช่วงนี้ผู้คนกำลังให้ความสนใจองค์ความรู้ประเภทไหน และเราจะได้สร้างคอนเทนต์ที่ตอบโจทย์ หรือหาหนังสือเล่มนั้นเข้ามาอยู่ใน “กองดอง” ของเราบ้างค่ะ 🤣🤣

Step 1: โดยเริ่มแรกให้ทุกท่านเข้าไปที่ลิงค์: Amazon (book kindle)

Step 2: พิจารณารายละเอียดของข้อมูล

หลังจากนั้นเราก็จะมาพิจารณารายละเอียดของข้อมูลกันค่ะ ซึ่งสิ่งที่ได้มาสำหรับหนังสือ 1 เล่มก็ได้แก่

  1. ชื่อหนังสือ: ซึ่งเราจะมองเป็น Product หรือ Title
  2. ชื่อผู้เขียน
  3. ราคาของสินค้า

Step 3: ทำการ Inspect ดูโค้ด

จาก Step 2 เราจะเห็นว่ามีข้อมูล 3 ส่วนที่เราต้องพิจารณาคือ ชื่อหนังสือ, ชื่อผู้เขียน และราคาของสินค้า เพราะฉะนั้นใน Step นี้เราเลยจะมา Inspect Code เพื่อดูรายละเอียดที่เราจะมาใช้ร่วมกับ Prompt ของ ChatGPT กัน

โดยเพื่อนๆ ไม่ต้องกังวลนะคะว่า พอเป็นคำว่า Code แล้วจะยาก เพราะในส่วนนี้เราไม่ได้มาทำการ Code จริงๆ ค่ะ เพียงแต่เราจะ Inspect เพื่อดูองค์ประกอบของหน้า Webpage ที่แสดงข้อมูลที่เราต้องการทำ Web Scraping มาเท่านั้นเอง^^ ซึ่งสามารถทำได้ง่ายๆ ดังนี้

สำหรับ Window: สามารถ Click ขวา แล้วไปที่ Inspect ตามภาพด้านล่าง

หรือสำหรับ Mac ก็จะใช้เป็น “ Alt + Command +i ” ค่ะ

ซึ่งเมื่อได้ส่วนของ Inspect ออกมาแล้ว keywords หรือส่วนที่เราจะมาตามหาดูกันมีดังนี้,,,

  1. ชื่อหนังสือ ตามหาได้จากส่วน:
    <span class=”a-size-base-plus a-color-base a-text-normal”>Automate with Python with ChatGPT Advanced Data Analysis: Code Interpreter (No Code)</span>
  2. ชื่อผู้เขียน ตามหาได้จาก:
    <a class=”a-size-base a-link-normal s-underline-text s-underline-link-text s-link-style” href=”/Greg Lim/e/B09964CPY4?ref=sr_ntt_srch_lnk_1&amp;qid=1690568130&amp;sr=8–1″>Greg Lim</a>
  3. ราคา ตามหาได้จากส่วน:
    <span class=”a-price-whole”>14<span class=”a-price-decimal”>.</span></span>

Step 4: ทำการ Save ไฟล์ HTML สำหรับ Web Scraping

ซึ่งในขั้นตอนนี้สามารถทำได้ง่ายๆ ด้วยการกด “Ctrl + S” จากหน้าเพจที่เราต้องการได้เลย โดยข้อมูลที่เรา Save มาได้จะอยู่ในรูปแบบของ HTML Format

การทำ Web scraping ด้วย ChatGPT ทดลองดึงข้อมูลจาก Amazon
ทุกท่านสามารถกด Ctrl + S จากในลิงค์นี้ได้เลยค่ะ: Amazon book kindle

ซึ่งหลังจากที่กด Ctrl + S แล้ว ไฟล์ที่เราได้ออกมาจะอยู่ในรูปแบบของไฟล์ .html ตามภาพด้านล่างนี้ค่ะ

พอถึงขั้นตอนนี้เราก็จะได้ไฟล์ที่ชื่อ Amazon.com _ book kindle.html ออกมา ซึ่งเดี่ยวเราจะนำไปใช้ต่อในขั้นตอนต่อไป ซึ่งเป็นขั้นตอนที่สำคัญแล้วค่ะเพื่อนๆ

นั่นคือขั้นตอนของการอัพโหลดไฟล์เพื่อ Prompting หรือเขียน Prompt บน ChatGPT q(≧▽≦q)

Step 5: การ Upload ไฟล์ HTML

เมื่อเราได้ HTML File มาแล้ว เราก็จะ Move ไปกันที่ ChatGPT ตาม Link นี้กันค่ะ =>
https://chat.openai.com/ โดยในส่วนนี้นิกใช้เป็น ChatGPT4 นะคะ

ซึ่งเมื่อเข้ามาแล้วให้เราทำการ Upload File ด้วยขั้นตอนง่ายๆ ตามภาพด้านล่างค่ะ

และเมื่อ Upload แล้วก็จะได้ไฟล์แนบขึ้นมาตามนี้ ( •̀ ω •́ )✧

ซึ่งเมื่อมาถึงจุดนี้หมายความว่า ไฟล์ที่เราต้องการทำ Web Scraping ก็เรียบร้อยแล้ว เราก็จะพร้อมเข้าสู่ขั้นตอนต่อไป นั่นคือในส่วนของการทำ Promting หรือให้ ChatGPT หา Result สำหรับทำสิ่งที่เราต้องการสกัดข้อมูลออกมานั่นเองค่ะ,,,,

Step 6: การสร้าง Prompt บน ChatGPT สำหรับทำ Web Scraping

โดย Prompt ที่เราจะใช้ (ซึ่งนิกของ Prompt เป็นภาษาอังกฤษนะคะ เพราะลองเป็นภาษาไทยแล้วพบว่า ผลลัพธ์มีความเอ๋อๆ อยู่เล็กน้อยค่ะ) มีดังต่อไปนี้

1. บอกให้ ChatGPT ทำการสกัดเอาสิ่งที่เราต้องการจาก Step 1 นั่นก็คือ ชื่อหนังสือ, ชื่อผู้เขียน และราคา ออกมาให้เรา ด้วย Prompt ต่อไปนี้ค่ะ
“from the HTML file, extract the name of product, author and price, Put the data on a table and export it to a CSV file.”

ซึ่ง Results ที่ ChatGPT ให้เรามาก็จะมีหน้าตาประมาณภาพด้านล่างค่ะ (สำหรับผลลัพธ์ในส่วนนี้ นิกคิดว่าแต่ละคนจะได้หน้าตาของคำตอบออกมาแตกต่างกันบ้างนะคะ)

2. นำ Result จาก ChatGPT ไป Edit ต่อ: เนื่องจาก Results ที่ได้จาก Prompt ด้านบนจะมาพร้อมกับคำแนะนำที่ว่า ให้เราทำอะไรต่อ เพื่อให้ได้ข้อมูลจากการ Scraping ตามที่เราต้องการ ซึ่งหน้าตาของคำแนะนำแบบ step-by-step guide ก็เป็นไปตามภาพด้านล่างนี้ค่ะ

3. จากตัวอย่าง Code ที่ ChatGPT Provide มาให้นั้น ให้เราเข้าไปที่ https://colab.research.google.com/ แล้ว Copy ตัวโค้ดนั้น ไปใช้งานต่อได้เลย แบบง่ายๆ ชิลๆ

ซึ่งผลลัพธ์ที่ได้ออกมา ก็มักจะอยู่ในหน้าตาที่เป็นตารางตามที่เรา Prompt ไว้ และตามที่ ChatGPT สร้างตัวอย่างมาให้ตามขั้นตอนที่ 1(ย่อย) นั่นเองค่ะ^^
ป.ล. ในบทความนี้นิกจะยังไม่ลง Details ไปที่ขั้นตอนของ Colab นะคะ โดยในส่วนขั้นตอนของ Colab จะถูกแบ่งตอนไปเขียนในบทความต่อไปค่ะ

Last, but not least,,,,

สำหรับเพื่อนๆ ที่เคยทันใช้รุ่น Code Interpreter ของ ChatGPT จะสามารถดาวน์โหลดไฟล์ CSV ได้โดยตรงเลยนะคะ ซึ่งเป็นที่น่าเสียดายว่าปัจจุบันนี้ไม่สามารถทำอย่างนั้นได้แล้ว (แต่ถ้าเพื่อนๆ ท่านใดสามารถทำได้อยู่ สามารถพิมพ์คอมเมนต์เพื่อแนะนำทุกท่านไว้ได้เลยค่ะ => เดี๋ยวนิกตามด้วยคน^^) บทความนี้เลยแบ่งช่วงเป็นช่วง Prompting และจะมาต่อในพาร์ทของ Colab กันต่อ ซึ่งถึงแม้ว่าจะมีโค้ดบ้าง แต่ไม่ยากแน่นอนค่ะ และสำหรับชาว ChatGPT User เราก็น่าจะยังต้องตามกันต่อไปเรื่อยๆ ว่า ChatGPT ณ วันข้างหน้าจะมีการเปลี่ยนแปลงต่อไปเป็นอย่างไร ในยุคการแข่งขันที่ดุเดือดของ Generative AI ซึ่งแน่นอนค่ะว่า,,,, User อย่างพวกเราย่อมได้ประโยชน์หากเราติดตาม เรียนรู้ และใช้งานอย่างเต็มประสิทธิภาพ ψ(`∇´)ψ

Panaya Sudta

Hi, I am Nick,,,,Panaya Sudta (●'◡'●) Engineer during the daytime. Researcher at night. Reader in spare time. (❁´◡`❁) วิศวกร/นักวิจัย และเป็นน้องใหม่ของการตลาดวันละตอน ในการทำ Market research ค่ะ หวังเป็นอย่างยิ่งว่าจะได้แชร์มุมมองกันนะคะ

Leave a Reply

Your email address will not be published. Required fields are marked *