Hướng dẫn scrape data from website to google sheets - quét dữ liệu từ trang web sang trang tính của Google

Tất cả chúng tôi đã ở trong một tình huống mà chúng tôi phải trích xuất dữ liệu từ một trang web tại một số điểm.

Khi làm việc trên một tài khoản hoặc chiến dịch mới, ví dụ, bạn có thể không có dữ liệu hoặc thông tin để tạo quảng cáo.

Trong một thế giới lý tưởng, chúng tôi đã được cung cấp tất cả các nội dung, trang đích và thông tin liên quan mà chúng tôi cần, ở định dạng dễ nhập, như CSV, bảng tính Excel hoặc Google Sheet. .

Nhưng điều đó không phải lúc nào cũng như vậy.

Những người thiếu các công cụ để quét web - hoặc kiến ​​thức mã hóa để sử dụng một cái gì đó như Python để giúp đỡ với nhiệm vụ - có thể đã phải dùng đến công việc tẻ nhạt của việc sao chép và dán thủ công có thể hàng trăm hoặc hàng ngàn mục.

Trong một công việc gần đây, nhóm của tôi đã được yêu cầu:

  • Truy cập trang web của khách hàng.
  • Tải xuống hơn 150 sản phẩm mới trải rộng trên 15 trang khác nhau.
  • Sao chép và dán tên sản phẩm và URL trang đích cho mỗi sản phẩm vào bảng tính.

Bây giờ, bạn có thể tưởng tượng nhiệm vụ sẽ kéo dài như thế nào nếu chúng tôi thực hiện điều đó và thực hiện thủ công nhiệm vụ.

Không chỉ tốn thời gian, mà với một người nào đó theo cách thủ công mà nhiều mặt hàng và trang và phải sao chép và dán sản phẩm dữ liệu theo sản phẩm, cơ hội mắc lỗi hoặc hai là khá cao.

Sau đó, nó sẽ đòi hỏi nhiều thời gian hơn để xem xét tài liệu và đảm bảo rằng nó không có lỗi.

Có phải là một cách tốt hơn.

Tin tốt: Có! Hãy để tôi chỉ cho bạn cách chúng tôi đã làm điều đó.

Nhập khẩu là gì?

Nhập Google Sheets. Tôi thích bạn để đáp ứng chức năng nhập khẩu.

Theo trang hỗ trợ của Google, Nhập khẩu dữ liệu nhập khẩu từ bất kỳ loại dữ liệu nào có cấu trúc khác nhau bao gồm các nguồn cấp dữ liệu XML, HTML, CSV, TSV và RSS và Atom XML.

Về cơ bản, nhập khẩu là một chức năng cho phép bạn xóa dữ liệu có cấu trúc từ các trang web - không cần kiến ​​thức mã hóa.

Ví dụ, nó nhanh chóng và dễ dàng trích xuất dữ liệu như tiêu đề trang, mô tả hoặc liên kết, nhưng cũng có thông tin phức tạp hơn.

Làm thế nào để nhập khẩu có thể giúp loại bỏ các yếu tố của một trang web?

Bản thân chức năng khá đơn giản và chỉ yêu cầu hai giá trị:

  • URL của trang web chúng tôi dự định trích xuất hoặc xóa thông tin từ đó.
  • Và XPath của phần tử trong đó dữ liệu được chứa.

XPath là viết tắt của Ngôn ngữ đường dẫn XML và có thể được sử dụng để điều hướng thông qua các phần tử và thuộc tính trong tài liệu XML.

Ví dụ: để trích xuất tiêu đề trang từ https://en.wikipedia.org/wiki/moon_landing, chúng tôi sẽ sử dụng:

= INPORTXML (Hồi https://en.wikipedia.org/wiki/moon_landing,

Điều này sẽ trả về giá trị: Moon Landing - Wikipedia.

Hoặc, nếu chúng ta đang tìm kiếm mô tả trang, hãy thử điều này:

= INPORTXML (Hồi https://www.searchenginejournal.com/

Hướng dẫn scrape data from website to google sheets - quét dữ liệu từ trang web sang trang tính của Google

Dưới đây là danh sách rút gọn của một số truy vấn XPath phổ biến và hữu ích nhất:

  • Tiêu đề trang: // Tiêu đề
  • Trang META Mô tả: // meta [@name = Hồi mô tả]/@nội dung
  • Trang H1: // H2
  • Liên kết trang: //@href

Xem Nhập khẩu hoạt động

Kể từ khi phát hiện ra INTERMXML trong Google Sheets, nó thực sự đã trở thành một trong những vũ khí bí mật của chúng tôi trong việc tự động hóa nhiều công việc hàng ngày của chúng tôi, từ việc tạo chiến dịch và quảng cáo đến nghiên cứu nội dung, v.v.

Hơn nữa, chức năng kết hợp với các công thức và tiện ích bổ sung khác có thể được sử dụng cho các nhiệm vụ nâng cao hơn mà nếu không sẽ yêu cầu các giải pháp và phát triển tinh vi, chẳng hạn như các công cụ được xây dựng trong Python.

Nhưng trong trường hợp này, chúng tôi sẽ xem xét nhập khẩu dưới dạng cơ bản nhất của nó: Xóa dữ liệu từ một trang web.

Hãy để một cái nhìn vào một ví dụ thực tế.

Hãy tưởng tượng rằng chúng tôi đã được yêu cầu tạo một chiến dịch cho Tạp chí Công cụ Tìm kiếm.

Họ muốn chúng tôi quảng cáo 30 bài viết gần đây đã được xuất bản theo phần PPC của trang web.

Một nhiệm vụ khá đơn giản, bạn có thể nói.

Thật không may, các biên tập viên không thể gửi cho chúng tôi dữ liệu và vui lòng yêu cầu chúng tôi tham khảo trang web để nguồn thông tin cần thiết để thiết lập chiến dịch.

Như đã đề cập ở đầu bài viết của chúng tôi, một cách để làm điều này là mở hai cửa sổ trình duyệt - một với trang web và cách khác với Google Sheets hoặc Excel. Sau đó, chúng tôi sẽ bắt đầu sao chép và dán thông tin, bài viết theo bài viết và liên kết theo Link.

Nhưng bằng cách sử dụng nhập khẩu trong Google Sheets, chúng ta có thể đạt được đầu ra tương tự mà không có nguy cơ mắc lỗi, trong một phần nhỏ thời gian.

Đây là cách mà.

Bước 1: Bắt đầu với một tờ Google mới

Đầu tiên, chúng tôi mở một tài liệu Google Sheets mới, trống:

Hướng dẫn scrape data from website to google sheets - quét dữ liệu từ trang web sang trang tính của Google

Bước 2: Thêm nội dung bạn cần cạo

Thêm URL của trang (hoặc trang), chúng tôi muốn xóa thông tin từ đó.

Trong trường hợp của chúng tôi, chúng tôi bắt đầu với https://www.searchenginejournal.com/carget/pay-per-click/:

Hướng dẫn scrape data from website to google sheets - quét dữ liệu từ trang web sang trang tính của Google
Ảnh chụp màn hình được chụp từ Google Sheets, tháng 7 năm 2021

Bước 3: Tìm XPath

Chúng tôi tìm thấy XPath của phần tử chúng tôi muốn nhập nội dung vào bảng tính dữ liệu của chúng tôi.

Trong ví dụ của chúng tôi, hãy để bắt đầu với các tiêu đề của 30 bài viết mới nhất.

Đi đến Chrome. Sau khi lơ lửng trên tiêu đề của một trong các bài viết, nhấp chuột phải và chọn Kiểm tra.

Hướng dẫn scrape data from website to google sheets - quét dữ liệu từ trang web sang trang tính của Google
Ảnh chụp màn hình từ SearchEnginejournal.com, tháng 7 năm 2021

Điều này sẽ mở cửa sổ Công cụ Chrome Dev:

Hướng dẫn scrape data from website to google sheets - quét dữ liệu từ trang web sang trang tính của Google
Ảnh chụp màn hình từ SearchEnginejournal.com, tháng 7 năm 2021

Điều này sẽ mở cửa sổ Công cụ Chrome Dev:

Đảm bảo rằng tiêu đề bài viết vẫn được chọn và tô sáng, sau đó nhấp chuột phải lại và chọn Sao chép> Sao chép XPath.

Bước 4: Trích xuất dữ liệu vào Google Sheets

Quay lại tài liệu Google Sheets của bạn, giới thiệu chức năng nhập khẩu như sau:

= INPORTXML (B1, xông //*[starts

Một vài điều cần lưu ý:, in our formula, we have replaced the URL of the page with the reference to the cell where the URL is stored (B1).

Đầu tiên, trong công thức của chúng tôi, chúng tôi đã thay thế URL của trang bằng tham chiếu đến ô nơi lưu trữ URL (B1)., when copying the XPath from Chrome, this will always be enclosed in double-quotes.

Thứ hai, khi sao chép XPath từ Chrome, điều này sẽ luôn được đặt trong các trích dẫn kép.

(//*[@id = Tiêu đề_1]))

Tuy nhiên, để đảm bảo rằng nó không phá vỡ công thức, dấu ngoặc kép sẽ cần phải được thay đổi thành dấu hiệu trích dẫn duy nhất.

(//*[@id = Tiêu đề_1,]))

Lưu ý rằng trong trường hợp này, vì tiêu đề ID trang thay đổi cho mỗi bài viết (Title_1, Title_2, v.v.), chúng tôi phải sửa đổi một chút truy vấn và sử dụng các khởi động với nhau để nắm bắt tất cả các yếu tố trên trang với ID có chứa 'Tiêu đề.'

Hướng dẫn scrape data from website to google sheets - quét dữ liệu từ trang web sang trang tính của Google
Ảnh chụp màn hình được chụp từ Google Sheets, tháng 7 năm 2021

Đây là những gì trông trên tài liệu Google Sheets:

Hướng dẫn scrape data from website to google sheets - quét dữ liệu từ trang web sang trang tính của Google
Ảnh chụp màn hình được chụp từ Google Sheets, tháng 7 năm 2021

Và chỉ trong một vài khoảnh khắc, đây là kết quả trông như thế nào sau khi truy vấn đã được tải dữ liệu lên bảng tính:

Như bạn có thể thấy, danh sách trả về tất cả các bài viết được giới thiệu trên trang mà chúng tôi vừa được cạo (bao gồm cả phần trước của tôi về tự động hóa và cách sử dụng các tùy chỉnh quảng cáo để cải thiện hiệu suất chiến dịch của Google ADS).

Bạn có thể áp dụng điều này để cạo bất kỳ thông tin nào khác cần thiết lập chiến dịch quảng cáo của bạn.

Hãy để thêm các URL trang đích, đoạn trích xuất hiện của mỗi bài viết và tên của tác giả vào tài liệu tờ của chúng tôi.

Đối với các URL trang đích, chúng tôi cần điều chỉnh truy vấn để chỉ định rằng chúng tôi đang theo sau phần tử HREF được gắn vào tiêu đề bài viết.

Do đó, truy vấn của chúng tôi sẽ trông như thế này:

= INPERTXML (B1, xông //*[starts

Hướng dẫn scrape data from website to google sheets - quét dữ liệu từ trang web sang trang tính của Google
Ảnh chụp màn hình được chụp từ Google Sheets, tháng 7 năm 2021

Bây giờ, nối thêm ‘/@href, đến cuối XPath.

Hướng dẫn scrape data from website to google sheets - quét dữ liệu từ trang web sang trang tính của Google
Ảnh chụp màn hình được chụp từ Google Sheets, tháng 7 năm 2021

Voila! Ngay lập tức, chúng tôi có các URL của các trang đích:

Hướng dẫn scrape data from website to google sheets - quét dữ liệu từ trang web sang trang tính của Google
Ảnh chụp màn hình được chụp từ Google Sheets, tháng 7 năm 2021

Bạn có thể làm tương tự cho các đoạn trích và tên tác giả đặc trưng:

Xử lý sự cố

Một điều cần cẩn thận là để có thể mở rộng hoàn toàn và điền vào bảng tính với tất cả dữ liệu được trả về bởi truy vấn, cột trong đó dữ liệu được điền phải có đủ các ô miễn phí và không có dữ liệu nào khác theo cách.

Điều này hoạt động theo cách tương tự như khi chúng ta sử dụng ArrayFormula, để công thức mở rộng, không có dữ liệu nào khác trong cùng một cột.

Sự kết luận

Và ở đó bạn có một cách hoàn toàn tự động, không có lỗi, để xóa dữ liệu từ (có khả năng) bất kỳ trang web nào, cho dù bạn cần mô tả nội dung và sản phẩm hoặc dữ liệu thương mại điện tử như giá sản phẩm hoặc chi phí vận chuyển.

Trong thời gian mà thông tin và dữ liệu có thể là lợi thế cần thiết để cung cấp tốt hơn so với kết quả trung bình, khả năng cạo các trang web và nội dung có cấu trúc một cách dễ dàng và nhanh chóng có thể là vô giá. Bên cạnh đó, như chúng ta đã thấy ở trên, nhập khẩu có thể giúp cắt giảm thời gian thực hiện và giảm cơ hội mắc lỗi.

Ngoài ra, chức năng không chỉ là một công cụ tuyệt vời có thể được sử dụng độc quyền cho các tác vụ PPC, mà thay vào đó có thể thực sự hữu ích trên nhiều dự án khác nhau yêu cầu cạo web, bao gồm các tác vụ SEO và nội dung.

  • 2021 Sej Christmas Countdown:
  • #12 - Hồ sơ kinh doanh mới của Google: Hướng dẫn đầy đủ cho SEO địa phương
  • #11 - Cách tự động hóa cách phân cụm từ khóa SEO theo ý định tìm kiếm với Python
  • #10 - Nhận biết Google Analytics 4: Hướng dẫn đầy đủ
  • #9 - 7 điều tôi ước tôi đã biết sớm hơn trong sự nghiệp SEO của mình
  • #8 - Hướng dẫn để tối ưu hóa cho Google News, Top Stories và Earn
  • #7 - Các cụm từ khóa: Cách tăng cấp chiến lược nội dung SEO của bạn
  • #6 - Vital Web Core nâng cao: Hướng dẫn SEO kỹ thuật

#5 - Cách sử dụng Google Sheets để xây dựng chiến dịch & cạo râu

Làm cách nào để lấy dữ liệu từ một trang web đến Google Sheets?

Đây là cách ...
Bước 1: Bắt đầu với một tờ Google mới. Đầu tiên, chúng tôi mở một tài liệu Google Sheets mới, trống:.
Bước 2: Thêm nội dung bạn cần cạo. Thêm URL của trang (hoặc trang), chúng tôi muốn xóa thông tin từ đó. ....
Bước 3: Tìm XPath. ....
Bước 4: Trích xuất dữ liệu vào Google Sheets ..

Làm cách nào để nhập dữ liệu từ một trang web vào bảng tính?

Sử dụng: Nhập một bảng..
Bước 1: Sao chép URL.Nguồn hình ảnh: Wikipedia ..
Bước 2: Chọn bảng sẽ được nhập.Giả sử chúng tôi muốn nhập tất cả các bộ phim, đây là bảng đầu tiên trên trang.....
Bước 3: Thêm công thức trong tờ Google.Tạo một tờ Google mới hoặc tạo một tab mới trên một tờ hiện có ..

Tôi có thể cạo dữ liệu từ một trang web không?

Quét web là một phương pháp tự động được sử dụng để trích xuất một lượng lớn dữ liệu từ các trang web.Dữ liệu trên các trang web không có cấu trúc.Scraping web giúp thu thập các dữ liệu phi cấu trúc này và lưu trữ nó ở dạng có cấu trúc.Có nhiều cách khác nhau để cạo các trang web như dịch vụ trực tuyến, API hoặc viết mã của riêng bạn.. The data on the websites are unstructured. Web scraping helps collect these unstructured data and store it in a structured form. There are different ways to scrape websites such as online Services, APIs or writing your own code.

Google có cho phép quét web không?

Câu hỏi thường gặp.Bạn có thể xóa kết quả tìm kiếm của Google không?Có. Bạn có thể cạo Google SERP bằng cách sử dụng công cụ tìm kiếm Google tìm kiếm.Yes. You can scrape Google SERP by using Google Search Scraper tool.