Ngăn bot thu thập dữ liệu trang web

Đôi khi, bạn có thể cần ngăn các bot SEO thu thập dữ liệu trang web của mình, nếu bạn không muốn nội dung của nó được lập chỉ mục trực tuyến. Đây là cách ngăn các bot SEO thu thập dữ liệu trang web của bạn bằng rô bốt. tập tin txt. Bạn cũng có thể sử dụng các bước này để ngăn tất cả  bot spam và bot độc hại thu thập dữ liệu trang web của bạn

 

Làm thế nào để ngăn chặn các bot SEO thu thập dữ liệu trang web của bạn

Dưới đây là các bước để ngăn chặn các bot SEO thu thập dữ liệu trang web của bạn bằng rô bốt. tập tin txt

 

robot là gì. txt?

người máy. txt là một tệp văn bản chứa hướng dẫn thu thập thông tin cho các bot đến. Các bot tìm kiếm, bot spam và các bot khác tìm kiếm tệp này trước khi chúng thu thập dữ liệu trang web của bạn. Họ tiến hành tùy thuộc vào các hướng dẫn có trong tệp này. người máy. txt phải được phục vụ tại www. tên miền của bạn. com/robot. txt URL. Vì vậy, nếu trang web của bạn là www. Chào thế giới. com, sau đó là robot. txt nên được phục vụ tại www. Chào thế giới. com/robot. txt

Bạn có thể sử dụng robot. txt để yêu cầu các bot tìm kiếm không thu thập dữ liệu toàn bộ trang web của bạn hoặc các thư mục và trang cụ thể trong đó

Có khá nhiều quy tắc có sẵn để hướng dẫn bot thu thập thông tin. Những cái phổ biến nhất là

  • Đại lý người dùng. Tìm kiếm bot người dùng Thuộc tính tác nhân người dùng để nhận dạng chính bạn. Bạn có thể cho phép/không cho phép bot thu thập thông tin bằng cách đề cập đến tên tác nhân người dùng của chúng
  • không cho phép. Chỉ định các tệp hoặc thư mục không được phép thu thập thông tin
  • độ trễ thu thập thông tin. Chỉ định số giây bot sẽ đợi trước khi thu thập dữ liệu từng trang
  • Ký tự đại diện [*]. Được sử dụng để có nghĩa là tất cả các bot

Phần thưởng đọc. Cấu hình NGINX SSL [Từng bước]

 

Cách ngăn chặn Search Bots thu thập dữ liệu trang web của bạn

Chúng tôi sẽ xem xét một vài ví dụ để không cho phép rô bốt thu thập dữ liệu trang web của bạn. Dưới đây là tên tác nhân người dùng của các bot phổ biến để bạn tham khảo – Googlebot, Yahoo. , Slurp bingbot, AhrefsBot, Baiduspider, Ezooms, MJ12bot, YandexBot

 

Không cho phép tất cả các công cụ tìm kiếm thu thập dữ liệu trang web

Đây là những gì bạn cần thêm vào robot của mình. txt nếu bạn muốn không cho phép tất cả các bot thu thập dữ liệu trang web của bạn

User-agent: *
Disallow: /

Trong cấu hình trên, chúng tôi sử dụng ký tự đại diện * cho quy tắc tác nhân người dùng để không cho phép tất cả trong rô bốt. txt. Chúng tôi sử dụng url trang chủ [/] trong quy tắc Không cho phép để chỉ định toàn bộ trang web

Trong trường hợp này, chúng tôi không cho phép tất cả bot thu thập dữ liệu toàn bộ trang web của chúng tôi

Phần thưởng đọc. Linux liệt kê tất cả các quy trình theo tên, người dùng, PID

 

Cho phép tất cả các công cụ tìm kiếm thu thập dữ liệu trang web

Đây là những gì bạn cần thêm vào robot của mình. txt nếu bạn muốn cho phép tất cả bot thu thập dữ liệu trang web của mình

User-agent: *
Disallow:

Trong cấu hình trên, chúng tôi sử dụng ký tự đại diện * cho tác nhân người dùng để chỉ định tất cả các bot thu thập dữ liệu. Chúng tôi để trống quy tắc Disallow

Trong trường hợp này, chúng tôi cho phép tất cả các bot thu thập dữ liệu toàn bộ trang web của chúng tôi

Phần thưởng đọc. Cách ngăn liên kết ảnh nóng trong NGINX

 

Không cho phép một Công cụ Tìm kiếm Cụ thể thu thập dữ liệu trang web

Nếu bạn chỉ muốn không cho phép một bot thu thập dữ liệu cụ thể thu thập dữ liệu trang web của mình, hãy đề cập đến tên người dùng của nó trong quy tắc Tên người dùng

User-agent: BaiduSpider
Disallow: /

Phần thưởng đọc. Cách liệt kê tất cả các máy chủ ảo trong Apache

 

Không cho phép tất cả các công cụ tìm kiếm thu thập dữ liệu các thư mục cụ thể

Nếu bạn muốn không cho phép tất cả các công cụ tìm kiếm thu thập dữ liệu các tệp cụ thể [e. g /đăng ký. html, /thanh toán. php], hãy đề cập đến chúng một cách riêng biệt trong quy tắc Không cho phép

Quan điểm của tác giả hoàn toàn là của riêng họ [không bao gồm trường hợp thôi miên khó xảy ra] và có thể không phải lúc nào cũng phản ánh quan điểm của Moz

[Ảnh do tác giả tạo]

Kẻ cướp bot nằm ngoài tầm kiểm soát

Tôi luôn biết rằng các bot thu thập dữ liệu trang web của tôi và trang web của tất cả các nhà phát triển đồng nghiệp của tôi, nhưng tôi không biết rằng các bot hiện có nhiều lượt truy cập hơn mọi người đối với hầu hết các trang web. Đúng, họ đã chính thức vượt qua chúng tôi vào năm 2012 và bot hiện đang thống trị lượt truy cập trang web. Ví dụ, đó là Chiến tranh giữa các vì sao chạy điên cuồng

Tuy nhiên, trước khi trở nên lo lắng, chúng ta hãy xem xét một vài sự thật chứng minh ưu thế của bot trong cuộc sống của chúng ta

Các bot đang đến. Các bot đang đến. Các bot ở đây

[Nguồn ảnh]

Báo cáo lưu lượng bot năm 2013 của Incapsula nói rằng “Lượt truy cập bot tăng 21% tương ứng với 61. 5% tổng lưu lượng truy cập trang web. " Nếu bot chiếm ưu thế, thì điều đó có ý nghĩa gì đối với chúng tôi?

Đối với những người trong số các bạn chỉ theo dõi, ưu thế có nghĩa là “chất lượng hoặc thực tế là lớn hơn về số lượng, số lượng hoặc tầm quan trọng. ” Điều đó có nghĩa là bot “quan trọng hơn con người” trong việc xác định giá trị của trang web đối với người đọc tiềm năng

Xem nhanh các từ trái nghĩa của ưu thế cho thấy rằng hoàn cảnh của chúng ta tồi tệ hơn dự kiến. Các từ trái nghĩa cho ưu thế bao gồm bất lợi, thấp kém, phụ thuộc, phụ thuộc, đầu hàng và yếu đuối

Tất cả là không bị mất, tuy nhiên. Không phải tất cả các bot đều xấu. Trên thực tế, trong thế giới SEO hoang dã và hỗn độn, Googlebots thực sự là bạn của chúng ta. "Googlebot" là bot thu thập dữ liệu web của Google, còn được gọi là "con nhện", thu thập dữ liệu trên Internet để tìm kiếm các trang và trang web mới để thêm vào chỉ mục của Google

Googlebot. Đồng minh của chúng tôi trong cuộc chiến Bot

Nếu chúng ta nghĩ về web như một thư viện ngày càng phát triển không có hệ thống lưu trữ trung tâm, thì chúng ta có thể hiểu chính xác những gì Googlebot muốn. Nhiệm vụ của Googlebot là thu thập dữ liệu thư viện này và tạo một hệ thống lưu trữ. Các bot cần có khả năng thu thập dữ liệu các trang web một cách nhanh chóng và dễ dàng. Khi một Googlebot đến trang web của bạn, điểm truy cập đầu tiên của nó là rô bốt của trang web của bạn. txt, trong đó nhấn mạnh tầm quan trọng của việc đảm bảo rằng các bot dễ dàng thu thập thông tin rô-bốt của bạn. tập tin txt. Càng ít thời gian Googlebot dành cho các phần không liên quan trên trang web của bạn thì càng tốt. Đồng thời, hãy chắc chắn rằng bạn không vô tình tắt hoặc chặn các trang không nên bị chặn trên trang web của mình

[Nguồn hình ảnh]

Tiếp theo, Googlebots sử dụng sơ đồ trang web. xml để khám phá tất cả các khu vực trên trang web của bạn. Quy tắc ngón tay cái đầu tiên là thế này. giữ cho nó đơn giản. Googlebot không thu thập dữ liệu DHTML, Flash, Ajax hay JavaScript cũng như chúng thu thập dữ liệu HTML. Vì Google chưa sẵn sàng về cách các bot của họ thu thập dữ liệu JavaScript và Ajax, nên tránh sử dụng mã này cho các thành phần quan trọng nhất trên trang web của bạn. Tiếp theo, sử dụng liên kết nội bộ để tạo cấu trúc hợp lý, thông minh sẽ giúp bot thu thập dữ liệu trang web của bạn một cách hiệu quả. Để kiểm tra tính toàn vẹn của cấu trúc liên kết nội bộ của bạn, hãy truy cập Google Webmaster Tools -> Search Traffic -> Internal Links. Các trang được liên kết hàng đầu phải là các trang quan trọng nhất trên trang web của bạn. Nếu không, bạn cần suy nghĩ lại về cấu trúc liên kết của mình

Vì vậy, làm thế nào để bạn biết nếu Googlebots hạnh phúc? . Chỉ cần truy cập Công cụ quản trị trang web -> Thu thập thông tin và kiểm tra báo cáo chẩn đoán về lỗi trang web tiềm ẩn, lỗi URL, thống kê thu thập thông tin, bản đồ trang web và URL bị chặn

Kẻ thù ở giữa chúng ta. Bot kẻ cướp

Googlebots không phải là bot duy nhất truy cập trang web của bạn. Trên thực tế, hơn 38% bot thu thập dữ liệu các trang web của chúng tôi không hoạt động tốt. Vì vậy, không chỉ chúng tôi đông hơn mà gần như cứ 5 khách truy cập vào trang web của bạn thì có 2 người đang cố gắng đánh cắp thông tin, khai thác các lỗ hổng bảo mật và giả vờ là một thứ gì đó mà họ không phải là.  

Chúng tôi sẽ gọi những bot độc ác này là "bot kẻ cướp"

Vì vậy, chúng ta phải làm gì?

Là nhà cung cấp SEO và nhà phát triển trang web, tôi có thể phản đối. Tôi có thể viết blog trái tim nhỏ bé của mình và mời một vài người bạn tham gia cùng tôi. Hoặc tôi có thể thắt dây an toàn và chịu trách nhiệm về góc nhỏ trên web của mình và chiến đấu chống lại các bot cướp.  

Hãy làm điều này với nhau

Bot kẻ cướp. Họ là gì và làm thế nào để chống lại

[Hình ảnh ]

Những kẻ xấu có bốn hương vị. Tìm hiểu những bot nào cần đề phòng và cách chống lại

dụng cụ nạo

Những bot kẻ cướp này ăn cắp và sao chép nội dung, cũng như địa chỉ email. Các bot cạp thường tập trung vào việc truy xuất dữ liệu từ một trang web cụ thể. Họ cũng cố gắng thu thập thông tin cá nhân từ danh bạ hoặc bảng tin. Mặc dù bot cạp nhắm mục tiêu vào nhiều ngành dọc khác nhau, nhưng các ngành phổ biến bao gồm danh bạ trực tuyến, hãng hàng không, trang web thương mại điện tử và trang web bất động sản trực tuyến. Các chương trình cạp cũng sẽ sử dụng nội dung của bạn để chặn lưu lượng truy cập web. Ngoài ra, nhiều phần nội dung cóp nhặt có thể được xáo trộn với nhau để tạo nội dung mới và cho phép chúng tránh bị phạt nội dung trùng lặp

Những gì có nguy cơ. Những người thu thập dữ liệu lấy nguồn cấp dữ liệu RSS của bạn để họ biết khi nào bạn xuất bản nội dung. Tuy nhiên, nếu bạn không biết rằng trang web của mình đang bị tấn công bởi những người dọn dẹp, bạn có thể không nhận ra có vấn đề. Tuy nhiên, trong con mắt của Google, sự thiếu hiểu biết không phải là cái cớ. Trang web của bạn có thể bị phạt nặng vì nội dung trùng lặp và thậm chí không xuất hiện trong bảng xếp hạng của công cụ tìm kiếm

Làm thế nào để chống lại. Hãy chủ động và chú ý đến trang web của bạn, do đó tăng khả năng bạn có thể hành động trước khi thiệt hại nghiêm trọng xảy ra.  

Có hai cách tốt để xác định xem trang web của bạn có phải là nạn nhân của một cuộc tấn công scraper hay không. Một tùy chọn là sử dụng dịch vụ phát hiện nội dung trùng lặp như Copyscape để xem có nội dung trùng lặp nào xuất hiện không

[Hình ảnh do tác giả tạo]

Tùy chọn thứ hai để thông báo cho bạn rằng nội dung có thể đã bị đánh cắp khỏi trang web của bạn là sử dụng tính năng theo dõi ngược trong nội dung của chính bạn. Nói chung, sẽ tốt cho SEO khi bao gồm một hoặc hai liên kết trang web nội bộ trong nội dung viết của bạn. Khi bạn bao gồm các liên kết này, hãy nhớ kích hoạt tính năng theo dõi của WordPress. Trong trường theo dõi trên trang nhập blog của bạn, chỉ cần nhập URL của bài viết bạn đang tham khảo. [Trong trường hợp này, nó sẽ là một trên trang web của riêng bạn, không phải trang web khác]

[Hình ảnh do tác giả tạo]

Bạn có thể xem trackbacks của mình theo cách thủ công để xem trang web nào đang sử dụng liên kết của bạn. Nếu bạn thấy rằng nội dung của mình đã được đăng lại mà không có sự cho phép của bạn trên một trang web spam, hãy gửi khiếu nại DMCA tới Google

Cuối cùng, nếu bạn biết địa chỉ IP mà bot cạp đang hoạt động, bạn có thể trực tiếp chặn chúng khỏi nguồn cấp dữ liệu của mình. Thêm đoạn mã sau vào của bạn. tập tin htaccess. Tìm hiểu cách chỉnh sửa. tập tin htaccess. [Xem chỉnh sửa của bạn. htaccess trên WordPress. ]

RewriteEngine bật
RewriteCond %{REMOTE_ADDR} ^69. 16. 226. 12
Quy tắc viết lại ^[. *]$ http. //newfeedrl. com/nguồn cấp dữ liệu

Trong ví dụ này, 69. 16. 226. 12= là địa chỉ IP bạn muốn gửi đến và http. //newfeedrl. com/feed là nội dung tùy chỉnh mà bạn muốn gửi cho họ

Cảnh báo. Hãy rất cẩn thận chỉnh sửa tập tin này. Nó có thể phá vỡ trang web của bạn nếu thực hiện không chính xác. Nếu bạn không chắc chắn về cách chỉnh sửa tệp này, hãy yêu cầu trợ giúp từ nhà phát triển web

Công cụ hack

Hacking bot kẻ cướp nhắm mục tiêu thẻ tín dụng và thông tin cá nhân khác bằng cách tiêm hoặc phân phối phần mềm độc hại để chiếm quyền điều khiển trang web hoặc máy chủ. Các chương trình tin tặc cũng cố gắng xóa các trang web và xóa nội dung quan trọng

Những gì có nguy cơ. Không cần phải nói rằng nếu trang web của bạn là nạn nhân của bot hack, khách hàng của bạn có thể mất niềm tin nghiêm trọng vào tính bảo mật của trang web đối với các giao dịch thương mại điện tử.  

Làm thế nào để chống lại. Hầu hết các trang web bị tấn công đều là nạn nhân của "tấn công đột xuất", tức là việc tấn công trang web được thực hiện một cách ngẫu nhiên và ít quan tâm đến hoạt động kinh doanh bị ảnh hưởng. Để ngăn trang web của bạn trở thành nạn nhân của tin tặc, hãy thực hiện một số sửa đổi cơ bản đối với. htaccess, thường được tìm thấy trong thư mục public_html. Đây là danh sách ban đầu tuyệt vời về các bot tấn công phổ biến. Sao chép và dán danh sách này vào. htaccess để chặn bất kỳ bot nào trong số này truy cập vào trang web của bạn. Bạn có thể thêm bot, xóa bot và sửa đổi danh sách nếu cần

Người gửi thư rác

Các chương trình thư rác tải các trang web có rác để ngăn cản các lượt truy cập hợp pháp, biến các trang web được nhắm mục tiêu thành các trang trại liên kết và dụ những khách truy cập không nghi ngờ bằng các liên kết phần mềm độc hại/lừa đảo. Các chương trình thư rác cũng tham gia vào việc gửi thư rác với số lượng lớn nhằm khiến một trang web bị đưa vào danh sách đen trong kết quả tìm kiếm và phá hủy danh tiếng trực tuyến của thương hiệu của bạn

Những gì có nguy cơ. Việc không bảo vệ trang web của bạn khỏi những kẻ gửi thư rác có thể khiến trang web của bạn bị đưa vào danh sách đen, làm mất hết công sức xây dựng sự hiện diện trực tuyến đáng tin cậy của bạn.  

Làm thế nào để chống lại. Phát hiện lưu lượng truy cập độc hại trong thời gian thực là rất quan trọng đối với bảo mật trang web của bạn, nhưng hầu hết chúng ta không có thời gian để chỉ ngồi một chỗ và theo dõi các mẫu lưu lượng truy cập trang web của mình. Điều quan trọng là tự động hóa quá trình này

Nếu bạn đang sử dụng WordPress, một trong những bước đầu tiên để chống lại các chương trình thư rác là ngăn chặn thư rác ngay từ đầu. Bắt đầu bằng cách cài đặt Akismet; . Tiếp theo, hãy cài đặt plugin bảo mật đáng tin cậy và thiết lập sao lưu tự động cơ sở dữ liệu của bạn

[Hình ảnh do tác giả tạo]

Yêu cầu đăng ký hợp pháp với CAPTCHA cho tất cả khách truy cập muốn đưa ra nhận xét hoặc trả lời. Cuối cùng, theo dõi wordpress. org để tìm hiểu những gì mới trong thế giới bảo mật

Nhấp vào kẻ gian lận

Các chương trình lừa đảo nhấp chuột làm cho quảng cáo PPC trở nên vô nghĩa bằng cách "nhấp chuột" vào quảng cáo rất nhiều lần bạn chi tiêu toàn bộ ngân sách quảng cáo của mình một cách hiệu quả nhưng không nhận được nhấp chuột thực sự nào từ khách hàng quan tâm. Những cuộc tấn công này không chỉ làm cạn kiệt ngân sách quảng cáo của bạn, chúng còn ảnh hưởng đến điểm số liên quan đến quảng cáo của bạn đối với bất kỳ chương trình nào bạn có thể đang sử dụng. Quảng cáo Google AdWords và Facebook là mục tiêu thường xuyên nhất của các cuộc tấn công này

Những gì có nguy cơ. Các chương trình lừa đảo nhấp chuột làm lãng phí ngân sách quảng cáo của bạn với các nhấp chuột vô nghĩa và ngăn khách hàng quan tâm thực sự nhấp vào quảng cáo của bạn. Tồi tệ hơn, điểm Mức độ liên quan của quảng cáo của bạn sẽ giảm mạnh, phá hủy uy tín của bạn và gây khó khăn cho việc cạnh tranh để giành được những khách hàng chất lượng trong tương lai

Làm thế nào để chống lại. Nếu trang web WordPress của bạn đang bị nhắm mục tiêu bởi các chương trình gian lận nhấp chuột, hãy tải xuống và cài đặt ngay plugin theo dõi gian lận nhấp chuột của Google AdSense. Plugin đếm tất cả các lần nhấp vào quảng cáo của bạn. Nếu số lần nhấp vượt quá một số được chỉ định, địa chỉ IP cho bot nhấp [hoặc người dùng] sẽ bị chặn. Plugin cũng chặn danh sách các địa chỉ IP cụ thể. Plugin dành riêng cho khách hàng Adsense cài đặt trên trang web của họ;

[Hình ảnh do tác giả tạo]

Khi bảo vệ một trang web khỏi bot của tin tặc, bạn phải nỗ lực tập trung để ngăn chặn các cuộc tấn công của chúng. Mặc dù các bước trên rất quan trọng và hữu ích, nhưng có một số cuộc tấn công, chẳng hạn như DDoS phối hợp, mà bạn không thể tự mình chống lại. May mắn thay, một số công ty bảo mật công nghệ chuyên về các công cụ và dịch vụ chống DDoS. Nếu bạn nghi ngờ trang web của mình [hoặc một trong các trang web của khách hàng] đang là mục tiêu của DDoS, thì các công ty đó có thể là chìa khóa để bảo vệ thành công

Tôi khuyên bạn nên theo dõi wordpress. org để tìm hiểu những gì mới trong thế giới bảo mật

Tóm lược

Cung cấp cho Googlebots trung thực những gì họ muốn khá đơn giản. Phát triển nội dung mạnh mẽ, có liên quan và xuất bản thường xuyên. Chống lại Googlebots giả mạo và những tên cướp bot khác khó khăn hơn một chút. Giống như nhiều thứ trong cuộc sống, nó đòi hỏi sự siêng năng và chăm chỉ

Bạn có thể ngăn bot thu thập dữ liệu trang web không?

Họ có thể làm điều này bằng cách sử dụng rô-bốt. txt để chặn các bot phổ biến mà các chuyên gia SEO sử dụng để đánh giá sự cạnh tranh của họ . Ví dụ Semrush và Ahrefs. Điều này sẽ chặn AhrefsBot thu thập dữ liệu toàn bộ trang web của bạn.

Tại sao bot thu thập dữ liệu trang web của tôi?

Các công cụ tìm kiếm sử dụng bot tìm kiếm để thu thập các tham số nhất định của trang web . Quá trình thu thập dữ liệu này được gọi là thu thập thông tin. Dựa trên dữ liệu này, các công cụ tìm kiếm đưa các trang vào chỉ mục tìm kiếm của chúng, có nghĩa là người dùng có thể tìm thấy trang đó. Khả năng thu thập dữ liệu của trang web là khả năng truy cập của nó đối với các bot tìm kiếm.

Có cách nào để ngăn chặn bot?

Bước đầu tiên để ngăn chặn hoặc quản lý lưu lượng truy cập của bot vào trang web là bao gồm tệp rô-bốt. tệp txt . Đây là tệp cung cấp hướng dẫn cho bot thu thập dữ liệu trang và tệp có thể được định cấu hình để ngăn bot truy cập hoặc tương tác với trang web hoàn toàn.

Chủ Đề