Cách xóa thẻ HTML khỏi văn bản trong Word

Hi. I made a function that removes the HTML tags along with their contents:

Function:
function strip_tags_content[$text, $tags = '', $invert = FALSE] {

  preg_match_all['//si', trim[$tags], $tags];
  $tags = array_unique[$tags[1]];

  if[is_array[$tags] AND count[$tags] > 0] {
    if[$invert == FALSE] {
      return preg_replace['@.*?@si', '', $text];
    }
    else {
      return preg_replace['@.*?@si', '', $text];
    }
  }
  elseif[$invert == FALSE] {
    return preg_replace['@.*?@si', '', $text];
  }
  return $text;
}
?>

Sample text:
$text = 'sample text with

tags

';

Result for strip_tags[$text]:
sample text with tags

Result for strip_tags_content[$text]:
text with

Result for strip_tags_content[$text, '']:
sample text with

Result for strip_tags_content[$text, '', TRUE];
text with

tags

________số 8

MS Word không chỉ là một trình xử lý văn bản cho các tài liệu ngoại tuyến của bạn. Nó hỗ trợ chỉnh sửa và tải nội dung lên các nền tảng blog khác nhau như Blogger, WordPress, SharePoint Blog, v.v. cũng như gửi tài liệu qua email

Ngoài ra, mặc dù không lý tưởng cho tác vụ này, nhưng nó hỗ trợ chỉnh sửa trang web [*. html, *. htm, *. xml]. Trên thực tế, đôi khi sau khi cài đặt MS Office, một số tệp web này có thể được liên kết với Ms Word nếu không có chương trình nào khác được liên kết với chúng

Tuy nhiên, một vấn đề phát sinh với hỗ trợ chỉnh sửa web này là việc bao gồm các thẻ cụ thể của MS Office làm tăng kích thước của các trang web và email ở định dạng html. Điều này cũng xảy ra thường xuyên hơn khi bạn sao chép và dán từ tài liệu từ vào trình chỉnh sửa bài đăng trên trang web [e. g. trong Blogger, WordPress, v.v. ]

Việc dán điển hình giữ lại tất cả các thẻ cụ thể của MS Office, mặc dù không hoàn toàn hiển thị trong trình chỉnh sửa bài đăng [không bao gồm định dạng cụ thể của Word], chúng có thể được xem bằng cách xem mã html thô của bài đăng

Tại sao Microsoft bao gồm các thẻ dành riêng cho Office?

Các thẻ cụ thể của MS Office được bao gồm để giữ lại các tính năng cụ thể của từ, chẳng hạn như định dạng và kiểu nhất định để bạn có thể chỉnh sửa tài liệu như ban đầu nếu cần

Như được hiển thị trong hình ảnh bên dưới, nó thực sự không chỉ có các thẻ mà
các nhận xét cũng được bao gồm. Văn bản nhận xét thường chiếm phần lớn
nội dung.

Thẻ và nhận xét trong tệp HTML được lưu bởi MS Word

Một điều nữa là các thẻ/bình luận cũng được bao gồm khi bạn sao chép và dán nội dung từ word vào trình chỉnh sửa bài đăng của bạn; . html, *. htm]. Đây thực sự là cách phổ biến nhất mà mọi người vô tình đưa thẻ này vào trang web của họ

Vì chúng tôi thường cần tối ưu hóa nội dung của mình để tải nhanh, chưa kể đến việc đảm bảo tính tương thích, nên xóa các thẻ này và thậm chí nhiều nhận xét hơn vì chúng không phục vụ bất kỳ mục đích nào

Cá nhân tôi đã thấy các thẻ này gây ra một số lỗi lạ trên blog này, vì vậy tôi luôn lưu ý không đưa chúng vào sau khi sử dụng Word để kiểm tra nội dung của mình. Để loại bỏ chúng, bạn có thể sử dụng bất kỳ biện pháp nào sau đây

lựa chọn 1. Khi bạn không cần giữ lại bất kỳ Định dạng nào

1. Khi sao chép và dán vào trình chỉnh sửa bài đăng trực tuyến của bạn, hãy sử dụng Ctrl+SHift+V thay vì Ctrl+V. Điều đó lý tưởng nhất chỉ nên dán nội dung ở dạng văn bản thuần túy. e. không có bất kỳ định dạng từ và thẻ nào

2. Việc dán văn bản thuần túy dường như không phải lúc nào cũng hoạt động [không biết đó có phải là vấn đề của trình duyệt không] trong trường hợp đó, dán nội dung vào trình soạn thảo văn bản thuần túy sẽ an toàn hơn [e. g. notepad, notepad ++, văn bản tuyệt vời, v.v. ] sau đó dán cái này vào trình chỉnh sửa bài đăng của bạn

Lựa chọn 2. Khi bạn cần giữ lại [một số] Định dạng

Tôi đang sử dụng từ “một số” vì không phải tất cả các “định dạng” của Word đều có thể được hỗ trợ trên trang web của bạn. Tuy nhiên, những thứ như dấu đầu dòng, danh sách và bảng trong hầu hết các trường hợp hoạt động khá tốt, nhưng bạn vẫn cần xóa các thẻ vô dụng đó

1. Lưu dưới dạng HTML đã lọc

Để thực hiện việc này, hãy lưu tài liệu dưới dạng HTML đã lọc. Thao tác này sẽ xóa tất cả các thẻ cụ thể của MS Office trong khi vẫn giữ lại hầu hết chức năng định dạng và chỉnh sửa

Để làm điều này đi đến

 Save As > Web Page, Filtered [*.htm, *.html] 

Sau đó, bạn có thể mở trang web đã lưu bằng trình soạn thảo văn bản thuần túy hoặc trình soạn thảo HTML, đồng thời sao chép và dán mã html vào trình soạn thảo bài đăng HTML của bạn

So sánh. Cùng một tệp được lưu trong HTML bình thường so với HTML được lọc

Nếu bạn chỉ cần một yếu tố cụ thể từ trang web [e. g. một bảng], bạn chỉ cần sao chép phần mã đó rồi dán vào trình chỉnh sửa bài đăng nơi bạn cần nó xuất hiện

2. Sử dụng Công cụ Dọn dẹp Trực tuyến

Có nhiều dịch vụ trực tuyến có thể tự động xóa HTML cho bạn, bao gồm xóa các thẻ cụ thể của MS Office đó. Đối với mục đích sử dụng của tôi, tôi thích sử dụng cái này vì nó thực hiện tốt công việc dọn dẹp các bảng từ thành các bảng thân thiện với HTML

Tuy nhiên, dù tiện lợi đến đâu, những “trình dọn dẹp” trực tuyến này có thể thay đổi một số định dạng của bạn hoặc có thể yêu cầu bạn thao tác với một số cài đặt để có được đầu ra mong muốn

Cũng có rủi ro về quyền riêng tư nếu một dịch vụ như vậy không rõ ràng về cách nó xử lý nội dung của bạn trên máy chủ của họ – ví dụ: họ có lưu trữ nội dung của bạn không và nếu có thì trong bao lâu và họ có phân tích nội dung đó theo cách nào không, v.v.

Làm cách nào để xóa thẻ HTML?

Chọn phần tử HTML cần xóa
Sử dụng phương thức JavaScript remove[] và removeChild[] để xóa phần tử khỏi tài liệu HTML

Làm cách nào để xóa chuỗi trong HTML?

Để loại bỏ tất cả các thẻ HTML khỏi một chuỗi, có rất nhiều quy trình trong JavaScript. Để loại bỏ các thẻ, chúng ta có thể sử dụng hàm replace[] và cũng có thể sử dụng. thuộc tính textContent,. thuộc tính InternalText từ HTML DOM .

Chủ Đề