WEB|DB/HTML

HTML - HTML Entities && Decode in python

꿈꾸는 사람_Anthony 2022. 11. 3. 00:24
반응형

HTML Entity

목적

: HTML의 예약어와 충돌하여 HTML문법이 아니지만 HTML로 해석되는 상황을 피하기 위함.

  • 충돌ex. "<", ">", "'" 등은 html의 마크업 문법으로 인식될 수 있다.
  • 실사례로, 한 OJ(Online Judge) 시스템에서 "<"를 그대로 html에 포함시켰다가, 해당 내용을 태그 시작 문법으로 인식하는 사례가 있었다.

 

정의

HTML의 예약어(HTML Reserved Characters)와의 충돌을 피하기 위해서 특정 기호가 HTML로 해석되지 않도록 만든 문자셋.

 

사용법

&엔티티이름;
또는
&#엔티티숫자;


Python(파이썬)에서 HTML Entities를 Decode하는 방법

여러 방법이 있으나, w3lib.html.replace_entities 를 추천한다.

# !pip install w3lib

from w3lib.html import replace_entities 
print(replace_entities("&pound;682m"))
#stdout: £682m

 

 

References

- About HTML Entities

http://www.tcpschool.com/html/html_text_entities

https://blog.outsider.ne.kr/380

https://www.w3schools.com/html/html_entities.asp

- Decode HTML Entities to string

https://www.studytonight.com/python-howtos/decode-html-entities-into-python-string

 

 

반응형