-
HTML - HTML Entities && Decode in pythonWEB|DB/HTML 2022. 11. 3. 00:24반응형
HTML Entity
목적
: HTML의 예약어와 충돌하여 HTML문법이 아니지만 HTML로 해석되는 상황을 피하기 위함.
- 충돌ex. "<", ">", "'" 등은 html의 마크업 문법으로 인식될 수 있다.
- 실사례로, 한 OJ(Online Judge) 시스템에서 "<"를 그대로 html에 포함시켰다가, 해당 내용을 태그 시작 문법으로 인식하는 사례가 있었다.
정의
HTML의 예약어(HTML Reserved Characters)와의 충돌을 피하기 위해서 특정 기호가 HTML로 해석되지 않도록 만든 문자셋.
사용법
&엔티티이름;
또는
&#엔티티숫자;
Python(파이썬)에서 HTML Entities를 Decode하는 방법
여러 방법이 있으나, w3lib.html.replace_entities 를 추천한다.
# !pip install w3lib from w3lib.html import replace_entities print(replace_entities("£682m")) #stdout: £682m
References
- About HTML Entities
http://www.tcpschool.com/html/html_text_entities
https://blog.outsider.ne.kr/380
https://www.w3schools.com/html/html_entities.asp
- Decode HTML Entities to string
https://www.studytonight.com/python-howtos/decode-html-entities-into-python-string
반응형