StAXParser를 이용한 DomTree 만들기

업무상 이유로 HTML 엔티티가 데이터로 포함되어 있는 XML 문서를 다룰 일이 있었다. XML에는 기본적으로 5개의 엔티티가 정의되어 있다. 그 외의 데이터는 DTD를 통해 선언을 해주거나 엔티티로 해석할 수 없도록 이스케이핑(Escaping)을 해줘야 한다.

HTML 엔티티가 포함되어 있는 XML 문서를 파싱해서 DOM 트리를 사용해야 하는 경우 설정이 좀 까다로울 수가 있다. 이런저런 설정을 찾다가 StAXParser를 이용해서 DOM 트리를 만들어주는 코드를 작성해봤다. & 문자로 시작하는 엔티티를 해석하지 않고, 문자 그대로 사용하는 동작을 구현해봤다. (물론 실무에는 사용하지 않고 그냥 연습 코드로만 작성해봤다. 현실에서는 XML 문서에다가 이상한 엔티티 섞지말아달라고 생산자에게 안내를 해줘야한다.)

StAXParser를 이용해서 XML 문서를 해석할 때 기본적으로 이 틀을 사용하면 될 것 같다.

저작자표시 (새창열림)

월급쟁이 재테크 노트

StAXParser를 이용한 DomTree 만들기

댓글

티스토리툴바