본문 바로가기

파일/인쇄

PDF 변환, 참고사항

워드에서 PDF로 인쇄(출력)할 때는 PDF 변환 프린터 드라이버를 사용하지 말고, 다른 이름으로 저장하기나 PDF 내보내기를 사용하는 것이 좋습니다.

1. PDF 변환 방법

1.1 추천, 비추천

워드에서 PDF로 출력하는 방법은 통상 ① 다른 이름으로 저장하기와 ② PDF 내보내기를 사용하고 있습니다. ② PDF 내보내기를 상대적으로 덜 사용하기는 하나, 최적화, PDF/A 등의 옵션을 설정할 수 있습니다. 파일 메뉴 > 내보내기 > PDF/XPS 문서 만들기를 선택하면 됩니다. XPS는 마이크로소프트에서 만든 PDF와 같은 개념의 문서규격입니다.

[1.1.A] 파일 메뉴 > 내보내기 > PDF/XPS 문서 만들기로 PDF를 출력할 수 있습니다.
[1.1.B] 옵션(O)에서 페이지 범위, PDF/A, 최적화 등을 선택할 수 있습니다.

PDF로 변환할 때 ③ 외부프로그램과 같이 설치된 PDF 출력 드라이버(Hancom PDF, ALPDF, NesPDF 등)를 사용하는 방법도 있으나, 드라이버에 따라 품질에 상당히 차이가 나고 워드의 각종 서식을 완벽히 구현하지 않습니다. 또한 문서에 지정된 폰트가 실제 설치되어 있지 않은 경우 ② PDF 내보내기는 어느 정도 처리가 되지만, ③ PDF 출력 드라이버는 그대로 □ 􏿾와 같이 표시됩니다[화면과 다르게 인쇄되는 문제 1.4 폰트가 바뀌거나 □ 􏿾로 표시되는 문제].

따라서 PDF 변환할 때에는 해당 프로그램에서 직접 지원하는 변환 방식(①, ②)을 사용하는 것이 좋습니다.

2. PDF에서 텍스트 추출

docx, hwp 파일을 바로 PDF로 변환(이하 '텍스트형 PDF')하면 텍스트 정보가 그대로 남아 있기 때문에 텍스트를 추출하는 것이 비교적 쉽습니다(OCR과 달리 일단 글자는 맞습니다). 스캔파일처럼 텍스트가 이미지로 변환된 것은 별도의 OCR 문자인식을 거쳐야 하는데, 대부분의 OCR 프로그램은 한글 인식의 정확도가 떨어지기 때문에 수정하는데 상당히 손이 많이 갑니다.

텍스트형 PDF에서 텍스트를 추출하는 가장 간단한 방법은 PDF 뷰어에서 텍스트를 드래그하여 복사해 오는 것입니다. PDF 뷰어에서 커서를 텍스트 근처로 갖다 대면 커서 모양이 바뀌는데, 그때 필요한 부분까지 드래그하거나 Ctrl+A로 전부 선택하면 됩니다. 다만 뷰어에 따라서는 단락이나 문장을 인식하지 못해 복사해온 텍스트가 한 줄씩 끊기면서 나중에 다시 이어 붙여야 할 수도 있습니다.

각종 PDF 편집 프로그램에서 텍스트형 PDF의 텍스트를 txt, docx 파일로 추출하는 기능을 제공하지만, 워드에서도 간단히 텍스트를 추출할 수 있습니다. docx 파일을 열듯이 파일 메뉴 > 열기에서 PDF 파일을 선택하면 단락, 들여쓰기 등 일정한 서식까지 구현하여 텍스트를 추출합니다. 각종 서식은 어차피 다시 다 손봐야 하지만, PDF 뷰어에서 복사해 오는 것보다는 조금 더 수고를 줄일 수 있습니다.

※ 워드에서 전자소송 PDF 파일을 불러오면, 단락도 제법 맞고, 그림 배치는 훌륭하고, (굳이 필요는 없지만) 심지어 문서 상단의 제출·다운로드 정보와 '열람용' 워터마크를 바닥글로 배치하기까지 합니다. 다만 단락의 서식이나 각주, 제목 인식 등은 ABBYY FineReader 정도가 아닌 한 특별히 기대하기 어렵습니다.

[2.A] PDF에서 텍스트를 추출할 때 워드에서 가장 긴 메시지를 보게 됩니다.

3. PDF 관련 참고사항

3.1 PDF 특성

PDF는 Portable Document Format의 약자로, 전자문서를 종이가 아니라 디지털로 인쇄하는 개념(디지털 인쇄물)으로 볼 수 있습니다. 마법사들이 모여 있는 Adobe사가 1993년에 개발한 문서형식으로서 국제표준(ISO)입니다.

PDF는 장치나 프로그램에 관계없이 어느 환경에서나 동일한 결과물을 보여주는 개념인데, PDF 파일에 포함되어 있지 않은 글꼴이 해당 장치에 없는 경우 다른 유사한 글꼴도 대체하면서 글자가 약간 달라질 수도 있습니다(주로 모바일).

'인쇄' 개념이기 때문에 PDF 변환 과정에서 본래 문서가 갖고 있던 단락, 문장 등의 정보는 소실됩니다. 따라서 송부는 PDF로 하더라도, 나중에 수정할 것을 대비하여 원본 docx, hwp 파일은 별도로 보관하고 있어야 합니다.

워드 파일 등을 PDF로 변환할 때 용량이 많이 달라질 수 있습니다. 원래 용량이 적은 파일은 글꼴 파일을 포함하면서 약간 더 커지고, 사진이나 캡처 그림을 많이 붙여 넣은 파일은 그림이 문서 해상도에 맞춰지면서 용량이 많이 줄어듭니다.고해상도로 촬영한 사진을 hwp 등에 그대로 붙여 넣으면 몇 장 짜리 문서의 크기가 수십 MB에 이르러 이메일에 첨부하지 못하는 문제가 종종 발생합니다. 이때는 문서내 이미지를 압축하여 다시 저장하거나 PDF로 변환하면 됩니다.

3.2 PDF/A

PDF도 버전과 용도별로 여러 종류가 있는데, 종종 'PDF/A'를 볼 수 있습니다. 주로 한/글에서 출력한 PDF에서 보게 되는데, 장기보존을 위해, 즉 100년 후에도 동일한 형태로 볼 수 있도록 문서 구현에 필요한 모든 정보를 PDF 파일에 포함(embedding)하는 형식입니다. PDF/A-1이 우리나라 정부의 '전자기록물 문서보존 포맷 기술규격'입니다.

  • 다른 형식의 PDF는 바탕체와 같은 시스템 글꼴은 파일에 포함하지 않는데, PDF/A는 모든 글꼴을 포함시키면서 용량이 약간 더 커집니다.
  • 현재 쓰는 각종 글꼴이나 색상 정보를 100년 후에도 구현할 수 있다면 PDF/A같은 방식이 굳이 필요 없을 수도 있으나, 전자매체는 미래를 기약하기 어렵습니다. 8세기에 종이에 인쇄한 '무구정광대다라니경'은 지금도 읽을 수 있지만, 20세기 말 보석글(삼보컴퓨터에서 만든 워드프로세서)로 작성하여 5.25" 디스켓에 고이 저장해 놓은 제 중학생 시절 일기는 그 디스켓이 눈 앞에 있음에도 다행히도 아무도 읽을 수 없습니다.

각종 PDF 프로그램에서 PDF/A는 읽기 전용 등 별도의 모드로 다루지만, 알림 창을 볼 때마다 왠지 부담스러우면 'PDF/A 모드 해제'를 하면 됩니다. Adobe Acrobat Reader DC에서는 편집 메뉴 > 기본 설정(N) > 문서 범주 > PDF/A 보기 모드에서[3.B], Foxit Reader에서는 파일 메뉴 > 기본 설정 > 문서 탭 > PDF/A 보기 모드에서 각 설정할 수 있습니다.

[3.A] '편집 사용'을 해도 됩니다. 100년후에도 볼 문서가 아니니까요.
[3.B] 아예 PDF/A 모드를 해제하는 방법도 있습니다.

 

최초 게시 : 2020. 8. 6.

[2. PDF에서 텍스트 추출] 추가 : 2020. 12. 6.

'파일 > 인쇄' 카테고리의 다른 글

화면과 다르게 인쇄되는 문제  (0) 2020.08.06