'2026/02/12'에 해당되는 글 1건

  1. 2026.02.12 [바이브코딩]LLM(AI)를 이용한 PDF 오탈자 검사 프로그램
posted by 내.맘.대.로 2026. 2. 12. 21:39

내맘대로의 EPUBGUIDE.NET에서 편집자의 의도를 그대로 살려 전자책을 제작해 드립니다.

종이책의 편집 스타일을 최대한 유지하며, 팝업 주석 처리, 이미지 확대 축소 등 전자책의 장점을 반영하여 전자책을 제작합니다. 탬플릿을 사용하지 않고, 책 한권 한권 고유 스타일을 살리기 때문에 전자책에서도 종이책 디자인을 느낄 수 있습니다.

한국출판문화진흥원의 [텍스트형 전자책 제작 지원 사업] 선정 도서는 ‘제작 난이도별 제작비 산정 기준에 근거하여’ 제작 단가를 산정하고, 일정에 맞춰 제작을 해 드리니 많은 문의 바랍니다.

자세한 내용은 여기로: https://www.epubguide.net/notice/309

오래 전 작성된 글은 현재의 Sigil 버전과 차이가 날 수 있습니다. 등록 일자를 확인 하고 1년 이상 지난 글은 변경된 내용이 있는지 확인하시기 바랍니다.

EPUBGUIDE.NET의 핵심만 모았다. 전자책 편집자를 위한 필독서!

책표지

클릭 편집 탬플릿 제공,

왕초보를 위한
클릭으로 EPUB 만들기

정가 : 9,900원 할인: 8,910원

책표지

기초부터 전자책 제작 실습까지

Sigil 완벽 가이드

정가: 18,000원 할인: 16,200 원

300x250

 

출판 편집자에게 필요한 PDF 오탈자 검사 프로그램입니다.

http://jikji.duckdns.org:8085/cloud/gramma_v13.zip

 

인쇄전 PDF로 최종 검수 할 때 오탈자 찾기 힘들거예요.

20~30만자 중에 두세개 있는 오탈자를 찾기 위해 3교, 4교, 5교... 끊임 없이 반복해 원고를 보지만 그래도 눈에 들어오지 않습니다.

최종 검수 끝내고, 인쇄에 들어갔는데 인쇄본에서 중요한 오타가 생기면 난감하지요.

인쇄본 PDF는 맞춤법 검사기로 확인을 할 수도 없기 때문에 LLM을 이용한 맞춤법 및 오탈자 검사기를 만들어 봤습니다.

ollama를 이용한 로컬 AI를 사용하기 때문에 AI 비용도 들지 않습니다.
(다만, 저사양 PC에서는 엄청나게 오랜 시간이 걸린다는 것이 함정)

 

샘플용으로 오타를 몇개 삽입하고 분석한 결과입니다. 

테스트를 위해 3페이지의 PDF에서 1페이지만 골라 임의로 4개의 단어를 맞춤법이 틀리게 하거나,

[솔로몬 왕의 강산] 처럼 맞춤법은 맞지만 문맥에 맞지 않는 단어를 삽입해 검사를 해봤습니다. gemma3:27b 모델을 이용했고요.

4개 중 3개를 찾았고, 하나는 문제가 아닌 부분을 잡아냈습니다.

PDF의 텍스트 추출 문제로 인해 행갈이 부분의 단어 띄어쓰기 문제가 생기는데... 이 부분은 설명을 하려면 길어지니 패스~

 

이렇게 분석 후 [저장]을 누르면 PDF에 [주석]으로 표기가 됩니다. 물론 저장하기 전에 [x]를 눌러 [게 널리] 처럼 잘못 인식된 부분을 삭제 할 수 있습니다.

 

이 프로그램이 맞춤법, 오탈자를 완벽히 찾아내지는 못하겠지만,

사람이 놓친 오탈자 몇개 정도는 찾아 낼 수 있을 거예요.

4교, 5교, 6교 마친 후에 한번 돌려서 최종 확인 하는 용도로 쓰면 됩니다.

 

물론, 고사양 LLM을 사용하고 맞춤법 검사를 위한 최적의 프롬프트를 찾아낸다면 더 정확한 오탈자 검사를 할 수 있습니다.

뿐만 아니라 프롬프트 설정에 따라 어색한 문장의 윤문도 도움을 받을 수 있습니다.

 

[[사용 방법]]

 

1. 앱을 실행하면 다음과 같은 화면이 나옵니다.

 

2. ollama 설정

이 앱은 로컬 LLM을 사용합니다. 

내 컴퓨터에서 실행하는 AI라고 생각하면 이해하기 쉽습니다.

chat gpt나 gemini 처럼 웹 브라우저에서 채팅 형태로만 사용 할 수 습니다.

이런 AI를 채팅 형식이 아닌, 이런 프로그램에 사용하려면 비싼 요금제를 사용해야 합니다.

업체 별로 요금제가 다르지만, 대략 200달러/월 혹은 글자 하나 당 비용을 지불해야 하지요.

https://openai.com/ko-KR/index/openai-api/

 

ollama를 이용하면 이런 비용 없이 AI를 사용 할 수 있습니다.

단, 컴퓨터가 좋아야 해요. 그리고 거대 기업의 AI보다 속도가 느리고 성능도 떨어집니다.

하지만 램 32gb 정도 되면 맞춤법 검사 정도는 할 만한 AI를 사용 할 수 있습니다.

 

2.1 Ollama 설치 및 모델 연결

아래 사이트에 가서 Ollama를 다운로드 하고 설치하세요.

https://ollama.com/

 

Ollama

Ollama is the easiest way to automate your work using open models, while keeping your data safe.

ollama.com

 

2.2 ollama를 실행하고, 대화 할 모델을 선택 후 [안녕]이라고 입력합니다.

처음 사용하면 AI(LLM) 모델을 다운로드 합니다.

용량이 크니, 다운로드 후 채팅창에 답변이 나올 때 까지 기다리세요. ollama 사용법은 인터넷을 검색하면 자세히 나옵니다. 여기서는 이정도로 간단히 설명하겠습니다.

 

추천 모델 :

테스트용으로는 용량이 작은 [gemma3:1b]를 권해드립니다.

PC 메모리가 16gb라면 gemma3:12b 또는 gemma2:9b 모델을 사용하세요.

PC의 메모리 용량이 32gb 이상이라면 gemma3:27b 또는 gpt-oss:20b 모델을 추천합니다.

고사양 컴퓨터라면 gpt-oss:120b를 사용하세요. 맞춤법 검사를 가장 잘 합니다.

 

컴퓨터 사양이 낮으면 질문을 했을 때 답변 하는데 시간이 오래 걸립니다. 이런 컴퓨터는 맞춤법 검사도 오래 걸려요.

컴퓨터 사양이 좋으면 질문을 하자 마자 답변을 합니다. 이런 컴퓨터는 검사를 빨리 해요.

 

2.3 모델을 다운로드 한 후 맞춤법 검사 앱으로 돌아옵니다.

왼쪽 상단에 있는 [설정]을 누르면 아래와 같은 설정 창이 나옵니다.

[모델 목록 가져오기]를 눌러보세요. ollama가 설치되어 있고 사용할 모델을 다운로드 했다면 사용 할 수 있는 모델 목록을 볼 수 있습니다. 설치한 모델을 선택하세요. 그리고 API 연결 테스트를 누릅니다.

처음에는 답변 시간이 오래 걸립니다. 메모리에 AI가 올라가는 시간이 필요해요. 한 번 올라가면 그 다음 부터는 조금 더 빨라집니다.

오류가 나면 다시 한번 API 연결 테스트를 누르세요. 메모리에 올라가는 시간이 오래 걸리면 중간에 답변을 안한다고 생각해 오류가 나옵니다.

 

 

이렇게 AI가 답변을 하면 AI를 사용 할 준비가 된 것입니다.

 

3. 맞춤법 검사 프롬프트 수정

맞춤법 검사 앱에서 가장 중요한 것이 [프롬프트]입니다.

AI한테 맞춤법 검사를 어떻게 하라고 지시를 잘 할 수록 결과물이 좋아집니다.

기본 프롬프트를 사용해 보고, 결과를 확인 후 조금식 개선을 해 보세요.

단, 다음 내용은 ***절대로*** 수정하면 안됩니다.

 

결과는 반드시 오직 JSON 배열 포맷으로만 응답해야 합니다.

형식: [{"원문": "틀린단어", "추천": "수정단어", "이유": "수정 이유"}, ...]

원문 필드는 띄어쓰기를 포함하여 원본 텍스트에 있는 그대로여야 합니다.

설명이나 서론 없이 JSON 데이터만 출력하십시오.

 

기본 프롬프트는 되도록이면 그대로 두고, [새 프롬프트]로 프롬프트를 추가해 사용하세요.

[새 프롬프트]에도 마지막에 아래 내용은 반드시 추가해야 합니다.

결과는 반드시 오직 JSON 배열 포맷으로만 응답해야 합니다.

형식: [{"원문": "틀린단어", "추천": "수정단어", "이유": "수정 이유"}, ...]

원문 필드는 띄어쓰기를 포함하여 원본 텍스트에 있는 그대로여야 합니다.

설명이나 서론 없이 JSON 데이터만 출력하십시오.

 

전처리 프롬프트는 맞춤법 검사 전에 PDF에서 추출한 텍스트의 줄바꿈을 정리하는 기능입니다.

옵션이기 때문에 전처리 옵션을 켰을 때만 사용합니다.

이것 저것 해 봤는데 이 프롬프트가 가장 잘 정리를 해 줘요. 이 부분도 수정 할 수 있습니다.

 

전처리가 필요한 이유는 PDF의 특성 때문입니다.

PDF에서 텍스트를 복사해 메모장에 붙여넣어 보세요.

 

헨리 라이더 해거드(1856–1925)는 영국의 소설가이자 모험문학의 개척자로, ‘솔로
몬 왕의 광산’, ‘그녀’ 등으로 유명하다. 그는 19세기 말 제국주의 시대의 탐험 열
풍 속에서 미지의 아프리카를 배경으로 한 이야기를 통해 인간의 욕망, 신비, 문
명과 야만의 경계를 탐구했다.

 

이렇게 행 끝이 줄바꿈 됩니다. 그럼 AI는 [탐험 열풍]으로 읽지 않고 [탐험 열] [풍 속에서]로 읽어요.

이 문제를 해결하기 위해 줄바꿈 된 부분을 연결해 주는 작업을 먼저 하는 기능이에요.

 

4. 분석 설정

분석 설정은 분석 할 PDF의 페이지, 페이지 내 범위 등을 설정합니다. 

분석 단위는 한 페이지 단위로 할 것인지, 한 문장식 끊어 할 것인지를 결정합니다.

문장 단위로 하면 더 섬세하기 분석하지만 시간이 오래 걸리고, 문장 단위로 하면 정확도는 떨어지지만 빨라집니다.

 

분서 범위는 머리글, 바닥글 영역으로 인한 문제를 해결해 줍니다. 아래 예시 이미지에 바닥글의 [프롤로그]는 모든 페이지에 나옵니다. 하단 여백을 설정하면 [프롤로그] 처럼 장 제목이 표시되는 바닥글을 제외 할 수 있습니다.

 

텍스트 전처리 후 분석을 체크하면 위에서 얘기한 행갈이 문제를 해결해 줍니다.

 

5. 분석

이제 준비가 끝났습니다. PDF를 불러온 후 [분석]을 누르면 맞춤법 검사를 시작합니다.

처음에는 [분석 페이지 설정]에서 2~3페이지만 먼저 분석을 해 보세요.

프롬프트에 따라 분석 결과가 크게 달라집니다.

예를 들어 프롬프트에서

제약 사항:

문장 윤문이나 문체 수정은 엄격히 배제할 것. 문장의 어조나 구조를 변경하지 말고, 객관적인 오류에만 집중할 것.

이 부분을 삭제하고

어색한 문장은 매끄러운 문체로 윤문 할 것

이라고 지시를 하면, 오탈자 뿐 아니라 어색한 문장을 찾아 추천 문장을 제안해 줍니다.

이를 활용하면 오탈자 검사 뿐 아니라 특정 단어만 찾는 등 다른 목적으로도 활용 할 수 있습니다.

 

분석 시간은 컴퓨터 성능에 따라 크게 차이가 납니다.

RTX 5090에 vram 24gb 그래픽카드가 있는 PC라면 gemma3:27b 모델로 아주 빠르고 정확하게 분석을 할 거예요.

그래픽 카드 없고 ram 8gb 달린 컴퓨터라면 gemma3:4b 모델로 속도도 오래 걸리거 정확도도 아주 낮을거예요.

 

제가 테스트 해 본 모델 중 맞춤법 검사를 가장 잘 해준 모델은 gpt-oss:120b입니다.

클라우드 모델을 사용해 봤는데 빠르고 정확해요. 다만, 유료 모델이라 1~2페이지 검사하면 제한에 걸립니다.

 

6. 분석이 끝나면 [저장]을 눌러 PDF로 저장하세요.

분석을 마치면 오탈자가 있는 페이지의 섬네일은 빨간 선으로 표시됩니다. 

오탈자 목록을 보고, 오탈자가 아니라면 [x]를 눌러 삭제 할 수 있습니다.

오탈자는 맞는데 AI가 추천한 단어가 마음에 들지 않는다면 [주석 편집]에서 수정 후 저장을 하세요.

이렇게 2차 편집 후 왼쪽 상단에 있는 [저장]을 누르면 PDF 파일에 주석으로 결과가 저장됩니다.

 

이정도면 대충 사용 법은 아시겠지요^^?

300x250