"한글이 깨져서 나와"
변환 결과에 한글이 ?나 □로 표시되는 경우. 도구가 잘못된 게 아니라 인코딩 어딘가에서 어긋난 결과인 경우가 대부분.
원인 A: 인코딩 불일치
UTF-8 텍스트를 EUC-KR로 해석하거나 그 반대. 운영체제·문서 도구마다 기본 인코딩이 달라 자료가 옮겨질 때 깨질 수 있다.
원인 B: 복사 과정 손상
웹·문서에서 복사할 때 일부 문자가 손상되는 경우. 특히 따옴표·하이픈 같은 특수문자.
원인 C: 이모지 처리
옛 도구는 이모지(4바이트 유니코드)를 처리하지 못해 ?로 변환. 최신 유니코드 호환 도구 사용 권장. 텍스트 변환기로 이모지 호환 변환 처리.
원인 D: 보이지 않는 문자
제어문자·특수 공백·결합 문자가 입력에 섞이는 경우. 화면에는 정상이지만 도구가 다르게 처리.
원인 E: 자릿수 깨짐
한글은 1자가 3바이트(UTF-8). 한 바이트만 손상되어도 그 글자 전체가 깨진다.
점검 흐름
- 입력 인코딩 UTF-8 확인
- 복사 출처 점검
- 이모지 호환 확인
- 보이지 않는 문자 제거
- 다른 도구로 같은 입력 재시도
다섯 단계를 거치면 깨짐 원인이 거의 잡힌다.
예방 흐름
- UTF-8 표준 사용
- 최신 도구 사용
- 복사 후 즉시 점검
- 중요 자료는 백업
예방이 최선. 글자 변환기의 표준 처리 흐름을 따르면 깨짐이 거의 없다.
마무리
텍스트 깨짐은 인코딩 불일치가 대부분. 한 번 점검 흐름 자리 잡으면 깨짐 부담이 사라진다.