본문 바로가기

728x90

tokenization2

[PYTHON] 토큰화(Tokenization)와 형태소 분석의 결정적 차이 3가지와 해결 방법 7가지 자연어 처리(NLP) 파이프라인의 첫 단추는 텍스트 데이터를 컴퓨터가 이해할 수 있는 단위로 쪼개는 것입니다. 여기서 입문자들이 가장 많이 혼동하는 개념이 바로 토큰화(Tokenization)와 형태소 분석(Morphological Analysis)입니다. 단순히 공백으로 나누는 것이 토큰화라면, 그 쪼개진 단어의 문법적 뿌리를 찾는 것이 형태소 분석입니다. 특히 한국어처럼 교착어의 특성이 강한 언어는 이 둘의 차이를 이해하지 못하면 모델의 성능이 처참하게 무너집니다. 본 가이드에서는 파이썬을 활용해 두 개념의 기술적 차이를 분석하고 실무에서 발생하는 전처리 문제의 해결 전략 7가지를 제시합니다.1. 토큰화와 형태소 분석의 개념 및 메커니즘 차이토큰화는 텍스트를 '토큰'이라는 최소 의미 단위로 분절하는 .. 2026. 4. 10.

[PYTORCH] 텍스트 데이터 처리를 위한 torchtext 활용 방법 및 0.18버전 이후 변화 해결 가이드 자연어 처리(NLP) 분야에서 데이터를 수집하고 정제하여 모델이 이해할 수 있는 텐서 형태로 변환하는 과정은 전체 파이프라인의 70% 이상을 차지합니다. PyTorch 생태계의 torchtext 라이브러리는 토큰화(Tokenization), 단어 사전(Vocabulary) 구축, 수치화(Numericalization) 과정을 표준화해 줍니다. 특히 최근 torchtext는 레거시(Legacy) API를 대대적으로 폐기하고 성능 중심의 최신 API로 전환되었습니다. 본 가이드에서는 2026년 실무 기준에 맞춘 최적의 활용법을 제시합니다.1. torchtext의 구조적 진화와 설계 철학기존 torchtext.data.Field 중심의 설계는 유연성이 부족하고 성능상 한계가 있었습니다. 최신 버전은 Trans.. 2026. 3. 25.

이전 1 다음

728x90

티스토리툴바