## 문제 - 기사 제목, 본문, 댓글을 모두 합쳐 임베딩 시 댓글이 짧고 본문이 길어 임베딩 결과가 거의 동일하게 나옴 - 댓글 간 임베딩 차이가 사라져 모델 성능 저하 우려 ## 원인 - 본문 길이가 길고 내용이 유사하거나 중복된 경우 임베딩 벡터가 평탄화됨 - 짧고 단순한 댓글이 임베딩에 미치는 영향력이 작음 - 전처리 과정에서 텍스트 차이가 희석될 가능성 존재 ## 해결 방법 - 기사 제목과 댓글만 합쳐 임베딩 처리 - 댓글이 너무 짧을 경우 댓글 여러 개를 묶거나 키워드 추출 등으로 의미 보강 - 임베딩 입력 텍스트 길이와 특성에 따라 조절 필요 ## 결과 - 제목 + 댓글 임베딩 시 벡터 간 차이가 뚜렷해져 문제 해결
문제
원인
해결 방법
결과