나쁘지 않은 결과가 나왔다. 정확도, 정밀도, 재현율 모두 괜찮게 나온 것 같다.
문득 든 생각이 애초에 학습 대상이었던 1200여 개의 토렌트왈 리뷰에서 분리한 Test 데이터이기에 괜찮은 결과가 나온 게 아닐까 싶었다.

따라서 지난 포스팅에 언급했던 최신순으로 보이는 무작위 토렌트왈에 대한 리뷰를 10,000개 스크래핑 해서 테스트해보기로 했다.

같은 전처리 과정을 거쳐 테스트 한 결과를 보면

총 5261개의 긍정 리뷰, 1625개의 부정 리뷰를 대상으로 테스트했고
confusion_matrix는 위와 같이 나왔다.

정확도, 정밀도, 재현율을 살펴보면

정확도 : 86 %

긍정 정밀도 : 95%
부정 정밀도 : 66%

긍정 재현율 : 87%
부정 재현율 : 84%

부정 정밀도를 제외하곤 괜찮은 결과가 나왔다. 왜 부정 정밀도가 떨어졌는지 생각해 보자.

먼저 부정 정밀도는 분류기가 부정으로 분류한 모든 경우의 수 중에서 실제로 부정인 경우의 비를 의미한다.

부정 정밀도를 confussion_matrix를 통해 구해보자면
1360/(1360 + 704) = 0.6589147286821705로 약 66%가량 나오게 된다.
상당히 많은 부정 리뷰를 긍정 리뷰로 분류했다는 것인데..

왜 틀렸을까?


부정 리뷰 중에서 가장 높은 점수를 가지고 있는 평점 5점짜리 리뷰를 살펴보았다.
학습 데이터를 전처리 할 땐 대부분 부정이라고 생각했었는데.. 다시 찬찬히 보면 긍정/ 부정으로 분류되기에 애매한 문장들이 있었다.
그래서 아쉬운 결과가 나온 게 아닐까 생각한다.

다음부터는 ‘보통’ 라벨을 추가하거나 긍정/부정 분류에선 과감하게 빼도 되겠다는 생각을 했다.


아쉬움을 뒤로하고 앞으로의 목표를 세우자면,

  • 매우 좋음 / 좋음 / 보통 / 싫음 / 매우 싫음 이렇게 분류 라벨의 수를 늘리는 것을 시작으로 나중에는 작성자의 감정을 추측하는 프로젝트를 해보고 싶다.
    예를 들자면, 문장을 보고 ‘즐거움’, ‘자신감’, ‘슬픔’, ‘열정’ 등의 감정을 분석할 수 있다면 비즈니스 문서 작성이나 자기소개서 작성 및 평가에 잘 활용될 수 있을 것이다. 아직은 어떻게 데이터를 수집해야 할지 감도 잡히지 않지만.. 언젠간 꼭 해보고 싶은 프로젝트다.
  • 다른 학우들의 발표도 봤는데 다들 너무 신선한 주제, 독특한 관점에서의 분석을 보여주었던 것 같다. 좋은 자극을 얻었던 것 같다. 열심히 해야지

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다