Page tree
Skip to end of metadata
Go to start of metadata

회사 업무와 관련하여 자연어 단어를 생성하여 태그로 사용할 필요가 있어서 간단하게 어휘목록을 만들어 보았다.

국립국어원의 "한국어 학습용 어휘 목록" 파일을 받아서 형용사와 동사, 명사와 고유명사를 분리한 다음 조합하는 로직을 작성하였다.

형용사와 동사 모두 "~하다"의 어미 형태여서 "~한"의 형태로 변경하는 작업을 진행하였다.

대부분은 간단한 규칙에 의해 변환이 되었으나 불규칙 활용이 있어서 몇 십 개 정도는 손으로 직접 변경하였다.


  • 형용사 또는 동사를 관형어로 변경한 어휘 목록
  • 명사 또는 고유명사를 합친 어휘 목록
    • "현실적"과 같은 단어는 명사로 분류되어 있으나 "현실적인"으로 바꿔서 형용사 어휘 목록에 추가하였음
  • 조합
    • (형용사 또는 동사) + (명사 또는 고유명사)의 규칙을 통해 다음과 같이 의미없는 단어 조합을 만들 수 있음
      • combi.txt
      • 기운 참조
        눈감은 자기
        두드러진 포도
        댄 부처
        헤맨 적
        쓰다듬은 꼬리
        맛없는 가짜
        그런 해석
        나쁜 그간
        더러운 영화관
        못지않은 복사기
        죽은 동물원
        맨 공사
        깨끗한 세제
        맛있는 열쇠
        사소한 점심때
        비웃은 약수
        높은 젊음
        찾은 연구자
        가득한 이달
    • 꾸미는 말이나 꾸밈을 받는 말이 한 글자인 경우에 의미가 모호하기도 하고 입에 착 붙는 맛이 없어서 제외를 한 결과도 있음
      • 위의 예제에 나온 "댄 부처"나 "헤맨 적"처럼 기괴하게 들리는 단어 조합이 발생하는 경우가 제법 많아서 제외
      • combi2.txt
      • 불편한 바위
        사이좋은 집단
        감정적인 주변
        싱거운 뒷골목
        사소한 어저께
        행복한 원서
        선명한 집안
        필연적인 불고기
        불은 상추
        안은 수도꼭지
        마음먹은 캠퍼스
        대표적인 사나이
        끊은 책임자
        게으른 양말
        굉장한 구청
        전통적인 희곡
        낡은 문밖
        철학적인 상점
        감정적인 중식
        짜증스러운 크리스마스



  • No labels