YZ ZONE

[자연어처리] 5. 어휘 분석 본문

IT/자연어처리

[자연어처리] 5. 어휘 분석

러블리YZ 2023. 2. 2. 18:38

어휘 분석: 단어의 구조를 식별하고 분석을해 어휘가 어떤 의미와 품사를 가지는지 연구

형태소 분석

: 더 이상 분해될 수 없는 최소한의 의미 단위인 형태소를 자연어의 제약 조건과 문법 규칙에 맞춰 분석하는 것 ex) 컴퓨터를 = 컴퓨터 + 를 → 각각 의미를 지님

형태소 분석 절차

  1. 단어에서 최소 의미를 포함하는 형태소 후보로 분리ex) 한국어(Korean)는 = 한국어 + ( + Korean + ) + 는-같은 형태소열에서 분석될 수 있는 후보
       나는 = 날 + 는 (fly의 의미)
    
  2. ex) 나는 = 나 + 는 (me의 의미)
  3. 한국어에서 형태소가 연결될 때, 형태소의 변형이 일어나기 때문에 형태소 원형의 복원이 필요함
  4. 형태소 분석의 처리 대상인 어절(또는 단어)은 하나 이상의 형태소가 연결된 것. ‘형태소열’이라고도 함.
  5. 형태론적 변형이 일어날 형태소의 원형 복원 및 형태소품사쌍 생성형태소와 그 형태소의 품사를 쌍으로 나타낸 것을 형태소품사쌍이라함
         나-: (나_대명사),(나_명사),(나_동사),(나_보조용언)
    
  6. ex) 한국어- :(한국어_고유명사)
  7. 형태소는 하나 이상의 품사를 가질 수 있어, 하나의 형태소는 하나 이상의 형태소와 품사의 쌍으로 표현됨
  8. 단어와 사전들 사이의 결합조건에 따라 옮은 분석 후보를 선택

ex) “나는”에 대한 형태소품사쌍열 후보군 중 선택

 

영어 형태소 분석

영어에서 최소 단위의 의미를 갖는 기본 단위는 단어.

어간추출(stemming),표제어추출(lemmatization)을 통해 쉽게 형태소 파악 가능.

일반적으로 영어의 형태소는 접사. 접미사(앞) 접두사(뒤).

접사를 제거했을 때 의미가 바뀌는 단어들 존재하며, 최소한의 의미를 갖고있는 형태소를 찾아 원형 분석 필요함

품사 태깅

품사 태깅이란 같은 단어의 중의성을 해결하기 위해 부가적으로 언어의 정보를 부착하는 것을 뜻합니다.

품사: 단어의 기능, 형태, 의미에 따라 나눈 것

태깅: 같은 단어에 대해 의미가 다를 경우(중의성)를 해결하기 위해 부가적인 언어의 정보를 부착

품사 태깅 접근법

- 규칙 기반의 접근법 (문법?)

전문가가 수동으로 규칙을 만들어서 함.

언어 정보에서 생성되는 규칙 형태로 표현, 이를 적용해 태깅 수행.

장점: 품사 사이 관계 외의 어절에 대해 높은 정확도를 나타내기 때문에 통계 기반 접근법으로 다루지 못하는 부분에 대해 교정이 가능

긍정정보, 부정정보, 수정정보로 중의성을 해결하고 태깅을 부착하는 방법

긍정 정보: 문장에서 선호되는 어휘 태그에 대한 언어 지식.  [가 or 나] → 가 [다 or 라]

부정 정보: 특정 문장에서 배제되는 어휘 태그에 대한 언어 지식.  가 ? 나 → not 다

수정 정보: 오류 교정. 잘못된 정보 입력시 수정될 정보에 대한 지식  A:가 → 나

- 통계 기반의 접근법

  • 은닉 마코프 모델(HMM: Hidden Markov Model)태그가 부착된 대량의 코퍼스가 주어지면 태깅에 적합한 모델을 선정하고 코퍼스에서 추출된 통계정보 이용.주어진 문장에서 형태소의 품사 태그 정보를 숨긴채로 확률 정보를 이용해 가장 가능성이 높은 경로를 찾음.
  • 단어가 어떤 품사냐 를 고려해 찾지 전체 문맥정보는 고려되지 않음.
  • 대량의 코퍼스에 태그가 부착되어야하는 단점이 있지만 통계정보 추출이 용이, 자동추출가능.
  • 대표적으로 어휘 확률만을 이용하는 반법으로 확률이 높은것을 선택.가장 성능 좋은 접근 방법.

 

 

- 딥러닝 기반의 접근법

방대한 데이터로 학습. 접근방법이 네트워크 구조를 심층으로 만들어 구조 내에서 학습 과정에서 특징들이 내부적으로 추출되도록 만듬.

언어처리에서 딥러닝의 효과

  1. 데이터로부터 특징을 자동으로 학습
  2. 폭넓은 문맥 정보를 다룰 수 있음
  3. 모델이 적합한 출력을 다루기가 간단함
  4. 언어 + 음성,사진 데이터를 결합하여 처리 가능

*접근법에 따른 단점 몰아보기

-규칙기반: 수동으로. 전문가필요. 노력,시간, 비용 많이듬. 정해진 규칙 외에는 해결안됨.

-통계기반: 앞의 단어의 태깅 정보에 따라 결정되어 문맥을 고려하지는 못함.