YZ ZONE

[자연어처리] 7.의미 분석 본문

IT/자연어처리

[자연어처리] 7.의미 분석

러블리YZ 2023. 2. 2. 18:59

중의성 ?

둘 이상의 의미를 가지는 표현.

해석의 혼동으로 인해 원하는 결과에 방해를 주기 때문에 적절한 문맥 정보와 함께 표현되어야함

ex)어휘적 중의성, 구조적 중의성

어휘적 중의성

-다의어에 의한 중의성

ex)손 좀 보다→ 신체일부, 수리, 혼을 내다

-동음어에 의한 중의성

ex) 밤이 좋다 → 시간, 음식

구조적 중의성

수식어에 의한 중의성

ex) 부유한 철수와 영희가 명품 매장을 갔다. → 철수가 부유한지, 둘 다 부유한지

단어 의미 중의성 해소 기법

문장 내 중의성을 가지는 어휘를 사전에 정의된 의미와 매칭하여 어휘적 중의성을 해결하는 문제

지식기반 방법

문장에 등장한 단어들을 사전에 정의된 어휘 지식을 활용하여 예측하는 방법

ex) WordNet, ConceptNet, FreeBase, BabelNet등

-사전 정의 기반 방법_Lesk알고리즘

사전에 정의된 문장의 단어들을 기반으로 의미 추론.

중의성 단어의 사전 뜻풀이에 쓰인 단어들과 중의성 단어의 주변 문맥에 나타난 단어의 사전 뜻풀이에 쓰인 단어들 사이에 중복되는 단어가 가장 많은 의미를 중의성 단어의 의미로 선택

Lesk 알고리즘의 한계점

단어 간의 정확한 일티가 기반. 사전 정의의 굉장히 의존적

-그래프 기반 방법_단순 그래프 기반 방법

의미 관계를 가지는 사전들의 관계성을 보고 의미 추론.

ex)She drank some milk

 

중의성 단어(lemma)인 drink와 milk의 조합(synset) 들을 WordNet에서 추출해 그래프 형태로 만들어 알고자 하는 범위 내에서 그래프 연결을 분석해 해당되는 단어들을 뽑아 연결관계를 search에서 찾은 다음 가장 연결선이 많은 것을 선택

 

DFS(Depth First Search), BFS(Breath First Search)알고리즘을 이용해 검색되는 Edge를 아래와 같이 추출해 Subgraph생성

지도학습 기반 방법

각족 기계 학습 알고리즘을 통해 단어 의미를 분석

기계학습 분류기 모델은 사용자가 정의한 규칙에 맞춰 선택된 자질에 따라 성능을 높여옴

ex) 공기어, 의존 관계 정보, 형태소 정보 등

성능을 높이기 위해서는 대규모의 의미 태깅된 말뭉치가 필요

학습한 특정 중의성 단어에 대해서만 해결 가능

-Naive Bayes Classifiers

확률 기반 추론에서 많이 등장함. 조건부 확률 이용.

입력x는 여러가지 정보를 주는데 그것으로 조건부 확률을 계산해 가장 최대를 찾음. 즉 k개의 의미가 있을때 확률이 최대가 되는 의미를 선택.

- KNN. K-Nearest Neighbor Classifiers

k개의 클래스가 있을때 가장 인접한 이웃을 찾는 방법.

유클리드 거리(Euclidean Distance)와 코사인 유사도(Cosine Similarity)로 벡터 공간에서의 자질을 묶음

- SVM. Support Vector Machine

벡터 공간에 표현된 자질로부터 의미 클래스를 분류하기위해 의미 클래스 간에 가장 넓은 거리를 사용하는 방향으로 선을 그어 의미를 분류

의미역 분석

필수적 의미역: 서술어의 의미를 구성하는데 필수적으로 요구

  • 행동주

어떤 행위를 하는 주체로 대게 감정이나 의지를 가지는 사람이나 동물. 고의성이나 의도성을 가짐

  • 도구

행위, 이동의 의미를 표현하는 동사의 수단

  • 피동주/수동자

동사가 행위를 표현하는 경우며, 행위에 영향을 받거나 상태 변화를 겪음

  • 경험자

인지, 지각, 감정을 나타내는 용언의 경우 그 현상의 경험 주체가 되는 논항에 의해 내적인 상태에 영향을 받는 것

행동주와 달리 의도성을 나타내는 부사(구)와 결합할 수 없음

  • 수혜자

술어가 나타내는 사건에 의해 어떤 대상이 그로부터 이동하게 된 원래의 장소

행동의 동기나 이유가 출처가 되기도 함

  • 도달점/ 목표

행위가 목적하는 곳으로 출처와 대칭적인 개념

공간적 목적지 뿐만 아니라 심정적, 주관적 목적지까지 포함

 

 

수의적 의미역: 서술어의 의미를 보충

장소/위치, 이유, 목적, 경로, 시간, 방법 등으로 분류

통상적인 분석에서 의미역 기준에 따라 하나의 명사구는 하나의 의미역만을 가짐

지도학습 기반 의미역 분석

단어 의미 중의성 해소의 지도학습 기반 방법과 마찬가지의 기계학습을 사용

형태소, 구문정보와 같은 문법적 자질을 사용할 때

-’타다’라는 서술어가 같은 행동주와 피동주/수동자를 갖는다면 유사한 의미인 ‘승차하다’도 같은 의미역을 갖는다고 유추하여 의미역을 파악하는데 도움을 줌

-반대로 ‘타다’의 동형이의어가 존재할 경우 ‘탈 것’을 의미하는 것이 아니라 ‘불씨가 번지거나 불꽃이 일어난다’로 해석될 수 있기 때문에 단어 그대로가 아닌 단어가 갖는 의미도 고려해야함

개체명과 같은 의미적 자질을 사용할 때

-눈이라는 단어가 얼음결정체인지 감각기관 인지도 파악해서 의미역을 파악하는데 도움을 줌

의미역 성능을 높이기 위해 이러한 문법적, 의미적 자질을 사용하면 높은 성능을 보이지만, 자질을 추출하기위해 대량의 학습데이터가 학습된 분류기를 따로 구축해야 한다는 단점이 존재

의미 표현

화자들은 의미 구조에 대한 지식으로 모국어의 문장을 의미와 명제 내용에 따라 논항 구조를 파악하고, 문자 사이의 모순관계, 함의관계, 중의성 등의 관계를 정확하게 파악

 

-나는 사과를 먹는다’ 와 ‘나는 사과를 했다’라는 문장을 구분할 때 ‘사과’가 먹는다,했다 와의 관계를 통해 다른 의미로 쓰이는 것을 정확하게 파악

-은유적, 관용적 구성을 사용하고, 지시, 가리킴말, 맥랑, 화행, 및 전제,함축을 상황에 맞춰서 유연하게 사용

문장의 의미표현은 이러한 화자들의 다양한 언어적 표현을 파악하는 단계

의미 분석 연구는 개체명, 의미역, 상호참조 ,담화 연결사 , 시간 및 공간 정보 등 언어 표현이 가진 여러 의미론적 측면 중 일부에 초점을 맞추어 진행되어 옴