YZ ZONE

[자연어처리] 3. 언어학의 기본 원리 본문

IT/자연어처리

[자연어처리] 3. 언어학의 기본 원리

러블리YZ 2023. 2. 2. 18:28

-언어를 이루는 단위: 음절,형태소,어절,품사(part-of-speech,POS)

-언어의 구조: 구구조, 의존구조

음절(Syllable)

-언어를 말하고 들을 때, 하나의 덩어리로 여겨지는 가장 작은 발화의 단위

-한국어에서 음절은 기본적으로 초성, 중성, 종성으로 이루어져 있음.

-초성은 가장 처음에 오는 소리로 자음, 중성은 가운데 소리로 모음, 종성은 마지막 소리로 자음이 해당(받침).

-한국어의 음절은 모음 단독으로 이루어 질 수도 있고 모음 앞, 뒤에 자음이 하나씩 붙어 다음과 같은 형태로 구성

-음절은 말소리의 단위이기 때문에 소리나는 대로 적었을 때의 글자 각각 하나가 하나의 음절

형태소(Morpheme)

-의미를 가지는 가장 작은 단위로 형태소를 쪼개면 더이상 기능이나 의미를 가지지 않음

-실질적인 의미의 유무에 따라 실질형태소(어휘)와 형식 형태소(문법 형태소)로 나뉨.

-자립성의 유무에 따라 자립 형태소(홀로 쓰일 수 있음)와 의존 형태소(다른 형태소와 결합해 사용)로 나뉨.

 

-그 외에도 유일 형태소, 등이 있음

-이형태: 앞에오는 단어에 따라 모양만 달라짐. 은/는, 이/가, 을/를

어절

-한 개 이상의 형태소가 모여 구성된 단위.

-어절을 중심으로 끊어서 말하고, 글을 쓸 때 띄어쓰기 단위와 거의 일치

⇒ 음절이 모여 형태소가 되고 형태소가 모여 어절이 된다.

품사

-문장 내에서 단어가 수행하는 역할을 기준으로 체언, 수식언, 관계언, 독립언, 용언의 5언으로 나뉨.

-형태에 따라서는 가변어와 불변어로, 의미에 따라서는 명사, 대명사, 수사, 관형사, 부사, 조사, 감탄사, 동사, 형용사의 9품사로 나눔.

-5언중 가변어: 용언, 불변어: 체언, 수식언, 관계언, 독립언

품사_체언

-문장에서 몸통 중심이 역할. 대개 조사가 뒤에 붙음. 명사, 대명사, 수사

품사_수식언

-다른 말을 꾸며줌. 관형사, 부사.

-관형사: 체언앞에서 체언을 꾸며줌

-부사: 용언, 즉 동사와 형용사 앞에서 그 내용을 꾸며주거나 문장 전체를 꾸며줌.

품사_관계언

-자립형태소에 붙어 문법적 관계를 나타내는 의존형태소로(독립적으로는 안쓰임) 조사가 있음.

-체언, 용언의 명사형 등의 뒤에 붙어 말의 뜻을 더해주는 품사.

-조사에는 격조사, 접속조사, 보조사가 있음.

-격조사: 격을 나타내는 조사. 체언 등의 뒤에 붙어 그 말의 자격을 나타냄.

-접속조사: 두 단어를 이어주는 역할. 와, 과

-보조사: 여러 성분에 두루 붙어 특별한 뜻을 더해주는 역할.

품사_독립언

-독립적으로 쓰임. 다른 품사를 수식하지도 받지도 않음. 감탄사.

품사_용언

-독립된 뜻을 가지고 어미를 활용해 서술어의 기능을 하는 말.

-동작, 성질, 상태 등을 나타냄. 동사, 형용사

-어간과 어미로 이루어짐.

-동사: 사물의 동작이나 작용을 나타내는 단어.

목적어의 필요성 유무에 따라 자동사,타동사. 행동의 자발성 여부에 따라 능동사, 피동사. 행동의 주체에 따라 주동사, 사동사. 쓰임에 따라 본동사,보조동사. 활용 형태에 따라 규칙동사,불규칙동사.


구구조

-문장을 구성하는 요소들이 한 덩어리가 됨으로 형성되는 일정한 구조

-2개 이상 구성요소는 서로 선행관계, 지배관계를 맺고 있음

-한국어는 단어의 배열이 비교적 자유로워 구구조로 분석이 어려움.

-Parse-tree, Bracketing으로 나타냄.

-같은 언어로 구성되어 있어도 다른 구조로 뜻이 달라질 수 있음.

의존구조

-단어들이 서로 의존관계를 이루어 구문을 이룸.

-각 단어의 지배소(Head)와 의존소(Modifier)로 이루어져 있고 그 의존관계를 분석.

-한국어는 어순이 자유로워 의존구문 분석이 주로 이용됨.

-의존 관계를 나타내면 문장에서의 의미를 보다 명확하게 파악해 모호성을 해결할 수 있음

ex)scientists study whales from space

-과학자들은 우주에서 고래에 대해 공부한다.

-과학자들은 우주에 있는 고래에 대해 공부한다.

-그래프기반 의존 구분 분석

비결정적인 방법으로 문장이 가질 수 있는 모든 의존 분석 결과 중 가장 높은 점수의 의존 트리 선택. 모든경우의 수를 계산하는 전역 검색을 이용해 느림.

-전이 기반 의존 구문 분석

선형적 탐색을 해 근거리 의존관계를 찾음. 빠르지만 전역적 확인은 약함.


의미론

-단어, 문장, 발화에서 그 표현이 실제로 가리키는 지시체와의 의미관계를 파악하는 것.

-문법적으로는 맞아도 의미가 어색하면 언어라 할 수 없음.

ex)’사료가 개를 먹었습니다’

화용론

-언어사용자, 발화맥락 고려. 언어 자체 뿐 아니라 맥락속 언어 사용을 다룸.

-문맥을 이해하기 위해 뭘 직시(가리키는지)하는지 알아야함.

-대화 참여자들 사이 이미 공유하는 정보다 있다는 가정하에 대화가 이루어질수도 있음.

-화행: 언어를 통해 이루어지는 행위.약속, 사과, 충고, 선언 등

“다음 주 이 시간에 다시 봅시다.”는 약속이라는 행위가 포함되어 있음.

직접적으로 표시하면 직접화행, 간접적으로 표시하면 간접화행