일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 딥러닝
- 컴퓨터구조
- 단층퍼셉트론
- 엔트로피
- 선형 리스트
- 퍼셉트론
- 교차 엔트로피
- 딥러닝 교차 엔트로피
- 파이썬 딥러닝
- 회귀분석
- 인공지능
- 리스트
- 확률분포
- 순차 자료구조
- 뇌를 자극하는 알고리즘
- 단층 퍼셉트론
- 자연어처리
- 연결 자료구조
- 딥러닝 교차엔트로피
- DBMS
- 자료구조
- 자료구조 알고리즘
- 편미분
- 오퍼랜드
- lost function
- 신경망
- DB
- 파라미터
- 노드
- 파이썬 날코딩으로 알고 짜는 딥러닝
- Today
- Total
YZ ZONE
[자연어처리] 3. 언어학의 기본 원리 본문
-언어를 이루는 단위: 음절,형태소,어절,품사(part-of-speech,POS)
-언어의 구조: 구구조, 의존구조
음절(Syllable)
-언어를 말하고 들을 때, 하나의 덩어리로 여겨지는 가장 작은 발화의 단위
-한국어에서 음절은 기본적으로 초성, 중성, 종성으로 이루어져 있음.
-초성은 가장 처음에 오는 소리로 자음, 중성은 가운데 소리로 모음, 종성은 마지막 소리로 자음이 해당(받침).
-한국어의 음절은 모음 단독으로 이루어 질 수도 있고 모음 앞, 뒤에 자음이 하나씩 붙어 다음과 같은 형태로 구성
-음절은 말소리의 단위이기 때문에 소리나는 대로 적었을 때의 글자 각각 하나가 하나의 음절
형태소(Morpheme)
-의미를 가지는 가장 작은 단위로 형태소를 쪼개면 더이상 기능이나 의미를 가지지 않음
-실질적인 의미의 유무에 따라 실질형태소(어휘)와 형식 형태소(문법 형태소)로 나뉨.
-자립성의 유무에 따라 자립 형태소(홀로 쓰일 수 있음)와 의존 형태소(다른 형태소와 결합해 사용)로 나뉨.
-그 외에도 유일 형태소, 등이 있음
-이형태: 앞에오는 단어에 따라 모양만 달라짐. 은/는, 이/가, 을/를
어절
-한 개 이상의 형태소가 모여 구성된 단위.
-어절을 중심으로 끊어서 말하고, 글을 쓸 때 띄어쓰기 단위와 거의 일치
⇒ 음절이 모여 형태소가 되고 형태소가 모여 어절이 된다.
품사
-문장 내에서 단어가 수행하는 역할을 기준으로 체언, 수식언, 관계언, 독립언, 용언의 5언으로 나뉨.
-형태에 따라서는 가변어와 불변어로, 의미에 따라서는 명사, 대명사, 수사, 관형사, 부사, 조사, 감탄사, 동사, 형용사의 9품사로 나눔.
-5언중 가변어: 용언, 불변어: 체언, 수식언, 관계언, 독립언
품사_체언
-문장에서 몸통 중심이 역할. 대개 조사가 뒤에 붙음. 명사, 대명사, 수사
품사_수식언
-다른 말을 꾸며줌. 관형사, 부사.
-관형사: 체언앞에서 체언을 꾸며줌
-부사: 용언, 즉 동사와 형용사 앞에서 그 내용을 꾸며주거나 문장 전체를 꾸며줌.
품사_관계언
-자립형태소에 붙어 문법적 관계를 나타내는 의존형태소로(독립적으로는 안쓰임) 조사가 있음.
-체언, 용언의 명사형 등의 뒤에 붙어 말의 뜻을 더해주는 품사.
-조사에는 격조사, 접속조사, 보조사가 있음.
-격조사: 격을 나타내는 조사. 체언 등의 뒤에 붙어 그 말의 자격을 나타냄.
-접속조사: 두 단어를 이어주는 역할. 와, 과
-보조사: 여러 성분에 두루 붙어 특별한 뜻을 더해주는 역할.
품사_독립언
-독립적으로 쓰임. 다른 품사를 수식하지도 받지도 않음. 감탄사.
품사_용언
-독립된 뜻을 가지고 어미를 활용해 서술어의 기능을 하는 말.
-동작, 성질, 상태 등을 나타냄. 동사, 형용사
-어간과 어미로 이루어짐.
-동사: 사물의 동작이나 작용을 나타내는 단어.
목적어의 필요성 유무에 따라 자동사,타동사. 행동의 자발성 여부에 따라 능동사, 피동사. 행동의 주체에 따라 주동사, 사동사. 쓰임에 따라 본동사,보조동사. 활용 형태에 따라 규칙동사,불규칙동사.
구구조
-문장을 구성하는 요소들이 한 덩어리가 됨으로 형성되는 일정한 구조
-2개 이상 구성요소는 서로 선행관계, 지배관계를 맺고 있음
-한국어는 단어의 배열이 비교적 자유로워 구구조로 분석이 어려움.
-Parse-tree, Bracketing으로 나타냄.
-같은 언어로 구성되어 있어도 다른 구조로 뜻이 달라질 수 있음.
의존구조
-단어들이 서로 의존관계를 이루어 구문을 이룸.
-각 단어의 지배소(Head)와 의존소(Modifier)로 이루어져 있고 그 의존관계를 분석.
-한국어는 어순이 자유로워 의존구문 분석이 주로 이용됨.
-의존 관계를 나타내면 문장에서의 의미를 보다 명확하게 파악해 모호성을 해결할 수 있음
ex)scientists study whales from space
-과학자들은 우주에서 고래에 대해 공부한다.
-과학자들은 우주에 있는 고래에 대해 공부한다.
-그래프기반 의존 구분 분석
비결정적인 방법으로 문장이 가질 수 있는 모든 의존 분석 결과 중 가장 높은 점수의 의존 트리 선택. 모든경우의 수를 계산하는 전역 검색을 이용해 느림.
-전이 기반 의존 구문 분석
선형적 탐색을 해 근거리 의존관계를 찾음. 빠르지만 전역적 확인은 약함.
의미론
-단어, 문장, 발화에서 그 표현이 실제로 가리키는 지시체와의 의미관계를 파악하는 것.
-문법적으로는 맞아도 의미가 어색하면 언어라 할 수 없음.
ex)’사료가 개를 먹었습니다’
화용론
-언어사용자, 발화맥락 고려. 언어 자체 뿐 아니라 맥락속 언어 사용을 다룸.
-문맥을 이해하기 위해 뭘 직시(가리키는지)하는지 알아야함.
-대화 참여자들 사이 이미 공유하는 정보다 있다는 가정하에 대화가 이루어질수도 있음.
-화행: 언어를 통해 이루어지는 행위.약속, 사과, 충고, 선언 등
“다음 주 이 시간에 다시 봅시다.”는 약속이라는 행위가 포함되어 있음.
직접적으로 표시하면 직접화행, 간접적으로 표시하면 간접화행
'IT > 자연어처리' 카테고리의 다른 글
[자연어처리] 5. 어휘 분석 (0) | 2023.02.02 |
---|---|
[자연어처리] 4. 텍스트의 전처리 (0) | 2023.02.02 |
[자연어처리] 2. 자연어처리를 위한 수학-복습3 (0) | 2023.02.02 |
[자연어처리] 2. 자연어처리를 위한 수학-복습2 (0) | 2023.02.02 |
[자연어처리] 2. 자연어처리를 위한 수학-복습 (0) | 2023.02.02 |