일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- DB
- 컴퓨터구조
- 자연어처리
- 오퍼랜드
- 엔트로피
- 파이썬 딥러닝
- 자료구조 알고리즘
- 뇌를 자극하는 알고리즘
- 딥러닝 교차 엔트로피
- 파이썬 날코딩으로 알고 짜는 딥러닝
- 교차 엔트로피
- 리스트
- 단층퍼셉트론
- 단층 퍼셉트론
- 딥러닝 교차엔트로피
- 신경망
- 편미분
- 확률분포
- 퍼셉트론
- 순차 자료구조
- 회귀분석
- DBMS
- 연결 자료구조
- lost function
- 자료구조
- 노드
- 선형 리스트
- 인공지능
- 파라미터
- 딥러닝
- Today
- Total
목록전체 글 (121)
YZ ZONE
언어를 이루는 구성요소에 확률값을 부여해 이를 바탕으로 다음 구성요소를 예측, 생성. 언어 모델은 통계적 언어모델SLM, 딥러닝 언어 모델DNN LM이 있음. 통계적 언어 모델(Statical Language Model, SLM) 단어열이 가지는 확률 분포를 기반으로 각 단어의 조합을 예측하는 전통적인 언어모델. 즉 주어진 글자,단어를 바탕으로 다음에 나올 확률이 가장 높은 글자나 단어를 예측. 조건부 확률(A가일어났을때 B가일어날 확률)을 언어 현상에 적용하는 데에서 출발. Ex) 스마트폰의 자동완성 기능 모델은 훈련시 주어지는 데이터(코퍼스 corpus) 내에서 각 단어들의 조합이 나오는 횟수를 카운트한 후 이에 기반하여 확률을 계산. 마르코프과정? 단어들의 조합이 무한하며, 모든 단어 조합의 경우의..
개체명 인식(Named Entity Recognition, NER) 사람 (Person PS), 장소 (Location LC), 기관(Organization OG), 날짜(Date DT)등 명명된(named)개체를 텍스트로 식별하는 작업. 개체명 인식을 통해 특정 명사에 해당하는 태그를 붙여 개체명을 인식하여 분류. Ex) 춘향아 8월15일에 강남에서 홍길동과 약속이 있으니까, 늦지 말고 오도록 해! [사람] : 춘향, 홍길동 [날짜] : 8월 15일 [장소] : 강남 BIO 태깅 기법 (BIO Tagging Scheme) 개체명을 텍스트로부터 인식시키기 위한 기법 중 하나. 추출작업에서 자주 이용됨. 태그⇒ B: 시작 단어, I:B혹은 I뒤에오는 단어 O: 개체명이 아닌 나머지 단어 Ex)New Yor..
중의성 ? 둘 이상의 의미를 가지는 표현. 해석의 혼동으로 인해 원하는 결과에 방해를 주기 때문에 적절한 문맥 정보와 함께 표현되어야함 ex)어휘적 중의성, 구조적 중의성 어휘적 중의성 -다의어에 의한 중의성 ex)손 좀 보다→ 신체일부, 수리, 혼을 내다 -동음어에 의한 중의성 ex) 밤이 좋다 → 시간, 음식 구조적 중의성 수식어에 의한 중의성 ex) 부유한 철수와 영희가 명품 매장을 갔다. → 철수가 부유한지, 둘 다 부유한지 단어 의미 중의성 해소 기법 문장 내 중의성을 가지는 어휘를 사전에 정의된 의미와 매칭하여 어휘적 중의성을 해결하는 문제 지식기반 방법 문장에 등장한 단어들을 사전에 정의된 어휘 지식을 활용하여 예측하는 방법 ex) WordNet, ConceptNet, FreeBase, Ba..
구문 분석: 자연어 문장에서 구성 요소들의 문법적 구조를 분석하는 기술 문법적 구조 정보를 자동으로 추출함으로써 자연어처리 기술(기계번역, 정보 검색 등)에서 문장 의미의 분석을 돕는 세부 기술로 활용 가능 구문 문법(Construction Grammar) :언어학에서 문법적 구성 요소들로부터 문자을 생성하고, 반대로 문장을 구성 요소들로 분석하는 분법 구문 문법을 정의하는 것은 구문 분석에서 중요한 요소 중 하나 구문 분석의 목표: 자연어 문장의 문법적 구조를 ‘구문 문법’에 따라 자동으로 분석하는 것 구문 문법을 정의하는 것은 곧 구문 분석을 통해 추출하고자 하는 문법 구조 정보를 정의하는 것 구문 분석 기술에서 대표적으로 할용되는 구문 문법 구구조 문법, 의존 문법 구문 중의성 구문 중의성(Synt..
어휘 분석: 단어의 구조를 식별하고 분석을해 어휘가 어떤 의미와 품사를 가지는지 연구 형태소 분석 : 더 이상 분해될 수 없는 최소한의 의미 단위인 형태소를 자연어의 제약 조건과 문법 규칙에 맞춰 분석하는 것 ex) 컴퓨터를 = 컴퓨터 + 를 → 각각 의미를 지님 형태소 분석 절차 단어에서 최소 의미를 포함하는 형태소 후보로 분리ex) 한국어(Korean)는 = 한국어 + ( + Korean + ) + 는-같은 형태소열에서 분석될 수 있는 후보 나는 = 날 + 는 (fly의 의미) ex) 나는 = 나 + 는 (me의 의미) 한국어에서 형태소가 연결될 때, 형태소의 변형이 일어나기 때문에 형태소 원형의 복원이 필요함 형태소 분석의 처리 대상인 어절(또는 단어)은 하나 이상의 형태소가 연결된 것. ‘형태소열..
비정형 데이터(unstructured Data) -형태와 구조가 다른 구조화 되지 않은 데이터. 그림, 영상, 음성, 문서 -비정형 데이터의 오류를 수정하는 과정을 전처리 과정이라 함 -실세계 데이터는 대부분 가공되어 있지 않은 비정형 데이터라 전처리 과정을 필수적. 텍스트 문서의 변환 -파일로부터 텍스트를 추출하는 것이 전처리의 첫 단계 -일반 문서들은 사람이 읽기 간편하나 파일 형식에 따라 저장 방법이 달라 시스템이 읽기 힘듬. -사람: 해당 텍스트가 하나의 문장이며 그 내용을 쉽게 파악 가능 -시스템: 문서파일을 해당 형식에 따라 크롤링(Crawling)하면 다음과 같이 다르게 읽힘. -’문서파일’→ ‘문서’ 작업 수행 - 목표 언어의 어휘만 남기고 기타 텍스트(특수문자, 타 언어)들은 날려야함. ..