분류 전체보기 (199)
ººº::Development™:: (66)
ººº::Learning™:: (31)
ººº::Information™:: (37)
ººº::Note™:: (11)
ººº::Photo™:: (50)
ººº::zEtc™:: (3)
rss

믹시
tistory 티스토리 가입하기!
2007. 3. 26. 17:02

형태소 분석기를 개발하기 전에 형태소 분석이 무엇인지...왜 형태소 분석을 하고 이런 형태소를 분석해주는 형태소 분석기가 무엇인지에 대해 알아보자

형태소분석기란 형태소를 분석해주는 프로그램이다.
형태소 분석이란 어떠한 문장(질의)에서 형태소 단위로 나누어주는 것을 말하며
형태소란 더 이상 분해될 수 없는 최소의 뜻 단위이다.
뜹 먼소리인지 모르겠다...인터넷에서 떠돌아 댕기는 이야기인데 아직까지는 모르겠다.
형태소가 먼지...ㅠㅠ;

그럼 이렇게 형태소를 분석하기 위해서는 형태소사전이 있어야 하고, 또 하나 품사부착기가 있어야 한다고 한다.

형태소사전이란 형태소분석을 하기 위해서 미리 만들어 놓은 단어 데이터베이스를 말한다. 이 사전은 자동혹은 수동으로 입력이 가능하지만 뜩별한 경우를 제외하고는 모두 자동으로 입력되도록 한다. 여기서 말하는 자동이라는 것은 사용자에 의해 입력된 문서를 읽어낸 후(=학습) 단어의 품사를 구분해내고 빈도수를 측정함으로서 구축된다는 뜻이랍니다..

이 글을 쓰는 나도 먼소리인지 모르는데 나같은 다른 사람은 이해를 할 수 있을까? 자 그럼 예를 들어보자
 예를 들어 소설 '초한지'를 집어 넣으면 '유방', '항우'에 대하여 그 의미를 파악하여 품사를 부착하고 빈도수를 측정한다. 그 후 이와 유사한 문서가 들어오면 다시 같은 단어에 대하여 일치하는 결과를 도출해 낸다. 이제는 이해가 가는가.? 나두 안간다...하지만 이거 말고 다른 예를 구할수가 없다....내가 이해를 했으면 다른 예를 만들겠지만...이해를 몬해 그냥 넘어가자!! 머 언젠가는 이해하는 시간이 오겠지~~

그럼 이러한 형태소 분석이 왜 한글에 어려운지 왜 필요한지에 대해 좀더 알아보자

우리가 일반적으로 사용하는 검색엔진 제작시 형태소 분석에서 많은 어려움을 가진다. 왜냐.? 바로 우리가 사용하고 다루는 언어가 한글이기 때문이다. 그럼 왜 한글만 가지고 그러냐.?
영어를 예를 들어보면 소년이라는 의미의 boy의 복수형은 끝네 -s를 첨가하면 된다. 즉 단어의 형태가 크게 변하거나 다양한 기능어가 분지 않는 것이다. 하지만 한글을 생각해 보자..
굳이 예를 들지 않더라도 소년이라는 단어에 수많은 기능어, 접사, 등 엄청나게 많은 언어의 변호가 생겨난다. 따라서 이러한 언어의 변화를 찾아서 최종의 형태소를 인식해야 하고, 이러한 규칙을 찾기가 쉽지않다라는 것이다.

그렇다면 한글에 왜 형태소 분석이 필요할까? 바로 색인어 추출을 위해서이다. 우리가 사용하는 색인어 및 검색어는 주로 명사 위로로 되어있다.(여기서 다른것도 있다고 테클걸지 말자 일반적이라고 예기했다.~~) 이러한 명사를 추출하기 위해서는 각종 기능어와 접미사, 타 품사, 형태가 변형등의 인식이 필요하게 된다.

자 이제 왜 형태소 분석이 필요하고 이러한 분석을 해주는 형태소 분석기가 있어야 하는지 알겠는가?? 당연히 모르겠지 나두 모르는데~~
머 여기까지 뿐이 아니라 더 많은 정보를 알아야 하지만 나는 이제 시작했다. 머 이글을 읽고있는 누군가도 처음 시작할 수 있다. 우리 모두 천천히 한단계식 나가보자..!!

'ººº::Learning™:: > ::zEtc™::' 카테고리의 다른 글

OpenID란  (1) 2007.08.14
형태소 분석기 제작....  (0) 2007.03.26