분류 전체보기 (199)
ººº::Development™:: (66)
ººº::Learning™:: (31)
ººº::Information™:: (37)
ººº::Note™:: (11)
ººº::Photo™:: (50)
ººº::zEtc™:: (3)
rss

믹시
tistory 티스토리 가입하기!
'정보검색'에 해당되는 글 2건
2007. 3. 26. 17:02

형태소 분석기를 개발하기 전에 형태소 분석이 무엇인지...왜 형태소 분석을 하고 이런 형태소를 분석해주는 형태소 분석기가 무엇인지에 대해 알아보자

형태소분석기란 형태소를 분석해주는 프로그램이다.
형태소 분석이란 어떠한 문장(질의)에서 형태소 단위로 나누어주는 것을 말하며
형태소란 더 이상 분해될 수 없는 최소의 뜻 단위이다.
뜹 먼소리인지 모르겠다...인터넷에서 떠돌아 댕기는 이야기인데 아직까지는 모르겠다.
형태소가 먼지...ㅠㅠ;

그럼 이렇게 형태소를 분석하기 위해서는 형태소사전이 있어야 하고, 또 하나 품사부착기가 있어야 한다고 한다.

형태소사전이란 형태소분석을 하기 위해서 미리 만들어 놓은 단어 데이터베이스를 말한다. 이 사전은 자동혹은 수동으로 입력이 가능하지만 뜩별한 경우를 제외하고는 모두 자동으로 입력되도록 한다. 여기서 말하는 자동이라는 것은 사용자에 의해 입력된 문서를 읽어낸 후(=학습) 단어의 품사를 구분해내고 빈도수를 측정함으로서 구축된다는 뜻이랍니다..

이 글을 쓰는 나도 먼소리인지 모르는데 나같은 다른 사람은 이해를 할 수 있을까? 자 그럼 예를 들어보자
 예를 들어 소설 '초한지'를 집어 넣으면 '유방', '항우'에 대하여 그 의미를 파악하여 품사를 부착하고 빈도수를 측정한다. 그 후 이와 유사한 문서가 들어오면 다시 같은 단어에 대하여 일치하는 결과를 도출해 낸다. 이제는 이해가 가는가.? 나두 안간다...하지만 이거 말고 다른 예를 구할수가 없다....내가 이해를 했으면 다른 예를 만들겠지만...이해를 몬해 그냥 넘어가자!! 머 언젠가는 이해하는 시간이 오겠지~~

그럼 이러한 형태소 분석이 왜 한글에 어려운지 왜 필요한지에 대해 좀더 알아보자

우리가 일반적으로 사용하는 검색엔진 제작시 형태소 분석에서 많은 어려움을 가진다. 왜냐.? 바로 우리가 사용하고 다루는 언어가 한글이기 때문이다. 그럼 왜 한글만 가지고 그러냐.?
영어를 예를 들어보면 소년이라는 의미의 boy의 복수형은 끝네 -s를 첨가하면 된다. 즉 단어의 형태가 크게 변하거나 다양한 기능어가 분지 않는 것이다. 하지만 한글을 생각해 보자..
굳이 예를 들지 않더라도 소년이라는 단어에 수많은 기능어, 접사, 등 엄청나게 많은 언어의 변호가 생겨난다. 따라서 이러한 언어의 변화를 찾아서 최종의 형태소를 인식해야 하고, 이러한 규칙을 찾기가 쉽지않다라는 것이다.

그렇다면 한글에 왜 형태소 분석이 필요할까? 바로 색인어 추출을 위해서이다. 우리가 사용하는 색인어 및 검색어는 주로 명사 위로로 되어있다.(여기서 다른것도 있다고 테클걸지 말자 일반적이라고 예기했다.~~) 이러한 명사를 추출하기 위해서는 각종 기능어와 접미사, 타 품사, 형태가 변형등의 인식이 필요하게 된다.

자 이제 왜 형태소 분석이 필요하고 이러한 분석을 해주는 형태소 분석기가 있어야 하는지 알겠는가?? 당연히 모르겠지 나두 모르는데~~
머 여기까지 뿐이 아니라 더 많은 정보를 알아야 하지만 나는 이제 시작했다. 머 이글을 읽고있는 누군가도 처음 시작할 수 있다. 우리 모두 천천히 한단계식 나가보자..!!

'ººº::Learning™:: > ::zEtc™::' 카테고리의 다른 글

OpenID란  (1) 2007.08.14
형태소 분석기 제작....  (0) 2007.03.26


2007. 3. 26. 16:44

아는 사람들과 모여서 이것저것 공부하는 작은 소모임이 있다.
이번에 그곳에서 작은 프로젝트를 진행하고 있는데
그 프로젝트에 형태소 분석기가 필요하다는 것이다.
뜹!!
다른 것을 이용해 작업을 해볼라고 했는데 이건 지미럴......안된다..ㅠㅠ;
영문이면 상관이 없는데 한글을 처리해줘야 하기때문에 한글 형태소 분석기가 필요하게 되었다.

내가 파이썬을 할줄 아는것도 아니고 그렇다고 다른 프로그램을 잘 만지는것도 아니고..
더 황당한건 형태소 분석을 한번도 해보질 않았다는것이다.!!

그런데 어쩌겠는가...?
나름 개발자의 길을 걷고 있는데(물론 평생 할 마음은 없지만..) 짜봐야 하지 않을까?

그럼 이제부터 짧은 시간안에 최소한의 시간으로 형태소 분석기를 만들어야 한다.
어떻게 계획을 하고 개발을 해야할까.?
암생각없다 일단 닥치는대로 만들어 봐야겠당..

이게 머 하루 이틀 가지고 될것도 아니고 형태소 분석기에 들어가는 모듈이 하나둘이 아니다.
사전부터 시작해서 인덱스문제..등등 어떻게 시작해야 할지 모르겠지만 ..일단 남의 소스를 바탕으로 시작해 볼려고 한다.

이 글을 읽을 누군가에게 먼저 말을 하겠다.(내 블로그에 반말로 쓴다고 욕하는 사람은 없겠징...ㅋㅋㅋ)
이곳에서 멀 배우고 가져갈려고 하지 말아라...나두 아는거 쥐뿔도 없다..
그냥 암것두 모르는넘이 어떻게 삽질을 해대면서 개발해 가는지만 봐라!!

'ººº::Learning™:: > ::zEtc™::' 카테고리의 다른 글

OpenID란  (1) 2007.08.14
1. 형태소 분석  (0) 2007.03.26


prev"" #1 next