티스토리 뷰

IT

웹문서 크롤링이란?

건강한 하루 2014. 5. 8. 10:40

우리가 사용하는 인터넷에서는 하루에도 수억개의 정보들이 올라옵니다.

그럼 이런 엄청난 정보들은 어떻게 찾아낼 수 있는걸까요?


바로 네이버, 구글, 다음과 같은 포탈에서 제공해 주는 검색기능을 사용합니다.

그럼 각 포탈들은 어떻게 사용자에게 검색 결과를 제공해 줄까요?






포탈들은 저마다 검색엔진이라는 것을 사용해 전세계 수많은 웹페이지들을 방문하면서 정보들을 긁어옵니다.

이렇게 모은 정보를 서버에 데이터베이스 형식으로 저장해 두었다가 사용자가 검색요청을 하면 내부적인 알고리즘에 의해 원하는 검색 결과를 찾아 사용자에게 뿌려주게 됩니다.


수많은 홈페이지를 일일히 사람이 방문하면서 정보를 모을수는 없겠죠?

당연히 프로그램이 그런일을 하게 됩니다. 이렇게 각종 홈페이지를 방문하고 찾아다면서 정보를 모으는 일을 웹문서 크롤링이라고 부릅니다.





웹문서 크롤링만 전담하는 프로그램이 있는데.. 이 프로그램을 보통 크롤링 로봇 줄여서 봇이라고 부르게 됩니다.

마치 알아서 작동하는 로봇처럼 혼자 스스로 인터넷을 돌아다니면서 각종 정보를 모읍니다.


각 포탈들은 이런 봇을 통해 수많은 사이트들의 웹문서 정보를 가져오게 되는것입니다.

이 봇의 특성과 알고리즘을 잘 알게 되면 좀 더 자신의 웹문서를 봇이 잘 긁어 가도록 할 수 있겠죠?


이것이 바로 웹문서 최적화 SEO라고 부르는 것입니다.





이렇게 시작해서 인터넷 정보를 활용하여 마켓팅도 하고 광고도하고 여러가지 사업들도 하고 그럽니다.

이 분야는 거의 인공지능에 가까운 분야라서 사실 쉽게 접근하기에는 무리가 있가도 하죠~

아무튼 웹문서 크롤링으로 자신의 홈페이지 정보가 알려지게 되므로 웹문서로 뭔가를 하고자 하신다면 웹문서 최적화에 대해 많이 연구해 보셔야 하겠습니다~

반응형