[[tableofcontents]] = 목적 = Python을 이용해서 Web Crawler를 제작하면서 Python의 사용법을 익히고, 원하는 웹 페이지를 긁기 위한 Web Crawler를 제작한다. (네이버웹툰(돌아온 럭키짱, 신의 탑...), 네이버 캐스트, 그 외의 각종 웹페이지..) = 필요기술 = * HTML * CSS * JavaScript * Python HTML, CSS, JavaScript - 웹 페이지 분석 Python = 진행 과정 = == 필요한 문서 == * http://docs.python.org/ == 시작 == === 웹 페이지 소스 긁어오기 === {{{ import urllib import urllib2 req = urllib2.Request('http://9632024.tistory.com/974') try: urllib2.urlopen(req) except URLError, e: print e.reason fo = open("test1.html","w") for line in urllib2.urlopen(req).readlines(): fo.write(line) fo.close() }}} * http://coreapython.hosting.paran.com/howto/HOWTO%20Fetch%20Internet%20Resources%20Using%20urllib2.htm === 소스에서 URL만 추출하기 === {{{ import urllib import urllib2 import string fo1 = open("test1.html", "r") fo2 = open("test2.html", "w") for line in fo1.readlines() : pos = string.find(line, '"http') if pos is not -1 : for c in range(pos+1, len(line)) : if line[c] is '"' : fo2.write("\n") break fo2.write(line[c]) fo1.close() fo2.close() }}} * http://docs.python.org/tutorial/controlflow.html * http://docs.python.org/tutorial/inputoutput.html === 파일 다운로드하기 ===