HTML Template 부분을 Generating 하는 부분을 하던중, 디자이너가 툴로 만든 HTML 코드를 분석해볼때 SigntureSurvey 의 방법을 적용해보면 어떤 일이 일어날까 의문이 들었다. 그래서 간단하게 실험해보고, 어떠한 View 를 얻을 수 있을까 구경해보다.
Plex 사용.
Plex 사용.
~cpp 
from Plex import *
import StringIO
class HtmlSigSurveyer(Scanner):
    def repl_tagEnd(self, aText):
        self.begin('')
        result = "." * (len(aText)-1) + ">"+ str(len(aText)-1) +"\n"
        return  result
    def repl_tagChar(self, aText):
        return "."
    def repl_normalString(self, aText):
        return aText
    def repl_tagStart(self, aText):
        self.begin('tag')
        return aText
    def repl_enter(self, aText):
        return "\n"
    def repl_whiteSpace(self, aText):
        return ""
    tagStart = Str("<")
    tagEnd = Rep1(AnyBut(">")) + Str(">")
    enterCode = Str("\n")
    whiteSpace = Rep1(Str(" ")) | Rep1(Str("\t"))
    lexicon = Lexicon([
        (tagStart, repl_tagStart),
        State('tag', [
            (tagEnd, repl_tagEnd),
            (enterCode, repl_enter),
            (AnyChar, repl_tagChar)
        ]),
        (whiteSpace, repl_whiteSpace),
        (AnyChar, repl_normalString),
        ])
    def __init__(self, aStream):
        Scanner.__init__(self, self.lexicon, aStream)
    def process(self):
        writer = StringIO.StringIO("")
        while True:
            token = self.read()
            if token[0] is None:
                break
            writer.write(token[0])
        return writer.getvalue()
def readFromFile(aFileName):
    f = open(aFileName, 'r')
    text = f.read()
    f.close()
    return text
def writeToFile(aFileName, aStr):
    f = open(aFileName, 'w')
    f.write(aStr)
    f.close()
if __name__=="__main__":
    data = readFromFile("sig.html")
    surveyer = HtmlSigSurveyer(StringIO.StringIO(data))
    result = surveyer.process()
    lines = [line for line in result.splitlines() if line.strip() != '']
    count = 1
    for line in lines:
        print count, line
        count +=1
결과물이 대강 다음과 같았는데.
정확히 분석을 한 것은 아니지만. <> 태그 안으로 쓴 글자수가 같다면 화면상에서도 비슷한 것을 보이게 하기 위해 C & P 를 했을 확률이 높다. 그러면 그 부분에 대해서 looping 을 하는 식으로 묶으면 될것 같다. 종이로 찍어놓고 보면 반복되는 부분에 대해서 일반화된 패턴이 보인다는 것을 알 수 있다. 그 부분에 대해 적절히 1차적으로 검색을 하고, generating 할때의 단위들을 끄집어내면 되는 것이다.
~cpp 1 <............................................................>60 2 <..>2 3 <..........................>26 4 <...>3 5 <...>3 6 <..>2 7 <.........................>25 8 <..........................................................................>74 9 <...>3 10 <................................>32 11 <..........................................................................>74 12 <..>2 13 <..>2 14 <...............................................................................................>95 15 <.................................................>49 16 TV<..>2 17    <...............................................................................................>95 18 <.................................................>49 19 VTR<..>2 20   <...............................................................................................>95 21 <.................................................>49 22 DVD<..>2 23    <...............................................................................................>95 24 <.................................................>49 25 홈시어터<..>2 26    <...............................................................................................>95 27 <.................................................>49 28 냉장고<..>2 29    <...............................................................................................>95 30 <.................................................>49 31 세탁기<..>2 32    <...............................................................................................>95 33 <.................................................>49 34 오디오<..>2 35    <...............................................................................................>95 36 <.................................................>49 37 카세트<..>2 38    <...............................................................................................>95 39 <.................................................>49 40 워크맨/녹음기<..>2 41 <..>2 42 <.......................>23 43 <..............................................................................................>94 44 <...............................................................................................>95 45 <..>2 46 <.....................................................>53 47 <.............................................................>61 . . .이를 분석할때는 4-5point 로 레이저로 2단 나누어서 찍었다. 별로 종이를 많이 차지하지 않는다.
정확히 분석을 한 것은 아니지만. <> 태그 안으로 쓴 글자수가 같다면 화면상에서도 비슷한 것을 보이게 하기 위해 C & P 를 했을 확률이 높다. 그러면 그 부분에 대해서 looping 을 하는 식으로 묶으면 될것 같다. 종이로 찍어놓고 보면 반복되는 부분에 대해서 일반화된 패턴이 보인다는 것을 알 수 있다. 그 부분에 대해 적절히 1차적으로 검색을 하고, generating 할때의 단위들을 끄집어내면 되는 것이다.
처음써봐서 완벽하게 확신이 들진 않지만, SignatureSurvey 를 사용하면 Duplication Code 를 찾는 방법으로 일반화를 시킬 수 있지 않을까 하는 상상을 해본다.
--1002
--1002













