[첫화면으로]GyparkWikiStatistics/사전준비

마지막으로 [b]

이전 :
다음 : /월별방문자
위 : GyparkWikiStatistics
목차 : GyparkWikiStatistics/목차

/사전준비

관련 링크 : [블로그 통계학: 블로거를 위한 통계 매뉴얼]

R 설치

[r-project]에서 리눅스용 R을 받아서 연구실의 모 리눅스 서버에 설치함.

분석할 데이타 준비

GyparkWiki에는, 태터나 다른 블로그 툴이 제공하는, 날짜별 방문객수 또는 조회수 등을 알 수 있는 기능이 없다. 따라서 궁한 대로 예전에 설치해 놓고 별로 쳐다보지도 않는 WebAlizer의 데이타를 사용하기로 한다.

WebAlizer에서는 월별, 날짜별, 심지어 시간대별로 Hits, Files, Pages, Visits, Sites, KBytes 등의 데이타를 보여준다. [Webalizer Quick Help]의 내용으로 보건데, 아무리 봐도 Hits나 Files는 의미가 없고, Pages와 Visits 중에 Visits를 택하기로 한다. "Visit"는 어떤 IP주소로부터 처음 접근할 때와, 마지막으로 접근한 후 30분이 지나서 새로 접근할 때 1씩 증가하는 값이다. 즉 30분 이내의 간격으로 이뤄지는 방문은 한 번의 visit로 간주된다.

매번 조회수를 키보드로 입력할 수는 없는 노릇이라, 일단 파일로 저장을 해야겠다. WebAlizer에서는 각 달의 로그를 usage_200504.html과 같은 식으로 저장을 해 두므로, 이것을 받아오기로 한다.

#!/bin/bash
# get_files.sh

# 시작하는 달은 2002년 11월
YEAR=2002
MONTH=11

# 끝나는 달은 2005년 3월
while [ $YEAR -ne 2005 -o $MONTH -ne 4 ]
do
    MON=$MONTH
    if [ $MON -lt 10 ]
    then
        MON=0$MONTH
    fi
    FILE=usage_$YEAR$MON.html
    wget -O $FILE http://gypark.pe.kr/log/$FILE

    let "MONTH++"
    if [ $MONTH -gt 12 ]
    then
        MONTH=1
        let "YEAR++"
    fi
done

위 쉘스크립트를 사용하여, usage_200211.html 부터 usage_200503.html 까지를 받아왔다.

이름:  
Homepage:
내용:  


주인장분류

마지막 편집일: 2012-2-11 12:25 am (변경사항 [d])
763 hits | Permalink | 변경내역 보기 [h] | 페이지 소스 보기