集合知/アクセスログ解析のバックアップ(No.1)

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
集合知/アクセスログ解析へ行く。
- 1 (2009-07-30 (木) 15:56:14)
- 2 (2009-07-30 (木) 16:07:51)
- 3 (2009-07-30 (木) 23:36:58)
- 4 (2010-12-02 (木) 10:53:40)
- 5 (2014-03-12 (水) 11:11:15)
- 6 (2014-07-29 (火) 14:10:30)
- 7 (2014-10-09 (木) 17:22:48)
- 8 (2014-12-17 (水) 15:40:04)
- 9 (2016-04-05 (火) 09:21:29)
- 10 (2020-03-09 (月) 13:20:30)

FrontPage

2009/07/30 からのアクセス回数 8536

アクセスログ解析
- アクセスログのフィールド切り
コメント

アクセスログ解析 †

自分のブログページに対し、どのようなことを知りたいと思ってアクセスしてきているのかを調べるために、 apacheのアクセスログの内、Googleの検索経由でアクセスされたものを抽出します。

↑

アクセスログのフィールド切り †

アクセスログから、

アクセス時刻
アクセスページのURL
Googleの検索文字列

を取り出すことにします。

この解析は面倒だと思っていたら、以下のURLで正規表現を使って簡単に切り出せることが分かりました。 http://www.groovy-number.com/java/sample/AccessLog.html

切り出した、フォールドからブログのタイトルと検索文字列を取り出します。

ブログはPukiWikiを使っているので、必ずindex.phpがGETコマンドに入っている
Googleの検索文字列は、q=の後に続く

ことを考慮して、以下のように処理しました。

			PrintWriter writer = new PrintWriter(new OutputStreamWriter(System.out));
			BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream(INPUT_FILE)));	
			Pattern pattern = Pattern.compile(".+ .+ .+ \\[(.+) \\+0900\\] \"([^\"]+)\" .+ .+ \"([^\"]+)\" \"[^\"]+\"");
			String 		line = null;
			while ((line = reader.readLine()) != null) {
				Matcher matcher = pattern.matcher(line);
				if (matcher.matches()) {
						String time = matcher.group(1);
						String url = URLDecoder.decode(matcher.group(2), "UTF-8");
						String google = matcher.group(3);
						String query=null;
						StringTokenizer token = new StringTokenizer(google, "?&");
						while (token.hasMoreTokens()) {
							String str = token.nextToken();
							if (str.indexOf("q=") == 0) {
								query = URLDecoder.decode(str, "UTF-8");
								query = query.replaceFirst("q=", "");
							}
						}
						url = url.replaceFirst("GET .*\\/index.php\\?", "");
						url = url.replaceFirst(" HTTP\\/1..", "");
						url = url.replaceFirst("plugin=smartdoc&page=", "");
						
						writer.printf("%s,", time);
						writer.printf("\"%s\",", url);
						if (query != null)
							writer.printf("\"%s\"", query);
						writer.println();
				
				}
				else {
					System.out.println("解析できない行がありました：" + line);
				}
			}
			reader.close();
			writer.close();

↑

コメント †

この記事は、

皆様のご意見、ご希望をお待ちしております。

選択肢	投票
おもしろかった	0
そうでもない	0
わかりずらい	0

集合知/アクセスログ解析 のバックアップ(No.1)

アクセスログ解析 †

アクセスログのフィールド切り †

コメント †

集合知/アクセスログ解析のバックアップ(No.1)