AWStats – анализируем логи серверов. Анализ статистики с помощью AWStats Гостевая карта cgi bin config pl

Awstat — программа для построения статистики по логам. Чаще всего он используется для анализа логов Apache и nginx. Написан он на perl, а по предоставляемой информации, является одним из самых лучших.
Поставим его из портов:

mkdir /usr/local/etc/awstats/

Теперь скопируем шаблон конфига:

LogFile="/var/log/httpd/mylog.log"

И правим на путь к вашему лог файлу. Удобней всего работать после того, как логфайл отротейтится и статистику строить по окончании дня. Поэтому если у вас лог файл сразу ужимается с помощью gz, то нужно указать так:

LogFile="/var/log/nginx/hilik_access.log.1"

Строка определяющая с каким типом лога мы работаем, для вебсервера указываем:

Она говорит awstats, что лог файл у нас в формате Apache combined и совпадает с nginx main форматом.

SiteDomain="сайт"

Внесите сюда основное имя вашего вебсайта. И в НostAliases, добавьте все имена, под которыми могут еще попадать на ваш сайт.

Она указывает awstatу делать преобразование адресов в имена используя кеш файл. Это делает работу awstats пошустрей, один раз обратившись к DNS, он запишет в файл преобразование и будет в дальнейшем реже обращаться к DNS серверу.
В следующей строке мы указываем в каком каталоге у нас будут находится результаты работы awstats, точнее промежуточные результаты, база посещений и тп. То на основе чего awstats сгенерирует в дальнейшем отображаемую статистику.
Я как правило размещаю ее там же, где и саму статистику.

DirIcons="http://www.сайт/awstatsicons/"

На этом фактически работа с файлом настройки завершена.
Теперь нужно сделать так, что бы awstatsicons был доступен.
Сделать это можно двумя способами. Первый простейший, поставить симлинку или просто скопировать в директорию вебсайта директорию с иконками awstats. Или решить этот вопрос с помощью Alias Apache или alias nginx.
Для Apache настройки Alias появляются в post install message при установке порта awstats.
Выглядят они так:

Alias / awstatsclasses "/usr/local/www/awstats/classes/" Alias / awstatscss "/usr/local/www/awstats/css/" Alias / awstatsicons "/usr/local/www/awstats/icons/"

Alias /awstatsclasses "/usr/local/www/awstats/classes/" Alias /awstatscss "/usr/local/www/awstats/css/" Alias /awstatsicons "/usr/local/www/awstats/icons/"

Для nginx они же будут выглядеть так:

location / awstatsclasses/ { alias / usr/ local/ www/ awstats/ classes/ ; } location / awstats-icon/ { alias / usr/ local/ www/ awstats/ icons/ ; } location / awstatscss/ { alias / usr/ local/ www/ awstats/ css/ ; }

location /awstatsclasses/ { alias /usr/local/www/awstats/classes/; } location /awstats-icon/ { alias /usr/local/www/awstats/icons/; } location /awstatscss/ { alias /usr/local/www/awstats/css/; }

Эти строки нужно разместить в настройках виртуального хоста, того, для которого мы строим статистику.
Теперь нужно указать что индексом директории со статистикой будет совсем не index.html или index.php, а awstats.сайт.html, именно под таким именем будет генерировать статистику awstats.
Для Apache:

location /awstats/ { root /usr/local/www/сайт/; index awstats.сайт.html; }

Теперь остается сделать скрипт который будет генерировать статистику.
Выглядит он так:

#!/bin/sh / usr/ local/ www/ awstats/ tools/ awstats_buildstaticpages.pl -lang =ru -config =сайт -dir =/ usr/ local/ www/ сайт/ awstats -update

#!/bin/sh /usr/local/www/awstats/tools/awstats_buildstaticpages..org.ua/awstats -update

И поставить на cron.

15 0 * * * / root/ bin/ stats.sh

15 0 * * * /root/bin/stats.sh

На этом настройка завершена.

AWStats (сокращение от Advanced Web Statistics) - инструмент веб-аналитики, позволяющий просматривать отчеты о статистике посещений вашего сайта. AWStats собирает и анализирует информацию в логах сервера и предоставляет полученные данные в виде таблиц и графиков.

С помощью AWStats можно получить подробную информацию о количестве посещений, их продолжительности, числе уникальных пользователей, географии посетителей, версиях их браузеров, наиболее популярных страницах сайта, поисковых системах и ключевых словах, по которым пользователи находили ваш сайт, и многом другом.

Дополнительную информацию о приложении можно получить на .

Установка AWStats

Установить приложение AWStats вы можете в разделе "Логи " панели управления.

Для этого выберите домен сайта, для которого необходимо производить анализ статистики, включите лог доступа (access_log) и нажмите на кнопку "Установить AWStats". Приложение будет установлено автоматически и доступно по адресу http://ваш_домен.ru/awstats/.

В качестве реквизитов входа в AWStats необходимо использовать логин и пароль для доступа в панель управления аккаунтом.

Для переключения в русскоязычный интерфейс AWStats необходимо внести изменения в файл конфигурации awstats.conf. Вы можете сделать это с помощью подключения по или .

Путь расположения файла:

/home/u/user/имя_папки_сайта/public_html/awstats/awstats.conf

где u и user - первая буква вашего логин и сам логин.

(При установке приложения папка awstats автоматически создается в директории public_html нужного сайта).

В указанном файле awstats.conf найдите параметр Lang="auto" и замените его на Lang="ru" . Сохраните изменения, после чего обновите страницу с AWStats.

Рассмотрим, какие сведения можно получить из отчетов AWStats.

Наверху страницы указано время последнего обновления представленных данных; ссылка "Обновить сейчас" / Update now позволит загрузить актуальную на текущий момент информацию.

Здесь же вы можете выбрать интересующий вас отчетный период.


Слева находится меню навигации по разделам, каждый из которых содержит различные статистические показатели.

Общее / Summary

В данном разделе можно просмотреть следующую информацию за выбранный месяц:

  • Уникальные посетители / Unique visitors
    Число уникальных IP-адресов, с которых осуществлялись запросы к сайту за выбранный период.
  • Количество посещений / Number of visits
    Общее количество посещений сайта за выбранный период. Под посещением в данном случае подразумевается "сессия", когда уникальный пользователь обращается к различным страницам сайта в течение часа (все просмотренные им в течение часа страницы будут "суммированы" в одно посещение).
  • Страницы / Pages
    Число просмотренных пользователями страниц (сюда относятся, как правило, файлы HTML, PHP, ASP). Запросы к отдельно загружаемым файлам, например, картинкам, не учитываются.
  • Запросы / Hits
    Число всех запросов к страницам и файлам сайта.
  • Объем / Bandwidth
    Общий объем данных (в байтах), переданных посетителям.

Когда / When

Здесь можно просмотреть данные по перечисленным выше параметрам за разнообразные периоды.

  • История за месяц - представлены сведения по всем месяцам года.
  • День месяца - сведения по каждому дню.
  • Дни недели - средние показатели по дням недели в выбранном периоде.
  • Часы - средние показатели каждого часа (на основе средних значений за выбранный месяц).

Кто / Who

Раздел позволяет просмотреть:

  • Страны - географию пользователей (страны, из которых пользователи заходят на ваш сайт).
  • Хосты - список IP-адресов, с которых производились запросы.
  • Роботы/пауки - список поисковых роботов (пауков), индексировавших сайт.

Навигация / Navigation

Содержит следующие сведения:

  • Продолжительность визитов - количество посещений разной продолжительности (например, менее 30 секунд, от 30 сек. до 2 минут, от 15 до 30 мин. и др.). Продолжительность визита может быть отмечена как "Неизвестная" в случае, если посещение не было завершено к моменту очередного обновления статистики, или же посещение было начато в последний час суток последнего дня месяца (техническое ограничение на стороне AWStats).
  • Тип файла - типы файлов, к которым чаще всего осуществляются запросы (с указанием процентного соотношения).
  • Downloads - список загруженных с сайта файлов.
  • Просмотры - чаще всего просматриваемых страницах (вкладка "Просмотров" / Viewed).
  • Вхождение и Выход - страницы входа и выхода с сайта.
  • Операционные системы и Браузеры пользователей.

Рефереры / Referrers

  • Происхождение / Origin - содержит информацию о путях перехода на сайт (по прямой ссылке, ссылкам из поисковых систем, ссылкам на других сайтах).
  • Поиск / Search - ключевые слова и фразы, по которым ваш сайт находили в поисковых системах.

Остальные / Others

  • Смешанные / Miscellaneous - содержит различные данные, не относящиеся ни к одной категории выше; например, сведения об используемых браузерами посетителей плагинах и поддержке различных технологий (java, flash, quicktime и др.).
  • Статусы ошибок HTTP / HTTP Status codes - информация об ответах сервера на запросы посетителей.
  • Список ненайденных страниц (ошибка 404).

Маленький FAQ по AWStats:

Уникальных посетителей

Unique visitors

Уникальный посетитель, с компьютера (IP адреса) которого сделан хотя бы один запрос на сервер за время текущего периода показа отчета (например - за месяц). Если посетитель сделал более одного запроса, все повторные запросы не учитываются.

Период показа статистики, по умолчанию, равен месяцу.

Количество посетителей

Number of visits

Число посещений, сделанных всеми посетителями.

По другому - «сессии», или посещенные страницы уникальными посетителями, которые запросили три любые другие страницы в течении часа. Учтены все страницы, посещенные пользователем во время визита, следовательно, надо ожидать множество страниц за визит и множество визитов уникального посетителя. Посетитель считается различным, если между его запросами более часа.

Страниц

Pages

Любой просмотр пользователем страницы. Сюда попадают все страницы, которые не являются отдельно загружаемыми файлами (например – не картинки). Не учитываются запросы на: css js class gif jpg jpeg png bmp ico swf. Учитываются просмотренные HTML страницы, CGI, ASP и т.д.

Запросов

Hits

Любой просмотр страницы пользователем, включая Refresh (Reload) страницы. По другому – любое обращение к web серверу.

Байт

Bandwidth

Общее количество байт переданных WEB сервером клиенту, включая ответы о том, например, что страница не найдена. Не учитывается почта или FTP.

Почему трафик, показанный AWStat – меньше трафика, учитываемого биллинговыми системами провайдера?

Статистика посещений web сервера показывает объем всех страниц, изображений и файлов, скачанных с сервера. Все остальное – не учитывается. К остальному относится:

Принцип работы стека протоколов TCP/IP. При передачи данных по сети каждый кусочек данных (пакет) снабжается служебной информацией, например: адреса отправителя и получателя, время жизни пакета, тип данных, контрольные суммы и объем данных, тип протоколов передачи, приоритет доставки и так далее. Данные передаются порциями, после передачи которых отправитель и получатель обмениваются подтверждениями о том, что данные целые и доставлены. Помимо этого для установления и поддержки соединения между отправителем и получателем передается необходимая служебная информация, не относящаяся к данным. При возможной потере пакета данные передаются повторно. Все это – необходимый для связи служебный трафик, который должен быть передан для возможности передачи данных и который должен быть учтен системой биллинга (так как это полноценный трафик), но не может быть посчитан WEB сервером, так как он о нем не знает и не должен знать. В зависимости от объема и направления передаваемых данных по этой позиции расхождения могут достигать 1/3 показаний AWStat.
Если на сервере работает несколько сайтов, то для каждого сайта показания объема данных свои, не учтенные другими.
Если на сервере работают другие службы (такие как почта, FTP и т.д.), их трафик не учтен. Объем этого трафика зависит от самих служб и может превышать объем трафика сайта во много раз.
При проведении сканирования / попыток взлома / проведения атак, на сервер и от него к хакеру передаются данные, которые не учтены AWStat. Блокировать такие данные невозможно, но они являются полноценным трафиком, который будет учтен биллинговой системой. Объем этого типа трафика может быть как нулевым, так и огромным, и зависит от заинтересованности хакеров данным ресурсом (не обязательно WEB сервером, объектом интересов может быть любая работающая на сервере служба).

Описание:
Страница просмотра отчетов представляет собой два фрейма, в левом расположено меню навигации по отчетом, в центральном – сами отчеты. Каждый из статистических отчетов AWStats представлен в виде суммарных значений (отображается списком по умолчанию и при вызове из фрейма меню любой ссылки первого уровня) и детальной информации.
Общее
Когда
Кто
Навигация
Рефереры
Статусы ошибок HTTP

Общее

В таблице "Общее" показываются данные, которыми представлена статистика, а именно: месяц, день и время первого и последнего визита в месяце, данные о количестве посещений сайта (приводится показатели по отображаемому и не отображаемому трафику).

Показатели:
Уникальные посетители
Количество визитов (Визитов/Посетитель)
Страницы (Страницы/Визит)
Хиты (Хиты/Визит)
Величина (КБ/Визит)

Когда
История за месяц

История за месяц (посещаемость по месяцам) представлена графиком (гистограммой) и таблицей. Показана история посещения ресурса в каждом месяце года. В частности, при рассмотрении месяца сентябрь мы видим график и таблицу за каждый месяц с января по декабрь и со значениями с января по сентябрь включительно. Данные за октябрь-декабрь соответственно нулевые.

Показатели:
Уникальные посетители
Количество визитов
Страницы
Хиты
Величина

В графе Total посчитана итоговая величина каждого показателя

Кто
Посетители домены/страны (Топ 10)

Приводится география стран, количество посетителей из различных стран.

Показатели:
Страницы
Хиты
Величина

Неизвестные – не удалось распознать посетителя. Если кроме "Неизвестные" не отображено больше никакой информации о странах и регионах, это означает, что не был подключен модуль GeoIP.

Для учета посетителей по странам/регионам/городам необходима дополнительная установка и настройка модулей Perl и плагинов AWStats. AWStats может работать со следующими плагинами:
GeoIPfree (страны), необходима установка Perl-модуля Geo::IPfree
После установки модуля необходимо в конфигурационном файле включить директиву LoadPlugin="geoipfree"
GeoIP (страны), необходима установка модуля Perl Geo::IP или Geo::IP::PurePerl и базы стран GeoIP.dat от компании Maxmind.
После установки модуля необходимо в конфигурационном файле включить директиву LoadPlugin="geoip GEOIP_STANDARD /путь_к/GeoIP.dat"
GeoIP_Region_Maxmind (регионы), необходима установка модуля Perl Geo::IP и базы регионов GeoIPRegion.dat от компании Maxmind.
После установки модуля необходимо в конфигурационном файле включить директиву LoadPlugin="geoip_region_maxmind GEOIP_STANDARD /путь_к/GeoIPRegion.dat"
GeoIP_City_Maxmind (города), необходима установка модуля Perl Geo::IP и базы городов GeoIPCity.dat от компании Maxmind.
После установки модуля необходимо в конфигурационном файле включить директиву LoadPlugin=" geoip_city_maxmind GEOIP_STANDARD /путь_к/GeoIPCity.dat"

Кроме этого AWStats поддерживает также следующие Geo-модули от компании Maxmind:
GeoIP_ISP_Maxmind (Интернет-провайдеры)
GeoIP_Org_Maxmind (Организации)
Хосты (Топ 10)

Дается список IP-адресов пользователей. Топ 10 – представлен список из 10-ти пользователей наиболее часто посещающих ресурс.

Показатели:
Страницы
Хиты
Величина
Последний визит

Роботы/Пауки посетители (Топ 10)

Продолжительность визитов

Представлено количество пользователей которые находились непрерывно на сайте в определенный промежуток времени.

В статистике собрано количество визитов и процентное соотношение визитов (от общего числа визитов) за промежуток времени:
0 s – 30 s (до 30 секунд)
30 s – 2 mn (от 30 секунд до 2-х минут)
2 mn – 5 mn (от 2-х до 5-ти минут)
5 mn – 15 mn (от 5-ти до 15-ти минут)
15 mn – 30 mn (от 15-ти до 30-ти минут)
30 mn – 1 h (от 30 минут до 1 часа)
1 h+ (более 1 часа)

Показатели:
Количество визитов
Процент

Также указано общее и среднее количество визитов (в секундах).

Тип файла

Список расширений файлов наиболее часто загружаемых на сайте.

Показатели:
Хиты и процент (процент от общего числа хитов)
Величина и процент (процент от общего количества скачанных Мб).

Адрес страницы (Топ 10)

Представляет собой перечень 10-ти популярных страниц сайта.

При клике на "полный список" появляется список всех станиц сайта ранжированный по параметру "вхождение", т.е. по количеству захода через эту страницу, а именно эту точку входа.

Есть возможность отфильтровать по части адреса url (с помощью формы "фильтер" вверху слева) и с помощью формы "фильтр исключений"

При клике на "вхождение" и "выход" показывается тот же список, что и при клике на "полный список".

Здесь также есть возможность фильтрации данных.

При фильтрация осуществляется при помощи задания строки или с использованием регулярных выражений.

AWStats поддерживает так называемые алиасы страниц, т.е. наряду с отображаемым в отчете адресе можно отображать и заранее заданный заголовок страницы. Для реализации такой возможности в конфигурационном файле необходимо включить директиву LoadPlugin="urlalias", затем в папке с файлами базы данных (определена директивой DirData) необходимо разместить текстовый файл под именем вида urlalias.адрес_сайта.txt, в каждой строке которого должен быть прописан адрес страницы и заголовок, разделенный символом табуляции. Данный модуль работает "налету", т.е. не требует перегенерации отчетов для вступления изменений в силу.

Операционные системы (Топ 10)

Показывается количество посетителей, пользующихся различными операционными системами (ОС) (выводятся среднесуточные значения по статистике за количество дней в месяце).

Показатели:
Хиты
Процент (от общего количества хитов).

При клике на "полный список/версии" показывается полный перечень используемых операционных систем включая их версии.

При клике на "неизвестный" выводится список неизвестных (неопознанных) операционных систем (скорее неопознанных версий ОС). Также указано время последнего визита пользователя с такой неизвестной системой.


Браузеры (Топ 10)

Показывается количество посетителей, пользующихся различными браузерами (программы просмотра сайта). (Выводятся среднесуточные значения по статистике за количество дней в месяце).

Показатели:
Грабер (поисковый робот или системы автоматического скачивания сайта)
Хиты
Процент (от общего количества хитов)

При клике на "полный список/версии" показывается полный перечень используемых версий браузеров.

При клике на "неизвестный" выводится список под названием "Неизвестные браузеры (поле useragent)". Здесь перечислены неопознанные версии программ просмотра сайтов.

Рефереры
Соединение с сайтом из

Заходы на сайт или источники посещаемости. Представлена таблица по способам захода на ресурс.

Показатели:

Прямой адрес / Закладки
Ссылки из новостных групп
Ссылки из поисковых систем (представлена топ10 популярных поисковых систем, также при клике на "полный список" выводиться полный перечень поисковых системы, с который совершался заход на ресурс). В данном случает топ 10 совпадает с полным списком.

Ссылки из внешней страницы (остальные web-сайты исключая поисковые системы) – так называемые ссылающие сайты, где установлена кнопка ресурса или даны ссылки или гиперссылки на ресурс. При клике на "полный список" выводится полный перечень ссылающих сайтов (полных адресов страниц сайтов). Также указано их общее количество (строка Total вверху сразу после шапки таблицы).

Неизвестное происхождение

Те рефереры, которые пришли с локальных адресов (т.е документ был сохранен на диске и ссылка открыта с диска).

Показатели:
Страницы/ процент
Хиты/ процент
Поисковые Ключевые фразы (Топ 10)

Представлен список различных поисковых фраз. При клике на "полный список" показывает полный список поисковых запросов ("Ключевые фразы использующиеся поисковыми машинами").

Показатели:
Различные ключевые фразы
Поиск (количество запросов)
Процент

Поисковые Ключевые слова (Топ 10)

Аналогично предыдущему пункту, только здесь представлены поисковые слова. При клике на "полный список" показывает полный список поисковых запросов ("Ключевые слова использующиеся поисковыми машинами").

Показатели:

Различные ключевые слова
Поиск (количество запросов), процент.

Остальные
Смешанные

Э тот пост скорее всего может быть интересен вебмастерам, у которых хостинг размещен на TimeWeb или тем, кто изучает этого хостера "издалека". Хочу рассказать о возможностях Таймвеб, связанных с сервисом статистики AWStats .

Работаем с логами статистики AWStats в Панели управления TimeWeb

С овсем недавно в статье Считаем трафик на сайте передо мной встал вопрос, как высчитывать трафик, который съедают роботы-пауки, заходящие на сервер сайта и, вообще, сколько трафика потребляет веб-ресурс. Я там вывел кое-какие алгоритмы подсчетов - теоретического плана. Есть даже формула для приблизительного определения трафика. А сегодня покажу, как это сделать на практике с помощью инструмента лог-анализатора AWStats .

Что такое AWStats?

A WStats - это генератор аналитических отчетов для потоков на веб-серверах, который находится в свободном доступе для всех пользователей Интернета. Статистику данный сервис предоставляет в человеко читаемом виде - в таблицах и гистограммах. Ознакомится с этим мощным инструментом можно на .

В Сети, конечно же, есть страницы, где объясняется как устанавливать эту программу на компьютер, как пользоваться, но там настолько все сложно, что я, честно говоря, не стал вникать в данную тему. Как мне кажется, это удел системных администраторов.

К оллеги, если вас не затруднит, поучаствуйте в голосовании вверху поста. Facebook, Twitter, Вконтакте. Кто из них, на ваш взгляд, круче в деле продвижения сайтов?

А теперь расскажу, при чем здесь хостинг TimeWeb.

Н а настоящий момент времени, я со своим блогом обитаюсь именно там. Поэтому, со своим вопросом решил заглянуть в Панель управления TimeWeb. Как оказалось, тут настроена сбор статистики для AWStats.

Анализируем трафик через логи статистики TimeWeb

Д ля того, чтобы получать статистические отчеты, первоначально нужно подключить логи в панели управления Таймвеба. Без этого действия просто ничего собираться не будет.

Для этого переходим в раздел Управление LOG файлами, выбираем нужный нам домен или поддомен и включаем (ставим галочки) логи доступа, ошибок и, самое главное, Awstats logs analizer.

Э то, собственно все наши действия на TimeWeb.

Смотрим статистику AWStats

О тчеты будем просматривать в браузере. Заходим в любой браузер, я, как обычно, в Google Chrome, и загоняем в адресную строку браузера следующий текст: http://domain/awstats , где вместо domain вводим своем доменное имя, например: сайт Обращаю внимание имя должно содержать и второй и первый уровень, с точкой. В данном примере.ru. У меня получилось: http://сайт/awstats Ж мем Enter и получаем форму входа.


С юда вводим логин и пароль входа в Панель управления TimeWeb. Кликаем по кнопке Вход.

И получаем полную информацию по движению на сервере нашего сайта. Вот как это выглядит в одном окне браузера.


Что можно увидеть в AWStats?

Н у, во-первых, сразу насчет трафика. Все-таки из-за него сыр-бор разгорелся. Скажу сразу, так как я недавно подключил логи на сервере, то и отчетов за полный месяц у меня пока нет. По объемам трафика постараюсь отчитаться по результатам апреля. Вот на сегодняшнюю дату общая таблица трафика за месяц апрель (за 3 дня).


О братите внимание, что неотображаемый трафик, как раз и включает в себя трафик, сгенерированный роботами.

В ообще-то, здесь очень много детализированных таблиц, посмотрите сами. Вот для интереса менют разделов сервиса:

Итак, обладатели хостинга на TimeWEb имеют возможность отслеживать статистику посещений на свой сайт.

Вебмастеру, хостинг которого не TimeWeb.

В принципе, насколько я понял AWStats прикручена к веб-серверу APACHE, который подключен у всех хостеров. Поэтому подключение к AWStats должно быть доступно с любого хостинга.

В о-первых, можно посмотреть раздел подключения лог-файлов в панели управления вашего хостинга, либо задать вопрос в техподдержку.

В о-вторых, есть более общий вход в просмотр статистики через браузер. Такой:

http://domain/awstats/awstats.pl

Н ичего утверждать не буду, но я пробовал и так заходить со своим адресом, все то же самое получилось. Также вводил логин и пароль хостинга. Само собой, должны быть подключены лог-файлы.

Т еперь я смогу отслеживать расход трафика в реальных, а не в расчетных объемах. С помощью хостинга TimeWeb и сервиса AWStats . Буду держать вас в курсе.

Сейчас, когда вы читаете эти строки, миллионы пользователей ищут в Internet решение или ответ на вопрос. Те слова, которые они введут в поисковую систему, будут определять результаты поиска, возвращаемые в виде соответствующих ссылок, которыми они затем смогут воспользоваться. Если слова, определяющие критерии поиска, были введены правильно, нужный Web-сайт окажется в списке, возвращаемом пользователю поисковой системой, если же ввод слов был осуществлен некорректно, то нет. Знаете ли вы, какие ключевые слова вводились пользователями ранее для того, чтобы найти ваш Web-сайт? Известно ли вам, какие ключевые слова наиболее часто служат им указателями на него?

Хотя инструменты анализа данных Web существуют уже довольно давно, я до сих пор не перестаю удивляться. Возможности механизмов поиска информации и разбиения данных, реализованные в современных пакетах анализа Web-данных, действительно поразительны. Хотите узнать, как ваши клиенты находят вас? Ознакомьтесь с результатами анализа журнала Web-сайта и найдите, какие ключевые слова используют клиенты, для того чтобы выйти на ваш сайт. Нужно выяснить, какой тип операционной системы чаще всего встречается на компьютерах посетителей сайта (Windows 2000, Windows 98, Apple Computer Mac OS X или Linux). Программы анализа Web могут быстро предоставить такую информацию. Все это хорошо, но что делать, если бюджет компании не позволяет закупить программное обеспечение подобного типа? На такой случай в сообществе open source существует исключительно мощное средство анализа данных Web, которое может работать под управлением Windows.

Первая версия программы AWStats была разработана Лораном Дестелем, специалистом по компьютерам из Парижа. Она появилась в мае 2000 года. Дестелю было необходимо получать регулярные отчеты по статистике Web-данных компании, а поскольку требовалось приложение, имеющее большие возможности, чем те программы с открытым кодом, которые были доступны на тот момент в имеющихся источниках, он создал собственный пакет. Затем, в октябре 2000 года, Лоран разместил исходный код своей программы на языке Perl на SourceForge.net, после чего этот проект начал постоянно расширяться и совершенствоваться. В результате на сегодня продукт AWStats дорос до версии 6.2 и является на данный момент исключительно надежным и достоверным средством анализа данных журналов. AWStats способен функционировать в режиме командной строки, но может использоваться и как интерактивный компонент для Microsoft Internet Information Server (IIS). Данный продукт обеспечит создателей Web-сайта исчерпывающей информацией о том, кто посещает его.

Для того чтобы продемонстрировать процедуру установки пакета AWStats, я использовал Windows 2000 Server с принятыми по умолчанию настройками IIS. Таким образом, путь к Web-сайту, который будет анализироваться, соответствует C:Inetpubwwwroot, а файлы журналов размещаются в стандартном каталоге C:WINNTSystem32LogFiles.

Шаг 1. Настройка IIS

Единственное, что нужно настроить в IIS, это формат файлов журнала. Принятый в IIS по умолчанию формат журнала не обладает достаточной информативностью для AWStats, поэтому требуется настроить IIS так, чтобы он сохранял файлы журналов в расширенном формате консорциума World Wide Web (W3C). Это делается следующим образом. Следует запустить оснастку Internet Information Services консоли MMC (Microsoft Management Console) и щелкнуть правой кнопкой мыши по значку того Web-сайта, настройки параметров журналов которого необходимо изменить, и выбрать пункт Properties. В диалоговом окне Default Web Site Properties из выпадающего списка Active log format нужно выбрать пункт W3C Extended Log File Format. Затем требуется щелкнуть кнопку Properties, в результате чего откроется диалоговое окно Extended Logging Properties. Убедитесь, что в данном окне выбраны следующие параметры:

  • cs-username
  • cs-method
  • cs-uri-stem
  • cs-uri-query
  • sc-status
  • sc-bytes
  • cs-version
  • cs(User-Agent)
  • cs(Referer)

Никаких других параметров выбирать не следует. Это связано с тем, что для работы AWStat требуется специфический формат данных, поэтому любые отклонения от указанных требований могут привести к непредсказуемым результатам.

Чтобы убедиться, что все файлы журналов имеют корректный формат, следует удалить или заархивировать все существующие файлы журналов, которые были сгенерированы сервером IIS ранее. Если в данный момент сервер IIS работает, то удалить текущий файл журнала будет невозможно, поскольку он в настоящее время используется. В этом случае следует просто остановить на данной системе службу World Wide Web Publishing, удалить соответствующий файл, после чего вновь запустить службу.

Шаг 2. Установка ActivePerl и AWStats

Для того чтобы можно было задействовать AWStats, необходимо установить на данный компьютер пакет Active Perl от ActiveState и сам пакет AWStats. Active Perl можно загрузить с сайта ActiveState по адресу: http://www.activestate.com/ products/activeperl . На момент написания статьи существует две версии данного продукта, ActivePerl 5.8.6 и ActivePerl 5.6.1. На мой взгляд, версия ActivePerl 5.6.1 прекрасно работает с пакетом AWStats и обеспечивает наилучшую совместимость с некоторыми другими программными средствами на языке Perl, представленными в сообществе open source. Поэтому, если планируется использовать в работе какие-либо еще Perl-приложения с открытым кодом, я рекомендовал бы установить ActivePerl версии 5.6.1. Однако для тех, кто предпочитает иметь последние версии, отмечу, что AWStats будет работать и с ActivePerl 5.8.3.

Для того чтобы установить ActivePerl, потребуется Windows Installer. Процесс установки ActivePerl несложен, единственное, что можно выбрать, - это путь к каталогу установки. Я рекомендую устанавливать ActivePerl в тот же каталог, в который по умолчанию устанавливается пакет AWStats, а именно в каталог C:Program FilesAWStats.

После установки ActivePerl нужно загрузить основной дистрибутивный комплект AWStats с сайта проекта SourceForge.net (адрес: ). В данном комплекте имеется исполняемый файл, управляющий процессом установки, поэтому процедура загрузки достаточно проста. После того как вы загрузили дистрибутив AWStats, нужно просто запустить файл с расширением «.exe» и согласиться с предлагаемым по умолчанию каталогом установки. По завершении установки приложение будет находиться в каталоге C:Program FilesAWStats.

Шаг 3. Настройка AWStats

В процессе установки AWStats запускает собственную программу настройки, которая представляет собой Perl-приложение, запускаемое в окне командной строки. В первую очередь, как показано на экране 1, программа настройки попросит указать путь к файлу конфигурации Web-сервера. Это связано с тем, что данная программа допускает использование Web-сервера, который хранит свои параметры в текстовом файле (например, сервер Apache). Но поскольку в данном случае используется сервер IIS, который подобным образом не настраивается, в этом окне следует ввести none.

Экран 1. Первое окно программы настройки AWStats

После попытки настроить Web-сервер данная программа поэтапно проведет пользователя через процедуру построения основного шаблона для Web-сайта. В первую очередь, как показано на экране 2, будет задан вопрос, хотите ли вы создать новый файл конфигурации для AWStats. Следует ответить Yes. Затем программа попросит указать имя того Web-сайта, который предстоит анализировать. В данном примере я выбрал в качестве имени Web-сайта www.toombspartners.com доменное имя Web-сайта вымышленной организации Toombs Partners. Программа использует это имя в качестве имени соответствующего файла конфигурации, поэтому в данном случае файл конфигурации будет называться awstats.www.toombspartners.com.conf.

На завершающей стадии программа настройки сообщит, что она не сможет автоматически создать задачи, выполняемые по расписанию (scheduled tasks), поскольку пакет AWStats установлен на сервер с операционной системой Windows. Этими вопросами мы займемся, когда будем выполнять шаг 7, поэтому сейчас нужно просто согласиться с данным сообщением, после чего программа настройки завершит свою работу. Параметры конфигурации, сформированные в этом процессе, сохраняются в соответствующем файле конфигурации: C:Program filesAWStatswwwrootcgi-binawstats.www.toombspartners.com.conf.

Теперь требуется выполнить несколько дополнительных настроек, поэтому следует открыть файл конфигурации с помощью Notepad или другого текстового редактора. Первый параметр, который следует изменить, - это путь к файлам журналов. AWStats по умолчанию использует путь /var/log/httpd/mylog.log, ориентированный на UNIX-системы, поэтому в качестве разделителя здесь применяется символ прямого (/), а не обратного () слэша. Найдите в файле конфигурации параметр LogFile, который выглядит следующим образом:

LogFile=»/var/log/httpd/mylog.log»

Замените значение «/var/log/httpd/mylog.log» на описание пути по умолчанию к файлам журналов вашей системы. Если IIS устанавливался с параметрами по умолчанию, тогда здесь нужно указать «C:/WINNT/System32/LogFiles/W3SVC1/ex%YY-24%MM-24%DD-24.log». Этот параметр предписывает программе AWStats выполнять в каталоге C:WINNTSystem32

LogFilesW3SVC1 поиск файлов, имена которых начинаются с ex, заканчиваются на.log, а в середине имеют две цифры, обозначающие год, две цифры, обозначающие месяц, и две цифры, обозначающие день. Это соответствует принятому по умолчанию соглашению для имен файлов журналов IIS. Если вы используете какое-либо другое соглашение об именах либо если файлы журналов хранятся в каталоге с именем, отличным от W3SVC1, то в этом случае нужно соответствующим образом изменить и параметр LogFile.

Затем следует изменить значение параметра LogFormat, который определяет для AWStats тип журнала регистрации событий. По умолчанию здесь устанавливается значение 1, но для Web-сайта, построенного на базе IIS, правильным значением будет 2.

Кроме того, необходимо отредактировать параметры SiteDomain и HostAliases, с помощью которых, соответственно, определяется, каким образом надлежит ссылаться на данный сайт извне и каковы внутренние ссылки для этого Web-сайта. В качестве параметра SiteDomain нужно указать основное доменное имя своего сервера или основное имя сайта в корпоративной сети. Параметр HostAliases следует отредактировать таким образом, чтобы он содержал другие допустимые доменные имена, адреса или имена виртуальных хостов, которые могут использоваться в качестве внутренних ссылок на данный сайт.

Шаг 4. Запуск AWStats

Итак, предположим, что все предыдущие шаги были выполнены верно и теперь можно предпринять первый пробный запуск AWStats. Однако, прежде чем это сделать, следует понять, как работает данная программа.

При работе с пакетом AWstats мы используем два основных его компонента, а именно программу анализа и программу построения отчетов. Вся математическая обработка числовых данных выполняется программой анализа, задачей же программы построения отчетов является преобразование результатов анализа к виду интуитивно понятных отчетов в формате HTML.

AWStats в полном объеме обрабатывает информацию по зарегистрированным событиям, поступающую от многих Web-сайтов, а результаты статистического анализа данной информации заносит в файл своей внутренней базы данных. Соответственно, когда мы снова запускаем программу AWStats, ей не требуется повторно анализировать ранее обработанные данные. Представьте себе, сколько времени на обработку данных потребовалось бы AWStats, если бы при запуске данной программы в декабре ей нужно было каждый раз повторно с самого начала обрабатывать файлы журналов за 11 месяцев.

Для того чтобы создать базу данных AWStats и импортировать в нее файлы журналов IIS, следует перейти в каталог C:ProgramFilesAWStatswwwrootcgi-bin и выполнить команду:

awstats.pl -config=WebSiteName

Update -logfile=IISLogName

где WebSiteName соответствует имени вашего Web-сайта, а IISLogName - имя того файла журнала IIS, который нужно импортировать в базу данных для последующего анализа. Здесь данная команда состоит из нескольких строк, на самом же деле она должна вводиться одной строкой. Это относится и к другим командам из нескольких строк, которые будут встречаться в данной статье.

Допустим, нам нужно выполнить анализ файлов журналов сервера IIS на Web-сайте компании Toombs Partners начиная с июня. Сегодня 4 июня, соответственно мы имеем три завершенных файла журнала (за 1, 2 и 3 июня) и один незавершенный (журнал за 4 июня). Чтобы выполнить импорт файла от 1 июня, используем команду:

Config=www.toombspartners.com

Logfile=»C:/WINNT/system32/

logfiles/w3svc1/ex050601.log»

Затем аналогичным образом обрабатываем файлы ex050602.log и ex050603.log.

Имя Web-сайта используется программой AWStats в имени файла базы данных. Например, для компании Toombs Partners имя соответствующего файла базы данных будет выглядеть как awstats%MM%YYYY.

www.toombspartners.com.txt, где %MM соответствует двузначному обозначению месяца, а %YYYY представляет собой четырехзначное обозначение года.

Когда программа анализа начинает обрабатывать файлы журналов, в ее окне будет отображаться некоторая статистика по обрабатываемым данным. По окончании обработки можно будет увидеть статистические данные, в которых будет указано количество найденных программой новых записей (см. экран 3). Это количество должно примерно соответствовать количеству строк в обрабатываемых файлах журналов. Не беда, если несколько строк было пропущено вследствие ошибок. Если ошибок немного, можно приступать к составлению отчета. Если же после обработки было обнаружено 0 новых записей, значит, возникла проблема с файлом конфигурации и необходимо выяснить, в чем она заключается.

Шаг 5. Создание Web-сервера для работы с AWS

Для того чтобы упростить просмотр отчетов по Web-сайту компании, можно построить внутри IIS еще один Web-сайт и назначить для него тот каталог, в котором будут сохраняться выходные данные AWStats. Для создания нового каталога для отчетов AWStats сначала нужно создать в каталоге Inetpub папку с именем AWStats (т.е. C:InetpubAWStats). Затем следует скопировать папку icon из каталога C:Program FilesAWStatswwwroot в каталог C:InetpubAWStats. После этого требуется создать в IIS новый Web-сайт и настроить его на работу с данным каталогом, как показано на экране 4. Если на данном сервере уже имеется сайт, работающий через порт 80, нужно создать для нового Web-сайта уникальный порт TCP, IP-адрес или новый заголовок хоста.

Для работы программы построения отчетов AWStats создает специальную Web-страницу с именем по умолчанию awstats.WebSiteName.

html, где WebSiteName соответствует тому имени Web-сайта, которое было определено нами при выполнении шага 3. Имя этой страницы должно быть задано в качестве имени домашней страницы по умолчанию, что делается через закладку Documents диалогового окна AWStats Site Properties.

И наконец, если нужно ввести какие-либо параметры ограничения доступа для сайта статистики, это делается через закладку Directory Security того же диалогового окна AWStats Site Properties. Можно, например, ограничить доступ пользователей к сайту на основе IP-адресов либо задать необходимость аутентификации при доступе к сайту. При отсутствии ограничений по безопасности любой желающий, подключившись к данному сайту, сможет просматривать его содержимое.

Шаг 6. Формирование отчетов

После того как на IIS был создан Web-сайт, настало время поупражняться в построении отчетов. Необходимо перейти в каталог C:Program FilesAWStats ools и выполнить следующую команду:

awstats_ buildstaticpages.pl -config=WebSiteName -update -lang=en -dir=»C:Inetpubawstats» -awstatsprog= «C:/Program Files/ AWStats/wwwroot/ cgi bin/awstats.pl»

где WebSiteName - имя вашего Web-сайта (поскольку в данном примере рассматривается компания Toombs Partners, то, соответственно, имя сайта будет www.toombspartners.com). Компонент, формирующий отчеты (awstats_buildstaticpages.pl), создает главную страницу отчета по статистике для данного Web-сайта и помещает ее в каталог, определяемый ключом -dir.

Если все компоненты системы функционируют правильно, программа AWStats будет последовательно, один за другим, создавать отчеты, пока не будет достигнут конец цикла обработки. После того как данный цикл будет завершен, можно запустить Web-браузер и просмотреть содержимое вновь созданного Web-сайта AWStats. Главная страница отчета AWStats должна быть в этом случае вашей страницей по умолчанию. Пример фрагмента главной страницы статистики показан на экране 5.

Экран 5. Основная страница отчета AWStats

Эта страница содержит данные по статистике высокого уровня, а также ссылки на страницы с более подробной информацией. Например, если щелкнуть по приведенной на экране 5 ссылке Countries, которая находится в разделе Who, можно перейти к таблице Countries (Top 10), находящейся на уровень ниже от основной страницы. Щелкнув ссылку Full list в строке заголовка данной таблицы, можно просмотреть список стран, из которых посетители обращались к вашему сайту. До данного списка можно добраться и другим способом: щелкнуть ссылку Full list, которая следует за ссылкой Countries в разделе Who.

Так, а почему в отчете нет статистики по странам? Не стоит беспокоиться, AWStats по умолчанию ведет себя подобным образом, поэтому давайте посмотрим, как мы можем это исправить.

Чтобы установить, из какой страны обращается к сайту посетитель, применяется поиск по IP-адресу посетителя с целью выяснения полного доменного имени FQDN (Fully Qualified Domain Name), связанного с этим адресом. Если такое имя обнаруживается, то обычно оно оканчивается на что-то вроде com, .ca или.jp. По этому расширению программа AWStats определяет, из какой страны обращается данный посетитель.

В конфигурации, установленной по умолчанию, AWStats не выполняет обратный поиск в пространстве DNS, поскольку обработка соответствующего поискового запроса по каждому IP-адресу клиента, который обращается к данному сайту, потребует значительных временных затрат. Программа AWStats очень эффективно выполняет свои внутренние процедуры обработки данных, но в данном случае она должна отправлять запросы на внешний сервер DNS и ожидать ответа, что приводит к снижению скорости обработки. Рассмотрим пример. Те три тестовых файла журнала, которые я использовал при написании статьи, содержат около 350 тыс. адресов. Если обратный поиск в DNS не выполняется, то обработка всех этих данных программой AWStats занимает несколько минут. Если же включить обратный поиск, то процесс займет более 6 часов. Поэтому выполнение обратного поиска может кардинально повлиять на производительность системы.

Тем не менее, если все-таки требуется, чтобы AWStats выполняла обратный поиск в пространстве DNS, нужно найти в файле конфигурации сайта параметр DNSLookup и изменить его значение с 2 на 1. После этого программа AWStats будет выполнять обратный поиск по каждому IP-адресу в каждом вновь сформированном файле журнала при его анализе. Другими словами, для всех существующих файлов журналов необходимо будет повторно выполнить процедуру анализа. Для этого требуется удалить существующий файл базы данных AWStats, после чего вновь запустить процедуру анализа. При этом AWStats будет посылать запрос обратного поиска по каждой записи, но нужно быть готовым к тому, что это займет много времени. По завершении данной процедуры следует создать отчеты повторно, и в них появятся данные по странам для обращавшихся на сайт посетителей.

Шаг 7. Настройка AWStats для работы по расписанию

Вполне вероятно, что может возникнуть потребность запускать процедуру обработки файлов журналов в ночное время, причем так, чтобы процедуры анализа и формирования отчетов запускались без участия человека. Для этих целей можно задействовать командный файл NightRun.bat, показанный в листинге . Данный файл вызывает процедуру анализа файлов журналов IIS, а по ее завершении вызывается программа построения отчетов, которая создает и размещает их для дальнейшей обработки программой AWStats в каталоге IIS.

Для того чтобы использовать файл NightRun.bat, загрузите его с сайта Windows IT Pro /RE по адресу http://www.windowsitpro.ru в разделе download. Затем нужно открыть разархивированный файл с помощью Notepad или в другом текстовом редакторе и заменить в нем имя www.toombspartners.com на имя своего Web-сайта. После этого следует запустить приложение Scheduled Tasks из Control Panel и создать для данного файла задание - запускать его каждую ночь в какое-либо время после полуночи. Почему после полуночи? Дело в том, что на шаге 4 я использовал ключ командной строки-logfile, с помощью которого задавалось имя соответствующего файла журнала. Если данный ключ отсутствует, как в файле NightRun.bat, AWStats автоматически выберет в качестве даты предыдущий день и будет использовать любой групповой символ (wildcard), который описывается параметром Logfile= файла конфигурации. Поэтому, если данный командный файл будет запускаться после полуночи 4 июня, AWStats будет выполнять анализ файлов журналов за 3 июня, поскольку будет использоваться групповой символ формата даты, определяемый значением параметра LogFile.

Один щелчок - и Web-отчет готов

Как удобно каждое утро получать свежие статистические данные по Web-сайту! Даже для тех, кто не отвечает непосредственно за наполнение Web-сайта компании, подобная статистика все равно может оказаться полезной, например в том случае, если сотрудник занимается продажами продукции компании через Web-сайт. Информация, предоставляемая этими отчетами, может помочь выяснить, что именно ищут люди, когда заходят на ваш Web-сайт, и, на мой взгляд, современной службе работы с клиентами стоит владеть такой информацией.