ADS 468x60

2011-11-05

Парсим логи ProxySG часть 2.

Решения задачи №3 (Убрать весь мусор который набивает статистику пользователя). Начало статьи тут.
Что подразумевается под мусором?
Когда пользователь заходит на сайт, сервер начинает загружать на рабочую станцию пользователя скрипты, виджеты (комментарии и лайки социальных сетей, сервера хранения контента), баннеры, ошибки, сервисы сбора статистики в общем все то, что на данной странице есть. Прокси-сервер расценивает данный мусор как уникальные страницы. В результате, в статистику пользователя начинают попадать сайты на которые он никогда не заходил.


В данной задаче, мы также воспользуемся программой grep с файлом образца.
Файл образца состоит из перечня ресурсов/ссылок которые мы хотим исключить из статистики. Можно воспользоваться листом блокировок программы Adblock plus, но мы написали свой.
Пример.
“vkontakte.ru/js/api”
“twitter.com/share”
“facebook.com/plugins”
“odnoklassniki.ru/share”
Для исключения совпадений при обработке файлов, необходимо добавить дополнительный параметр “v”.
Команда будет выглядит так:
“zgrep -vf ./Bann all_pars_data_and_cat.txt bann_all_pars_data_and_cat.txt”
В результате из файла all_pars_data_and_cat.txt, будут удалены все совпадения по файлу образца.

Решения задачи №4 (Привязка четных записей к подразделениям)
Для привязки учетных записей пользователей к подразделениям, необходимо, чтоб по каким-то параметрам данные совпадали.
В нашем случае, логин пользователя совпадал с именем почтового ящика, который находился в регистрационной карточке базы сотрудников. С помощью обычного Microsoft Excel и не хитрой формулы сравнения, мы смогли получить информацию к каким подразделениям принадлежат учетные записи.

Решение задачи №5 (Подсчет времени проведенного в сети Интернет)
На мою точку зрения, эта задача самая сложная, т.к. не существует не одной правильной методики подсчета количества времени проведенного работником в сети Интернет.
Протокол HTTP невозможно привязать к времени. Например, работник зашел на сайт, страница загрузилась за 1 секунду, а читал он 1-5 минут, сколько в результате времени было потрачено, как правильно посчитать?
В данном случае, было подготовлено 2 метода.

1. По объему трафика - данный метод применялся только по отношению к категории “Audio/Video”. Для получения потраченного времени, было выведена среднее значение кб/сек, с 5 файлов HD качества получилось 170кб/сек, дальше (общий объем трафика / 170кб / 60 = минут).

2. По интервалу - если работник переходит на новую ссылку и интервал между предыдущей меньше 30 сек, время суммируется, если больше 30 сек, то к общему времени прибавляется 30 сек до перехода на новую ссылку.
Пример.
Andrey mail.ru 9:10:01
Andrey ya.ru 9:10:10
Andrey google.com 9:13:07
Andrey vkontakte.ru 9:13:15
Результат 9 + 30 + 8 = 47 секунд.

Оба метода рассчитаны на уменьшение реальной картины, чтоб не возникало сомнений о преувеличении результатов.

Мы получили потраченное время, нам необходимо привязать его к деньгам. Тут очень просто (средняя годовая зарплата / годовое количество рабочих часов), результат умножаем на полученное нами время.

В результате мы получили сумму, которую компания оплачивает работнику за рабочее время а не за посещение развлекательных сайтов.

0 comments:

Post a Comment

Популярне за тиждень