Опять контент … старые переживания …

Грабилка контента

Вот решил поднять старое направление своей работы — закачку сайтов с контентом. Тем более, что канал в Сеть у меня же 1 Мбит/с.

А когда-то я мечтал про такое, и думал, что этого никогда не будет .. за какие то 14-ть долларов в месяц анлимитед 1мегабит на вход, 512к на выход. Причем скорость честная — это легко проверяется на закачке больших файлов.

И вот тебе — как говориться пожалуйста. Приходится использовать такую замечательную возможность.

Почему поднял свой старый код, еще 2006-го года, который делал для одного заказчика. который впрочем умер в моих глазах, ибо пытался кинуть по мелочи … Возникла сумасшедшая идея переписать его с учетом теперешних подходов, но делая минимальное количество изменений.

Как оказалось, писая я тогда плоховато и неструктуризированно. Вероятно, каждый из кодеров, смотря на свой старый код немного матюгается. Ну да ладно, переделал, запустил. Отреставрировал скрипт для закачки контента, правда пока оно все дальше под винду, но вероятно ида и понятно, что буду полностью уходить с этйо платформы. Тем более что рабочих компьютеров у меня сейчас три штуки …

Скажу одно, сравнивая «три года тому», когда я качал сайт на 64 кбитах, имея паршивенький канал, за который еще приходилось «кодить» для местного подъезд-провайдера (кстати жлобъе редкосное, обрезали кабель и забыли сказать), и сейчас, это просто земля и небо. На 1 мбите база размером в 400 тыс. ссылок закачалась за пару часов. На 4-х процессорах и 5-м райде, обработка всей этой базы просто пролетела (30-ть минут).

Хотя тут заметил одну гадость. По какой-то чертовой причине для обработки данных в PHP не используются все процессоры системы. Но зато как работает mysqldump.

Можно сказать из этого одно — апгрейдиться надо. Особенно на нормальную технику. И приятно когда Укртелеком подымает скорость за те же деньги. Это чрезвычайно радует. Нам бы тут в Украине еще пейпал, чтобы работать как белые люди. И тогда можно из дому на работу вообще не выходить.

ПС. Вот небольшой кусочек кода … вставляю, для будущего. Может года через три опять буду смотреть на это и думать, что за бред. Пока же, за три года … не посчитал нужным менять это. И так работает безотказно.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
    if ( !file_exists($fname) && !file_exists($fname1))
    {
      $page = "";
      $err = 0;
 
      while ( !$page )
      {
        $url = $base_url ;
 
        if ( file_exists( "./debug" ) )
        {
          echo "URL:" . $url . " \n ";
        }
 
        $page = get_2( $url );
 
 
        if ( $page && !preg_match("~</HTML>~msi",$page, $ww) )
        {
          $page = "";
          echo "!";
        }
        if ( !$page )
        {
          echo "~";

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *