Часовой пояс: UTC + 3 часа




Начать новую тему Новая тема / Ответить на тему Ответить  Сообщений: 8 
  Пред. тема | След. тема 
В случае проблем с отображением форума, отключите блокировщик рекламы
Автор Сообщение
 

Member
Статус: Не в сети
Регистрация: 03.09.2004
Откуда: Киев
Устраиваюсь на новую работу. Пока должен буду висеть в Инете, читать новости на сотне сайтов и рубриковать их (экономика, финансы и т.п.) Думаю что можно этот процесс автоматизировать. То есть написать паука который будет сканированть определенные странички из списка и сообщать когда они изменились. Так вот в чем вопрос. Посоветуйте нетяжелый язык программирования на котором можно это реализовать.

Я когда-то знал Паскаль (не обжект). На все про все у меня есть 12 дней. Может кто сразу и присоветует книжку какую хорошую?

Заранее спасибо



Партнер
 

Member
Статус: Не в сети
Регистрация: 21.06.2004
Откуда: Санкт-Петербург
Питон или шелл (+wget+awk). Изучаются за несколько часов (если знаешь английский, разумеется.. но и русской документации по обоим полно).

А вообще, есть расширения к firefox'у для этой задачи - попробуй, может и писать ничего не придется ;)

_________________
BE VIGILANT.


 

Member
Статус: Не в сети
Регистрация: 03.09.2004
Откуда: Киев
Mosga писал(а):
Питон или шелл (+wget+awk). Изучаются за несколько часов (если знаешь английский, разумеется.. но и русской документации по обоим полно).


С английским проблем нет. Пошел качать.


 

Member
Статус: Не в сети
Регистрация: 21.06.2004
Откуда: Санкт-Петербург
Если выбрал питон (более серьезно), прочтения туториала и переодические заглядывания в library reference, FAQ http://www.python.org/doc/faq/programming.html и Whole Python FAQ http://burks.bton.ac.uk/burks/language/python/pythfaq.htm в принципе, достаточно чтобы написать это. В стандартной библиотеке есть все необходимое. Альтернативный вариант, если еще помнишь Паскаль - Dive Into Python http://diveintopython.org/. Это будет дольше, пару дней придется читать. Первый вариант быстрее и легче. Питон, кстати, несколько похож на паскаль ;)

Какой-нибудь юниксовый shell (проще всего bash) - неплохое средство для таких задач, но скажем гуй на нем не напишешь, и что-то сложное не сделать. Но натравливать качалку wget и вызывать awk для вырезания из html нужных кусочков и закидывания их в файл с нужной структурой можно. Если этого достаточно - это самое быстрое и простое решение. awk - мощный язык обработки строк, изучается за час.

bash, wget и awk (gawk) для windows берутся в составе cygwin или по отдельности.

Если awk это "почти вот-вот", но пары фич не хватает, можно попробовать глянуть на perl. Он так же заменит shell в этом случае. Но по тяжеловесности приложение увеличивается ощутимо, поэтому тут лучше сразу взять питон. Он гораздо проще для изучения и легче читается/пишется, ну и стандартная библиотека больше.

_________________
BE VIGILANT.


 

Member
Статус: Не в сети
Регистрация: 03.09.2004
Откуда: Киев
Mosga писал(а):
Но натравливать качалку wget и вызывать awk для вырезания из html нужных кусочков и закидывания их в файл с нужной структурой можно. Если этого достаточно - это самое быстрое и простое решение. awk - мощный язык обработки строк, изучается за час.


Я не знаю что такое гуй, но боюсь что этого не достаточно - надо чтобы я знал о чем идет речь - мне еще аналитические отчеты об этом писать надо будет, а не просто инфу складировать. Не говоря о том что и по рубрикам ее раскладывать.

Читаю Доки по Питону шедшие в инсталяхе, посмотрим что получится :)

Спасибо


 

Member
Статус: Не в сети
Регистрация: 21.06.2004
Откуда: Санкт-Петербург
GUI это графический интерфейс ;)

В dive into python есть глава, посвященная обработке html. Но чтобы ее легко понимать, надо все-таки денек-другой поработать с питоном.

_________________
BE VIGILANT.


 

Member
Статус: Не в сети
Регистрация: 16.04.2003
Откуда: spb
Есть масса готовых решений
http://www.sf.net
http://www.freshmeat.net

_________________
maga@home:~> cat /etc/SuSE-release
SuSE Linux 9.2 (x86-64) VERSION = 9.2


 

имхо не зная ничего и есть 12 дней, смахивает на бред :) (ничего личного)
как альтернативу питону могу предложить посмотреть в сторону php.
для решения этой конкретной задачи рекомендую sqlfh http://www.sqlfh.com/index.php?part=&lang=ru (все вопросы к автору).
надеюсь никто не будет опровергать, что лучшим языком для работы с текстом является perl
в php у тебя будут все инструменты для работы с перл-совместимыми регулярными выражениями (PCRE),
и по быстроте освоения ему нет равных


Показать сообщения за:  Поле сортировки  
Начать новую тему Новая тема / Ответить на тему Ответить  Сообщений: 8 
-

Часовой пояс: UTC + 3 часа


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 5


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Перейти:  
Создано на основе phpBB® Forum Software © phpBB Group
Русская поддержка phpBB | Kolobok smiles © Aiwan