Member
Статус: Не в сети Регистрация: 03.09.2004 Откуда: Киев
Устраиваюсь на новую работу. Пока должен буду висеть в Инете, читать новости на сотне сайтов и рубриковать их (экономика, финансы и т.п.) Думаю что можно этот процесс автоматизировать. То есть написать паука который будет сканированть определенные странички из списка и сообщать когда они изменились. Так вот в чем вопрос. Посоветуйте нетяжелый язык программирования на котором можно это реализовать.
Я когда-то знал Паскаль (не обжект). На все про все у меня есть 12 дней. Может кто сразу и присоветует книжку какую хорошую?
Member
Статус: Не в сети Регистрация: 21.06.2004 Откуда: Санкт-Петербург
Если выбрал питон (более серьезно), прочтения туториала и переодические заглядывания в library reference, FAQ http://www.python.org/doc/faq/programming.html и Whole Python FAQ http://burks.bton.ac.uk/burks/language/python/pythfaq.htm в принципе, достаточно чтобы написать это. В стандартной библиотеке есть все необходимое. Альтернативный вариант, если еще помнишь Паскаль - Dive Into Python http://diveintopython.org/. Это будет дольше, пару дней придется читать. Первый вариант быстрее и легче. Питон, кстати, несколько похож на паскаль
Какой-нибудь юниксовый shell (проще всего bash) - неплохое средство для таких задач, но скажем гуй на нем не напишешь, и что-то сложное не сделать. Но натравливать качалку wget и вызывать awk для вырезания из html нужных кусочков и закидывания их в файл с нужной структурой можно. Если этого достаточно - это самое быстрое и простое решение. awk - мощный язык обработки строк, изучается за час.
bash, wget и awk (gawk) для windows берутся в составе cygwin или по отдельности.
Если awk это "почти вот-вот", но пары фич не хватает, можно попробовать глянуть на perl. Он так же заменит shell в этом случае. Но по тяжеловесности приложение увеличивается ощутимо, поэтому тут лучше сразу взять питон. Он гораздо проще для изучения и легче читается/пишется, ну и стандартная библиотека больше.
Member
Статус: Не в сети Регистрация: 03.09.2004 Откуда: Киев
Mosga писал(а):
Но натравливать качалку wget и вызывать awk для вырезания из html нужных кусочков и закидывания их в файл с нужной структурой можно. Если этого достаточно - это самое быстрое и простое решение. awk - мощный язык обработки строк, изучается за час.
Я не знаю что такое гуй, но боюсь что этого не достаточно - надо чтобы я знал о чем идет речь - мне еще аналитические отчеты об этом писать надо будет, а не просто инфу складировать. Не говоря о том что и по рубрикам ее раскладывать.
Читаю Доки по Питону шедшие в инсталяхе, посмотрим что получится
имхо не зная ничего и есть 12 дней, смахивает на бред (ничего личного)
как альтернативу питону могу предложить посмотреть в сторону php.
для решения этой конкретной задачи рекомендую sqlfh http://www.sqlfh.com/index.php?part=&lang=ru (все вопросы к автору).
надеюсь никто не будет опровергать, что лучшим языком для работы с текстом является perl
в php у тебя будут все инструменты для работы с перл-совместимыми регулярными выражениями (PCRE),
и по быстроте освоения ему нет равных
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 5
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения