Avisar de contenido inadecuado

Scrapy web crawling con python

por tomcask
viernes, 29 de mayo del 2009 a las 07:00
guardado en ,

Hoy os voy a comentar sobre scrapy   un framework en python como no! que estoy investigando muy potente, basicamente sirve para leer contenido web y extraer la información que queramos...

class MininovaSpider(CrawlSpider):
   domain_name = 'mininova.org'
  start_urls = ['http://www.mininova.org/today']
  rules = [Rule(SgmlLinkExtractor(allow=['/tor/\d+']), 'parse_torrent')]

  def parse_torrent(self, response):
      x = HtmlXPathSelector(response)
      torrent = ScrapedItem()
      torrent.url = response.url
      torrent.name = x.x("//h1/text()").extract()
      torrent.description = x.x("//div[@id='description']").extract()
      torrent.size = x.x("//div[@id='info-left']/p[2]/text()[2]").extract()
      return [torrent]

En este ejemplo podeis ver como facilmente extraemos el titulo, la descripción,  el enlace y el tamaño, os dejo a vuestra imaginación lo podemos llegar a hacer

Deja tu comentario sobre Scrapy web crawling con python

Identifícate en OboLog, o crea tu blog gratis si aún no estás registrado.

De esta forma, además, podrás mostrar tu imagen en los comentarios y no tendrás que rellenar tus datos cada vez.

Deja tu comentario

Sobre este artículo

tomcask

tomcask escribió este artículo hace 3 años. Habla sobre python , web .

Aún no hay ningún comentario.

Tu podrías dejar el primero.

Entrar

Comentarios

Enlaces JSON y .NET (Vaginal Mesh Lawsuit)
NET is well designed software (hace 1 año)
Juego Test del Amor: Compatibilidad (caca)
noooooooooo eeeeeeeeennnnnnnnnnttttttttiiiiiiiiiiiiiiiieeeeeeeeeennnnnnnnnnnnnnnnddddddddddddoooooooooooooooooo... (hace 1 año)
Enlaces JSON y .NET (Mesothelioma)
JSON and links. NET is well designed software and it is useful for .NET developer.  (hace 1 año)
Enlaces JSON y .NET (mesothelioma )
Sección bonito! Que se siente después de una gran lectura Tal como esta, muy informativo e interesante. Que... (hace 1 año)
Empecemos con GIS y geodjango (Cesar)
hola, estoy investigando sobre el tema que trata este post, especificamente sobre Postgis, quisiera saber si los sistemas... (hace 1 año)

Más comentados

Juego Test del Amor: Compatibilidad (54)
Os traigo una nueva entrega de los juegos simples usando javascript. Seguramente verás muchas aplicaciones del...
Enlaces JSON y .NET (4)
Imprescindible El comienzo que es JSON Microsoft versión oficial y uso Consultas en el forum...
Validar un DNI/NIF con Javascript (3)
Función para validar un DNI o NIF con Javascript, para detectar que es un identificador válido.  ...
CheckColor Juego: Color Letra (3)
Ya que hace poco comentamos la opción de cambiar los colores de las celdas de una tabla, hoy os presento el...
Juego RiPitPlis: Repite la secuencia (3)
Os presento el proyecto RiPitPlis 1.0 que está basado en el clásico Juego electrónico 'Simon' de...