meta data de esta página
  •  

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anteriorRevisión previa
Próxima revisión
Revisión previa
programacion:python:scrapy [142015/12/ 21:48] lcprogramacion:python:scrapy [182023/01/ 13:36] (actual) – editor externo 127.0.0.1
Línea 1: Línea 1:
 +===== Scrapy =====
  
 +Artículo original de https://gabrielperales.wordpress.com/2014/09/01/web-scraping-con-scrapy/
 +
 +En este pequeño tutorial vamos a extraer datos de una página de anuncios clasificados, de cada item o artículo nos interesará solo tres cosas, el nombre, la descripción y el precio. 
 +
 +==== Instalación y configuración ====
 +Primero instalamos python 
 +<code>
 +sudo apt-get install python-pip python-dev libxml2-dev libxslt1-dev</code>
 +
 +Seguidamente vamos a crear un entorno virtual con virtualenv de python para nuestro proyecto:
 +<code>
 +virtualenv venv</code>
 +
 +Esto creará una carpeta venv donde contendrá un entorno virtual para python y donde instalaremos Scrapy. Ahora activamos el entorno virtual con el siguiente comando:
 +<code>source venv/bin/activate </code>
 +
 +Una vez activado el entorno virtual instalamos Scrapy con pip install scrapy
 +<code>pip install scrapy </code>
 +
 +<note> Hay que tener instalada la librería libxml2 y libxslt para que no de error </note>
 +
 +Una vez instalado vamos a crear nuestra primera araña.
 +
 +<note>utilizaremos la plantilla crawl, que es igual que la araña basic pero esta nos permite seguir enlaces. </note>
 +
 +Para generar una araña usando esta plantilla debemos escribir en la consola scrapy genspider -t crawl. En nuestro caso a la araña la llamaremos segundamano y el dominio será el de la segundamano.es
 +<code>scrapy genspider -t crawl segundamano segundamano.es </code>
 +
 +Al ejecutar el comando se genera dentro un fichero segundamano.py dentro del **directorio del proyecto/spiders**
 +<code>
 +├── tutorial
 +│   ├── __init__.py
 +│   ├── items.py
 +│   ├── pipelines.py
 +│   ├── settings.py
 +│   └── spiders
 +│       ├── __init__.py
 +│       └── segundamano.py
 +└── scrapy.cfg
 +</code>
 +==== Referencias ====
 +  * http://teclp.com/2015/03/install-scrapy-on-ubuntu-using-python-pip/