0 votos
Hola  a todos! tengo que hacer un ejercicio para una asignatura de analisis de datos con python. La primera parte consiste en extraer el principal texto de articulos de noticas de una pagina web(texto en html), son unos 1480 articulos. Tengo que extraer el "body" de cada texto, pasarlo a plain text y guardarlo en un file para posteriormente realizar la segunda parte que es hacer analisis, mineria de textos, clasificación. No tengo experiencia en programación, solo he hecho una asignatura de introducción en python...si alguien tiene tiempo y me puede echar una mano al menos con la primera parte  lo agradeceria en el alma! gracias
por en Base de Datos

1 Respuesta

0 votos
Lo que necesitas es un poco amplio, aunque tienes lo que necesitas hacer en el artículo en scraping con Python en https://jarroba.com/scraping-python-beautifulsoup-ejemplos/

Por otro lado, para reconocer el contenido de HTML necesitarás aplicar expresiones regulares, tienes como se hace y ejemplos en https://jarroba.com/busqueda-de-patrones-expresiones-regulares/
por