getml.sh

Script para fazer backup de anúncios do MercadoLivre, ainda estava em desenvolvimento parcialmente funcional, não mecho a anos e depois de todas as mudanças efetuadas pelo ML na plataforma provavelmente será preciso mudar algumas coisas.

#!/bin/sh
#Baixa anuncios do MercadoLivre - by daniel.uramg - 19/06/13

[ -z "$1" ] && echo "uso: $0 <URL do anuncio>" && exit #Instrução de uso

NOME="`echo $1 | cut -f 4 -d/`" #Extrai "nome" do anuncio
BREAKLINES='s/<div class=\"\" >/\n\nX1X1X1\n/;s/<!-- shortDesc END -->/\nZ1Z1Z1\n\n/' #Quebra linha Inicial e Final do que interessa
LINKIMG='s/src="data:image\/gif;base64,R0lGODlhAQABAIAAAP\/\/\/wAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw=="//g;s/data-src-original/src/g' #Corrige caminho das imagens

wget $1 -O - | sed "$BREAKLINES;$LINKIMG" > $NOME

#Extrair imagens
	cat $NOME | sed -n '/data-enlarge/{s/data.enlarge/\n data-enlarge/g;p}' | awk -F'"' '/data-enlarge=/ {print $2}' | while read URL; do

IMG_NAME="`echo $URL | cut -f 4 -d/`" #Extrai nome do arquivo de imagem
wget "$URL" #Baixa arquivo de imagem

URL1="`echo $URL | cut -f 3 -d/`"
URL2=`echo "$URL" | sed 's/\//\\\\\//g'`

echo "URL=$URL" >> TEMP
echo "IMG_NAME=$IMG_NAME" >> TEMP
echo "URL1=$URL1" >> TEMP
echo "URL2=$URL2" >> TEMP

#sed -i "s/$URL2/$IMG_NAME/g" $NOME
	done

sed -n -i '/X1X1X1/,/Z1Z1Z1/p' $NOME
sed -i 's/X1X1X1//;s/Z1Z1Z1//' $NOME