Dominios spammers

Hace ya unos pocos meses implementé Recaptcha y vengo coleccionando en un log aquellos intentos fallidos, inicialmente lo había hecho como debug para ver si andaba todo bien, pero pronto noté que era una suculenta fuente de información de spammers.

En el transcurso de tres meses coleccioné mil urls distintas, algunas no son de spammers sino que entraron de casualidad o parte de un comentario, pero tengo unas mil que sí lo son...

Click aquí para ver el archivo completo, es enorme así que no lo incrusto aquí directamente

Es una linda lista, la gran mayoría provienen de comentarios que fueron filtrados por Recaptcha ya sin siquiera pasar por el form, atacan de forma directa la recepción, son scripts automáticos tratando de evitar los filtros del blog y fracasando en el intento.

La idea de implementar el recaptcha era para consumir menos recursos de servidor, yo ya tengo otros métodos para bloquear y que no pasen, pero lo que no hacía tanto era guardarme los intentos fallidos así que esta vez aproveché eso.

Para obtener la lista simplemente consulto el log y lo filtro con este pequeño script PHP:

$consulta = "SELECT texto FROM `logueo` WHERE texto like '%invalid-input-response%' and fecha > '2024-01-01'";

$resultado = $db->sql_query($consulta);   

while ($row = $db->sql_fetchrow($resultado))
    {
        $string = $row["texto"];
        preg_match_all('#\bhttps?://[^,\s()<>]+(?:\([\w\d]+\)|([^,[unct:]\s]|/))#', $string, $match);
        $urls = $match[0];
        foreach ($urls as $url)
        {
            $parsed = parse_url($url);

            $host = $parsed["host"];
            // saco www
            $host = str_replace("www.","",$host);
            
            // filtro mi propio blog
            if ($host == "fabio.com.ar"){$host ="";
            }
            if ($host <> "") {echo $host. "
";}

        }
    }

Como en algunos comentarios hay más de una url primero parseo el texto y luego busco el host de cada una, no me interesan parámetros ni protocolo, si vas a banear, que sea todo el dominio.

El resultado generado es interesante, además de cientos de sitios para venta de cannabis 😋 hay algunos dominios locos.

Cosas como:

gf21usv6v13stapj276sii9d1r937267s.org
gfh9u4iws4o516n5leiz6146j4565rd1s.org
gh95ar5786u5qy671kt5342hka0ixkq7s.org
gi4cs57ad7b5cx2985s110hui488pn7us.org
gi5y863k885s1nos2r41lt93cr53hc9ds.org
gj7k7t06ev98ga6mv03g1j63l3t7eh85s.org
gk3zx9f41jfr6t02w051jka48u2257rds.org

¿Qué son? Imagino que son tags para identificar si el spam de uno entró en el sitio y poder validar a partir del HTML de la página, si encuentro toda esa cadena de texto es que el spam pasó ¿Será para eso? Los dominios no parecen existir, pero son decenas!

También vi que usan instancias de alojamiento de oraclecloud.com, digitaloceanspaces.com, linodeobjects.com, etc. Que usualmente son para almacenar contenido, pero que encontraron la vuelta para reventar algún sitio, usarle sus credenciales y subirlas para linkearlas directamente.

Hay unos cuantos sitios rusos, cuando no, algunos de juego, de cripto, muchos que son sitios gratuitos para alojar páginas pequeñas, usados por spammers, y, en general, mucho, mucho dinero gastado en dominios para spamear basura que han fallado en mi blog.

¿Te sirven? Ahí te los dejo en git por si sos un sysadmin que busca blacklists, la actualizaré en un año imagino 😁

Si te gustó esta nota podés...
Invitame un café en cafecito.app


Otros posts que podrían llegar a gustarte...

Comentarios

  • Gustavo     09/04/2024 - 11:08:10

    Yo tengo mi propio .txt pero de paginas que tratan de piratear el contenido de stream de la CDN local de la empresa en la que trabajo, todas las semanas lo saca automaticamente, filtramos los nuevos dominios y a la semana saltan 20 o 30 nuevos, es una guerra de nunca acabar, por suerte pronto vamos a implementar signature verification y se les acabo la joda.

  • Alejandro     09/04/2024 - 11:35:52

    Amo fuerte estos nerdyposts. Soy IT pero de otro palo, e igual me parecen fascinantes!

  • gorlok     09/04/2024 - 13:09:28

    Es la historia sin fin

  • CoYo     10/04/2024 - 12:42:18

    Yo tengo servicios de interés para los amigos (centrales telefónicas asterisk, por ej) desde hace muchos años. Dejé de recolectar IPs y dominios por la cantidad. Pero, para que se den una idea, reciben unos 100 ataques por día por central...
    Por suerte, le buscas la forma y automatizas los bloqueos... y por desgracia, el firewall tarda como 5 minutos en iniciar con la lista kilométrica de bans que va sumando...
    Es lo que hay, hace mil que pasa esto y va a hacer mil mas y seguirá pasando. Si eliminásemos el tráfico basura de la red... volaría!

  • Hallux     10/04/2024 - 13:41:33

    Ojo que esta la URL de Amazon AWS amazonaws.com) , si se filtra esa se filtran varios dominios legit. Saludos!

    • Fabio Baccaglioni     10/04/2024 - 15:28:46

      filtrar el amazonaws.com es correcto :D
      ¿Quién usa esa url como url de su proyecto serio? Nadie, alguien tiene un blog encajado así con url de aws? Usar una url provisoria de esas? FUERA! 😁

Deje su comentario:

Tranquilo, su email nunca será revelado.
La gente de bien tiene URL, no se olvide del http/https

Negrita Cursiva Imagen Enlace


Comentarios ofensivos o que no hagan al enriquecimiento del post serán borrados/editados por el administrador. Los comentarios son filtrados por ReCaptcha V3.