Donde estan los nuevos?

Una de mis motiviaciones principales al instalar Vecindario era hacerle fácil a las personas encontrar otras bitácoras de su interés. La efectividad de este servicio era limitada, pues de las seiscientas y tantas bitácoras que tengo en mi base de datos solo estoy mostrando las 150 mas “relevantes”. Ahora, con las nuevas Recomendaciones, la funcionalidad aumenta, pues solo basta estar en la base de datos de Vecindario para que se te puedan hacer las recomendaciones basadas en tus links.

Y es aqui donde comienzan los problemas.

Mi base de datos de urls fue donada parcialmente por Eduardo, Mariano y fernand0. Y mas de uno esta de acuerdo que casi setescientas bitácoras es un número que suena irreal. Hay quienes calculan que hay tres mil bitácoras hispanas, otros son mas optimistas. El gran problema es que nadie sabe y que, hasta el momento, no tenemos un medio para encontrarlas.

No todas las bitácoras recián nacidas se van y se registran a bitacoras.net, blogdir o a otros servicios similares. Ese no es el camino. Esperar a que el dueño de la bitácora se registre en uno de estos servicios o directamente a Vecindario simplemente no va a suceder. Hay que ir por ellos.

Y no es tarea fácil. La forma mas práctica de descubrir nuevas bitácoras era por medio de weblogs.com. Y digo “era” porque ahora blogspot tendrá su propio servicio web de actualizaciones a bitácoras. Al parecer encontrar nuevas bitácoras es cosa de filtrar el contenido de dos servicios web, pero se pone fea la cosa.

Necesito encontrar sólo blogs hispanos. No quiero blogs en inglés, ni francés. Enseñarle a un programa a que pueda distinguir a un lenguaje natural de otro. Al principio puede sonar trivial, un simple analisis de frecuencia de las palabras. Esto funcionaría en un mundo ideal, el cual no es nuestro caso. Cada quien escribe como se le apetece: algunos usan acentos, otros sin ellos mientras otros usan abreviaciones dignas de mensaje SMS y otros mas son por demás lacónicos. La frecuencia de las palabras funciona en algunas ocasiones, no en la mayoría. Este es el gran reto, automatizar la búsqueda de blogs en español.

Por otro lado, a juzgar por Qué Hay de Nuevo?, un muy bajo porcentaje de las bitácoras hacen ping a weblogs.com. Esto debido principalmente a una mala configuración o a que el sistema que usan simplemente no les ofrece esa opción.

Pídoles de favor que hagan conciencia entre sus conocidos de que habiliten su programa para hacer ping a weblogs.com. MovableType permite esto, pero la mayoría no lo sabe y por ende lo tiene deshabilitado. Y se que MT no es el único programa que pingea a weblogs.com.

Ahora que si alguien tiene experiencia en análisis de texto o en machine learning y me quiere dar algun tip para identificar weblogs en español, es mas que bienvenido.

22 Responses

  1. A gravatar

    Uno de los problemas que comentas, que la gente ‘no se da de alta en blogdir.com’ es que si lo intenta…

    Gracias por tu interés en Blogdir.com.
    Estamos rediseñando la base de datos y momentaneamente hemos suspendido la incorporación de weblogs al directorio.
    Te invitamos a intentarlo nuevamente en unos días.

    y lleva así meses.

    Otro problema es que la gente se da de alta pero no de “baja” cuando un weblog muere — y hay muchos de esos.

    Yo confiaría más en una solución que pase por pings a weblogs.com + blogspot… y listas de otras herramientas y agregadores (blogalia etc), o existencia de feeds rss/xml, etc. porque desde luego parece que en un solo sitio no están todos.

    Excepto en blogshares.com, lo cual es gracioso porque aunque es solo un juego todo el mundo que tiene un blog se ha apuntado ;-)

    Alvy - Abril 25th, 2003 at 5:39 am
  2. A gravatar

    Para el caso específico de Blogalia, hay una sección de Nuevas Bitácoras en:
    http://www.blogalia.com
    que incluye fecha de alta. Esta información también figura en el Directorio General en:
    http://www.blogalia.com/directorio.php

    Revista de Blogs - Abril 25th, 2003 at 6:13 am
  3. A gravatar

    Nuestra apuesta es la apertura y la difusión: la lista de bitácoras del blogómetro está siempre disponible (y actualizada de vez en cuando) en la web de sourceforge:
    (link largo en tres lineas, editado por edmz para no romper el formato de la página)
    http://cvs.sourceforge.net/cgi-bin/viewcvs.cgi /blogometro/blogometro/db/bitacoras.txt
    ?rev=HEAD&content-type=text/vnd.viewcvs-markup

    También agradecemos cualquier lista que nos proporcionen.

    fernand0 - Abril 25th, 2003 at 9:52 am
  4. A gravatar

    fernand0, gracias por el enlace (lo modifiqué porque estaba tan largo que alteraba la estructura de la página). Excelente lista y mejor aun que esta en CVS. Le echaré un mejor ojo este fin de semana.

    edmz - Abril 25th, 2003 at 11:17 am
  5. A gravatar

    Supongamos que todo blogger de pro que quiera dar a conocer al público su blog (siempre hay excepciones) hace pings a weblogs.com cuando actualiza — en el futuro yo creo que la solución va a ir por ahí.

    Si se hicieran esos pings, aparecerían en el recentchanges.xml de weblogs.com.

    Ahora mismo recentchanges.xml sólo incluye weblog_name, url y when porque se supone que con eso basta.

    Pero si incluyera language y country (e incluso otros, existentes o definibles) podría ser mucho más fácil ver los blogs nuevos y entender en qué idioma hablan y de dónde son (e incluso de qué tema tratan). De ahí a un mapa, ranking etc de blogs por lenguaje habría un paso.

    Si eso nunca lo van a añadir, entonces se necesitaría un mapeado de weblog_name a su idioma y país, si es que eso está disponible en algún lado (y por desgracia sería tan grande como toda la blogosfera, pero contendría el subconjunto de los del lenguaje o país deseado).

    En el futuro a lo mejor un blog que no hace pings a weblogs.com es como una página web que nunca ha enlazado a nadie y a la que Google y los demás buscadores nunca pueden encontrar, ergo “no existe” a efectos prácticos…

    Alvy - Abril 25th, 2003 at 2:14 pm
  6. A gravatar

    y por si eliges el “camino largo” (reconocer el lenguaje en que está escrito un blog / página), te encontré esto:

    Mining Documents for Data
    http://domino.watson.ibm.com/comm/wwwr_thinkresearch.nsf/pages/mining498.html

    Human Language Technology
    http://www.mitre.org/technology/mtp00/humanlanguage2000.shtml

    y, yendo a lo práctico, una lista de herramientas gratuitas y comerciales en

    Language Identifications Tools
    http://odur.let.rug.nl/~vannoord/TextCat/competitors.html

    donde la demo funciona incluso con muy poco texto que le alimentes:
    http://odur.let.rug.nl/~vannoord/TextCat/Demo/

    Alvy - Abril 25th, 2003 at 2:31 pm
  7. A gravatar

    ese último demo es muy bueno, pero todo parece indiciar que el analisis que hacen no es trivial. Yo ando investigando usar la misma lógica que se usa en Mozilla para filtrar el mail, los filtros bayesianos.

    edmz - Abril 25th, 2003 at 7:39 pm
  8. A gravatar

    Lo que comentas es un autentico mal que llevo notando mucho tiempo.

    Siempre tengo que esforzarme por encontrar cosas nuevas asi que ya he tomado la costumbre de ir abriendo cada enlace que me encuentro.

    Te puedo decir que la vía por la que encuentro mayor diversidad es por el enlace de los comentarios… Tiene sentido ya que es casi una norma que la gente que tiene blogs visita otros y al final deja comentarios.

    Otra cosa a tener en cuenta es que un 99% de los comentarios están escritos por gente que habla el mismo idioma, asi que por ese lado el filtro es bueno.

    Además, son varias la herramientas que tienen sistemas estandarizados para el tema de los comentarios asi que no se si te sera de ayuda, pero (en mi inexperta opinión) rastrear las páginas de comentarios de la gente que YA está en vecindario podría darte buenos resultados.

    Walter - Abril 25th, 2003 at 8:06 pm
  9. A gravatar

    Únicamente 1 de cada 10 personas deja comentarios.

    Anónimo - Abril 26th, 2003 at 5:45 am
  10. A gravatar

    Hola. Algunos de vostros me sconocereis porque estos días me están dejando algunas de vuestras páginas y os envio un mail para que las “sindiqueis”.

    Estaba leyendo sobre el tema del que hablais por aquí y veo con interés que comentais sobre montar un directoio sobre blogs y demás. La verdad, yo, acabo de empezar como el que dice con esto, y bueno, mis “cosas” no van directamente relacionadas con los blogs, pero son complementarias, ya que, la mayor parte, tiene una “puerta trasera” en forma de XML con el que “compartir” los titulares/noticias/comentarios que vais poniendo.

    Bueno, por si acabo, la web es www.sindicon.com y vaya, yo, lo que hago es “recopilar” páginas que comparten información en formato RSS y, pues desde esa web se pueden leer.

    No entiendo bien bien a que os referís cuando comentaris lo de los “pings” y demás (y, si es posible, me molaría que me lo aclaraseis).

    No sé si será de ayuda mi “aparicián” en el mundillo, pero, si me explicais y eso, qué es lo que quereis hacer más o menos, a lo mejor os puedo dar una mano, lo mismo que vosotros a mi en mis dudas.

    Por lo pronto, y ya que estos días mi web funciona bastante bien y eso, voy a crear una zona de “desarrollo” para comentar sobre los diferentes temas que lleva la “sindicación”.

    Por cierto, para los que os suenee, mi web es “similar” a www.syndic8.com pero, por ahora, sin llegar a tanto. No sé, seguimos en contacto :)

    durky - Abril 26th, 2003 at 11:46 am
  11. A gravatar

    Eso de 1 de cada 10 personas deja comentarios… será 1 de cada 10 visitas en un weblog concreto.

    Sin tener censada a la gente ese dato es imposible de obtener.

    Walter - Abril 26th, 2003 at 12:03 pm
  12. A gravatar

    durky: un ping es una forma (supuestamente transparente) de avisarle al mundo que existes. Cuando haces un cambio a tu bitácora y si tu software lo permite, se envia un aviso a uno o mas servicios que reciben “pings” (algo asi como un mail especial, si se me permite el ejemplo). Entre los servicios que reciben los pings esta http://weblogs.com. Estos servicios son utiles porque centralizan y facilitan la tarea de buscar quien ha actualizado.

    Walter, es buena idea el usar los comentarios, pero el problema es hacer esto en forma automática y enseñarle a un programa a distinguir la diferencia se pone grosero :)

    edmz - Abril 26th, 2003 at 12:44 pm
  13. A gravatar

    Ajá… claro, yo eso no lo necesito (en principio) ya que sólo comparto titulares. De todas formas, la versión 2 de los RSS, creo recordar que llevan la hora de “última actualización”, por lo que se podría mirar de “programar” un sistema para que, todas las webs listadas en un directorio, comprobasen todos los síndicos y buscasen la “ultima hora”, por ejemplo :) no sé, son detalles dque más adelante se podrán usar, ya que la versión 2 no la usan muchos sitios web :(

    durky - Abril 26th, 2003 at 1:10 pm
  14. A gravatar

    durky, justo ese que dices se puede lograr ya usando http://weblogs.com/, en especial su archivo de changes.xml

    edmz - Abril 26th, 2003 at 1:29 pm
  15. A gravatar

    Perdón por salirme algo del tema, pero creo que es por lo menos igual de importante poder establecer categorías temáticas de blogs que saber en qué lengua están escritos o desde qué país. Entonces, creo que la mejor opción sería optar por una clasificación facetada que permitiera llegar a los sitios mediante diferentes criterios.

    Javier - Abril 28th, 2003 at 2:26 am
  16. A gravatar

    En mi modesta opinión, lo primero que se podría hacer es un pequeño tutorial de cómo se las apaña uno para enviar un ping a weblogs.com, o a blo.gs, que es a donde envío yo los pings.

    Además, se podrían proporcionar herramientas para que el personal las incluyese en sus sistemas de publicación, si es que éstas carecen de dicha capacidad.

    En cuanto al registro de bitácoras, ¿no sería más sencillo un servicio del tipo weblogs.com sólo en castellano?. No sé, me parece que sería mucho más fácil - y mucho más completo - enviar un ping a una URL determinada cada vez que se actualizase.
    Y si contamos que cualquiera que tenga instalado MT puede recibir pings en una categoría determinada, destinada a tal efecto, ya tenemos hasta la tecnología necesaria, ¿no?.

    Bueno, igual me he ido mucho de madre; ya me conataréis.

    Por cierto, acabo de caer en la cuenta que yo no registré mis weblogs ni en bitácoras.net ni en ningún sitio, porque no creía que fuesen a durar más de un año. Pero la cosa se está poniendo bien, asi que igual es lógico que lo haga, ¿o no?.

    kusor - Abril 28th, 2003 at 1:10 pm
  17. A gravatar

    kusor: buena idea, en verdad que faltan articulos instructivos para los neofitos en este rollo. Mas de uno de nosotros podría crear ese tutorial, pero pienso que debería ser publicado en alguna página enfocada a los nuevos bloggers, como bitacoras.net u otro sitio similar. No creen ?

    edmz - Abril 30th, 2003 at 3:15 am
  18. A gravatar

    me parece que la gente en general no busca weblogs nuevos que leer sin más, sino que el interés está más bien en historias o cosas concretas — si un post concreto es más o menos interesante acabará saliendo en algún lado y la gente lo encontrará (y con eso el weblog en el que se encuentra.

    Luego ya dependerá de que gusten para que comiencen a leer el weblog con más o menos regularidad y a enlazarlo. Pero buscar weblogs por el simple hecho de encontrarlos (sin tener en cuenta qué cuentan o porqué deberían visitarse) es poco aplicable al grueso de los usuarios sino sólo a unos pocos.

    Nacho - Abril 30th, 2003 at 5:27 am
  19. A gravatar

    nacho, de acuerdo contigo. La razón principal para generar esa lista no es para el consumo del blogger promedio sino para alimentarla a las diversas herramientas de análisis de blogs, claro que si alguien las quiere usar para tener algo nuevo que leer cada dia, adelante.

    edmz - Abril 30th, 2003 at 11:25 am
  20. A gravatar

    Hola
    Me gustaria añadir a la conversacion que me parece absurdo querer clasificar los blogs en cuanto al pais al que pertencen sus dueños, porque eso no tiene ninguna relevancia sobre el blog. Si algo me parece interesante de internet es que desaparecen las fronteras para poder compartir i conocer todos de todos. I ahora ustedes me quieren empezar a crear barreras fictias?
    Por otro lado si me pareceria interesante el hecho de incluir diversos apartados dentro de la clasificacion para diversas lenguas, porque eso evitaria el hecho de no poder incluir un blog por no ser en español, como por aqui se ha comentado. Si quieren clasificar solo los blogs en español, deberian dejar de utilizar el termino “hispano” porque eso tambien engloba lenguas que no son el castellano.
    Eso me podria suceder a mi, que escribo en catalan, i me considero hispano, ya que no se me dejaria partcipar de ninguna idea conjunta por no escribir en español.
    Bien, es algo a tener en cuenta tan solo.
    Un saludo!

    Flop! - Mayo 22nd, 2003 at 10:16 am
  21. A gravatar

    Estamos rediseñando la base de datos y momentaneamente hemos suspendido la incorporación de weblogs al directorio.
    Te invitamos a intentarlo nuevamente en unos días

    Entonces !! por que no me agregas a tu vecindario ..

    www.infoesfera.com

    Jhon Gonzalez - Mayo 22nd, 2003 at 4:00 pm
  22. A gravatar

    hace tiempo entre a durky.com y me encontre con calico electronico .no termine de ver la pagina durky, pero ahora intento abrir la pagina dky y no puedo, porque ya la censuraron.estoy en emiratos arabes.
    esto es un problema, no puedo ver nada relacionado con la palabra sexo ;o erotico ;o vagina; o pene,..etc.
    es una privacion cibernetica.que puedo hacer para poder entrar a todos lados y evitar sensor

    danna - Octubre 24th, 2005 at 12:53 pm

Leave a Reply

You must be logged in to post a comment.