Laburo España: 250.000 ofertas de empleo

Lunes, 06 de junio de 2005

Lematizando las tags del del.icio.us

Uno de los mayores problemas de las folksonomías es la gran cantidad de tags similares que usamos para describir el mismo objeto, un problema que surge de falta de un vocabulario controlado que corrija las variantes de plurales/singulares minúsculaes/mayúsculas y las diversas derivaciones de cada término:

blog - blogs - Blog - Blogs - blogging - bloggers ...


La ausencia de un control terminológico,que otorga libertad y agilidad al tagging social, repercute en la recuperación de información originando confusiones semánticas y silencio documental.

del.icio.us tag stemmer utiliza el algoritmo de Porter y nos permite conocer las variaciones que hemos utilizado de nuestras tags en todos los recursos que hemos marcado, a través de nuestra cuenta de usuario de del.ici.ous, o conocer todas las variaciones de tags que los lectores han utilizado para marcar un mismo objeto. De lo que se trata es de aplicar técnicas de stemming* y evitar las confusiones semánticas para una misma tag.

Por el momento sólo funciona con términos en inglés, un idioma más sencillo que el español desde el punto de vista morfológico, implementar un del.icio.us tag stemmer en nuestro idioma supongo que será bastante más complicado.

__________________

* El stemming o lematización es el proceso mediante el cual se relacionan morfológicamente las pálabras que comparten la misma raíz, de forma que podamos agrupar las variantes morfológicas de cada término. Hay numerosos estudios sobre el stemming y la recuperación de información, dos artículos sencillos e introductorios a las técnicas de stemming para el español:

Por: Catuxa |Clasificado en: Folksonomia y Tagging | Comentarios (7) | Referencias (0) | Leído 1575 veces | Menéalo | Guarda este post en Del.icio.us o Furl

Etiquetado como: folksonomia / tagging / stemming / lematizacion / delicious

Comentarios

Ummm, gracias por lo de "lematizar", así puedo dejar de pensar en "stemizar" y "stemizadores" :) ¿Has llegado al stemmer de del.icio.us por el post en plasticbag sobre las dos vertientes de las folksonomías? Tom Coates lo clava, como siempre.

Ah, por cierto, un stemmer para castellano (entre otros), en Ruby: http://stemmer4r.rubyforge.org/rdoc/classes/Stemme...

mort | 06-06-2005 20:49:56

Yo siempre que he lematizado ha sido a pedal, porque el vocabulario que tenía que afrontar era pequeño. Sin embargo en las clases de este año hemos visto algunos algoritmos que utilizan Wordnet como referencia y consiguen resultados bastante buenos.

Por otro lado sí que parece una buena alternativa para reducir buena parte de la variabilidad. Quizá la ambigüedad léxica sea peor que la semántica para estos casos.

Fernando | 06-06-2005 23:06:59

Gracias Mort, voy a leer el post de Coates. Llegué al stemmer buscando información sobre la lematización y los buscadores, y me "encontré con ésto y con ningún ejemplo de buscador que haga stemming en español.



Y thanks por el stemmer para castellano.

Fernando, yo también he hecho prácticas "a mano" de lematización, pero era un volumen rídiculo, claro... lo bueno sería dada una red semántica que se nos aparecieran todas las variantes de esa raíz común.

El Wordnet nunca he visto como trabaja, ¿pero es sólo para la lengua inglesa verdad? supongo que hay idiomas bastante más peliguados para estas técnicas, y el nuestro tiene demasiadas complicaciones, dicen!

Catuxa | 07-06-2005 10:20:12

Muy interesante el post catuxa. Desconocía el tema de la "lematización", ni me había parado a pensar en ello.
Ah y gracias por el vínculo del otro día: http://www.baquia.com/noticias.php?id=9746 muy muy interesante, ya estoy con ello.
graciñas

xacaes | 07-06-2005 18:50:38

Cierto, está sólo en inglés. Y es una pena porque ya he hecho en Python un programita muy chorra que te descarga tus etiquetas y va mostrando cada etiqueta con su raíz con el fin de unificar al máximo nuestras etiquetas.

Pero como el wordnet está en inglés, en mi caso no sirve porque uso etiquetas en español. De todas formas creo que la idea es buena.

Si alguien conoce un diccionario léxico español, por favor que lo diga!!

Fernando | 08-06-2005 17:23:05

Vale, no he dicho nada. La misma librería que ha dicho mort va a tener pronto unos bindings para python (http://www.snowball.tartarus.org/archives/snowball...). Perdón por llenar los comentarios de merda :D

Fernando | 08-06-2005 22:21:22

Gracias por tus comentarios, Fernando!, graciñas y nada de que son escatológicos hombre!

Catuxa | 09-06-2005 18:58:57

Comentar


Recordar datos

Cajón desastre sobre biblioteconomía y documentación, TICs y gestión del conocimiento.

Deakialli en tu idioma

Galego | Catalán | Euskera

Inglés | Francés | Alemán

Busca en Deakialli

Enlaces

Sindicación

RDF XML ATOM

Añádenos a:

MyYahoo Bloglines Feedness

Bookmark Social

Guárdanos en tus favoritos online:

Del.icio.us / Furl

Suscríbete

Si quieres recibir las actualizaciones de Deakialli Documental en tu correo, escribe aquí tu dirección de email


por FeedBlitz

Y si lo que quieres es leernos offline descarga los últimos post en PDF

Top comentaristas

Créditos

Esta obra está bajo una licencia de Creative Commons.

Basado en plantilla de Studio.st
Online gracias a Bitacoras.com

Silktide SiteScore for this website



ecoestadistica.com

LaInformacion.com lainformacion.com - Medio Oficial de los Premios Bitacoras 2009