Tutoriales

Lucene: Analyzers, stemming y búsqueda de documentos similares.

Por

Jose Manuel Sánchez Suárez

22 febrero, 2008

22519

Lucene: Analyzers, stemming y búsqueda de
documentos similares.

0. Índice de contenidos.

1. Introducción.
2. Entorno.
3. Consideraciones previas.
4. SpanishAnalyzer.
5. SpanishStemFilter.
6. Test unitario SpanishAnalyzerTest.
7. Búsqueda de documentos por similitud.
8. Conclusiones.

1. Introducción

Lucene
es un api para la recuperación de
información, Information Retrieval (IR), distribuido bajo
la Apache Software License.

Encaja perfectamente en el concepto de gestión
documental (DMS) e incluso en la gestión de
contenidos (CMS), puesto que un
sistema de gestión documental requiere
de la extracción del contenido de los documentos, la
indexación de los mismos en un repositorio y la posibilidad
de recuperarlos realizando búsquedas por su contenido textual.

No penséis en un sistema de
gestión documental como en la mega-aplicación
construida única y exclusivamente como «contenedor de documentos»
para vuestra organización, cualquier aplicación tiene algo
de gestión de documentos. Y, si tenemos en cuenta que buena parte del existo de esa
gestión radicará en la capacidad de recuperar la
información que se cataloga, después de leer este
tutorial pensarás que Lucene debe formar parte de tu vida…
😀

Ya dimos, de la mano de Roberto Canales,
los
primeros pasos con Lucene en java,
instalándolo, creando un
índice, extrayendo el contenido de un pdf,
indexándolo y recuperando
la información del mismo.

En este tutorial vamos a ver cómo implementar un
analizador semántico en nuestro idioma, potenciando
la indexación y búsqueda, para terminar
analizando la viabilidad de realizar búsquedas de documentos
similares.

2. Entorno.

El tutorial está escrito usando el siguiente entorno:

Hardware: Portátil Asus G1 (Core 2 Duo a 2.1
GHz, 2048 MB RAM, 120 GB HD).
Sistema Operativo: GNU / Linux, Debian (unstable), Kernel
2.6.23, KDE 3.5
JDK 1.5.0_14
Eclipse Europa 3.3
Lucene 2.2.0

3. Consideraciones previas.

Para la indexación y recuperación del contenido
textual de los documentos que gestionamos nos bastaría con
utilizar alguno de los analizadores que proporciona por defecto Lucene,
pero si queremos potenciar las búsquedas de modo que no se
produzca demasiado ruido en el resultado y para cumplir el
objetivo de buscar documentos similares, tenemos que conseguir que los
documentos pasen por un filtro lo más exhaustivo posible.

Podemos conseguirlo implementando los siguientes conceptos:

stopwords:
son una lista de palabras de uso frecuente que, tanto en la
indexación como
en la búsqueda, no se tienen en consideración, se
omiten.
stemming:
es un método para obtener la raíz
semántica
de una palabra. Las palabras se reducen a su raíz o stem
(tema), de modo
que, si buscamos por “abandonados”
encontrará
“abandonados” pero también
“abandonadas”,
“abandonamos”, … porque, en realidad, estamos
buscando por
“abandon”.
modelo de
espacio vectorial: es un modelo algebraico utilizado para
filtrar, indexar, recuperar
y calcular la relevancia de la información. Representa los
documentos con un lenguaje natural mediante
el uso
de vectores en un espacio lineal multidimensional. La relevancia de un
documento frente a una búsqueda puede calcularse
usando la diferencia de ángulos de cada uno de los
documentos respecto del vector de busca, utilizando
el producto escalar entre el vector de búsqueda.

A priori parece complejo, pero lo que cuesta es comprenderlo, vamos a
ver cómo Lucene nos va a facilitar mucho la vida. Lo costoso
que resulte implementarlo en tus desarrollos, eso solo lo sabes
tú, aunque sino te haces una idea de ello… siempre nos
puedes llamar para analizarlo y, en su caso, desarrollarlo.

A continuación, las dependencias que tendrá
el proyecto en nuestro pom.xml, si no usáis maven,
serán las librerías a importar manualmente:

<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>3.8.1</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-core</artifactId>
<version>2.3.1</version>
<scope>compile</scope>
</dependency>
<dependency>
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-snowball</artifactId>
<version>2.3.1</version>
</dependency>
<dependency>
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-queries</artifactId>
<version>2.3.1</version>
</dependency>
<dependency>
<groupId>log4j</groupId>
<artifactId>log4j</artifactId>
<version>1.2.14</version>
<scope>compile</scope>
</dependency>
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi</artifactId>
<version>3.0-FINAL</version>
</dependency>

4. SpanishAnalyzer.

Lucene provee varios analizadores por defecto, el StandardAnalyzer con
un listado reducido de
stopwords en inglés y podemos obtener una
librería (lucene-analyzers) con analizadores en bastantes
idiomas… casi todos menos en Castellano… 🙁

Aún teniendo un analizador en el idioma requerido, la
recomendación es que construyáis el vuestro
propio para aumentar el listado de stopwords, si fuese necesario, y
comprobar el algoritmo con el que se está realizando, si es
que se realiza, el stemming.

Para la elaboración del listado de stopwords podemos acudir
a páginas
especializadas en IR o Text Mining (http://snowball.tartarus.org/
, http://www.unine.ch/info/clef/).

Nuestra clase SpanishAnalyzer hederará de org.apache.lucene.analysis.Analyzer y tendría el siguiente
código fuente:

package com.autentia.lucene.es; 
 
import java.io.File; 
import java.io.IOException; 
import java.io.Reader; 
import java.util.HashSet; 
import java.util.Set; 
 
import org.apache.lucene.analysis.Analyzer; 
import org.apache.lucene.analysis.LowerCaseFilter; 
import org.apache.lucene.analysis.StopFilter; 
import org.apache.lucene.analysis.TokenStream; 
import org.apache.lucene.analysis.WordlistLoader; 
import org.apache.lucene.analysis.standard.StandardFilter; 
import org.apache.lucene.analysis.standard.StandardTokenizer; 
 
 
/** Filters {@link StandardTokenizer} with {@link StandardFilter}, {@link 
 * LowerCaseFilter}, {@link StopFilter} and {@link SpanishStemFilter}. */ 
 
/** 
 * Analyzer for Spanish using the SNOWBALL stemmer. Supports an external list of stopwords 
 * (words that will not be indexed at all). 
 * A default set of stopwords is used unless an alternative list is specified, the 
 * exclusion list is empty by default. 
 * 
 * @author jose 
 */ 
 
public class SpanishAnalyzer extends Analyzer { 
     
    /** An array containing some common Spanish words that are usually not 
     * useful for searching. Imported from http://www.unine.ch/info/clef/. 
     */ 
    // TODO: no pego en el tutorial el listado de stopWords utilizado para
    // no sobredimensionarlo, son 351 términos.
    public static final String[] SPANISH_STOP_WORDS = { "" };
    
    /**
     * Contains the stopwords used with the StopFilter.
     */
    private Set

Lucene: Analyzers, stemming y búsqueda de documentos similares.

Lucene: Analyzers, stemming y búsqueda de
documentos similares.

0. Índice de contenidos.

1. Introducción

2. Entorno.

3. Consideraciones previas.

4. SpanishAnalyzer.

5. SpanishTemFilter.

6. Test unitario SpanishAnalyzerTest.

7. Búsqueda de documentos por similitud.

8. Conclusiones.

DEJA UNA RESPUESTA Cancelar respuesta

Información básica acerca de la protección de datos

Menú

Envíanos tu tutorial