Lucene

Apache Lucene es una API de código abierto para recuperación de información, originalmente implementada en Java por Doug Cutting.

Lucene tiene versiones para otros lenguajes incluyendo Delphi, Perl, C#, C++, Python, Ruby y PHP.

Es útil para cualquier aplicación que requiera indexado y búsqueda a texto completo.

Textos que se encuentran en PDF, páginas HTML, documentos de Microsoft Word, así como muchos otros pueden ser indexados mientras que se pueda extraer información de ellos.

Nutch es un software que, sobre la base aportada por Lucene, integra todo lo que hace falta para completar un motor de búsqueda de páginas web.