Solr

Der leistungsstarke Such-Server von Apache

 

Solr (gesprochen: Solar) ist ein Open-Source-Unterprojekt auf Grundlage der freien Software Lucene von Apache. Solr basiert auf Lucene Core und ist in Java geschrieben. Als Such-Server ist Apache Solr eines der beliebtesten Such Werkzeuge.

Definition:
Apache Solr ist ein plattformunabhängiger Such-Server für Webprojekte auf Java-Basis. Das Open-Source-Projekt baut auf der Java-Bibliothek Lucene auf. Es integriert Dokumente automatisch in Echtzeit und bildet dynamische Cluster. Solr ist kompatibel zu PHP, Python, XML und JSON. Das Servlet verfügt über eine Web-Nutzeroberfläche – Befehle werden in HTTP ausgetauscht. Solr ermöglicht Anwendern eine differenzierte Volltextsuche für Rich-Text-Dokumente. Es eignet sich insbesondere für die vertikale Suche auf statischen Webseiten.

Da die Bibliothek Dokumente in Textfelder aufteilt und logisch klassifiziert, funktioniert die Volltextsuche über Lucene sehr genau. Auch relevante Treffer für ähnliche Texte/Dokumente findet Lucene sicher. Deshalb eignet sich die Bibliothek beispielsweise auch für Bewertungsseiten wie Yelp. Solange es Text erkennt, spielt das Format (Klartext, PDF, HTML oder andere) keine Rolle. Denn statt Dateien zu indexieren, arbeitet Lucene mit Text und Metadaten.

 

 

 

E-Shop, E-Commerce Agentur

Solr: Die wichtigsten Funktionen

Apache Solr sammelt und indiziert Daten nahezu in Echtzeit, gestützt durch Lucene Core. Daten stehen dabei für Dokumente. Sowohl bei der Suche als auch im Index ist das Dokument die ausschlaggebende Masseinheit. Der Index besteht aus mehreren Dokumenten, diese wiederum aus mehreren Textfeldern. In der Datenbank steht ein Dokument in einer Tabellenreihe. Ein Feld steht in der Tabellenspalte.

Dazu gehört auch, dass die Suchmaschine selbst unter härtesten Bedingungen arbeitet. Wie bereits erwähnt, nutzen auch traffic-intensive Websites, die täglich riesige Mengen an Daten speichern und verwalten, Apache Solr.

Die Volltextsuche, mit der Lucene bereits aufwartet, baut Solr mit weiteren Funktionen aus. Diese Such-Features umfassen unter anderem:

Begriffsanpassung auch für Wortgruppen
Das System erkennt Rechtschreibfehler in der Sucheingabe und bietet Ergebnisse für eine korrigierte Alternative.

Joins
Eine Mischung aus dem kartesischen Produkt (mehrere Begriffe werden bei der Suche in jedweder Reihenfolge beachtet) und Selektion (nur Begriffe, die eine bestimmte Voraussetzung erfüllen, werden angezeigt), also eine komplexe Boolesche VariablenSyntax

Gruppierung von thematisch verwandten Begriffen.

Facettenklassifikation
Das System ordnet jedes einzelne Informationselement anhand mehrerer Dimensionen ein. Zum Beispiel verknüpft es einen Text mit Stichwörtern wie dem Autorennamen, der Sprache und der Textlänge. Dazu kommen Themen, die der Text behandelt, sowie eine zeitliche Einordnung. Die Facettensuche erlaubt dem Nutzer, mehrere Filter einzusetzen und so eine individuelle Ergebnisliste zu erhalten.

     

Wildcard-Suche
Ein Zeichen steht für ein undefiniertes Element oder gleich mehrere solcher Elemente in einer Zeichenkette? Für ein Zeichen verwenden Sie dann „?“, für mehrere nehmen Sie „*“. Sie können beispielsweise ein Wortfragment plus den Platzhalter eingeben (zum Beispiel: Lehr*). Die Ergebnisliste bezieht dann alle Begriffe mit diesem Wortstamm ein (zum Beispiel: Lehre, Lehrerin, lehren, lehrreich). So erhalten Nutzer Treffer zu diesem Themenfeld. Die nötige Relevanz ergibt sich aus der Themeneingrenzung Ihrer Bibliothek oder weiteren Sucheingrenzungen. Suchen Nutzer beispielsweise nach „B?nd“, erhalten sie Ergebnisse wie Band, Bond, Bund. Wörter wie „binden“ oder „verbindlich“ erfasst die Suche jedoch nicht, da das „?“ nur einen Buchstaben ersetzt.

Erkennt Text in vielen Formaten, von Microsoft Word über Texteditoren bis PDF und indizierte Rich-Inhalte.

Erkennt unterschiedliche Sprachen.

 

 

Eine eigene format- und werkzeugübergreifende Suchmaschine hilft, weil sie viele verschiedene Dateiformate, Datenformate, Datenquellen und Ablageorte vereint, bündelt und übersichtlich aggregiert (sogenannte unternehmensweite Suche oder Enterprise-Search) und weil sie deren Inhalte auch bei grossen Datenmengen leicht und schnell durchsuchbar macht.

Die Suche dient in vielen Webseiten unserer Kunden als zentrales Element. Die dabei eingesetzte Suchmaschine - Solr - kann zu diesem Zweck neben den Inhalten der Webseite selber zusätzlich verschiedene Quellen indexieren.

Gerne zeigen wir Ihnen die vielfältigen Möglichkeiten von Apache Solr.
Nehmen Sie Kontakt mit uns auf.

Aktuelle Referenzen

Next AG - Internet Seite Solr

Hälg Building Services Group