Google als Jobsuchmaschine? Nein danke!

Jakub Zavrel, CEO & Founder, Textkernel
Jakub Zavrel, CEO & Founder, Textkernel

Für viele Stellensuchende ist die Nutzung der Google Suchmaschine die naheliegende Wahl. Schließlich ist es kaum vorstellbar, das alltägliche Informationsbedürfnis auch nur annähernd ohne den Einsatz von Google meistern zu können. Zugegeben, es gibt noch andere Suchmaschinen wie z.B. Bing von Microsoft oder die nicht ganz so NSA-freundliche Suchmaschine DuckDuckGo, die gänzlich auf die Speicherung der Suchparameter verzichtet und so verhindern will, dass die Surfspuren zu einem Nutzungsprofil zusammengeführt werden. Doch wenn Jobsuchende sich gänzlich auf Google als alleiniges Werkzeug verlassen – dann sind sie wirklich verlassen.

Google ist sicherlich eine der besten Suchmaschinen und hat bei ihrem Start im Web auch den vielen anderen Suchmaschinen den Garaus gemacht – im Handumdrehen, weil sie wesentlich bessere Ergebnisse als die Konkurrenz lieferte. Und die gab es vor 1998 reichlich. Über 2.500 Suchmaschinen buhlten damals um die Gunst der Digital Natives, aber diese müssten schon Digital Methusalems sein, um sich noch an NorthernLight, Magellan, Inktomi, Ask und dergleichen zu erinnern.

Weshalb ist die Jobsuche mit Google dann so schwierig?

Wenn Stellensuchende bereit sind, viel Zeit, Geduld und Ausdauer mitbringen, um hunderte von Trefferlisten mit ach so vielen Duplikaten zu durchforsten, führt Google auch ans Ziel, irgendwann, irgendwie. Besser ist es allerdings, wenn Stellensuchende die geeigneten Werkzeuge nutzen, also geeignete Jobbörsen oder Jobsuchmaschinen. Das garantiert allerdings nicht, dass der Traumjob mit der tollsten Work-Live-Balance, den besten Aufstiegschancen und dem konkurrenzlosen Spitzengehalt bei einem der renommiertesten Arbeitgeber des Universums ergattert wird – aber die Nutzung des richtigen Werkzeug macht die Suche doch zielführender – um im Duktus unserer beliebten Bundeskanzlerin zu bleiben.

Das grundlegende Problem liegt in der offensichtlich unsystematischen Art und Weise, wie Jobs, Tätigkeiten und Berufe bezeichnet werden. Großkundenbetreuer, Key Account Manager, Vertriebsleiter, Sales Director, Sandwich Artist, Kaltmamsell, Facility Manager, Hausmeister, Meat Process Engineer, Metzger, Sommelier, Weinober, Maitre d‘, Empfangschef, Technology Evangelist, IT-Leiter, Black-Belt-Consultant, Jurist, Rechtsanwalt, Notar, Strafverteidiger, Staatsanwalt, Richter, Syndikus – die Liste der ähnlichen Tätigkeitsbezeichnung kann beliebig fortgesetzt werden. Und sogar der gemeine Fußballfan weiß selbst noch nach der WM in Brasilien, was eine „hängende 6“ ist.

Genau an dieser Stelle setzt die von Textkernel entwickelte Software „Jobfeed“ an.

Wie funktioniert Jobfeed?

2003 startete Textkernel mit dem Label „Jobfeed“ als innovativer Pionier in der Aggregation von Jobinformationen für Matching-­ und Analyseprozesse. Heute ist Textkernel Marktführer in diesem Gebiet in den Niederlanden und hat Jobfeed mittlerweile auch in anderen europäischen Ländern, wie Deutschland und Frankreich, eingeführt. Dank der starken technologischen Basis hat Textkernel eine einzigartige Position entwickelt, wenn es sich um Lieferung von Jobdaten und Einsicht in den Arbeitsmarkt handelt.

 

Die einzigartigen Aspekte von Jobfeed sind:

  • Eine sehr große Anzahl (viele tausende) an Quellen die tagtäglich gecrawlt werden
  • Detaillierte Anreicherung der Jobinformationen, die es erlauben nach vielen Kriterien zu suchen unabhängig von der Struktur des Originaltextes
  • Ein qualitativ hochwertiger und verlässlicher Extraktionsprozess durch jahrelange Erfahrung
  • Akkurate Re-­Duplizierung der Jobs zwischen verschiedenen Quellen
  • Kodierung von Berufen und weiteren Kriterien auf Basis unserer Taxonomien oder den Taxonomien unserer Kunden
  • Das Liefern von maßgeschneiderten Daten
  • Historische Daten an Stellenangeboten, um Analysen möglich zu machen

Jobfeed liefert die Möglichkeit um beinahe in Echtzeit Information vom Arbeitsmarkt zu liefern und Trendanalysen zu erstellen basierend auf den größten Jobdatenbanken in dem jeweiligen Land.

Prozessbeschreibung Jobfeed

Jobfeed durchsucht täglich und automatisiert das Internet nach neuen Jobs. Gefundene Stellenangebote werden automatisch in Jobfeed extrahiert, kategorisiert und in unsere Datenbank aufgenommen. Das untenstehende Diagramm gibt einen schematischen Überblick:

Textkernel Spider
Textkernel Spider

In weiteren Details besteht Jobfeed aus folgenden Komponenten:

 

Spidering
Mit einer sogenannten “Spider”-­ Technologie sammelt Jobfeed täglich Jobs aus dem Internet. Jobfeed handhabt zwei Spidermethoden:
Breite “wild” Spider und zielgerichtete Spider.

Der breite Spider arbeitet automatisch und dynamisch und durchsucht Millionen von Websites in dem jeweiligen Land kontinuierlich nach Jobs.
Zielgerichtete Spider werden eingesetzt um spezifische Websites zu durchsuchen und die Jobs zu speichern. Dazu gehören Jobbörsen, Zeitungen, Seiten von großen Arbeitgeber und auch Vermittlern.

 

Diese Jobs werden täglich mit speziell entwickelten Scripts gesammelt. Anschließend durchsucht Jobfeed auch Soziale Netzwerke, wie z.B. Twitter nach Tweets mit Links zu Jobs. Websites, die Jobs von anderen Websites kopieren und keinen eigenen Inhalt liefern (sogenannte Aggregatoren), sind in Jobfeed nicht enthalten.

 

Klassifikation

Die Klassifikation  beinhaltet die Überprüfung, ob eine bestimmte Website ein Stellenangebot enthält ist oder nicht. Auf Basis von textbasierten Merkmalen wird mit Hilfe von fortschrittlicher Sprachtechnologie festgestellt, ob diese Website zugelassen wird oder nicht. Diese Klassifikation ist darauf zugeschnitten um soviel wie möglich zuzulassen ohne mögliche irrelevante Ergebnisse. Informationsextraktion

Um die Jobangebote durchsuchbar zu machen, werden diese vollautomatisch strukturiert mit Hilfe der intelligenten Textractor Informationsextraktionssoftware. Diese Software ist trainiert um bestimmte Elemente in willkürlichen Stellenbeschreibungen zu finden, unabhängig von der Struktur des Textes oder der Quelle.
Der Extraktionsprozess besteht aus zwei Schritten:

  • Die „Reinigung“ der Webseite mitsamt der Entfernung von nicht-­‐relevantem Inhalt (wie Menü, Formularen etc.). Auf diese Art und Weise bleibt allein die Stellenbeschreibung bestehen.
  • Das Extrahieren und Validieren von mehr als 30 Feldern aus dem Jobtext, wie z.B. der Jobtitel, der Standort, das Ausbildungsniveau und die Organisation.

Normalisierung und Matching

Normalisierung bedeutet, dass der extrahierte Inhalt mittels einer Standardeinteilung kategorisiert wird. Dies macht es einfacher, um die Jobs zu durchsuchen und Analysen zu erstellen. Normalisierungen finden bei Berufen, Ortsnamen,  Ausbildungsniveau und Organisation statt. Die Normalisierung von Berufen passiert mit Hilfe von  Codetables.

Dies ist eine Berufseinteilung bestehend aus den Hauptcodes (Referenzberufen) mit Synonymen. Die Koppelung mit dem Job wird möglich gemacht durch die Extraktion des Funktionsnamens gematcht mit den Synonymen und Codetables. Das Matchingergebnis  muss nicht exakt sein, der Job kann trotzdem automatisch mit dem am besten passenden Beruf gematcht werden. Die Normalisierung von Ausbildungsniveaus geschieht auch  mit Hilfe von Codetables. Dies ist eine Ausbildungseinteilung die auch aus Hauptcodes mit Synonymen besteht.

Die Koppelung mit dem Job wird möglich gemacht durch die Extraktion der Ausbildung gematcht mit den Synonymen und Codetables.

Das  Matchingergebnis muss nicht exakt sein, der Job kann trotzdem automatisch mit dem am besten passenden Ausbildungsniveau gematcht werden. Sollte kein Ausbildungsniveau gefragt werden, leiten wir das automatisch vom Jobtitel ab. Die Normalisierung der Organisation, die den Job veröffentlicht hat, geschieht indem der Job mit der aktuellen Version der Kompass Datenbank gematcht wird. Hierfür wird „Fuzzy Matching“ eingesetzt, eine Technik, die Dank verschiedener Methoden den richtigen „Match“ durch Adressen und Organisationsnamen findet. Dadurch ist es auch möglich weitere Daten abzuleiten, wie die Branche oder die Mitarbeiteranzahl.

 

Re-Duplizierung

Da  Jobs oft auf vielen verschiedenen Websites veröffentlicht werden, müssen sie verglichen und re-dupliziert werden. Doppelte Stellenangebote werden jedoch nicht gelöscht. Auf diese Art und Weise kann man aus Jobfeed ableiten, wie viele Unikate veröffentlicht wurden  und auf wie viel verschiedenen Quellen der Job veröffentlicht wurde. Die Re-­Duplizierung findet statt, indem jedes neue Stellenangebot mit allen bestehenden Jobs in Jobfeed verglichen wird. Somit wird bei jeder Klassifikation und Extraktion auch das maschinelle Lernen angepasst. Um zu sehen ob es sich um eine Kopie handelt, wird der Text der Stellenbeschreibung, der Jobtitel, der Standort und das Unternehmen verglichen.

Abgelaufene Stellenangebote

Für jedes Stellenangebot wird nicht nur das „Spider-­Datum“ sondern auch das Ablaufdatum festgestellt. Unter „abgelaufen“ verstehen wir, dass diese Stelle nicht länger verfügbar ist und der Original-­Link nicht mehr aufgerufen werden kann. Somit ist es auch möglich nur aktive Jobs an Kandidaten auszusenden.

Monitoring, Qualitätskontrolle und -verbesserung

Der automatischen Prozess im Bezug auf „Spidering“, Extraktion, Klassifikation und Normalisierung sind eine einzigartige, kosteneffiziente Möglichkeit um das beste aus online verfügbaren Stellenangeboten zu realisieren. Diese Prozesse sind jedoch nicht fehlerlos, daher muss die Qualität von Jobfeed ständig kontrolliert und verbessert werden.

Über Textkernel

Jobfeed ist ein Produkt von Textkernel B.V. Textkernel hat sich auf semantische Recruitingtechnologie spezialisiert und liefert Tools, den Zusammenführungsprozess von Angebot und Nachfrage auf dem Arbeitsmarkt beschleunigen. Einen multilingualen CV und Job Parser sowie semantische Such-, Sourcing- und Matching Software. Textkernel wurde 2001 als privater kommerzieller R&D-Spin-­Off gegründet. Das Unternehmen entstand aus Forschungsprojekten zu maschineller Sprachverarbeitung und maschinellem Lernen der Universitäten Tilburg, Antwerpen und Amsterdam. Inzwischen hat sich Textkernel international als Marktführer in diesem Segment etabliert.
www.textkernel.de
www.jobfeed.de

 

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.