Bachelorarbeit aus dem Jahr 2018 im Fachbereich Informatik - Internet, neue Technologien, Note: 1.0, Universit t Potsdam (Hasso Plattner Institut), Sprache: Deutsch, Abstract: Durch die Vielzahl von Onlineshops und F lle an Angeboten verliert der Onlinek ufer schnell die bersicht. Preisvergleichsplattformen wie idealo helfen dem Kunden das g nstigste Angebot im Netz zu finden. Die Gew hrleistung der m glichst vollst ndigen Markttransparenz ist eine grundlegende Herausforderung f r idealo. Das von uns entwickelte Softwaresystem Scout soll dabei helfen, den Produktkatalog von idealo auf Vollst ndigkeit zu berpr fen und fehlende Angebote aufzulisten. Ein wichtiger Prozessschritt ist dabei die Extrahierung von Produktinformationen, wie Produktname oder Preis, aus den einzelnen Webseiten. Die Schwierigkeit der Extraktion liegt darin, dass jeder Shop einen individuellen Aufbau besitzt und unterschiedlich strukturiert ist. Im Rahmen dieser Arbeit wurde ein Algorithmus entwickelt, welcher mittels maschinellem Lernen die Produktinformationen aus den Webseiten extrahiert. Messungen, welche auf 50 verschiedenen Shops basieren, haben ergeben, dass die Produktinformationen mit einer Precision von ber 95 Prozent bei einer Accuracy von etwa 50% extrahiert werden k nnen.
ThriftBooks sells millions of used books at the lowest
everyday prices. We personally assess every book's quality and offer rare, out-of-print treasures. We
deliver the joy of reading in recyclable packaging with free standard shipping on US orders over $15.
ThriftBooks.com. Read more. Spend less.