Maßnahmen gegen Spam

Die Mischung machts

09. März 2005, 00:16 Uhr   |  Günter Fuhrmann/wj Günter Fuhrmann ist Geschäftsführer bei Blackspider Technologies.

Je trickreicher die Methoden der Spammer, desto komplexer wird der Kampf gegen unerwünschte E-Mails. Nur eine sinnvolle Kombination unterschiedlicher Techniken, gepaart mit ständiger Pflege, verspricht Erfolg.

Als Gary Thuerk von Digital Equipment im Mai 1978 auf die Idee kam, alle 400 Arpanet-Benutzer an
der US-Westküste per E-Mail zu einer bevorstehenden Präsentation einzuladen, war ihm vermutlich
nicht bewusst, dass er eines Tages als Vater des Spam zweifelhafte Berühmtheit erlangen sollte.
Thuerks Technik war simpel und leider auch nicht ausgereift: Der von Hand eingegebene Verteiler war
zu groß, und so fand eine Vielzahl von Adressen ihren Weg in den Mailbody. Die Begeisterung der
Empfänger hielt sich in Grenzen, wenngleich Thuerk davon ausgeht, dass diese Aktion in der Folge
für 10 bis 12 Millionen Dollar Umsatz verantwortlich war. So einfach wie die verwendete Technik war
damals auch der Kampf gegen Spam: Ein wenig dezenter Hinweis der Defense Communications Agency, er
möge so etwas bitte nie wieder tun, zeigte die erwünschte Wirkung. Welch gute alte Zeit.

Eines hat sich seitdem nicht verändert – mit Spam wird Geld verdient. Wo eine Million Adressen
für einen Dollar zu haben sind, reichen 0,1 Prozent Rückläufer aus, um ein sehr profitables
Geschäft zu betreiben. Eine Studie von Forrester Data im Auftrag der Business Software Alliance
(BSA) kommt zu dem Ergebnis, dass Verbraucher in Deutschland – trotz der heftigen Diskussion um
Spam – etwa jede dritte derartige Mail lesen. Ungefähr jeder Vierte der insgesamt 1000 Befragten
gab an, schon durch Spam beworbene Software gekauft zu haben; bei Angeboten aus dem Finanz- oder
Erotikbereich haben etwa 12 Prozent bereits mindestens einmal zugegriffen.

Diese Zahlen legen die Vermutung nahe, dass Spam im Privathaushalt zwar unangefordert, aber
nicht immer unerwünscht ist. Anders jedoch in Unternehmen, in denen die Spamfluten durch die
zusätzliche Belastung der IT-Infrastruktur und den Verlust an Produktivität immense Schäden
verursachen. Seit sich Spammer und Viren- oder Wurmautoren zusammen getan haben, kommt sogar noch
die Gefahr einer Kompromittierung der Datenbestände durch Spam-Mails hinzu.

Der Kampf gegen Spam wird oft mit dem gegen Viren verglichen, ist jedoch erheblich komplexer als
dieser. Selbst mutierende Viren sind – einmal bekannt – anhand ihres Codes relativ einfach zu
identifizieren und können mit recht großer Zuverlässigkeit bereits am Gateway oder noch besser auf
Internet-Level eliminiert oder in Quarantäne gesteckt werden. Spam-Mails dagegen folgen keinem
festgelegten Muster. Hinzu kommt, dass ein Virus für jeden Empfänger ein Virus ist, während
identische E-Mails von unterschiedlichen Empfängern auch unterschiedlich beurteilt werden. Was für
den einen Spam ist, nutzt der andere möglicherweise als wichtige Information. Schließlich stellt
sich bei Spam erheblich stärker das Problem der False Positives, also erwünschter Meldungen, die
fälschlich als Spam klassifiziert werden.

Wegen dieser Schwierigkeiten bei der Erkennung und Klassifizierung von Spam gibt es auch keinen
Königsweg bei der Spam-Bekämpfung. Vielmehr gilt es hier, eine Reihe unterschiedlicher Techniken
sinnvoll zu kombinieren und einzelne Merkmale von E-Mails individuell zu gewichten, um schließlich
zu einer Aussage darüber zu kommen, mit welcher Wahrscheinlichkeit eine E-Mail für den jeweiligen
Empfänger Spam darstellt. Zu den dabei eingesetzten Techniken gehören neben den herkömmlichen
Positiv- und Negativlisten etwa öffentliche Real Time Black Lists, die lexikalische Analyse,
Bayes-Filter, Trendanalysen sowie weitere kooperative Ansätze wie Spam-Datenbanken oder das "
Distributed Checksum Clearinghouse".

DNS und Reverse DNS

Eine relativ einfache Maßnahme gegen Spam ist die Verifikation der Absender-Domain mittels einer
normalen DNS-Abfrage. Gefälschte Absenderadressen mit ungültigen Domains werden auf diese Weise
schnell erkannt. Die Wahrscheinlichkeit, dass es sich um Spam handelt, ist dabei besonders hoch.
Allerdings fälschen Spammer meist nicht mehr so plump, und so ist der Umkehrschluss (gültige
Domain, also kein Spam) eine sehr optimistische Sicht der Dinge und als alleinstehende Methode
nicht sehr aussagekräftig.

Derzeit gibt es mehrere Initiativen, das DNS-System auch zur Authentifizierung oder zur
Definition legitimer Mailserver zu nutzen, etwa das Sender Permitted Form (AOL) oder CallerID von
Microsoft. Hier existiert allerdings noch kein Standard, und entsprechend wenige Unternehmen nutzen
diese Möglichkeit.

Real Time Black Lists

Bei Real Time Black Lists (RBL) handelt es sich um Aufstellungen der IP-Adressen von Maschinen,
die aus unterschiedlichen Gründen als negativ eingeschätzt werden und somit auf der "Schwarzen
Liste" stehen – etwa, weil von ihnen bereits Junk-E-Mails verschickt wurden oder weil sie als
offene Relays konfiguriert sind, was sie zu Sicherheitslücken macht, die leicht von Spammern "
gekidnappt" werden können.

Die Abfrage dieser Datenbanken erfolgt üblicherweise über DNS und ist in etwa vergleichbar mit
einem Reverse-DNS-Lookup. Hierfür müssen zunächst die gewünschten Blacklists mit ihren URLs im
Mailserver konfiguriert werden. Erhält ein Mailserver dann eine Mail, so übermittelt er die
IP-Adresse des sendenden Servers an alle konfigurierten Blacklists und erhält von jedem dieser
Listenserver die Information, ob die IP des Senders aufgeführt ist.

Eine der Stärken von RBLs ist die Tatsache, dass sie auch die IPs von sogenannten Spam-Zombies
enthalten können. Dabei handelt es sich um durch Malware verseuchte PCs, die ferngesteuert zu einem
offenen Proxy oder offenen Relay umfunktioniert und ohne Wissen des Eigentümers zum Versand von
Spam missbraucht werden. Da solche Systeme allerdings in der Regel aus den Dial-up-Pools der ISPs
stammen und dynamische IP-Adressen verwenden, kann es leicht passieren, dass ein Anwender bei der
Einwahl eine gelistete IP-Adresse erhält. Dies fällt jedoch nicht sonderlich ins Gewicht, da solche
Dial-up-Konten normalerweise nicht zum direkten Versenden, sondern zum Routen von E-Mails über die
ISP-Mailserver verwendet werden.

RBLs sind ein nützliches Werkzeug und können als Indikatoren für Spam-Mails dienen. Sie sollten
jedoch mit Vorsicht genutzt werden, da es für die Richtigkeit der Einträge keine Gewähr gibt.
Häufig gelangen Maschinen fälschlicherweise auf die Negativliste, und bei einigen RBLs ist es
äußerst schwierig, wieder von der Liste gestrichen zu werden. Im Fall offener Relays führt ein
Blacklisting zudem dazu, dass auch legitime Benutzer dieses Relays vom empfangenden Mailserver
abgewiesen werden. Insgesamt führt der unüberlegte Einsatz von RBLs sehr schnell zu hohen
False-Positive-Raten.

RBLs existieren in Form kommerzieller Internetdienste oder als Interessengemeinschaften von
Nutzern. Meist sind die einzelnen Listen spezialisiert, das heißt, sie listen offene Relais,
Dial-up-IPs oder bekannte Spammer. Auch hier ist daher eine Kombination mehrerer Listen meist
sinnvoll. Die Verfügbarkeit von RBLs kann manchmal eingeschränkt sein, da die Listenserver beliebte
Ziele für Denial-of-Service-Attacken von Spam-Versendern darstellen. So musste kürzlich DNSRBL.com
seinen Dienst wegen solcher Attacken und der damit verbundenen Kosten für die Bandbreite sogar
komplett einstellen.

Lexikalische Analyse

Mit dem Begriff "Lexikalische Analyse" bezeichnet man die Untersuchung einer E-Mail auf
Indikatoren dafür, ob sie Spam oder eine zulässige E-Mail ist. Dabei wird im Nachrichtentext einer
E-Mail nach bestimmten Wörtern oder Zeichenfolgen gesucht, die normalerweise in Spam-Mails
enthalten sind, wie "Günstig einkaufen" oder "Schnell reich werden".

Intelligentere Maschinen für die lexikalische Analyse betrachten die gesamte E-Mail-Nachricht,
also den Envelope, die Header, die Betreffzeile und den Nachrichtentext. Häufig enthalten
Header-Zeilen nahezu eindeutige Indikatoren dafür, dass es sich um Spam handelt. Anhaltspunkte
dafür sind zum Beispiel, dass das Feld "Von:" leer ist oder in den Feldern "An:" und "Von:"
dieselbe Adresse steht. Auch der Vergleich des "An:"-Headers mit dem "RCPT-TO:" kann Anhaltspunkte
liefern. Alle diese Hinweise müssen jedoch individuell gewertet werden, da auch Mails von legitimen
Mailinglisten oft solche Merkmale aufweisen.

Anstatt nach Spam-Indikatoren zu suchen, kann man auch nach Charakteristika für zulässige
E-Mails suchen, beispielsweise nach der Nachrichten-ID oder ob aus dem Briefkopf ersichtlich ist,
dass die E-Mail von einem Microsoft-Exchange-Server gesendet wurde.

Keine einzelne dieser Methoden kann einen eindeutigen Beweis dafür liefern, dass eine E-Mail
Spam oder zulässig ist, doch mit einen heuristischen Ansatz bei der lexikalischen Analyse ist es
möglich, die Spam-Erkennungsrate zu verbessern.

Bayes-Filter

Der Einsatz der Bayes-Inferenzstatistik stellt eine Innovation in der Spam-Erkennung dar.
Bayes-Filter sind lernende Filter, die auf bereits erhaltenen und klassifizierten Mails basieren.
Dabei werden zwei Datenbanken von E-Mails angelegt; eine enthält Spam-Mails, die andere zulässige
E-Mails (in diesem Zusammenhang auch gerne Ham genannt).

Ein Bayes-Filter analysiert jede eintreffende Mail auf das Vorhandensein bestimmter Muster
(Tokens). Diese Tokens können Stichwörter sein, aber auch HTML-Tags oder ähnliches. So taucht in
Spam-Mails beispielsweise häufig das Token "ff0000" für hellrot auf – eine Farbe, die gern zur
Hervorhebung verwendet wird. Nach der Analyse wird durch Abfrage der beiden Datenbanken "Spam" und "
Ham" ermittelt, wie häufig jedes einzelne Token bisher in Spam- und in Nicht-Spam-Nachrichten
aufgetreten ist. Abhängig davon wird dem Token ein Wahrscheinlichkeitswert zugewiesen, der angibt,
ob das Token eher in Spam oder zulässigen E-Mails enthalten ist. Aus diesen
Einzelwahrscheinlichkeiten kann dann relativ leicht ein Wahrscheinlichkeitswert für die gesamte
E-Mail ermittelt werden.

Hat also der Benutzer E-Mails mit bestimmten Begriffen häufig als Spam klassifiziert, so wird
eine neue Nachricht mit diesen Begriffen mit recht hoher Wahrscheinlichkeit ebenfalls Spam sein.
Einer der Hauptvorteile dieser statistischen Methode liegt darin, dass die Filter lernen und sich
so leicht auf unterschiedliche Kundenumgebungen einstellen. Bei den meisten Unternehmen würde das
Token "Viagra" normalerweise nur in Spam-Mails auftreten und bekäme daher eine hohe
Spam-Wahrscheinlichkeit zugewiesen. Bei pharmazeutischen Unternehmen dagegen dürfte dieser Begriff
auch in zulässigen E-Mails verwendet werden und wäre damit ein weniger zuverlässiger Indikator für
Spam-Nachrichten.

Bayes-Filter werden heute sowohl in Mailserver als auch in Clients implementiert und liefern
umso bessere Ergebnisse, je konsequenter sie trainiert werden. Allerdings haben sich die Spammer
auch auf diese Abwehrmaßnahme eingestellt und versehen ihre Mails mittlerweile gerne mit einer
sinnlosen Ansammlung unverdächtiger Wörter, um solche Filter zu überlisten. Auch die Verwendung
grafischer Elemente statt Text dient diesem Zweck.

Distributed Checksum Clearinghouse (DCC)

DCC ist ein Client-/Server-System, das eine von Vernon Schryver geführte Internet-Community
entwickelt hat. Bei diesem kollaborativen System legen die mit DCC arbeitenden Mailserver oder auch
DCC-fähige Mail-Clients mehrere Checksummen für jede verarbeitete E-Mail an. Die Prüfsummen werden
an einen speziellen Server geschickt, der sie mit seiner Datenbank vergleicht und zurückmeldet, wie
oft die jeweiligen Checksummen bereits in der Datenbank enthalten sind. Die E-Mails mit einer hohen
Registrierungsrate sind diejenigen, die am häufigsten über das Internet verschickt wurden, was sie
als Bulk Mail klassifiziert.

DCC versucht nicht, zu entscheiden, ob eine E-Mail Spam ist oder nicht, sondern gibt lediglich
Auskunft über die Häufigkeit, mit der eine bestimmte Mail aufgetreten ist. Der Einsatz dieser
Methode setzt daher zusätzlich den Einsatz persönlicher Whitelists voraus, in die legitime
Massenversender wie etwa Mailing-Listen etc. aufgenommen werden.

Die von DCC verwendeten Checksummen unterscheiden sich deutlich von denen, die für
kryptographische Verfahren eingesetzt werden. In der Kryptographie ist es das erklärte Ziel, auch
bei kleinsten Änderungen des Inputs eine möglichst große Änderung des Outputs zu erreichen. In der
Spam-Bekämpfung kann dies nicht funktionieren, da Spammer ihre Mails ständig leicht modifizieren
und fast identische Mails zu sehr unterschiedlichen Checksummen führen würden, was die
Identifizierung unmöglich machen würde. DCC setzt daher auf Fuzzy-Checksummen, die auf geringe
Veränderungen im Input nicht reagieren. Sie basieren nicht auf den einzelnen Bits wie in der
Kryptographie, sondern auf der Anordnung sinnvoller Elemente wie Buchstaben oder URLs. Zwei Mails,
die sich nur etwa durch die Grußformel unterscheiden, können so identische Checksummen
besitzen.

Kooperative Spam-Datenbanken

Ein ähnliches Konzept wie DCC verfolgen Initiativen wie "Vipul’s Razor". Hier werden eingehende
E-Mails ebenfalls mit Checksummen versehen, die dann aber nicht mit einem Server abgeglichen,
sondern über ein Peer-to-Peer-Netzwerk ausgetauscht werden. Ähnlich wie bei DCC ist die
False-Positive-Gefahr relativ hoch, wenn nicht gleichzeitig mit Whitelists gearbeitet wird.

Spam-Fallen

Spam-Fallen oder "Honeypots" sind speziell zum Sammeln von Spam eingerichtete E-Mail-Konten.
Sobald dieselbe Nachricht bei einer bestimmten Zahl von Spam-Fallen eingegangen ist, kann sie mit
großer Sicherheit als Spam eingestuft werden, und es besteht nur ein geringes Risiko, dass sie
unkorrekt klassifiziert wurde. Sobald die Nachricht identifiziert wurde, lässt sich eine Signatur
(oder Hash) dafür anlegen, die zum Erkennen ähnlicher Nachrichten eingesetzt werden kann.

In Verbindung mit der DCC-Technik sind Spam-Fallen eine sehr effiziente Methode zur
automatischen Aktualisierung von Spam-Filtern, durch die neue Formen von Junk-E-Mail erkannt werden
können. Der Begriff "Honeypot" wird allerdings auch für Webseiten genutzt, die Adress-Harvester mit
einer großen Anzahl ungültiger Adressen füttern sollen, um die Qualität der so generierten
Adresslisten der Spammer zu reduzieren.

Trendanalyse

Die Trendanalyse ist eine effiziente Technik zur Reduzierung von False-Positive-Meldungen und
zur Verbesserung der Spam-Erkennungsrate. Durch die Analyse der Historie einer E-Mail, die von
einem einzelnen Anwender gesendet wurde, lässt sich beurteilen, mit welch er Wahrscheinlichkeit
E-Mails von diesem Absender Spam sind. Wenn etwa nach 100 legitimen E-Mails von einem bestimmten
Absender plötzlich eine Nachricht eintrifft, die durch eine lexikalische Regel als Spam
klassifiziert wird, lässt sich die Gewichtung dieser Regel auf Grund der Absenderhistorie
verringern.

Alptraum für den Admin

Jede Technik zur Spam-Erkennung hat ihre individuellen Stärken und Schwächen, und keine einzelne
Methode ist "das Gelbe vom Ei". Allein die Kombination mehrerer Erkennungstechniken ermöglicht
einen wirklich effektiven Schutz gegen die wachsende Spam-Gefahr. Für den Mail-Administrator ist
dies oft eine erhebliche Herausforderung. Er muss lokale Black- und Whitelists sowie Filter
pflegen, öffentliche Listen im Server konfigurieren, und nicht zuletzt schnell und gezielt auf
False Positives reagieren. Hinzu kommt ein erheblicher Zeitaufwand für die Information über die
immer neuen Methoden der Spammer und mögliche Abwehrmaßnahmen. Um diesen Aufwand zu verringern und
zusätzlich von den "Economies of Scale" zu profitieren, die sie alleine nicht erreichen können,
setzen Unternehmen zunehmend auf Managed Services; das heißt auf Provider, die Spam bereits im
Vorfeld filtern, sodass er gar nicht erst ins Unternehmensnetz gelangt. Solche Provider wie
Blackspider setzen alle oben genannten Techniken ein, um Spam zuverlässig zu erkennen und abhängig
vom Kundenwunsch entweder zu löschen oder in Quarantäne zu nehmen. Auf diese Weise wird nicht nur
das eigene Personal entlastet, sondern auch die IT-Infrastruktur, die Spam nicht mehr verarbeiten
und speichern muss.

Auf Facebook teilen Auf Twitter teilen Auf Linkedin teilen Via Mail teilen

Das könnte Sie auch interessieren

Verwandte Artikel

Default