[Erledigt] Spamassassin lernt nichts und filtert schlecht

HerrKaffeetrinken · 8 Jan. 2008

Hi, ich bekomme täglich etwa 5-10 Spammails. die meisten davon mit offensichtlichen Betreffs wie "Erleben Sie ihr blaues Wunder" oder "Nie wieder zu früh kommen". Nun habe ich mit KMail die Spamassassin Filter einrichten lassen und schon x-mal die Spams als "Spam" markiert. Trotzdem kommen sie jedesmal wieder durch.

Was kann man da machen?

Hier noch meine user_prefs:

# SpamAssassin config file for version 3.x
# NOTE: NOT COMPATIBLE WITH VERSIONS 2.5 or 2.6
# See http://www.yrex.com/spam/spamconfig25.php for earlier versions
# Generated by http://www.yrex.com/spam/spamconfig.php (version 1.50)

# How many hits before a message is considered spam.
required_score 7.5

# Change the subject of suspected spam
rewrite_header subject *SPAM*

# Encapsulate spam in an attachment (0=no, 1=yes, 2=safe)
report_safe 1

# Enable the Bayes system
use_bayes 1

# Enable Bayes auto-learning
bayes_auto_learn 1

# Enable or disable network checks
skip_rbl_checks 0
use_razor2 1
use_dcc 1
use_pyzor 1

# Mail using languages used in these country codes will not be marked
# as being possibly spam in a foreign language.
ok_languages all

# Mail using locales used in these country codes will not be marked
# as being possibly spam in a foreign language.
ok_locales all

PS: Was ist der Unterschied zwischen Spamassassin Dämon und Perlmodul?

ceegee · 10 Jan. 2008

Hi,

setz doch mal

Code:

required_score 7.5

auf einen niedrigeren Wert, denn 7.5 scheint mir etwas hoch angesetzt. Du müsstest auch im Header der Mail sehen können, welchen Score die Spam Mails bekommen haben. Daran kannst du deinen Wert ja anpassen.

Gruß Christian

PeterB · 10 Jan. 2008

Hallo
Versuch mal meine user_prefs in ~/.spamassassin....
Läuft hier unter Kubuntu sehr gut.
Den required_score kann man, wie von Christian bereits beschrieben, auch noch etwas nach unten setzen.
Ansonsten hätte ich noch eine 70_cmi_german.cf im Angebot die in den /etc/mail/spamassassin Ordner reinkommt. Aber versuche erst einmal folgendes.

Code:

# SpamAssassin user preferences file.  See 'perldoc Mail::SpamAssassin::Conf'
# for details of what can be tweaked.
###########################################################################

# How many points before a mail is considered spam.
required_score		4

# Whitelist and blacklist addresses are now file-glob-style patterns, so
# "friend@somewhere.com", "*@isp.com", or "*.domain.net" will all work.
# whitelist_from	someone@somewhere.com

# Add your own customised scores for some tests below.  The default scores are
# read from the installed spamassassin rules files, but you can override them
# here.  To see the list of tests and their default scores, go to
# http://spamassassin.apache.org/tests.html .
#
#   Add *****SPAM***** to the Subject header of spam e-mails
#
rewrite_header Subject *****SPAM*****

#   Save spam messages as a message/rfc822 MIME attachment instead of
#   modifying the original message (0: off, 2: use text/plain instead)
#
report_safe 1


# score SYMBOLIC_TEST_NAME n.nn

# Speakers of Asian languages, like Chinese, Japanese and Korean, will almost
# definitely want to uncomment the following lines.  They will switch off some
# rules that detect 8-bit characters, which commonly trigger on mails using CJK
# character sets, or that assume a western-style charset is in use. 
# 
score HTML_COMMENT_8BITS	1
score UPPERCASE_25_50		1
# score UPPERCASE_50_75		0
# score UPPERCASE_75_100	0
score OBSCURED_EMAIL          1

# Speakers of any language that uses non-English, accented characters may wish
# to uncomment the following lines.   They turn off rules that fire on
# misformatted messages generated by common mail apps in contravention of the
# email RFCs.

score SUBJ_ILLEGAL_CHARS      1

# Test auf bekannte Spamversender
score RCVD_IN_NJABL_SPAM      1
score SUBJECT_DRUG_GAP_C 2.5
score SUBJECT_DRUG_GAP_L 2.5
score SUBJECT_DRUG_GAP_S 2.5
score SUBJECT_DRUG_GAP_X 2.5
score SUBJECT_DRUG_GAP_VA 2.5
score DRUG_DOSAGE 2.5
score DRUG_ED_CAPS 1.5
score DRUG_ED_SILD 1
score DRUG_ED_GENERIC 2.5
score DRUG_ED_ONLINE 1
score ONLINE_PHARMACY 2.7
score NO_PRESCRIPTION 2.5
score VIA_GAP_GRA 2.2
score DRUGS_SMEAR1 1
score FROM_BLANK_NAME 2.2
score FROM_OFFERS 2.6
score FROM_NO_USER 2.0
score GAPPY_SUBJECT 2
score SUBJ_AS_SEEN 1
score SUBJ_DOLLARS 2.3
score SUBJ_YOUR_FAMILY 2.0
score SUBJECT_DIET 2.5
score ROUND_THE_WORLD_LOCAL 2.7
score DATE_IN_PAST_24_48 2.5
score BILLION_DOLLARS 2.6



#   Use Bayesian classifier (default: 1)
#
use_bayes 1

#   Einschalten der Lernfunktion
use_bayes_rules 1

#   Bayesian classifier auto-learning (default: 1)
#
bayes_auto_learn 1


#   Set headers which may provide inappropriate cues to the Bayesian
#   classifier
#
bayes_ignore_header X-Bogosity
bayes_ignore_header X-Spam-Flag
bayes_ignore_header X-Spam-Status

# Mindestanzahl für Lernfunktion
bayes_min_ham_num 30

# Mindestanzahl für Lernfunktion
bayes_min_spam_num 30

bayes_learn_during_report 1

Gruß PeterB

pft · 10 Jan. 2008

Um mal hinten anzufangen:

PS: Was ist der Unterschied zwischen Spamassassin Dämon und Perlmodul?

das perlmodul ist ein spamfilter programm das für jede Mail aufgerufen = gestartet wird und sich dann wieder beendet.
Der deamon ist halt ein deamon, d.h. ein Prozeß, der einmal gestartet dauerhaft läuft bis Du ihn wieder explizit beendest. Normalerweise schläft er bis er was zu tun bekommt, d.h. er bekommt seine Mailaufträge über ein entsprechendes Interface, typischerweise einen socket.

Zum Spam selbst:
Schön dass Du deine Mails in Kmail als spam markierst, d.h. wenn alles vorbei ist. Nur was hat Spamassassin davon? Bekommt er das zu sehen? versteht er das? meines wissens zweimal nein. Hast Du mal darüber nachgedacht/nachgelesen wie das funktioniert? Auch nein ?

Lies mal hier: http://spamassassinbook.packtpub.com/chapter9_preview.htm

Das auto_learn funktioniert nur auf Basis des von spamasssassin ermittelten score. D.h. du definierst schwellen unter denr mail als ham und eine über der mail als spam trainiert wird. typischerweise liegen diese Schwellen unter (ham) bzw. über (spam) der eigentlichen Erkennungsschwelle. Keine Ahnung was default bzw. bei Dir eingestellt sit. Aber wenn die Mails nicht einen score erhalten der über der Lernschwelle liegt wird auch nix gelernt. Da kannst Du markieren bis Du schwarz wirst.

Darüber hinaus ist eine Mindestanzahl von Trainingsmail notwendig um das Lernen in Gang zusetzen. PeterB hat das explizit auf 30 runtergesetzt.

Um dein Problem zu lösen: lass ihn manuell lernen indem Du regelmäßig alle markierten Spams durch sa_learn jagst

HerrKaffeetrinken · 10 Jan. 2008

pft schrieb:
Schön dass Du deine Mails in Kmail als spam markierst, d.h. wenn alles vorbei ist. Nur was hat Spamassassin davon? Bekommt er das zu sehen? versteht er das? meines wissens zweimal nein. Hast Du mal darüber nachgedacht/nachgelesen wie das funktioniert? Auch nein ? :-

Oh ja, ich habe mir schon einiges durchgelesen, und das "Als Spam markieren" in Kmail ist lediglich ein Filter, der die Mail mit folgendem Befehl

Code:

sa-learn -L --spam --no-rebuild --single

an Spamassassin weiterleitet. So.

Das mit dem required_score hab ich wohl falsch verstanden, werde ihn jetzt mal testweise auf 3 runtersetzen.

@PeterB: Danke, werde die Config mal probieren.

Gruß,
Dorian

stka · 11 Jan. 2008

ICH würde von eine score von 7.5 nicht gleich auf 3 runter gehen, da können dir dann auch einige deine Mails verschwinden. Fang erst mal mit 5 an. Bei mir steht auf 3.6 alles weniger wird mir zu gefährlich.

pft · 11 Jan. 2008

und das "Als Spam markieren" in Kmail ist lediglich ein Filter, der die Mail mit folgendem Befehl ... an Spamassassin weiterleitet. So.

kann ja keiner riechen, was Du da so treibst - ich verwende kmail nicht, und unter markieren verstehe ich erst mal was anderes :wink:

Aber wenn das so ist, dann lernst Du (bzw. dein spamassassin) ja explizit. Folglich hat der required_score, der meines Wissens für autolearning gilt, doch keine Auswirkung, oder?
In deinem Fall scheint also das lernen einfach nicht zu funktionieren.

Dann fallen mir noch zwei mögliche Punkte ein:
1. user: unter welchem user läuft und lernt spamassassin? ist das gleich?
2. DB: irgendwann gabs es malpostings hier, wo es darauf hinauslief, dass man bei sa_learn explizit die DB angeben musste. Keine Ahnung unter welchen Randbedingungen das der Fall war. Könnte bei die aber helfen.
Schau mal z.B. das hier oder benutz die sufu hier im Forum:
http://www.linux-club.de/viewtopic.php?t=70537
http://www.linux-club.de/viewtopic.php?t=68768
http://www.linux-club.de/viewtopic.php?t=59563

Noch ein Tipp:
schieb die Spammails doch mal manuell durch sa_learn mit der gleichen Kommandozeile, dann solltest Du wenigstens die Ausgaben von sa_learn sehen, so die sich nicht auch in irgendwelchen logs finden sollten, wenn es denn richtig aufgerufen wird.
Ausserdem kannst Du prüfen ob es wirkt und weißt damit ob es an der Kommandozeile liegt oder am Aufruf in kmail.

HerrKaffeetrinken · 11 Jan. 2008

Ich habe jetzt PeterBs Config genommen und bis jetzt funktioniert es wunderbar, die Spams werden ungelesen in den Spam-Ordner verschoben, so dass ich sie überprüfen kann und bis jetzt wurden auch alle erfolgreich erkannt.

Danke!