Misha Verbitsky ([info]tiphareth) wrote,
@ 2004-01-08 04:12:00
Current mood: tired
Current music:Jaki Liebezeit's Phantom Band - "NOWHERE"

интеллектуальный фильтр Spamassassin
Отстал с чтением лже-друзей, прекрасных,
на неделю аж. И комментарии. И е-мэйл.
Простите, ага. Я прочту.

Занимался среди прочего
настройкой фильтра от спама.
Установил интеллектуальный фильтр Spamassassin, а
поскольку тот не локализован к российским
условиям, весь безобразно пропущенный фильтром
спам подробно читал и сочинял для него тесты,
чтоб больше не ходили.

Spamassassin пользуется колоссальных
размерой библиотекой тестов (на регекспе,
по преимуществу), некоторые из них чрезвычайно
интеллектуальные. Например, там есть тест,
который со стопроцентной надежностью
ловит нигерийские спамные сообщения
от негров.

Спам-фильтры бывают, оказывается, трех видов.

1. Фильтр располагает базой данных IP, с которых
высылается спам. Самые умные из этих обмениваются
с базой данных образчиками спама, для улучшения
базы данных. Образчик: the Open Relay DataBase,
http://www.ordb.org/
Дело это не сильно прогрессивное.
Критика борьбы со спамом с помощью RBL здесь
http://theory.whirlycott.com/~phil/antispam/rbl-bad/rbl-bad.html
и здесь
http://www.spamtest.ru/varticles.html?id=0022
(очень хорошее; от А. Тутубалина, автора русификации
apache, к настоящему времени устаревшей до полной
ненужности, и хозяина какого-то коммерческого
сервиса по борьбе со спамом).

2. Фильтры имеют библиотеку интеллектуальных
тестов, которые определяют спам. Обыкновенно,
каждый из тестов присваивает письму спамные
очки, и когда этих очков будет больше какого-то
количества, письмо идентифицируется как спам.
Образчик: spamassassin, описание тестов вот
http://www.spamassassin.org/tests.html
(осторожно - файл длиной в мегабайт).

3. Фильтр имеет внутри себя искусственный
интеллект. Ему скармливают 20 тыщ спамных сообщений
и 20 тыщ неспамных, после этого он запоминает
статистические характеристики спама и неспама
и учится их различать. По мере получения
спамных сообщений фильтр учится дополнительно.

Преимущества этого подхода очевидны -
можно бороться со спамом хоть на китайском;
недостатки тоже очевидны, скорее даже удивительно,
что такая штука может работать. Но она работает,
и чрезвычайно эффективно при этом; вот статья,
где приводятся результаты тестов
http://freshmeat.net/articles/view/964/
а вот доклад на конференции, где рассказывается
в подробных деталях
http://www.paulgraham.com/spam.html

Чрезвычайно интеллектуальный фильтр Spamassassin
пользуется всеми тремя способами, позволяя
пользователю выбирать, какие ему больше нравятся,
и присваивать каждому интеллектуальные очки.

Если кто-то напишет ко мне письмо со словами
"Центр Американского Английского" "Офис в аренду"
"оказываем .качественные. услуги по" или
"Guaranteed to work or your money back!",
вы знаете, что с вами будет.

Сегодня я не получил ни одного спама.

Привет



(Post a new comment)


[info]r_l
2004-01-07 18:00 (link)
По последнему пункту согласен, но тут уж ничего не сделаешь. А у тебя есть позитивные варианты решения проблемы, кроме убийства уродов?
У меня вот нету.
Я вообще-то давно уже про это ду-ду.

(Reply to this) (Thread)


[info]tiphareth
2004-01-07 18:08 (link)


Вот очень хорошая статья
http://www.paulgraham.com/spam.html
про обучающийся фильтр.

А в принципе, отмена денег назрела
давно уже. Если не отменять совсем, то
по крайней мере лицензировать торговлю,
примерно как лицензируют, например,
продажу алкоголя, проституцию, ментов,
героин или абортное дело.

Ибо торговля есть социальное зло
(необходимое, возможно, но и без
ментов и опиатов никуда не деться,
радости от этого не больше)

Привет

(Reply to this) (Parent) (Thread)


[info]r_l
2004-01-07 18:13 (link)
Да, я тоже так думаю.
Не понимаю, зачем грешить на фильтры - фильтры пишут првильные люди. И фильтры работают.
Очень даже ничего.

(Reply to this) (Parent)


(Anonymous)
2004-01-08 04:56 (link)
professor prav, Misha, den'gi eto zhe filter ot geneticheskogo spama
predstav' esli vsya nishaya gryaz' popret k nam v evropu
a tak hot' mozhno otdelit' zerna ot plevel

(Reply to this) (Parent)


[info]onsamyi
2004-01-08 02:24 (link)
прозитивный вариант состоит том, чтобы отфильтровывать СВОИ письма в потоке спама.
Собсно, вот http://noo.ru/?/NooSoft/nsfp хороший пример подобного решения, имевшего место на аппаратном уровне, но это просто можно делать в голове. А спаморезки - это тупиковый путь развития, потому что они мало что пробиваются рано или поздно, так еще и отфильтровывают нужные письма. Тот же спамассасин, его наш админ поставил не предупредив, и это случайно обнаружилось когда, был кошмар-очень много нужных писем попало в трэш...Я когда потом на них отвечал, то синел, блнеднел и зеленел.

(Reply to this) (Parent) (Thread)


[info]r_l
2004-01-08 04:11 (link)
В голове - это хорошо. Но некоторые сидят на медленных модемах до сих пор. Я таких знаю.

(Reply to this) (Parent) (Thread)


[info]onsamyi
2004-01-08 04:27 (link)
я вот например сижу на диалапе, первом пне и так далее:)) Очень удобно. когда начинаю злится на технику, знаю, чтьо что-то не в порядке не с техникой, а со мной. В любом случае - спам - это психиологическая проблема, а не технологическая.

(Reply to this) (Parent) (Thread)


[info]r_l
2004-01-08 04:28 (link)
Нет, все-таки не совсем так. Когда серверы падают от количества почты, половина которой - мусор - это не психологическая, а вполне экономико-технологическая проблема.

(Reply to this) (Parent) (Thread)


[info]onsamyi
2004-01-08 08:19 (link)
Ну, может быть, но Ваш конкретный пример не очень удачен - если сервер способен упасть под потоком почты, значит, спам благо для его администрации-ибо заставит, наконец, сделать нормальную. рабочую архитектуру, надежную, способную адекватно работать с потоками почты любого объема.

(Reply to this) (Parent) (Thread)


[info]r_l
2004-01-08 08:33 (link)
Если речь идет о бюджетных или малоимущих организациях (типа нашего университета), то.

(Reply to this) (Parent) (Thread)


[info]onsamyi
2004-01-08 09:45 (link)
а надежность сервера зависит не от бюджета сисадмина, а от его профессионализма и мозгов:))
То есть, я уверен, что нормально работающую, ни при каких условиях не падающую почтцу можно сделаить на любом оборудовании.

(Reply to this) (Parent) (Thread)


[info]r_l
2004-01-08 09:47 (link)
Имянно. Все нормальные сисадмины работают по фирмам. В университете за те деньги, которые там платят, администрят студенты второго-третьего курсов.

(Reply to this) (Parent) (Thread)


[info]onsamyi
2004-01-08 09:51 (link)
все нормальные профессиональные люди, в том числе и сисадмины, работают не только за деньги, и Вы об этом прекрасно сами знаете:))

(Reply to this) (Parent) (Thread)


[info]r_l
2004-01-08 09:54 (link)
Дык не самая веселая работа - администрить университетскую почту.
Ну и вообще - не все, конечно. Некоторые, я бы сказал. И боюсь, что эстонские сисадмины в коммунизм не верят.
Кстати, об этом надо записать одну историю.

(Reply to this) (Parent) (Thread)


[info]onsamyi
2004-01-08 10:05 (link)
истории обязательно надо записывать:)
Но причем тцт коммунизм? Скорее, речь идет об очень шкурном принципе да плюс еще о естественном для обезьян любопытстве.
Принцип "таки отпусти хлеб свой по водам и по прошествии дней он вернется тебе к прибытком" это же махровое, матерое иудейство. Причем эээ "успешное, результативное". Самый шкурный что ни на есть.

(Reply to this) (Parent) (Thread)


[info]r_l
2004-01-08 10:08 (link)
Ну для этого надо быть махровым матерым иудеем-интересантом. Или неиудеем, но интересантом. Я, как старый пропагатор бесплатной работы, неоднократно сталкивался с непониманием (думаю, тут еще узость эстонского рынка труда сказывается и высокая безработица - на работу поэтому часто попадают просто по протекции).
Самые любознательные махровые регистрируются как частные предприниматели и пишут себе свой софт или что еще. Университетские админы, насколько я знаю - довольно печальны на этом фоне.

(Reply to this) (Parent) (Thread)


[info]onsamyi
2004-01-08 10:22 (link)
а прочему в эстонии? вот хороший пример - наш офисный Макс мне поставил программку для удаленного администрирования на комп, и совершенно без всякого присуттсвия у меня дома сделал меня частью корпоративной локалки. Думаю, если Вы вскричите: "нужен админ!"-тут же протянутся несколько десятков рук с системными зажигалками. Коммунизм - это когда с нормальными людьми есть возможность пообщаться, а не когда холодно и сибирь:)) Вообще, кстати, насчет того, что коммунизм "это когда есть материальные ценности"-странное заблуждение эпохи развитого социализма; "коммунизм"-это когда люди вместе. То есть, достаточно буквальной трактовки термина, и все становится на свои места. Кстати, вот мне кажется, что когда плохо и голодно, но все вместе - это гораздо лучше чем когда каждый сыт по отдельности.

В жж вот коммунизм, кстати, вполне типичный. да сеть - это вообще коммунизм, буквальный. Может быть, хрущев именно www имел в виду. Живем ведь при коммунизме...Правда, кормить бы еще пореже, совсем бы было хорошо.

(Reply to this) (Parent)


(Anonymous)
2004-01-07 18:05 (link)
хрю хрю
всегда ваш, Центр Американского Английского

(Reply to this)


[info]udod
2004-01-07 21:48 (link)
Spamassassin требует пристальной заботы об обучении. В свободном полете он сначала умный, а после сам выделяет несколько простейших признаков и присваивает им огромный вес. Такой "отжиг". Начинаются крупные потери. Например он сам забанил мне @ihes.fr. Любимая история -- спустил в сортир 3-х нобелевских экономистов сразу, подавших аппликациии на конферецию имени Канторовича. Туда им и дорога, но не все сразу со мной согласились. Мы сейчас перешли на гораздо более легкий milter-spamc. Пока довольны.

(Reply to this) (Thread)


[info]tiphareth
2004-01-07 21:55 (link)

Ага! Я тоже об этом думал
Но можно ведь отключить bayesian, да?
Тогда обучение ни на что не повлияет.

Или сказать ему

bayes_auto_learn_threshold_spam 25
bayes_auto_learn_threshold_nonspam 0.1

чтобы обучался только на самых зверских образчиках.

У меня этот bayesian до сих пор даже не включился
почему-то (хотя после 200-го спамного сообщения
должен включаться, кажется). Ждет 200-го неспамного
небось.

Страшно увлекательная игрушка на самом деле

Такие дела
Миша.

(Reply to this) (Parent) (Thread)


[info]udod
2004-01-07 22:26 (link)
Да-да, с этим баесиан надо учиться -- как на велике ездить. Я тоже поиграл всласть. As_seen_on_national_TV! -- класс.
Вообще-то мы решили ставить фильтр на sendmail так что в случае подозрения на спам от лица демона (а не респондента!) идет ответ "Ваше письмо попало в спам. Если вы считаете что произошла ошибка -- вставьте в subject "Steklov" и письмо пройдет". Спам-роботы это не понимают и не воспринимают как знак внимания респондента на предмет подтверждения его адреса в спам-базах. Пока хорошо.

(Reply to this) (Parent)


[info]constantan
2004-01-08 00:22 (link)
Миша, Вы как-то странно пишете последние несколько абзацов.
Такое ощущение, что Вы пьяны.
Выпили алкоголя то есть.

(Reply to this)


[info]evr
2004-01-08 02:25 (link)
"Если кто-то напишет ко мне письмо со словами "Центр Американского Английского" "Офис в аренду" "оказываем .качественные. услуги по" или ..."

Скажите, пожалуйста, я правильно понимаю, что если некто напишет вам письмо - "руководство хочет сдать соседний офис в аренду каким-то уродам", то вы его не получите?

(Reply to this) (Thread)


[info]r_l
2004-01-08 04:21 (link)
Нет, не совсем. Baesian фильтры обычно имеют как списки "черные", так и "белые". Если в письме много слов из белого списка (например, "уроды"), то письмо маркируется как неспам (зависит от настроек фильтра и от конкретной программы).
Но вообще см. выше - всякое бывает. Поэтому лучше фильтры ставить не на сервер все-таки.

(Reply to this) (Parent) (Thread)


[info]evr
2004-01-08 04:40 (link)
А если не на сервер, то письма все равно будут скачиваться ко мне на компьютер, а при моем диалапе это неинтересно. :)

(Reply to this) (Parent) (Thread)


[info]r_l
2004-01-08 04:42 (link)
Вот-вот. Поэтому фильтры и не решение, конечно.
В принципе, Bat умеет настраиваться так, что кой-чего с сервера вообще не скачивать, просто удаляя. Но там минимальные настройки.

(Reply to this) (Parent) (Thread)


[info]evr
2004-01-08 05:03 (link)
А что тогда может быть решением? Принудительная идентификация каждого пользователя сети? Как, например, решается вопрос массовой расклейки объявлений в городе в неположенных местах?

(Reply to this) (Parent) (Thread)


[info]r_l
2004-01-08 05:08 (link)
Срывают объявления и штрафуют расклейщиков, если ловят.

Идентификация - один из путей (в более или менее жестком виде он предлагается многими).
Другой - принятие национальных законов (в Европе уже есть такой, в Штатах Буш что-то такое двигает), на которые радостно наплюют китайские спамеры.
В общем, оба пути хуже.

(Reply to this) (Parent) (Thread)


[info]evr
2004-01-08 05:16 (link)
Ясно, что хуже. Хуже ли будет делать что-нибудь или бездействовать - вот вопрос.
О том, что что-то было бы лучше, по-моему, даже и речи нет. :)

(Reply to this) (Parent) (Thread)


[info]r_l
2004-01-08 05:20 (link)
Все-таки если спама много, что-то делать приходится.
Я завел новый эккаунт (пока его не нашли враги), на старом настроил реплай-ту на новый адрес, тем самым авторизовав помалу всех своих корреспондентов и перетащив переписку на новый адрес, а всю остальную площадь старого эккаунта покрыл разноцветными фильтрами. В принципе сейчас там кроме спама мало чего есть, а редкие письма от людей сквозь фильтры проходят правильно. Но если у Вас нету публично нужного адреса, висящего в разных публично нужных местах, то на новый адрес можно пересаживаться и без фильтров.

(Reply to this) (Parent) (Thread)


[info]evr
2004-01-08 05:40 (link)
Нет, я имею в виду глобальные меры.

Мне же лично всякие меры бесполезны, покуда я имею публичный рабочий адрес + диалап + отсутствие желания платить за возможность поставить какой-нибудь assasin на сервере и настраивать его по собственному вкусу.

(Reply to this) (Parent) (Thread)


[info]r_l
2004-01-08 05:43 (link)
Глобально - только через глобальную авторизацию, думаю. Что, в сущности, означает радикальное изменение архитектуры. Просто мыло не продумано было в этом отношении (потому что делалось для совсем другой среды).

(Reply to this) (Parent)


[info]a48
2004-01-08 09:58 (link)
еще какое решение. фильтр, конечно, обязан стоять именно на сервере. только при этом он должен давать каждому юзеру самому решать, что удалять, что перекладывать в другой фолдер, что пропускать. асасин вполне себе это позволяет.

кроме того, он жутко настраиваемый, любому из правил (в частности, только на разные байесовские проценты - 10 правил) можно переопределить веса под текущие нужды.

периодически или если есть подозрение, что асасин ошибся (у меня это было пока всего один раз за 2 месяца, то есть довольно много девяток после 99.) - можно имапом посмотреть в этот самый фолдер.

(Reply to this) (Parent)


[info]tiphareth
2004-01-08 08:13 (link)

Оно попадет в ящик под названием SPAM, и я его
немедленно сотру, ибо мне таких писем никто
написать не может - у меня нет знакомых
офисных работников

Привет

(Reply to this) (Parent) (Thread)


[info]evr
2004-01-08 10:57 (link)
Хорошо иметь уверенность в чем-либо. :)

(Reply to this) (Parent)


[info]tiphareth
2004-01-08 08:15 (link)


Впрочем, непосредственно в SPAM оно не попадет -
"офис в аренду" имеет 2 очка, а нужно 5.

(Reply to this) (Parent)


(Post a new comment)


[ Home | Update Journal | Login/Logout | Browse Options | Site Map ]