Первый Жрец (ab_dachshund) wrote in ru_taksa,
Первый Жрец
ab_dachshund
ru_taksa

Categories:

Поиск по клеймам (ЭТО ВАЖНО)

Один из аспектов деятельности Фонда - поиск прежних хозяев таксы-потеряшки по клейму. Тут конечно не все гладко. Далеко не все таксы клейменные. И даже когда клеймо есть, легко читается, и удается выйти на заводчика, не всегда находятся хозяева, потому что в питомнике поленились записать их контакты (примеры у всех на слуху, не буду повторяться - хотя конечно это безобразие полное). К тому же, клеймо часто стирается, зарастает и определить, что же за буква вытатуроивана, не представляется возможным. Тем не менее клеймо на данный момент - самый эффективный метод поиска.

Потому сделал небольшой сервис, пилотную нерасскрашенную версию которого прошу помочь оттестировать. Есть такая форма, пока без красот, лишь бы работало. От вас, друзья, на данный момент нужна следующая помощь:
- проверить, есть ли в базе клейма вашего питомника, верна и полна ли информация. В случае, если что-то не так - отметьтесь комментом.
- помочь настроить эвристику поиска (детали - под катом).
- общие замечания по работе сервиса и ее улучшению.

PS. За подготовку данных, софт и размещение спасибо marusya76 ну и мне, любимому. 1720 клейм в базу забили по полутора тысячам питомников, в основном нетаксячьим. Когда вычистим глюки, сервис будет полезен всем собачникам.

Алгоритм такой - речь о самом сложном случае, когда задано несколько возможных прочтений буквы и включена галочка "искать похожие" - по каждой заданной пользователем букве ищется аналогичная по написанию буква другого алфавита (латинская для кириллицы и наоборот - то есть А русское и А латинское, например).
Далее для каждой в соответствующем алфавите ищутся похожие по начертанию буквы, которые можно подставить (D в процессе непрерывной носки на брюшке растущего таксенка может стать похожа на O, и B, например). После ищутся все варианты клейм.
Таблицы соответствий настраиваются. Проблема в том, что я их особо не настроил - самые очевидные похожести забил, но не более того. Короче говоря, хотелось бы получить списки "похожих" букв, которые могут быть приняты одна за другую. Там есть админка, если кто хочет - дам права, сами и забьете. Или я выставлю.


PPS. Выношу данный пост в "ссылки" наверху страницы журнала. Предыдущая ссылка содержит промежуточную excel-версию базы.
Tags: фонд
Subscribe
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 79 comments
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →