javax_slr (javax_slr) wrote,
javax_slr
javax_slr

Categories:

Фонетический поиск для ДНК совпадений по аутосомным маркерам

Тестирование на аутосомные маркеры и сравнение этих маркеров разных людей открыло новые возможности ДНК генеалогии.
Теперь сайты вроде 23andme, familytreedna уверенно предсказывают, что такие то и такие то люди являются где то 4х-5ти юродными братьями моих протестированных родственников.
Однако же чаще всего с этой информацией делать нечего - ты пишешь потенциальному кузену и выясняешь, что в лучшем случае он знает фамилии бабушек и дедушек и знает что они приехали в Америку "из России". Что с этим делать дальше? Ты собирал свое дерево по крупицам - у тебя известны по разным веткам 8-10 поколений, известно какая ветка из какой деревни, а понять хотя бы по какой линии ты родственник с этим "савпаденцем" - не можешь.

И тут нам на помощь может придти технология.

Я написал программку, веб сервис, которой можно скармливать раные документы - например перепись населения какой то деревни за 1856 год. Или список выборщиков в гос думу другой деревни за 1910 год и т.д.
Она может принимать как текстовые документы, так и ссылки (в таком случае она выкачает документ сама).



Веб сервис индексирует их, а потом, найдя очередного совпаданца, можно скармливать ему фамилии его предков и вебсервис будет искать в документах с учетом того, что одна и таже фамилия может быть записана (и услышана) по разному.
Если я нашел одну из его фамилий, например, в переписи по Свири за 1856, то можно предположить, что мы с ним связаны именно по линии прадедушки тестя, который жил именно там.




А это дает уже уйму информации - можно начинать просматривать метрические записи - искать брак между семьями и т.д.

Что дальше?

Этот вебсервис, как вы понимаете только прототип.
Как он может развиваться?

1. MyHeritage интегрирована с 23andme и у них есть доступ к разным базам данных в интернете. Они могли бы это сделать частью своего продукта - находить как (возможно) связаны сопваденцы по ДНК
2. Если бы JewishGen открыл бы свои базы по API, и 23andme сделал API на тему совпадений аутосомной ДНК (сейчас у них API есть, но ограниченый, только о себе), то можно было бы такой продукт сделать самому
3. Поиск я веду по всему документы, а в нем не только фамилии, но и имена, рассказ о документе - это может создавать false positives. API ыдавал бы только фамилии
4. Поиск по фонетике ведется с помощью Daitch Mokotoff Soundex а он не очень приспособлен для фамилий (хотя его использует и JewoshGen) - выдает много совпадений, которые не могут быть одной фамилией и наоборот. Хорошо бы сделать его вариант заточенный под европейские фамилии
Tags: dna-genealogy, genealogy, programming, software
Subscribe

  • Уха

    Уха бывает двойная и тройная. Если есть мелкая рыба или много голов/хвостов, то сначала варим мелкую или первую порцию костей/голов - 15-20 минут…

  • Зелёная фасоль

    В кипяток на 10 минут, вынуть и в холодную воду Чеснок - 3 зубчика на 800 гр фасоли (можно и больше - я любитель) - измельчить - немного поджарить на…

  • Хек

    разморозил рыбу - оказалось Хек. Пожарил - как то не очень вкусно :( Пробывал следующие варианты - 1) запечь в печке, с овощами. Перед запеканием…

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 14 comments

  • Уха

    Уха бывает двойная и тройная. Если есть мелкая рыба или много голов/хвостов, то сначала варим мелкую или первую порцию костей/голов - 15-20 минут…

  • Зелёная фасоль

    В кипяток на 10 минут, вынуть и в холодную воду Чеснок - 3 зубчика на 800 гр фасоли (можно и больше - я любитель) - измельчить - немного поджарить на…

  • Хек

    разморозил рыбу - оказалось Хек. Пожарил - как то не очень вкусно :( Пробывал следующие варианты - 1) запечь в печке, с овощами. Перед запеканием…