Információ

Hogyan kell kiszámítani a Jaccard indexet

Hogyan kell kiszámítani a Jaccard indexet


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ki akarom számolni a Jaccard indexet két vegyület között. Mi az algoritmus? Kerestem, csak a képletet adja meg, de hogy hogyan kell alkalmazni a vegyületekre, azt nem tudom. Tud segíteni?


A Jaccard index két halmaz hasonlóságának mértéke. Tekintse meg a Wikipédia cikket itt. Nagyon könnyen kiszámolható:

Az X és Y halmazok Jaccard hasonlósági együtthatója a következőképpen definiálható:

J(X,Y) = |metszéspont(X,Y)| / |szövetség(X,Y)|

Ahol| |a halmaz méretét (elemszámát) jelzi. Képzelje el, hogy van két X és Y halmaza, amelyek a következők szerint vannak meghatározva:

X = {A, B, C, D} Y = {C, D, E, F, G}

Azután:

metszéspont(X,Y) = {C, D} => |metszéspont(X,Y)| = 2 egyesülés(X,Y) = {A,B,C,D,E,F} => |egyesülés(X,Y)| = 5

Ezért:J(X,Y) = 2/5

Alternatív megoldásként a Jaccard távolság lenneD(X,Y) = 1 - J(X,Y) = 1 - 2/5 = 3/5

A biológiában a Jaccard indexet használták a hálózatok közötti hasonlóság kiszámítására a közös élek számának összehasonlításával (pl. Bass, Nature Methods 2013).


Ami a vegyületekre való alkalmazást illeti, ha két halmaza van különböző vegyületekkel, akkor ennek az indexnek a használatával megtudhatja, hogy a két halmaz mennyire hasonlít egymásra. A halmazokon lévő elemek, jelen esetben a vegyületek, az én példámban A, B, C stb.


Jaccard index / hasonlósági együttható

A Jaccard hasonlósági index (néha Jaccard hasonlóságnak is nevezik együttható) két halmaz tagjait hasonlítja össze, hogy megtudja, mely tagok vannak megosztva, és melyek különböznek egymástól. Ez a két adathalmaz hasonlóságának mértéke, 0% és 100% közötti tartományban. Minél magasabb ez a százalék, annál jobban hasonlít a két populáció. Bár könnyen értelmezhető, rendkívül érzékeny a kis mintaméretekre, és hibás eredményeket adhat, különösen nagyon kis minták vagy hiányzó megfigyeléseket tartalmazó adatkészletek esetén.


Jaccard hasonlósági képlet

„A Jaccard index, más néven Intersection over Union és a Jaccard hasonlósági együttható (eredetileg Paul Jaccard adta a francia coefficient de communauté nevet), egy statisztika, amelyet a mintakészletek hasonlóságának és sokféleségének mérésére használnak.

Ahogy a képlet mutatja, a J(A,B) JS f képlet az A halmaztól és a B halmaztól függ, konkrétan ez az A és B metszéspontjainak osztása, amelyet az ív alakja jelöl, és a B uniója az U-val. alapvetően egy képlet annak mérésére, hogy mekkora átfedés van A és B között.

A képlet egy része átírható |A|-ra + |B| — |A metszéspont B| mert amikor |A|+|B| potenciálisan nagyobb, mint |A unió B| mert előfordulhat átfedés, ezért ki kell vonnunk az átfedést |A metszi B|-t.


Az értékelési mérőszámok segítenek megmondani ML modelljeink teljesítményét. Segítenek nekünk az ML modell pontosságának kiszámításában. Pontosság megmondja, hogy az ML modellünk mennyire jó vagy rossz, azaz hogyan fog teljesíteni az ML modellünk egy ismeretlen adatmintán, a betanítási halmaz által kapott betanítás alapján. Egy ML modell kiértékeléséhez szükségünk van egy tesztkészletre, amely általában eltér a betanító halmaztól, amit betáplálunk az ML modellünkbe, és megnézzük, mik a kimenetek, és összehasonlítjuk ezeket a kimeneteket a már ismert kimenetekkel. Tehát most, hogy tisztában vagyunk az értékelési mérőszámokkal, térjünk át blogunk aktuális témájára, Jaccard index.

A Jaccard Index az egyik legegyszerűbb módja az osztályozási ML-modell pontosságának kiszámítására és megállapítására. Értsük meg egy példán keresztül. Tegyük fel, hogy van egy címkézett tesztkészletünk, amelynek címkéi a –

Modellünk pedig a – címkéket jósolta

A fenti Venn-diagram a teszthalmaz címkéit és az előrejelzések címkéit, valamint ezek metszetét és egyesülését mutatja be.

Az Jaccard index úgy van definiálva, mint a metszéspont mérete osztva a két címkézett halmaz egységének méretével, a képlet a következő: –

Tehát a mi példánkban láthatjuk, hogy a két halmaz metszéspontja egyenlő 8-cal (mivel nyolc értéket jósolunk meg helyesen), és az unió 10 + 10 – 8 = 12. Tehát a Jaccard index a – pontosságot adja meg

Tehát a modellünk pontossága szerint Jaccard index, 0,66, azaz 66% lesz.

Ez volt minden, amit tudni lehetett a Jaccard index. Remélhetőleg ez a blog hasznos volt számodra. Köszönöm, hogy elolvasta.


Közvetlen gradiens elemzés

A közösségi adatokhoz többváltozós elemzésekre van szükség, mert egyszerre több faj reakciója is érdekelt

A többváltozós elemzések a redundancia összegzésére, a zaj csökkentésére, az összefüggések tisztázására és a kiugró értékek azonosítására szolgálnak.

A többváltozós elemzések összekapcsolhatják a közösségeket más típusú adatokkal (például környezeti, történelmi adatokkal)

A többváltozós elemzések eredményeit úgy tervezték, hogy jobban megértsük a közösségeket, pl. közösségi szerkezet

Az élőlények eloszlásának megjelenítésére a fontos környezeti tényezők gradiensei mentén

Ramensky (1930) és Gause (1930) tervezte, de 1950 után széles körben használták az ökológiai kutatásokban (Whittaker)

Dix és Smeins (1967) 100 közösségi mintát vettek, hogy reprezentálják az észak-dakotai Nelson megyében található növényzet tartományát.

A 0,1 ha homogén állományokból 30, 0,5 × 0,5 m-es kvadrátokban vettük a mintavételi gyakoriságot.

Minden állományhoz számos környezeti változót rögzítettünk

Egy vízelvezetési osztály indikátorfajai olyan fajokként, amelyek gyakorisága legalább 10%-kal nagyobb ebben az osztályban, mint bármely más osztályban

Az indikátor fajok vízelvezetési osztályaként meghatározott indikátorérték

Cél: az összes faj gyakoriságának összegzése --> minden állományhoz egyetlen szám

Állványindexszám = < />(rel. gyakoriság × indikátorérték)/< />(egyedi sp. rel. gyakorisága)> × 100

Spp.RFIVRF x IV
Stco20120
Stvi10---(nem mutató egyetlen vízelvezetési osztályra sem)
Acmi15230
Lica5315 
Egyéb50--- 
40 *  65 

* RF összege spp. IV-vel (20+15+5)

Állvány index 17 = (65/40) × 100 = 162

Az összes állomány állományindexe 100 és 600 között változott

Ezt az 500 egységes gradienst 10, 50 egységes osztályokra osztotta:

  Fajgyakoriság
OsztályÁllvány 50-es osztálybanA BC
100-1494
9
12
 xAxBxC
150-199

=========> 2. ábra [Dix és Smeins 1967, p. 33]

Ábrázolhatták volna a frekvenciát a teljes 500 egység gradiensre, de a grafikon zavaros lett volna – 10 vízelvezető osztály „kisimítja” a grafikont, megkönnyítve az értelmezést


A közvetlen gradiens elemzés célja a közösségi és környezeti adatok rendszerezése, hogy megválaszolják az alábbi kérdéseket:

    Pontosan melyik környezeti tényező befolyásolja alapvetően az élőlények és közösségek eloszlását a tényezők együttesében?

Míg a közvetlen gradiens elemzés felhasználható az ökológiailag fontos környezeti tényezők azonosítására, addig kísérleti manipulációk szükségesek a különböző környezeti tényezők fontosságának pontosabb meghatározásához.

Dix és Smeins a vízelvezetés indexét maguk a növények alapján vezették le: ez egyszerűbb, pontosabb és olcsóbb lehet, mint a vízelvezetés vagy a talajnedvesség egyéb mérései.

Gyakran nehéz kiértékelni, mert a másodlagos színátmeneteket beárnyékolják az elsődleges színátmenetek

Az adatok a környezeti tengelyek mentén vannak ábrázolva, amelyek általánosan elfogadottak. A tengelyek lehetnek:

A fajok, közösségek és közösségi szintű jellemzők ábrázolhatók

Több méret is lehetséges

Az adatsimítás valamilyen formáját általában a bemutatás előtt alkalmazzák

A közös simítási technika minden adatra súlyozott átlagot jelent, pl.

simított = előző nullapont + 2 × aktuális nullapont + következő nullapont/4>

a kapott görbe kevésbé "zajos", mint az eredeti adatok

Whittaker a következő következtetéseket vonta le a DGA-val kapcsolatban:

    A fajpopuláció környezeti komplex-gradiens mentén való eloszlásának általános formája a harang alakú görbe

    A fajpopuláció központja (vagy módusza) egy komplex gradiens mentén nincs fiziológiai optimumában, hanem a populáció maximális sikerének központja, versenyben más fajpopulációkkal.

Egy fontos tulajdonság: bizonyos esetekben úgy tűnik, hogy a versengő fajok nem véletlenszerűen, hanem rendszeresen eloszlanak a környezeti komplex-gradiensek mentén

Whittaker szerint ezek a megfontolások a következőket jelentik:

Whittaker következtetéseit erősen befolyásolta a fajeloszlás harang alakú görbéibe vetett hite.

A harang alakú görbe koncepcióját Austin (1976, Vegetatio 33:33-41) vitatta a korábban publikált adatok összefoglalásában:

 lineárisharang szimmetrikusferdenagyon ferdebimodálisteljes
Curtis40372824
Noy-Meir0124007
Szerzetes32311818
Teljes7381231649
Összesen százalék1461624633 

csengő (%)ferdevállasfennsíkbimodálisteljes
Whittaker
Smokies8 (23%)6102935
Siskiyous14 (27%)16811251

Austin ezért arra a következtetésre jutott, hogy a fajpopuláció általános formája nem normális, harang alakú. És olyan adatokat mérlegelt, amelyeket már kisimítottak

Werger (1983, Vegetatio 52:141-150) egy nagyon konzervatív mércét használt a "normális" eloszláshoz (a változás 50%-át a görbe okozza)

A normálisan elterjedt fajok 31%-a:

8 faj közül 1 (12%) gerinccsúcsokon

22 fajból 12 (55%) középső lejtőn

32 fajból 5 (16%) a mocsárokban

Az Austin és Werger által összegyűjtött és összefoglalt adatok azt mutatják, hogy nincs eleve ok harang alakú normálgörbék feltételezésére a fajok gradienseken való eloszlására.

    A DGA megkérdőjelezhetetlen értékű és hasznos eszköz az ökológiában

    adatok összegzése és bemutatása, ill

A körkörösség a szubjektív (előre kigondolt) mintavételi tervezés eredménye – vegye figyelembe, hogy ez Whittaker kritikája volt (többek között) a közösségek „látása” és a bennük való mintavétel klementsi megközelítése ellen.

A vegetációs kontinuum DGA-alapú következtetése önkényes, szubjektív mintavételből adódik (ahogy a diszkrét közösségekre vonatkozó következtetés a jól meghatározott, eltérőnek tűnő közösségekben történő mintavételből származik.

Mindkét iskola leírja, de nem válaszol "miért"? Mindkét csoport leíró adatokra alapozza következtetéseit, hipotézisek tesztelése nélkül.


Genealógiai hasonlóság mérése a Jaccard Index segítségével

A blog egyes bejegyzéseinél egy módszert fogok használni két mintaadatkészlet hasonlóságának mérésére. A statisztikát Jaccard Indexnek vagy Jaccard-hasonlósági együtthatónak nevezik. Ez a bejegyzés magának a számításnak a technikai magyarázata.

Az adathalmazok a DNS-egyezéseim egyedi ősi vezetéknevei. A kérdés, amit bármelyik két meccsemre felteszek: mennyire hasonlóak a közvetlen ősi vezetékneveik listái?

Ha az egyedi vezetéknevek két listája megegyezik, akkor pontosan ugyanaz lesz a vezetéknevük. Ugyanannyi vezetéknév is szerepel majd a listájukban, mivel minden vezetéknév csak egyszer szerepel, függetlenül attól, hogy hányszor szerepel a közvetlen fában. 100%-ban hasonlóak lesznek.

Mindazonáltal érdekelnek azok a fák is, amelyek „majdnem” egyformák. Tegyük fel, hogy két testvér külön fát hoz létre, és mindketten eljutnak dédnagyszüleikig. Tom kutatása egy harmadik nagy párhoz vezet, Joe pedig egy másik párhoz. Egyikük sem ismeri még a másik kutatását, de mindkettőjük fáján szerepel egy-egy leánykori név. Ezek a listák nagyon hasonlóak lesznek, és szeretném valamilyen módon kiemelni a hasonlóságukat.

Tehát szükségem van egy módszerre a két vezetéknévlista „hasonlóságának” meghatározására. A Jaccard hasonlósági index két halmazt (vagy listát) hasonlít össze, hogy megtudja, mely tagok (vezetéknevek) vannak megosztva, és melyek különböznek egymástól. Kiszámítja a hasonlóság százalékát 0 és 100% között. A matematika meglehetősen egyszerű, és itt érthető kifejezésekkel van leírva.

A legegyszerűbben a listák metszéspontját számoljuk, azaz a mindkét fában közös vezetéknevek számát. Minden oldalon megszámoljuk a különbségeket, és összességében megszámoljuk a vezetéknevek számát. A Jaccard index ezt matematikailag a következőképpen fejezi ki:

J(X,Y) = |X∩Y| / |X∪Y| vagy (|X∩Y| / |X| + |Y| – |X∩Y|

Két testvérünket, Tomot és Joe-t:
|X∩Y a közös vezetéknevek száma: 8 a testvérek esetében.
|X| a halmaz hossza, vagy a Tom's tree vezetékneveinek száma: 9.
|Y| a halmaz hossza, vagy a Joe’s tree vezetékneveinek száma: szintén 9.

Tehát az egyenletünk: 8 / (9 + 9 – 8) * 100 = 80%-os hasonlóság testvéreink esetében.

Ha a testvérének pontosan ugyanolyan fái lennének, 100%-ban hasonlóak lennének. Ha a postásfán nem lennének átfedő vezetéknevek a testvérekkel, akkor az indexe mindkettőhöz képest 0% lenne.

Tehát a végső feladat az, hogy a párjaimban szereplő összes vezetéknévlistát minden más vezetéknévlistával összehasonlítsam. Mivel a Jaccard index egyszerre csak két halmazon működik, az N halmaz hasonlóságának kiszámításához N négyzetes számításra van szükség.
/>Ez megvalósíthatatlanná válik nagy számú készlet esetén, és más módszerek is használhatók a feldolgozási idő csökkentése érdekében. Körülbelül 4,4 millió pár készletet kellett összehasonlítani, aminek elkészítése órákig tartott.

Ne feledje, hogy jelenlegi céljaimhoz egyedi vezetékneveket használok. Ha egy meccsen bekerült John Smith apa, nagypapa és dédapa, akkor a listán Smith egyszer szerepelt. Ennek célja az adatgyűjtés és a számítás egyszerűsítése.

Vegye figyelembe azt is, hogy jelenlegi céljaim szempontjából a vezetéknevek iránya nem fontos. Az 1. meccsen lehet egy kétszemélyes fa, ahol Mary Smith lesz Bob Jones anyja, míg a 2. meccsen Anne Jones lesz Bob Smith anyja. Ez a „Smith->Jones” és a „Jones->Smith”. Ha beleírom az irányt, ezek a listák mások. A listákat „szózsákként” kezelem, ahol az irány nem fontos – tehát ez a két lista „Jones, Smith” és „Smith, Jones” ugyanaz. Ennek célja az adatgyűjtés és a számítás egyszerűsítése.

A Jaccard Index esetében két figyelmeztetést kell figyelembe venni. Az egyik, hogy kis mintaméreteknél hibás lehet, ezért a kis fákat szándékomban áll kizárni.
Az index másik problémája az, ha hiányoznak megfigyelések az adatkészletekből. Nyugodtan kijelenthető, hogy a legtöbb listámon hiányzó megfigyelések vannak, mivel nem a tökéletes fákkal rendelkező rokonok mintájából merítek négy generációt. A fák általában rongyosak, vagyis az emberek többet tudnak egyik ágról, mint a másikról.

2 gondolat a „Genealógiai hasonlóság mérése a Jaccard Index segítségével” témakörben

Ez érdekes – kíváncsian várom, mit kezdesz vele. Hogyan tervezi kezelni a vezetéknevek helyesírási változatait?

Nagy kérdés, amivel küszködök, és bizonytalan vagyok. Mi a teendő az O Raghallaigh/O'Reilly/Reilly/Riley-vel: egy adott ír ősi vonal az összes változatot láthatja az egymást követő generációkon keresztül.
A legegyszerűbb kalapács összecsukni a változatokat, az első lépésben az „O'”/”Mc”/”Mac” betűk eltávolítása a vezetéknevekről (itt nagyon ír-központú vagyok, de ez az én személyes domain kihívásom) . Ezután megy tovább, különféle névváltozatok forrásaival a nevek egyetlen verzióvá való összecsukásához.
Ez azonban elveszítheti azt a gazdagságot, amely lehetővé teszi a történelmi nyomon követést. Például az én egyezéseim egy 4./5. generációs vezetéknevét osztják meg egy gyakori ír vezetéknév egy nagyon szokatlan és különálló változatával. Ez lehetővé teszi vonaluk egyesült államokbeli feljegyzéseinek egyszerű nyomon követését.
Ehelyett egy hasonlósági mérőszám alkalmazására gondolok magukon a vezetékneveken belül, amely biztosítaná, hogy a változatokat ne kezeljék teljesen eltérőként, de csökkenti az általános hasonlósági indexet. A kihívás az, hogy a számítási idők egyre magasabbak.

Szólj hozzá válasz visszavonása

Ez az oldal az Akismetet használja a spam csökkentésére. További információ a megjegyzésadatok feldolgozásáról.


Ennek a függvénynek az argumentuma három mátrix listája, amelyek mindegyike pontosan ugyanúgy indexelve van - a mátrixok sorait a komplexek indexelik, , az első kétrészes gráf, bg1, és az oszlopokat a komplexek indexelték, a második kétrészes gráf, bg2.

A lista első mátrixa az I metszésmátrix. Az I (i,j) bejegyzése a bg1 C-i és a bg2 K-j komplexének számossága.

A lista második mátrixa a cminusk mátrix, Q. A Q (i,j) bejegyzése a C-i és K-j közötti halmazkülönbség kardinalitása.

A lista harmadik mátrixa a kminusc mátrix, P. A P (i,j) bejegyzése a K-j és C-i halmazkülönbség kardinalitása.

A két halmaz (itt két komplexum közötti) C-i és K-j Jaccard-együtthatóját a számosság (C-i metszi K-j) és a számosság (C-i unió K-j) hányadosa adja. Jegyezzük meg, hogy a számosság (C-i metszi a K-j-t) az I (i,j) bejegyzése, és hogy a számosság (C-i unió K-j) az I, Q, P (i,j) bejegyzésének összege.


Sklearn.metrics .jaccard_score¶

A Jaccard index [1] vagy a Jaccard hasonlósági együttható, amelyet a metszéspont méretének osztva két címkekészlet uniójának méretével, arra használják, hogy egy minta előrejelzett címkéinek halmazát összehasonlítsák az y_true megfelelő címkekészletével. .

Paraméterek y_true 1d tömbszerű, vagy címkejelző tömb / ritka mátrix

Az alapigazság (helyes) címkék.

y_pred 1d tömbszerű, vagy címkejelző tömb / ritka mátrix

Előre jelzett címkék, egy osztályozó által visszaadott.

címkéket tömbszerű alakzat (n_classes,), default=Nincs

A címkék halmaza, ha átlag != 'bináris' , és sorrendjük, ha az átlag értéke None . Az adatokban jelenlévő címkék kizárhatók, például többosztályú átlag kiszámításához, figyelmen kívül hagyva a többségi negatív osztályt, míg az adatokban nem szereplő címkék 0 komponenst eredményeznek a makróátlagban. A többcímkés célok esetében a címkék oszlopindexek. Alapértelmezés szerint az y_true és y_pred összes címkéje rendezett sorrendben kerül felhasználásra.

pos_label str vagy int, alapértelmezett=1

A jelentendő osztály, ha átlag='bináris', és az adatok binárisak. Ha az adatok többosztályúak vagy többcímkések, akkor ezt figyelmen kívül hagyja a labels=[pos_label] beállítás, és az átlagos != 'bináris' csak az adott címkére vonatkozó pontszámokat jeleníti meg.

Ha nincs, akkor az egyes osztályok pontszámait a rendszer visszaadja. Egyébként ez határozza meg az adatokon végzett átlagolás típusát:

Csak a pos_label által megadott osztály eredményeit jelentse. Ez csak akkor alkalmazható, ha cél ( y_ ) binárisak.

Számítsa ki a mutatókat globálisan az összes valódi pozitív, hamis negatív és téves pozitív érték megszámlálásával.

Számítsa ki az egyes címkék mérőszámait, és keresse meg azok súlyozatlan átlagát. Ez nem veszi figyelembe a címke kiegyensúlyozatlanságát.

Számítsa ki az egyes címkékre vonatkozó mutatókat, és keresse meg azok átlagát, a támogatással súlyozva (az egyes címkék valódi példányainak száma). Ez megváltoztatja a „makrót”, hogy figyelembe vegye a címke kiegyensúlyozatlanságát.

Számítsa ki az egyes példányok mérőszámait, és keresse meg azok átlagát (csak többcímkés osztályozás esetén van értelme).

minta_súly tömbszerű alakzat (n_samples,), default=Nincs

nulla_osztás “warn”, <0.0, 1.0>, default=”warn”

Beállítja azt az értéket, amely akkor tér vissza, ha nulla osztás van, azaz ha nincsenek negatív értékek az előrejelzésekben és a címkékben. Ha „figyelmeztetésre” van állítva, ez 0-ként működik, de figyelmeztetés is megjelenik.

Visszatér pontszám float (ha az átlag nem None) vagy lebegtetések tömbje, shape = [n_unique_labels]

A jaccard_score gyenge mutató lehet, ha egyes mintáknál vagy osztályoknál nincs pozitív eredmény. A Jaccard definiálatlan, ha nincsenek igaz vagy előre jelzett címkék, és implementációnk 0 pontot ad vissza figyelmeztetéssel.


A PWM nulla oszlopos kiterjesztése

1. lemma. A PWM tetszőleges számú nulla oszloppal történő kiterjesztése balról vagy jobbról nem változtatja meg a pontszám eloszlását vagy a pontszám küszöbértékének megfelelő P-értéket.

Bizonyíték: Elég, ha egyetlen oszlopra jobbról csatolunk egy bizonyítást. Egy új kiterjesztett mátrix [M E]4 * (m + 1) pontjait határozza meg ωA m + 1. A nulla oszlophoz M[α, m + 1] = 0 az összesre α ban ben A és S(ω, M E) = S(ω[1.. m], M). A P-érték a ponteloszlásból számítható ki: P M E , t = ∑ s ≥ t Q M E , s .

A szókészlet Ω E = <ωA m + 1 : S(ω, M E) ≥ s> megkapható az Ω szóhalmazból az összes < 1-es utótag hozzáadásávalω[m + 1]> = A bármelyik szóra ω[1.. m] Ω-ból. Ha a szavakat egy i.i.d. véletlen modell, valószínűségeik a betűvalószínűségek szorzatai p(α). Tehát a valószínűsége (mA +1)-merek Ω-ban faktorizálódnak, és a kapott valószínűség nem változik:

A PWM fordított komplement transzformációja

2. lemma. Ha a szavakat egy i.i.d. véletlenszerű modell és a háttérvalószínűségek megfelelnek a feltételeknek p(A) = p(T), p(C) = p(G) akkor a PWM M fordított komplement transzformációja nem változtatja meg a pontszámeloszlást és így a P-értékeket.

Ennek a lemmának az állítása közvetlenül következik az összes csere utáni pontszámeloszlás meghatározásából. Bármilyen szóra ω amelynek pontszáma van s val vel M van egy megfelelő találat M ˜ -vel, amelyet így kapunk ω visszafelé olvasni A ⇔ T, G ⇔ C helyettesítésekkel.

Különböző szélességű PWM-ek igazítása

3. lemma. Legyen egy igazított pár PWM M1,M2 a megfelelő küszöbértékekkel t1,t2, amely meghatározza a TFBS felismerési modelleket Ω12. Mindkét PWM kiterjesztése tetszőleges számú nulla oszlopra nem változik D1 (Ω12).

Bizonyítás: Ismét elég, ha egyetlen oszlopra van egy bizonyítvány, amelyet jobbról adunk hozzá. A bizonyítás elve nagyon hasonló az 1. lemmához. Az egyenletes valószínűségi eloszláshoz tekintsük a J 1 Ω 1 E , Ω 2 E = Ω 1 E ∩ Ω 2 E Ω 1 E ∪ Ω 2 E törtet. Ω1E = Ω(M1E, t1) úgy kapjuk meg, hogy Ω bármely szóhoz hozzáadjuk az összes 1-es utótagot1 = Ω(M1, t1) ugyanez igaz Ω-ra is2E = Ω(M2E, t2). Így ha egy szó Ω(M1, t1) ∩ Ω(M2, t2) akkor négy lehetséges kiterjesztése Ω(M1E, t1) ∩ Ω(M2E, t2) és |Ω1E ∩ Ω2E| = 4|Ω1 ∩ Ω2|.

Mind a négy 1-es utótag hozzáadódik a (Ω12) (Ω1E2E). Így bármelyik (m+1)-mer Ω-ból1E vagy Ω2E egyetlen megfelelője van m-mer Ω-ban1 ∪ Ω2 és mindegyikre m-mer Ω-ban1 ∪ Ω2 Ω-ban négy (m+1)-mer van1E ∪ Ω2E. Így |Ω1E ∪ Ω2E| = 4|Ω1 ∪ Ω2|.

A tört 4-gyel való csökkentése bizonyítja a lemmát. A valószínűségek nem egyenletes háttéreloszlása ​​esetén pα, fontos, hogy egy kiterjesztett véletlen szó Ω-ba essen valószínűsége1E ∩ Ω2E ugyanaz, mint az Ω-ba eső nem kiterjesztett véletlen szó esetében1 ∩ Ω2. A fentiek bizonyítása nagyon hasonló az 1. lemmához. A hasonló egyenlet igaz a nevezőre is, amely a lemmát bizonyítja.

A távolság metrikájának meghatározása TFBS modellekhez

Tétel: Távolság D2(Ω1, Ω2) = 1 − J2(Ω1, Ω2) megfelelő mérőszámot határoz meg a PWM-ként ábrázolt TFBS modellek terében, amelyek küszöbértékei megfelelnek az adott P-érték szinteknek.

Bizonyíték: A tétel bizonyításához ezt be kell mutatni D2 megfelel a következő metrikus tulajdonságoknak:

A második tulajdonság egyértelmű a D2 definíciója és az első tulajdonság abból a megfigyelésből következik, hogy X ∩ Y = X ∪ Y csak abban az esetben, ha X=Y és a szóhalmaz valószínűsége a szavak számával nő. Már csak a háromszög egyenlőtlenség bizonyítása van hátra.

A háromszög egyenlőtlenség bizonyítása. Vegye figyelembe, hogy a mátrixok szükség esetén nulla oszlopokkal bővülnek, miközben az optimális eltolás és tájolás van kiválasztva. Ezt nyugodtan megtehetjük a 3. lemma szerint. Így elhagyjuk a E index a mátrixokhoz és modellekhez az egyszerűség kedvéért.

Használjuk az Ω-t1|3 által meghatározott modell jelölése M1 optimálisan igazított versus M 3. Külön igazításokból indulunk ki M1 és M 2 val vel M 3 referenciaként. Így két optimális beállítást kapunk M1vs M3 és M2vs M3 öröklött igazodása M1vs M2 nem feltétlenül optimális, hanem a megfelelő optimális igazításoktól függ M 3.

Ennek ellenére mindhárom mátrix M1,M 2,M 3 igazodik, és erre az igazításra érvényes a háromszög egyenlőtlenség [16]:

Építés szerint, D1(Ω1|3, Ω3) = D2(Ω1, Ω3), és ez utóbbi egyenletet átírhatjuk így D1(Ω1|3, Ω2|3) ≤ D2(Ω1, Ω3) + D2(Ω2, Ω3). Végül definíció szerint:


Nézd meg a videót: PGP: Jaccard hasonlóság kiszámítása Neo4J-ben 3. (Június 2022).


Hozzászólások:

  1. Calvino

    Sürgősen eladó használt R-50, R-65 sínek, 1. kopáscsoport, 3mm-ig kopás, útra helyezésre. NEM VARÁZS!

  2. Tugore

    Legyünk óvatosak.

  3. Goltikazahn

    Hűvös vegye érdekes!

  4. Korian

    Nagyon érdekes ötlet

  5. L'angley

    Hozzáértően megírt és nagyon meggyőző, mesélje el részletesebben, hogyan dolgozta ki ezt maga

  6. Braleah

    Yes, not a fig this does not seem like a serious consideration of the problem!

  7. Cassian

    Tévedtél, ez nyilvánvaló.

  8. Brayden

    Elnézést a beavatkozásért ... ismerem ezt a helyzetet. Beszéljük meg.



Írj egy üzenetet