PMC:1647278 / 9751-42933 JSON TXT

Annnotations TAB JSON ListView MergeView

2_test

{"project":"2_test","denotations":[{"id":"17044916-16722531-1696310","span":{"begin":9169,"end":9170},"obj":"16722531"},{"id":"17044916-15840704-1696311","span":{"begin":9608,"end":9609},"obj":"15840704"}],"text":"Materials and methods\n\nDistribution of N = (N0, N1)\nAs the estimators defined in (4) are expressed as functions of N0 and N1 we first study their distribution. Using a Gaussian approximation, we have\nℒ ( [ N 0 N 1 ] ︸ N ) ≃ N ( [ E 0 E 1 ] ︸ E , [ C 0 , 0 C 0 , 1 C 1 , 0 C 1 , 1 ] ︸ C ) ( 5 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFsectdaqadaqaamaayaaabaWaamWaaeaafaqabeGabaaabaacbeGae4Nta40aaSbaaSqaaiabicdaWaqabaaakeaacqGFobGtdaWgaaWcbaGaeGymaedabeaaaaaakiaawUfacaGLDbaaaSqaaiab+5eaobGccaGL44paaiaawIcacaGLPaaacqWIdjYocqWFneVtdaqadaqaamaayaaabaWaamWaaeaafaqabeGabaaabaGae4xrau0aaSbaaSqaaiabicdaWaqabaaakeaacqGFfbqrdaWgaaWcbaGaeGymaedabeaaaaaakiaawUfacaGLDbaaaSqaaiab+veafbGccaGL44pacqGGSaaldaagaaqaamaadmaabaqbaeqabiGaaaqaaiab+neadnaaBaaaleaacqaIWaamcqGGSaalcqaIWaamaeqaaaGcbaGae43qam0aaSbaaSqaaiabicdaWiabcYcaSiabigdaXaqabaaakeaacqGFdbWqdaWgaaWcbaGaeGymaeJaeiilaWIaeGimaadabeaaaOqaaiab+neadnaaBaaaleaacqaIXaqmcqGGSaalcqaIXaqmaeqaaaaaaOGaay5waiaaw2faaaWcbaGae43qameakiaawIJ=aaGaayjkaiaawMcaaiaaxMaacaWLjaGaeiikaGIaeGynauJaeiykaKcaaa@6A7A@\nwhere, for i, j ∈ {0, 1}, Ei ∈ ℝdi MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWIDesOdaahaaWcbeqaaiabdsgaKnaaBaaameaacqWGPbqAaeqaaaaaaaa@3122@, and Ci,j ∈ ℝdi MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWIDesOdaahaaWcbeqaaiabdsgaKnaaBaaameaacqWGPbqAaeqaaaaaaaa@3122@ × ℝdj MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWIDesOdaahaaWcbeqaaiabdsgaKnaaBaaameaacqWGQbGAaeqaaaaaaaa@3124@ with di = km+i. One can note that C0,0 and C1,1 are symmetric, and t (C1,0) = C0,1 (where t is the matrix transpose operator).\nIn the stationary case, exact expression of E and C can be computed according to [5].\nExpectation is simply given ∀w ∈ A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@m by\nE0(w) = (n - m + 1) μ(w) E1 (wa) = (n - m) μ(w)Π(w, a) ∀(w, a) ∈ A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@m × A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ (6)\nIn order to give more fluidity to this paper, the expression of the covariance matrix C have been moved in appendix A. Let us remark, before going forward that substituting N by E in (4) immediately gives\nμ E = μ and π E = ( 1 − 1 n − m + 1 ) π ( 7 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaafaqabeqadaaabaacciGae8hVd02aaSbaaSqaaGqabiab+veafbqabaGccqGH9aqpcqWF8oqBaeaacqqGHbqycqqGUbGBcqqGKbazaeaacqWFapaCdaWgaaWcbaGae4xraueabeaakiabg2da9maabmaabaGaeGymaeJaeyOeI0YaaSaaaeaacqaIXaqmaeaacqWGUbGBcqGHsislcqWGTbqBcqGHRaWkcqaIXaqmaaaacaGLOaGaayzkaaGae8hWdaNaaCzcaiaaxMaadaqadaqaaiabiEda3aGaayjkaiaawMcaaaaaaaa@49E8@\n\nDelta method\nLet us start with a simple case. We consider a single pattern which is over-represented (seen more than expected) so we have\nS N = − log ⁡ 10 F + ( N ) with F + ( N ) ≜ ℙ μ N , π N ( N ≥ N obs ) ( 8 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaafaqaaeqadaaabaGaem4uam1aaSbaaSqaaGqabiab=5eaobqabaGccqGH9aqpcqGHsislcyGGSbaBcqGGVbWBcqGGNbWzdaWgaaWcbaGaeGymaeJaeGimaadabeaakiabdAeagnaaCaaaleqabaGaey4kaScaaOGaeiikaGIae8Nta4KaeiykaKcabaGaee4DaCNaeeyAaKMaeeiDaqNaeeiAaGgabaGaemOray0aaWbaaSqabeaacqGHRaWkaaGccqGGOaakcqWFobGtcqGGPaqkcqWICjcqtuuDJXwAK1uy0HMmaeHbfv3ySLgzG0uy0HgiuD3BaGabaiab+LriqnaaBaaaleaaiiGacqqF8oqBdaWgaaadbaGae8Nta4eabeaaliabcYcaSiab9b8aWnaaBaaameaacqWFobGtaeqaaaWcbeaakiabcIcaOiabd6eaojabgwMiZkabd6eaonaaBaaaleaacqqGVbWBcqqGIbGycqqGZbWCaeqaaOGaeiykaKcaaiaaxMaacaWLjaWaaeWaaeaacqaI4aaoaiaawIcacaGLPaaaaaa@681D@\nwhere the function F+ also depends on the sequence length ℓ and the considered pattern.\nIf F+ is differentiate, the delta-method (a simple first order Taylor expansion around N = E, see [13]) provides the following approximation:\nS N ≃ − log ⁡ 10 F + ( E ) − t ( N − E ) ∇ F + ( E ) ln ⁡ ( 10 ) F + ( E ) ( 9 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGtbWudaWgaaWcbaacbeGae8Nta4eabeaakiabloKi7iabgkHiTiGbcYgaSjabc+gaVjabcEgaNnaaBaaaleaacqaIXaqmcqaIWaamaeqaaOGaemOray0aaWbaaSqabeaacqGHRaWkaaGccqGGOaakcqWFfbqrcqGGPaqkcqGHsisldaWcaaqaaiabbccaGmaaCaaaleqabaGaemiDaqhaaOGaeiikaGIae8Nta4KaeyOeI0Iae8xrauKaeiykaKIaey4bIeTaemOray0aaWbaaSqabeaacqGHRaWkaaGccqGGOaakcqWFfbqrcqGGPaqkaeaacyGGSbaBcqGGUbGBcqGGOaakcqaIXaqmcqaIWaamcqGGPaqkcqWGgbGrdaahaaWcbeqaaiabgUcaRaaakiabcIcaOiab=veafjabcMcaPaaacaWLjaGaaCzcamaabmaabaGaeGyoaKdacaGLOaGaayzkaaaaaa@5A3D@\nand hence, using (7) we have\nS N ≃ S − t ( N − E ) ∇ F + ( E ) ln ⁡ ( 10 ) F + ( E ) ( 10 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGtbWudaWgaaWcbaacbeGae8Nta4eabeaakiabloKi7iabdofatjabgkHiTmaalaaabaGaeeiiaaYaaWbaaSqabeaacqWG0baDaaGccqGGOaakcqWFobGtcqGHsislcqWFfbqrcqGGPaqkcqGHhis0cqWGgbGrdaahaaWcbeqaaiabgUcaRaaakiabcIcaOiab=veafjabcMcaPaqaaiGbcYgaSjabc6gaUjabcIcaOiabigdaXiabicdaWiabcMcaPiabdAeagnaaCaaaleqabaGaey4kaScaaOGaeiikaGIae8xrauKaeiykaKcaaiaaxMaacaWLjaWaaeWaaeaacqaIXaqmcqaIWaamaiaawIcacaGLPaaaaaa@503C@\nfor n large enough. The distribution of S^ MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGtbWugaqcaaaa@2DEB@ is therefore approximated by\nL MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaeHbnf2C0vMCJfMCKbaceiGaa8htaaaa@394B@ (SN) ≃ N MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFneVtaaa@383B@ (S, σ2) (11)\nwith\nσ = t ∇ F + ( E ) × C × ∇ F + ( E ) ln ⁡ ( 10 ) F + ( E ) ( 12 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaaiiGacqWFdpWCcqGH9aqpdaWcaaqaamaakaaabaGaeeiiaaYaaWbaaSqabeaacqWG0baDaaGccqGHhis0cqWGgbGrdaahaaWcbeqaaiabgUcaRaaakiabcIcaOGqabiab+veafjabcMcaPiabgEna0kab+neadjabgEna0kabgEGirlabdAeagnaaCaaaleqabaGaey4kaScaaOGaeiikaGIae4xrauKaeiykaKcaleqaaaGcbaGagiiBaWMaeiOBa4MaeiikaGIaeGymaeJaeGimaaJaeiykaKIaemOray0aaWbaaSqabeaacqGHRaWkaaGccqGGOaakcqGFfbqrcqGGPaqkaaGaaCzcaiaaxMaadaqadaqaaiabigdaXiabikdaYaGaayjkaiaawMcaaaaa@543D@\nIn consequence, computing σ requires both to compute C (done in appendix A) and ∇F+ (E).\n\nSingle pattern\nThe exact expression of F+ is computable through many different methods [1-4] but is too much complicated to derive explicitly ∇F+. To overcome this problem, we propose to consider an approximation of F+. As said in introduction, many kind of approximations are available (Gaussian, binomial, compound Poisson or large deviations). In this paper, we have chosen to use a binomial approximation as it provides an expression which is analytically differentiable and is known to be a good heuristic to the problem [8].\nFor a single non-degenerate pattern (i.e. a simple word) W = w1 ... wh (wi ∈ A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@) with h ≥ m - 1 we first denote by\nP(N) = μN (w1 ... wm) × πN (w1 ... wm, wm+1) × ... × πN (wh-m ... wh-1, wh) (13)\nthe probability for W to occur at a given position in the sequence and then we get\nF + ( N ) ≃ ℙ ( ℬ ( ℓ h , P ( N ) ) ≥ N o b s ) = β ( P ( N ) , N obs , ℓ h − N o b s + 1 ) β ( N o b s , ℓ h − N o b s + 1 ) ( 14 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaacqWGgbGrdaahaaWcbeqaaiabgUcaRaaakiabcIcaOGqabiab=5eaojabcMcaPiabloKi7mrr1ngBPrwtHrhAYaqehuuDJXwAKbstHrhAGq1DVbacfaGae4xgHaLaeiikaGccdaGae0hlHiKaeiikaGIaeS4eHW2aaSbaaSqaaiabdIgaObqabaGccqGGSaalcqWGqbaucqGGOaakcqWFobGtcqGGPaqkcqGGPaqkcqGHLjYScqWGobGtdaWgaaWcbaacbaGaeW3Ba8MaeWNyaiMaeW3CamhabeaakiabcMcaPiabg2da9maalaaabaacciGaeSNSdiMaeiikaGIaemiuaaLaeiikaGIae8Nta4KaeiykaKIaeiilaWIaemOta40aaSbaaSqaaiabb+gaVjabbkgaIjabbohaZbqabaGccqGGSaalcqWItecBdaWgaaWcbaGaemiAaGgabeaakiabgkHiTiabd6eaonaaBaaaleaacqaFVbWBcqaFIbGycqaFZbWCaeqaaOGaey4kaSIaeGymaeJaeiykaKcabaGaeSNSdiMaeiikaGIaemOta40aaSbaaSqaaiab89gaVjab8jgaIjab8nhaZbqabaGccqGGSaalcqWItecBdaWgaaWcbaGaemiAaGgabeaakiabgkHiTiabd6eaonaaBaaaleaacqaFVbWBcqaFIbGycqaFZbWCaeqaaOGaey4kaSIaeGymaeJaeiykaKcaaiaaxMaacaWLjaGaeiikaGIaeGymaeJaeGinaqJaeiykaKcaaa@8E81@\nwhere ℬ MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFSeIqaaa@377E@ denotes the binomial distribution, with ℓh = ℓ - h + 1 and where the β functions (complete and incomplete) and their relation to the binomial cumulative distribution function are described in appendix B.\nNote that if we consider non-overlapping occurrences instead of overlapping ones, we can still use a binomial approximation for the distribution of N, but the expression of P(N) is more complicated as it involves the auto-correlation polynome of the pattern [14]. This point is not developed in this paper.\nReplacing μN and πN by their expression easily gives\nP ( N ) = 1 n − m + 1 ∏ w ∈ A m ∏ a ∈ A N 1 ( w a ) A 1 ( w a ) N 0 ( w ) A 0 ( w ) ( 15 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaacqWGqbaucqGGOaakieqacqWFobGtcqGGPaqkcqGH9aqpdaWcaaqaaiabigdaXaqaaiabd6gaUjabgkHiTiabd2gaTjabgUcaRiabigdaXaaadaqeqbqaamaalaaabaWaaebeaeaacqWFobGtdaWgaaWcbaGaeGymaedabeaakiabcIcaOiabdEha3jabdggaHjabcMcaPmaaCaaaleqabaGaemyqae0aaSbaaWqaaiabigdaXaqabaWccqGGOaakcqWG3bWDcqWGHbqycqGGPaqkaaaabaGaemyyaeMaeyicI4mcdaGae4haXheabeqdcqGHpis1aaGcbaGae8Nta40aaSbaaSqaaiabicdaWaqabaGccqGGOaakcqWG3bWDcqGGPaqkdaahaaWcbeqaaiabdgeabnaaBaaameaacqaIWaamaeqaaSGaeiikaGIaem4DaCNaeiykaKcaaaaaaeaacqWG3bWDcqGHiiIZcqGFaeFqdaahaaadbeqaaiabd2gaTbaaaSqab0Gaey4dIunakiaaxMaacaWLjaGaeiikaGIaeGymaeJaeGynauJaeiykaKcaaa@6E23@\nwhere A1(wa) counts occurrences of the word wa in W = w1 ... wh and A0 (w) counts occurrences of the word w in w2 ... wh-1. Note that in the particular case where h = m - 1, all A0 (w) are null and we simply get (n - m + l) × P (N) = N1 (W).\nUsing the derivative properties of the incomplete beta function (see appendix B for more details) we hence get\n∇ F + ( N ) ≃ P ( N ) N obs − 1 ( 1 − P ( N ) ) ℓ h − N obs β ( N obs , ℓ h − N obs + 1 ) × ∇ P ( N ) ( 16 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqGHhis0cqWGgbGrdaahaaWcbeqaaiabgUcaRaaakiabcIcaOGqabiab=5eaojabcMcaPiabloKi7maalaaabaGaemiuaaLaeiikaGIae8Nta4KaeiykaKYaaWbaaSqabeaacqWGobGtdaWgaaadbaGaee4Ba8MaeeOyaiMaee4CamhabeaaliabgkHiTiabigdaXaaakiabcIcaOiabigdaXiabgkHiTiabdcfaqjabcIcaOiab=5eaojabcMcaPiabcMcaPmaaCaaaleqabaGaeS4eHW2aaSbaaWqaaiabdIgaObqabaWccqGHsislcqWGobGtdaWgaaadbaGaee4Ba8MaeeOyaiMaee4CamhabeaaaaaakeaaiiGacqGFYoGycqGGOaakcqWGobGtdaWgaaWcbaGaee4Ba8MaeeOyaiMaee4CamhabeaakiabcYcaSiabloriSnaaBaaaleaacqWGObaAaeqaaOGaeyOeI0IaemOta40aaSbaaSqaaiabb+gaVjabbkgaIjabbohaZbqabaGccqGHRaWkcqaIXaqmcqGGPaqkaaGaey41aqRaey4bIeTaemiuaaLaeiikaGIae8Nta4KaeiykaKIaaCzcaiaaxMaadaqadaqaaiabigdaXiabiAda2aGaayjkaiaawMcaaaaa@71E0@\nso all we need is to compute ∇P(N).\nFor all (w, a) ∈ A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@m × A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ we have\n∂ P ( N ) ∂ N 0 ( w ) = − A 0 ( w ) N 0 ( w ) × P ( N ) ( 17 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaadaWcaaqaaiabgkGi2kabdcfaqjabcIcaOGqabiab=5eaojabcMcaPaqaaiabgkGi2kab=5eaonaaBaaaleaaieaacqGFWaamaeqaaOGaeiikaGIaem4DaCNaeiykaKcaaiabg2da9iabgkHiTmaalaaabaGaemyqae0aaSbaaSqaaiabicdaWaqabaGccqGGOaakcqWG3bWDcqGGPaqkaeaacqWFobGtdaWgaaWcbaGae4hmaadabeaakiabcIcaOiabdEha3jabcMcaPaaacqGHxdaTcqWGqbaucqGGOaakcqWFobGtcqGGPaqkcaWLjaGaaCzcamaabmaabaGaeGymaeJaeG4naCdacaGLOaGaayzkaaaaaa@5086@\nand\n∂ P ( N ) ∂ N 1 ( w ) = − A 1 ( w a ) N 1 ( w a ) × P ( N ) ( 18 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaadaWcaaqaaiabgkGi2kabdcfaqjabcIcaOGqabiab=5eaojabcMcaPaqaaiabgkGi2kab=5eaonaaBaaaleaaieaacqGFXaqmaeqaaOGaeiikaGIaem4DaCNaeiykaKcaaiabg2da9iabgkHiTmaalaaabaGaemyqae0aaSbaaSqaaiabigdaXaqabaGccqGGOaakcqWG3bWDcqWGHbqycqGGPaqkaeaacqWFobGtdaWgaaWcbaGae4xmaedabeaakiabcIcaOiabdEha3jabdggaHjabcMcaPaaacqGHxdaTcqWGqbaucqGGOaakcqWFobGtcqGGPaqkcaWLjaGaaCzcamaabmaabaGaeGymaeJaeGioaGdacaGLOaGaayzkaaaaaa@5324@\nIf we denote by\nP = μ (w1 ... wm) × π (w1 ... wm, wm+1) × ... × π (wh-m ... wh-1, wh) (19)\nthe true probability for W to occur at a given position in the sequence X then we get, using (7) in (13), that\nP ( E ) = p × ( 1 − 1 n − m + 1 ) h − m ≃ p ( 20 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGqbaucqGGOaakieqacqWFfbqrcqGGPaqkcqGH9aqpcqWGWbaCcqGHxdaTdaqadaqaaiabigdaXiabgkHiTmaalaaabaGaeGymaedabaGaemOBa4MaeyOeI0IaemyBa0Maey4kaSIaeGymaedaaaGaayjkaiaawMcaamaaCaaaleqabaGaemiAaGMaeyOeI0IaemyBa0gaaOGaeS4qISJaemiCaaNaaCzcaiaaxMaadaqadaqaaiabikdaYiabicdaWaGaayjkaiaawMcaaaaa@4A3A@\nfor n large enough. We hence get\n∇ F + ( E ) ≃ p N obs ( 1 − p ) ℓ h − N obs β ( N obs , ℓ h − N obs + 1 ) × G ( 21 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqGHhis0cqWGgbGrdaahaaWcbeqaaiabgUcaRaaakiabcIcaOGqabiab=veafjabcMcaPiabloKi7maalaaabaGaemiCaa3aaWbaaSqabeaacqWGobGtdaWgaaadbaGaee4Ba8MaeeOyaiMaee4CamhabeaaaaGccqGGOaakcqaIXaqmcqGHsislcqWGWbaCcqGGPaqkdaahaaWcbeqaaiabloriSnaaBaaameaacqWGObaAaeqaaSGaeyOeI0IaemOta40aaSbaaWqaaiabb+gaVjabbkgaIjabbohaZbqabaaaaaGcbaacciGae4NSdiMaeiikaGIaemOta40aaSbaaSqaaiabb+gaVjabbkgaIjabbohaZbqabaGccqGGSaalcqWItecBdaWgaaWcbaGaemiAaGgabeaakiabgkHiTiabd6eaonaaBaaaleaacqqGVbWBcqqGIbGycqqGZbWCaeqaaOGaey4kaSIaeGymaeJaeiykaKcaaiabgEna0kab=DeahjaaxMaacaWLjaWaaeWaaeaacqaIYaGmcqaIXaqmaiaawIcacaGLPaaaaaa@6649@\nwhere tG = [tG0 tG1] is defined by\nG 0 ( w ) = − A 0 ( w ) E 0 ( w ) and G 1 ( w a ) = − A 1 ( w a ) E 1 ( w a ) ( 22 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaafaqaaeqadaaabaacbeGae83raC0aaSbaaSqaaiabicdaWaqabaGccqGGOaakcqWG3bWDcqGGPaqkcqGH9aqpcqGHsisldaWcaaqaaiabdgeabnaaBaaaleaacqaIWaamaeqaaOGaeiikaGIaem4DaCNaeiykaKcabaGae8xrau0aaSbaaSqaaiabicdaWaqabaGccqGGOaakcqWG3bWDcqGGPaqkaaaabaGaeeyyaeMaeeOBa4MaeeizaqgabaGae83raC0aaSbaaSqaaiabigdaXaqabaGccqGGOaakcqWG3bWDcqWGHbqycqGGPaqkcqGH9aqpcqGHsisldaWcaaqaaiabdgeabnaaBaaaleaacqaIXaqmaeqaaOGaeiikaGIaem4DaCNaemyyaeMaeiykaKcabaGae8xrau0aaSbaaSqaaiabigdaXaqabaGccqGGOaakcqWG3bWDcqWGHbqycqGGPaqkaaaaaiaaxMaacaWLjaWaaeWaaeaacqaIYaGmcqaIYaGmaiaawIcacaGLPaaaaaa@5D85@\nUsing equation (12) we finally get\nσ ≃ Q + t G × C × G ( 23 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaaiiGacqWFdpWCcqWIdjYocqWGrbqudaahaaWcbeqaaiabgUcaRaaakmaakaaabaGaeeiiaaYaaWbaaSqabeaacqWG0baDaaacbeGccqGFhbWrcqGHxdaTcqGFdbWqcqGHxdaTcqGFhbWraSqabaGccaWLjaGaaCzcamaabmaabaGaeGOmaiJaeG4mamdacaGLOaGaayzkaaaaaa@4098@\nwhere\nQ + = p N obs ( 1 − p ) ℓ h − N obs ln ⁡ ( 10 ) β ( p , N obs , ℓ h − N obs + 1 ) ( 24 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGrbqudaahaaWcbeqaaiabgUcaRaaakiabg2da9maalaaabaGaemiCaa3aaWbaaSqabeaacqWGobGtdaWgaaadbaGaee4Ba8MaeeOyaiMaee4CamhabeaaaaGccqGGOaakcqaIXaqmcqGHsislcqWGWbaCcqGGPaqkdaahaaWcbeqaaiabloriSnaaBaaameaacqWGObaAaeqaaSGaeyOeI0IaemOta40aaSbaaWqaaiabb+gaVjabbkgaIjabbohaZbqabaaaaaGcbaGagiiBaWMaeiOBa4MaeiikaGIaeGymaeJaeGimaaJaeiykaKccciGae8NSdiMaeiikaGIaemiCaaNaeiilaWIaemOta40aaSbaaSqaaiabb+gaVjabbkgaIjabbohaZbqabaGccqGGSaalcqWItecBdaWgaaWcbaGaemiAaGgabeaakiabgkHiTiabd6eaonaaBaaaleaacqqGVbWBcqqGIbGycqqGZbWCaeqaaOGaey4kaSIaeGymaeJaeiykaKcaaiaaxMaacaWLjaWaaeWaaeaacqaIYaGmcqaI0aanaiaawIcacaGLPaaaaaa@675F@\nand then, a computation of σ is possible by plug-in. Without considering the computation of E and C, the complexity of this approach is O(h) (where h is the size of the pattern).\nWhen a degenerate pattern (finite set of words) is considered instead of a single word, it is easy to adapt this method by summing the contribution p of each word belonging to the pattern. This point is left to the reader.\n\nUnder-represented pattern\nIn the case of an under-represented pattern we have\nS N = log ⁡ 10 F − ( N ) with F − ( N ) ≜ ℙ μ N , π N ( N ≤ N obs ) . ( 25 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaafaqaaeqadaaabaGaem4uam1aaSbaaSqaaGqabiab=5eaobqabaGccqGH9aqpcyGGSbaBcqGGVbWBcqGGNbWzdaWgaaWcbaGaeGymaeJaeGimaadabeaakiabdAeagnaaCaaaleqabaGaeyOeI0caaOGaeiikaGIae8Nta4KaeiykaKcabaGaee4DaCNaeeyAaKMaeeiDaqNaeeiAaGgabaGaemOray0aaWbaaSqabeaacqGHsislaaGccqGGOaakcqWFobGtcqGGPaqkcqWICjcqtuuDJXwAK1uy0HMmaeHbfv3ySLgzG0uy0HgiuD3BaGabaiab+LriqnaaBaaaleaaiiGacqqF8oqBdaWgaaadbaGae8Nta4eabeaaliabcYcaSiab9b8aWnaaBaaameaacqWFobGtaeqaaaWcbeaakiabcIcaOiabd6eaojabgsMiJkabd6eaonaaBaaaleaacqqGVbWBcqqGIbGycqqGZbWCaeqaaOGaeiykaKIaeiOla4IaaCzcaiaaxMaadaqadaqaaiabikdaYiabiwda1aGaayjkaiaawMcaaaaaaaa@6905@\nUsing a binomial approximation we get\nF − ( N ) ≃ ℙ ( ℬ ( ℓ h , P ( N ) ) ≤ N o b s ) = β − ( P ( N ) , N o b s + 1 , ℓ h − N o b s ) β ( N o b s + 1 , ℓ h − N o b s ) ( 26 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaacqWGgbGrdaahaaWcbeqaaiabgkHiTaaakiabcIcaOGqabiab=5eaojabcMcaPiabloKi7mrr1ngBPrwtHrhAYaqehuuDJXwAKbstHrhAGq1DVbacfaGae4xgHaLaeiikaGccdaGae0hlHiKaeiikaGIaeS4eHW2aaSbaaSqaaiabdIgaObqabaGccqGGSaalcqWGqbaucqGGOaakcqWFobGtcqGGPaqkcqGGPaqkcqGHKjYOcqWGobGtdaWgaaWcbaacbaGaeW3Ba8MaeWNyaiMaeW3CamhabeaakiabcMcaPiabg2da9maalaaabaacciGaeSNSdi2aaWbaaSqabeaacqWEsislaaGccqGGOaakcqWGqbaucqGGOaakcqWFobGtcqGGPaqkcqGGSaalcqWGobGtdaWgaaWcbaGaeW3Ba8MaeWNyaiMaeW3CamhabeaakiabgUcaRiabigdaXiabcYcaSiabloriSnaaBaaaleaacqWGObaAaeqaaOGaeyOeI0IaemOta40aaSbaaSqaaiab89gaVjab8jgaIjab8nhaZbqabaGccqGGPaqkaeaacqWEYoGycqGGOaakcqWGobGtdaWgaaWcbaGaeW3Ba8MaeWNyaiMaeW3CamhabeaakiabgUcaRiabigdaXiabcYcaSiabloriSnaaBaaaleaacqWGObaAaeqaaOGaeyOeI0IaemOta40aaSbaaSqaaiab89gaVjab8jgaIjab8nhaZbqabaGccqGGPaqkaaGaaCzcaiaaxMaacqGGOaakcqaIYaGmcqaI2aGncqGGPaqkaaa@8F8B@\nand, by the same method than in the over-represented case we finally have\nσ ≃ Q − t G × C × G ( 27 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaaiiGacqWFdpWCcqWIdjYocqWGrbqudaahaaWcbeqaaiabgkHiTaaakmaakaaabaGaeeiiaaYaaWbaaSqabeaaieGacqGF0baDaaacbeGccqqFhbWrcqGHxdaTcqqFdbWqcqGHxdaTcqqFhbWraSqabaGccaWLjaGaaCzcamaabmaabaGaeGOmaiJaeG4naCdacaGLOaGaayzkaaaaaa@40AE@\nwhere\nQ − = p N obs + 1 ( 1 − p ) ℓ h − N obs − 1 ln ⁡ ( 10 ) β − ( p , N obs + 1 , ℓ h − N obs ) ( 28 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGrbqudaahaaWcbeqaaiabgkHiTaaakiabg2da9maalaaabaGaemiCaa3aaWbaaSqabeaacqWGobGtdaWgaaadbaGaee4Ba8MaeeOyaiMaee4CamhabeaaliabgUcaRiabigdaXaaakiabcIcaOiabigdaXiabgkHiTiabdchaWjabcMcaPmaaCaaaleqabaGaeS4eHW2aaSbaaWqaaiabdIgaObqabaWccqGHsislcqWGobGtdaWgaaadbaGaee4Ba8MaeeOyaiMaee4CamhabeaaliabgkHiTiabigdaXaaaaOqaaiGbcYgaSjabc6gaUjabcIcaOiabigdaXiabicdaWiabcMcaPGGaciab=j7aInaaCaaaleqabaGaeyOeI0caaOGaeiikaGIaemiCaaNaeiilaWIaemOta40aaSbaaSqaaiabb+gaVjabbkgaIjabbohaZbqabaGccqGHRaWkcqaIXaqmcqGGSaalcqWItecBdaWgaaWcbaGaemiAaGgabeaakiabgkHiTiabd6eaonaaBaaaleaacqqGVbWBcqqGIbGycqqGZbWCaeqaaOGaeiykaKcaaiaaxMaacaWLjaWaaeWaaeaacqaIYaGmcqaI4aaoaiaawIcacaGLPaaaaaa@6C5B@\n\nTwo distinct patterns\nWe consider now two patterns V and W instead of one and want to study the joint distribution of SN (V) and SN (W) their corresponding pattern statistics.\nWith a similar argument as in section \"delta method\", it is easy to show that\nℒ ( [ S N ( V ) S N ( W ) ] ) ≃ N ( [ S ( V ) S ( W ) ] , [ σ V 2 σ V , W σ V , W σ W 2 ] ) ( 29 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFsectdaqadaqaamaadmaabaqbaeqabiqaaaqaaiabdofatnaaBaaaleaaieqacqGFobGtaeqaaOGaeiikaGIaemOvayLaeiykaKcabaGaem4uam1aaSbaaSqaaiab+5eaobqabaGccqGGOaakcqWGxbWvcqGGPaqkaaaacaGLBbGaayzxaaaacaGLOaGaayzkaaGaeS4qISJae8xdX70aaeWaaeaadaWadaqaauaabeqaceaaaeaacqWGtbWucqGGOaakcqWGwbGvcqGGPaqkaeaacqWGtbWucqGGOaakcqWGxbWvcqGGPaqkaaaacaGLBbGaayzxaaGaeiilaWYaamWaaeaafaqabeGacaaabaacciGae03Wdm3aa0baaSqaaiabdAfawbqaaiabikdaYaaaaOqaaiab9n8aZnaaBaaaleaacqWGwbGvcqGGSaalcqWGxbWvaeqaaaGcbaGae03Wdm3aaSbaaSqaaiabdAfawjabcYcaSiabdEfaxbqabaaakeaacqqFdpWCdaqhaaWcbaGaem4vaCfabaGaeGOmaidaaaaaaOGaay5waiaaw2faaaGaayjkaiaawMcaaiaaxMaacaWLjaGaeiikaGIaeGOmaiJaeGyoaKJaeiykaKcaaa@6F1A@\nwhere σV (resp. σW) is the standard deviation σ for the pattern V (resp. W) and where\nσ V , W = t ∇ F V ε ( E ) × C × ∇ F W η ( E ) ln ⁡ ( 10 ) F V ε ( E ) × ln ⁡ ( 10 ) F W η ( E ) ( 30 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaaiiGacqWFdpWCdaWgaaWcbaGaemOvayLaeiilaWIaem4vaCfabeaakiabg2da9maalaaabaGaeeiiaaYaaWbaaSqabeaaieGacqGF0baDaaGccqGHhis0cqWGgbGrdaqhaaWcbaGaemOvayfabaGae8xTdugaaOGaeiikaGccbeGae0xrauKaeiykaKIaey41aqRae03qamKaey41aqRaey4bIeTaemOray0aa0baaSqaaiabdEfaxbqaaiab=D7aObaakiabcIcaOiab9veafjabcMcaPaqaaiGbcYgaSjabc6gaUjabcIcaOiabigdaXiabicdaWiabcMcaPiabdAeagnaaDaaaleaacqWGwbGvaeaacqWF1oqzaaGccqGGOaakcqqFfbqrcqGGPaqkcqGHxdaTcyGGSbaBcqGGUbGBcqGGOaakcqaIXaqmcqaIWaamcqGGPaqkcqWGgbGrdaqhaaWcbaGaem4vaCfabaGae83TdGgaaOGaeiikaGIae0xrauKaeiykaKcaaiaaxMaacaWLjaWaaeWaaeaacqaIZaWmcqaIWaamaiaawIcacaGLPaaaaaa@6CD8@\nwhere\nε ( resp . η ) = { + if pattern V ( resp . W ) is over-represented − if pattern V ( resp . W ) is unter-represented . ( 31 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaaiiGacqWF1oqzcqqGGaaicqGGOaakcqqGYbGCcqqGLbqzcqqGZbWCcqqGWbaCcqGGUaGlcqqGGaaicqWF3oaAcqGGPaqkcqGH9aqpdaGabeqaauaabaqaciaaaeaacqGHRaWkaeaacqqGPbqAcqqGMbGzcqqGGaaicqqGWbaCcqqGHbqycqqG0baDcqqG0baDcqqGLbqzcqqGYbGCcqqGUbGBcqqGGaaicqWGwbGvcqqGGaaicqGGOaakcqqGYbGCcqqGLbqzcqqGZbWCcqqGWbaCcqqGUaGlcqqGGaaicqWGxbWvcqGGPaqkcqqGGaaicqqGPbqAcqqGZbWCcqqGGaaicqqGVbWBcqqG2bGDcqqGLbqzcqqGYbGCcqqGTaqlcqqGYbGCcqqGLbqzcqqGWbaCcqqGYbGCcqqGLbqzcqqGZbWCcqqGLbqzcqqGUbGBcqqG0baDcqqGLbqzcqqGKbazaeaacqGHsislaeaacqqGPbqAcqqGMbGzcqqGGaaicqqGWbaCcqqGHbqycqqG0baDcqqG0baDcqqGLbqzcqqGYbGCcqqGUbGBcqqGGaaicqWGwbGvcqqGGaaicqGGOaakcqqGYbGCcqqGLbqzcqqGZbWCcqqGWbaCcqqGUaGlcqqGGaaicqWGxbWvcqGGPaqkcqqGGaaicqqGPbqAcqqGZbWCcqqGGaaicqqG1bqDcqqGUbGBcqqG0baDcqqGLbqzcqqGYbGCcqqGTaqlcqqGYbGCcqqGLbqzcqqGWbaCcqqGYbGCcqqGLbqzcqqGZbWCcqqGLbqzcqqGUbGBcqqG0baDcqqGLbqzcqqGKbazaaaacaGL7baacqGGUaGlcaWLjaGaaCzcamaabmaabaGaeG4mamJaeGymaedacaGLOaGaayzkaaaaaa@AC70@\nAnd after using results of sections \"single pattern\" and \"under-represented pattern\" we finally get\nσ V , W = ( Q V ε Q W η ) × ( t ∇ G V × C × ∇ G W ) ( 32 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaaiiGacqWFdpWCdaWgaaWcbaGaemOvayLaeiilaWIaem4vaCfabeaakiabg2da9maabmaabaGaemyuae1aa0baaSqaaiabdAfawbqaaiab=v7aLbaakiabdgfarnaaDaaaleaacqWGxbWvaeaacqWF3oaAaaaakiaawIcacaGLPaaacqGHxdaTdaqadaqaaiabbccaGmaaCaaaleqabaGaemiDaqhaaOGaey4bIencbeGae43raC0aaSbaaSqaaiabdAfawbqabaGccqGHxdaTcqGFdbWqcqGHxdaTcqGHhis0cqGFhbWrdaWgaaWcbaGaem4vaCfabeaaaOGaayjkaiaawMcaaiaaxMaacaWLjaWaaeWaaeaacqaIZaWmcqaIYaGmaiaawIcacaGLPaaaaaa@550C@\nwhere QVε MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGrbqudaqhaaWcbaGaemOvayfabaacciGae8xTdugaaaaa@30E7@ (resp. W) and GV (resp. W) are the constant Q (Q+ and Q-) and the vector G for the pattern V (resp. W).\n\nSimulations\nIt is also possible to study the empirical distribution of a SN (for one or more patterns) through simulations.\nIn order to do so, we first draw M independent sequences Yj = Y1j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGzbqwdaqhaaWcbaGaeGymaedabaGaemOAaOgaaaaa@3061@ ... Ynj MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGzbqwdaqhaaWcbaGaemOBa4gabaGaemOAaOgaaaaa@30D6@ using an order m stationary Markov model of parameters π. Complexity of this step is O(M × n).\nFor each j we get the frequencies Nj = (N0j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaaieqacqWFobGtdaqhaaWcbaGaeGimaadabaGaemOAaOgaaaaa@304F@,N1j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaaieqacqWFobGtdaqhaaWcbaGaeGymaedabaGaemOAaOgaaaaa@3051@) (with complexity O(n) for each sequence) of the words of size m and m + 1 in the sequence Yj and use it to compute Sj = SNj MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGtbWudaWgaaWcbaacbeGae8Nta40aaWbaaWqabeaacqWGQbGAaaaaleqaaaaa@30C8@ (exact value or approximation). Complexity here depends on the statistical method used to compute Sj (e.g. O(h) using a binomial approximation).\nWe now have a M – sample S1, ..., SM of SN from which we can easily estimate σ and thus, valid or invalid the approximation through the delta-method.\nWhen used with large value of n (e.g. several millions or more), the complexity of this approach is slowed by the drawn of the sequences Yj. It is therefore possible to improve the method by simulating directly the frequencies N through (5). As this approximation has a very small impact on the distribution of SN (data not shown) it may dramatically speed-up the computations when considering large n or M. It is nevertheless important to point out that drawing a Gaussian vector size L requires to precompute the Choleski decomposition of its covariance matrix which could be a limiting factor when considering large L."}

PMC:1647278 / 9751-42933 JSONTXT

Annnotations TAB JSON ListView MergeView

2_test

PMC:1647278 / 9751-42933 JSON TXT