< návrat zpět

MS Excel


Téma: Míra shody jednoho řetězce s druhým rss

Zaslal/a 30.1.2017 21:48

Vedle ve vlákně řeší relaxjuice dohledání "podobné položky" v rámci dvou seznamů. Že výsledek bude stát za starou bačkoru a teoreticky musí stejně projít položku po položce, je zřejmé. Nicméně ptám se, lze, ať už v Excelu nebo jinde se dobrat nějaké míry shody, procenta?

Pavlus vedle nabízí SVYHLEDAT a zástupné znaky, což je fajn v případě "prefixů a postfixů", a shoda by šla vyjádřit délkou hledaného řetězce vůči délce nalezeného, ale prů.. je vložený znak v hledaném řetězci. Umí si s tím nějak poradit já nevím regulární výrazy, databázové funkce, ...? A za jakou cenu a jak časově náročné? Jen zvědavost.

Jinak by se samozřejmě na začátku musela definovat ona "shoda" - velikost písmen, "trim" a mezery, ...

Zaslat odpověď >

icon #034768
eLCHa
Mno - nedávno jsem to řešil. Také potřebuji porovnávat podobnost textů. U mne ale byla výhoda, že vím, že ty texty musí začínat stejně (po odstranění diakritiky) a hledám tedy délku shody na začátku textu. Např.:

Na zelené louce
Na zelené louce leží kravička
výsledek - 51,7%, 15 znaků

Na zelené louce leží kravička
Na zelené louce leží krabička
výsledek - 82,8%, 24 znaků

To jsou pro mé potřeby dostatečné výsledky.

Nicméně ten druhý případ ukazuje, že v jiných případech toto stačit nebude.

Ve svém hledání jsem narazil na
Fuzzy logiku
Hammingovu vzdálenost
Levenshteinovu vzdálenost demo

Pak mám tento odkaz
http://www.ms.mff.cuni.cz/~kopecky/vyuka/dis/
ale ještě jsem nenašel čas si to přečíst.

Zatím mi to připadá, že obecného nic neexistuje, protože pokaždé řešíš něco jiného (výskyt řetězce v řetězci nebo podobnost řetězců). Časově to bude logicky tak náročné, jako počet porovnávaných řetězců a jejich délka. Vlastní funkce na listu bych se asi bál. Myslím něco jako SVYHLEDAT - tedy hledání podobného výskytu v oblasti.

No ona je to dneska vlastně už věda bych řekl - vyhledávání plagiátů. Takže nějaké nástroje už existovat budou...citovat
#034769
avatar
Asi si ještě počkám na umělou inteligenci :-) Ale nedivil bych, kdy opravdu už něco bylo, dokonce třeba služba online. Každopádně děkuju za čas a reakci.citovat
#034770
avatar
Jedna s jednoduchých otázek. Existují tuny článků i algoritmů. Něco zkusil i MS:

https://www.microsoft.com/en-us/download/details.aspx?id=15011

Narazil jsem na to, netestoval jsem to. Možná se to někomu hodí.citovat
#034771
avatar
Děkuju za tip lubo.citovat

Uživatelské menu

Nejste přihlášen(a)
avatar\n

Menu

On-line nástroje

Formulář Faktura

Formulář Faktura IV

Oblíbený formulář Faktura byl vylepšen a rozšířen.
Více se dočtete zde.

Aktivní diskuse

Vyhledej

PavDD • 23.4. 12:29

Vyhledej

PavDD • 23.4. 11:47

Relativní cesta - zdroje Power Query

Alfan • 23.4. 10:52

Relativní cesta - zdroje Power Query

elninoslov • 23.4. 10:22

Relativní cesta - zdroje Power Query

lubo • 23.4. 10:15

Relativní cesta - zdroje Power Query

Alfan • 23.4. 10:11

Relativní cesta - zdroje Power Query

lubo • 23.4. 10:11