Vyhľadávanie podobných záznamov

Vyhľadávanie podobných záznamov

Správy

Anketa

O Linuxe

Portál

Odporúčame

Podporte nás

Prihláste prednášku na 4. ročník OpenCamp

Devuan 6 Excalibur je vydaný

MX-25 “Infinity” beta 1

Q4OS 6.1 "Andromeda"

Debian 13.1 Trixie

Používanie Linuxu na desktopoch dosiahlo v USA rekordnú úroveň.

O konferencii 13. ročník konferencie OSSConf

Google práve daroval Linux Foundation umelú inteligenciu

Prihláste prednášku na 4. ročník OpenCamp

Linus a Linus

Devuan 6 Excalibur je vydaný

MX-25 “Infinity” beta 1

Q4OS 6.1 "Andromeda"

Debian 13.1 Trixie

Používanie Linuxu na desktopoch dosiahlo v USA rekordnú úroveň.

O konferencii 13. ročník konferencie OSSConf

Google práve daroval Linux Foundation umelú inteligenciu

Firefox 138 - nová funkcia TabGroups

Stretli ste sa s open-source stratégiou Bitka o Wesnoth?

Zdravím. Chcel by som si trochu uľahčiť život, len neviem, či to bude možné.

Vstup: Mám dva súbory *.ods so záznamami- 4070 a 463 záznamov.

Cieľ: Nájsť rovnaké záznamy (alebo veľmi podobné) vyskytujúce sa v oboch súboroch a z druhého ich vymazať

Komplikácie: Preklepy v jednom alebo druhom súbore- očakávam drobné rozdiely medzi záznamami.

Stav1: Viac-menej som to spravil manuálne, ale potreboval by som skontrolovať, či tam ešte nie sú veľmi podobné záznamy.

Stav2: Oba súbory majú tabuľky s rovankou štruktúrou.

Ak by mi vedel niekto poradiť, budem veľmi vďačný.

ASUS x550vb, Xubuntu 18.04

Pre pridávanie komentárov sa musíte prihlásiť.

- RE: Vyhľadávanie podobných záznamov 10.02.2017 | 15:21
  bla Návštevník
  
  toto by mohlo pomoct na presne rozdiely:
  
  https://linux.die.net/man/1/comm
  
  na tie velmi podobne neviem ci existuje genericky nastroj
  - RE: Vyhľadávanie podobných záznamov 10.02.2017 | 15:35
    Michal Gregorík Xubuntu 18.04 Používateľ
    
    Vďaka, vyskúšam.
    
    Problém je v tom, že ide o zoznamy kníh. A napríklad názvy sú robené tak, že v jednom súbore sa za názov považuje viac slov, napríklad: v jednom zozname môže byť "Veľká encyklopédia Zeme" a v druhom, pre tú istú knihu, "Encyklopédia zeme". Tu mi, žiaľ nepomôže ani filtrovanie, ani usporiadanie.
    
    Stačilo by mi vypísať podobné reťazce v oboch súboroch, tie už by som našiel aj manuálne. Reťazcom ale musí byť obsah viacerých buniek.
    
    ASUS x550vb, Xubuntu 18.04
- RE: Vyhľadávanie podobných záznamov 10.02.2017 | 19:10
  WlaSaTy Návštevník
  
  Zaujímalo by ma ako by si definoval pojem "podobné záznamy", od toho by sa odvíjalo možné riešenie. Menovite, do akej miery by si ešte bral záznam za duplikát, a od akej už nie.
  
  Ak som dobre pochopil, tak sa jedná o záznamy knižnice o počte 500 kníh z katalógu o počte 4000 kníh. Nechceš to radšej riešiť podľa ISBN kódu ktorý je na to určený a v knihovníckom programe? Určite sa nájde niečo aj pre Linux, GPL. Tabuľkový procesor je na katalogizáciu vrcholne nevhodný.
  - RE: Vyhľadávanie podobných záznamov 10.02.2017 | 20:35
    Michal Gregorík Xubuntu 18.04 Používateľ
    
    Podobné záznamy: potrebujem iba niečo v štýle "na riadku n je pravdepodobne zhoda". Ja by som sa pozrel na to, a fyzicky porovnal. Ide mi len o to, aby som nemusel porovnávať všetky riadky, navyše by som mohol niečo prehliadnuť.
    
    Problém je, že tie knihy nemajú ISBN, ak by mali, nebol by žiaden problém.
    
    ASUS x550vb, Xubuntu 18.04
    - RE: Vyhľadávanie podobných záznamov 10.02.2017 | 21:47
      bedňa LegacyIce-antiX Administrátor
      
      Nájsť podobné vety nieje moc jednoduché a spadá to pod "Locality-sensitive hashing", alebo ešte lepšie "AI", čo si treba poriadne naštudovať. AI sa bez znalosť programovania ani implementovať zatiaľ nedá. Na LSH sa určite nájdu nejaké hotové riešenia.
      
      Táto správa neobsahuje vírus, pretože nepoužívam MS Windows. http://kernelultras.org
      - RE: Vyhľadávanie podobných záznamov 10.02.2017 | 22:02
        Michal Gregorík Xubuntu 18.04 Používateľ
        
        Vďaka. Ešte nad tým porozmýšľam.
        
        ASUS x550vb, Xubuntu 18.04
- RE: Vyhľadávanie podobných záznamov 12.02.2017 | 00:06
  samalama. Návštevník
  vyexportovat subory do txt. z prveho zobrat prvy riadok, z neho zobrat prve slovo a grep nim druhy subor. samozrejme odfiltrovat jeden, dva, mozno aj trojznakove slova (predlozky, spojky...). toto opakovat pre kazde slovo v kazdom riadku...
  
  cat zoznam1.txt | while read line; do for word in $line; do test ${#word} -lt 4 && continue grep "$word" | zoznam2.txt done done
  - RE: Vyhľadávanie podobných záznamov 12.02.2017 | 14:14
    Michal Gregorík Xubuntu 18.04 Používateľ
    
    Vďaka. Takéto niečo som si predstavoval. Keď si nájdem čas, vyskúšam.
    
    ASUS x550vb, Xubuntu 18.04

Správy

24.01 | 14:45 | MarekGalinski

Dátum udalosti: 25.04.2026

Štvrtý ročník Bratislava OpenCamp pozná svoj termín a je spustená možnosť prihlasovať príspevky. Podujatie sa zameriava na témy otvorených technológii, otvoreného softvéru, otvorených dát, ale aj otvorenej verejnej správy a podobne. Podujatie sa uskutoční 25.4.2026 na FIIT STU.

Zdroj: Bratislava OpenCamp

Žiadne komentáre | Komunita

03.11.2025 | 22:52 | menom

Na svete je nová stabilná verzia linuxovej distribúcie Devuan s číslom 6 a kódovým menom Excalibur. Vychádza z Debian 13 Trixie. Projekt Devuan sa zameriava na poskytovanie alternatívy k Debianu, ktorú je možné použiť bez SystemD.

Zdroj: https://www.devuan.org/get-devuan

2 komentáre | Nová verzia

22.09.2025 | 08:40 | redhawk1975

Ludia okolo MX linuxu uvolnili na testovanie prvé ISO MX linuxu postavené na Debian 13.

Zdroj: MX linux

2 komentáre | Nová verzia

12.09.2025 | 22:07 | Pavel

Bola vydaná nová verzia distribúcie Q4OS 6.1 "Andromeda", ktorá vychádza z Debianu 13.1 Trixie s desktopom Plasma alebo Trinity. Bude k dispozícii len pre 64 bit architektúru, pre 32 bit sa odporúča staršia verzia Q4OS 5 "Aquarius".

Zdroj: DistroWatch.com

6 komentárov | Nová verzia

08.09.2025 | 09:01 | redhawk1975

Po mesiaci od vydania Debian 13 vyšla nová verzia 13.1.

Debian 13.1 Trixie opravuje 71 chýb a pridáva 16 bezpečnostných aktualizácií.

Zdroj: Debian

Žiadne komentáre | Nová verzia

21.07.2025 | 19:40 | Balin50

Linux prvýkrát v histórii prekročil 5 % podiel na trhu s desktopovými počítačmi v USA . Podľa globálnych štatistík spoločnosti StatCounter za jún 2025 má Linux teraz 5,04 % podiel na trhu s desktopovými počítačmi, čím prekonal kategóriu „ Neznámy “, ktorá predstavuje 4,76 %.

Zdroj: https://news.itsfoss.com/linux-desktop-usage-usa/

2 komentáre | IT novinky

26.06.2025 | 16:50 | Miroslav Bendík

Dátum udalosti: 01.07.2025

V dňoch 1. – 3. júla 2025 sa na Žilinskej univerzite uskutoční 13. ročník konferencie OSSConf. Na webe je zverejnený program konferencie ako aj zborník.

Zdroj: ossconf.fri.uniza.sk

Žiadne komentáre | Komunita

26.06.2025 | 11:37 | Balin50

Spoločnosť Google daruje protokol A2A nadácii Linux Foundation.

V apríli 2025 spoločnosť Google spustila protokol Agent2Agent (A2A), otvorený štandard navrhnutý tak, aby umožňoval bezpečnú a inteligentnú komunikáciu medzi autonómnymi agentmi s umelou inteligenciou.

O niekoľko mesiacov neskôr spoločnosť Google darovala A2A nadácii Linux Foundation, ktorá v spolupráci so spoločnosťami AWS, Cisco, Google, Microsoft, Salesforce, SAP a ServiceNow vytvorila projekt Agent2Agent .

Ďalšie info

Zdroj: IT's FOSS

1 komentár | IT novinky

Anketa

25

Prihláste prednášku na 4. ročník OpenCamp