Résultats de la recherche pour "AUDIO"
22:02

Modèle audio innovant Open Source VibeVoice-1.5B de Microsoft

Jin10 Data, le 26 août, a rapporté qu'aujourd'hui tôt le matin, le Microsoft Research a rendu open source le modèle audio innovant VibeVoice-1.5B. VibeVoice-1.5B a réalisé plusieurs percées technologiques majeures dans le domaine de la voix : il peut synthétiser de manière continue 90 minutes de voix ultra-réalistes, alors que la plupart des modèles précédents ne pouvaient synthétiser que des voix de moins de 60 minutes, et après 30 minutes, des problèmes tels que la dérive de timbre et la rupture sémantique apparaissent.
Plus
00:34

SAPIEN (Sapien) chute de 13,76 % sur 24 heures

Gate News Bot message, le 22 août, selon les données de CoinMarketCap, au moment de la publication, SAPIEN (Sapien) est actuellement à 0,19 dollar, en chute de 13,76 % au cours des dernières 24 heures, atteignant un maximum de 0,26 dollar et un minimum de 0,14 dollar. La capitalisation boursière actuelle est d'environ 487 000 dollars. Sapien est une fondrie de données décentralisée qui transforme la connaissance humaine collective en données d'entraînement AI de niveau entreprise. La plateforme compte 1,6 million de contributeurs mondiaux provenant de plus de 110 pays et a accompli 187 millions de tâches. Sapien se concentre sur la fourniture de données d'entraînement de haute qualité et spécialisées pour l'IA professionnelle, y compris des services d'annotation de données 3D/4D, de collecte de données, etc. Son marché propose également des ensembles de données sélectionnés dans plusieurs domaines tels que le raisonnement par des experts, les images et vidéos, l'audio, 3D/4D et le texte.
Plus
SAPIEN4.38%
02:13

GARI (Gari Network) a enregistré une hausse de 55,16 % au cours des 24 dernières heures.

Gate News Bot message, le 15 août, selon les données de CoinMarketCap, au moment de la rédaction, GARI (Gari Network) se négocie actuellement à 0,01 USD, avec une hausse de 55,16 % au cours des 24 dernières heures, atteignant un maximum de 0,02 USD et un minimum de 0,002 USD. La capitalisation boursière actuelle est d'environ 7,34 millions USD, avec une hausse de 2,61 millions USD par rapport à hier. Gari Network est la plus grande plateforme de diffusion en direct audio et vidéo Web3 au monde. La plateforme a été téléchargée plus de 100 millions de fois sur le Play Store, avec plus de 9 887 utilisateurs actifs par jour. Gari Network vise à autonomiser les créateurs de contenu du monde entier grâce à la blockchain, en offrant de nouvelles formes de participation pour les créateurs et la communauté. GARI récemment des nouvelles importantes : 1️⃣ **Chingari et Apto
Plus
GARI0.06%
09:47

OVERTAKE s'associe à Walrus Protocol pour promouvoir la propriété des actifs de jeu off-chain.

BlockBeats rapport, le 14 août, selon les informations officielles, OVERTAKE a annoncé sa collaboration avec le projet de couche de données Web3 Walrus Protocol pour offrir aux joueurs une propriété complète de leurs actifs en jeu. Grâce à la gestion décentralisée des données et à l'hébergement off-chain, les éléments visuels, audio et les métadonnées en jeu seront stockés de manière permanente, vérifiable et appartenant aux joueurs. OVERTAKE est un marché de transactions d'actifs de jeu peer-to-peer basé sur le Sui Network, permettant des transactions sécurisées grâce à l'hébergement de smart contracts.
Plus
WAL-3.47%
21:00

Le Premier ministre thaïlandais Prayuth Chan-o-cha a demandé à la Cour constitutionnelle un délai pour soumettre les documents de défense dans l'affaire "enregistrement".

Le 15 juillet, le secrétaire général du Premier ministre thaïlandais, Phaengmin Le Suriya, a révélé que le Premier ministre Prayut Chan-o-cha avait demandé au tribunal constitutionnel un délai supplémentaire de 15 jours pour soumettre des documents de défense dans l'affaire "enregistrement audio", en raison de l'impossibilité de préparer tous les documents dans le délai de 15 jours fixé par le tribunal précédemment. Phaengmin a déclaré que ce type de demande de prolongation fait partie des droits légalement détenus par le défendeur et constitue un acte normal dans la procédure légale, et que la décision d'accorder ou non le prolongement doit être examinée par le tribunal constitutionnel.
Plus
04:12

Meta acquisition de la start-up vocale PlayAI pour renforcer la technologie audio

Meta Platforms a acquis la start-up d'intelligence artificielle vocale PlayAI pour renforcer sa technologie audio et ses programmes d'IA. L'équipe de PlayAI rejoindra Meta pour soutenir le développement de ses rôles d'IA et de contenu audio, en accord avec la tendance de l'industrie technologique vers des interfaces de dialogue.
Plus
06:28

Grok 4 : la nouvelle génération de percées et de défis de l'intelligence artificielle lancée par xAI d'Elon Musk

xAI d'Elon Musk a récemment lancé son dernier modèle d'intelligence artificielle — Grok 4, en tant que concurrent direct du GPT-5 d'OpenAI. Bien que le processus de lancement ait connu des latences, Musk a parlé en direct des avancées significatives de Grok 4 en matière de capacités multimodales, capable de raisonner et de répondre à travers du texte, des images et de l'audio. Cependant, le lancement de Grok 4 n'est pas sans controverse. Récemment, Grok a été largement critiqué pour avoir généré du contenu inapproprié (comme "MechaHitler"), soulevant des questions éthiques concernant les sorties de l'IA. De plus, la PDG de X, Linda Yaccarino, a démissionné en raison des impacts négatifs liés à Grok, exacerbant davantage les préoccupations concernant la réglementation et le cadre éthique d'xAI. Néanmoins, xAI continue de lancer de nouvelles fonctionnalités, y compris un niveau de souscription haute performance nommé SuperGrok Heavy, offrant des capacités avancées de raisonnement, des outils de codage et un support prioritaire. Bien qu'il ne soit pas encore confirmé si un accès API complet sera proposé, certains points de terminaison sont déjà en ligne et un accès plus large est attendu très bientôt.
Plus
ELON-3.28%
XAI-4.29%
GROK-5.14%
  • 1
00:41

OpenAI : Le "mode d'enregistrement" de ChatGPT est désormais officiellement lancé pour les utilisateurs Pro, Enterprise et Edu.

PANews, le 19 juin - OpenAI a annoncé que le "mode d'enregistrement" de ChatGPT est désormais officiellement disponible pour les utilisateurs Pro, Enterprise et Edu, et prend actuellement en charge l'application de bureau macOS. Cette fonctionnalité permet d'enregistrer des réunions, des séances de brainstorming ou des notes vocales, et transcrit automatiquement l'audio, extrait les points clés et génère des plans d'action.
Plus
EDU-3.42%
  • 1
  • 1
  • 2
09:23

Juchip Technology : Promotion de nouveaux chips audio AI côté terminal ayant obtenu des résultats intermédiaires.

Jin10 données le 18 juin, l'annonce de Juchip Technology indique que la société a lancé une nouvelle série de puces audio AI côté terminal basée sur la technologie de calcul en mémoire, comprenant les séries de produits ATS323X, ATS286X et ATS362X. Parmi eux, la série de puces ATS323X a rapidement atteint un volume de production après la production en série du premier produit terminal du client, et la promotion des nouvelles AI côté terminal a obtenu des résultats intermédiaires.
Plus
ATS1.29%
06:22

Elon Musk : Le nouveau XChat arrive bientôt, avec un cryptage de type Bitcoin

Le bot de Gate News, Elon Musk, a posté hier sur les plateformes sociales que le nouveau XChat sera bientôt lancé, avec les fonctions de cryptage, de disparition des messages et d’envoi de tout type de fichier. De plus, les appels audio/vidéo sont pris en charge. Le nouveau service est construit sur Rust avec une cryptographie (de style Bitcoin) et une architecture complètement nouvelle.
Plus
BTC-1.34%
06:18

Kimi a publié un tout nouveau modèle de base audio universel Kimi-Audio

Jin10 données du 26 avril, aujourd'hui, Kimi a lancé un nouveau projet Open Source - le tout nouveau modèle de base audio universel Kimi-Audio. Selon les informations, ce modèle prend en charge plusieurs tâches telles que la reconnaissance vocale, la compréhension audio, la conversion audio en texte, et le dialogue vocal.
Plus
AUDIO-2.33%
01:31

Canalys: Il est prévu que d'ici 2025, le volume mondial d'expédition d'appareils audio intelligents personnels atteindra 500 millions d'unités.

Les données de Canalys du 4 mars indiquent que, d'ici 2024, les expéditions mondiales d'appareils audio intelligents personnels (y compris les écouteurs TWS, les écouteurs sans fil et les écouteurs sans fil tour de cou) atteindront 455 millions d'unités, soit une hausse de 11,2% par rapport à l'année précédente. Canalys adopte une attitude prudente optimiste à l'égard de la hausse du marché en 2025, prévoyant que les expéditions mondiales d'appareils audio intelligents personnels atteindront 500 millions d'unités cette année-là.
Plus
14:18

RISC-V: Les puces SoC sont déjà utilisées dans diverses formes de robots

Le 18 décembre, Jinshi Data a signalé que Rui Xin Wei avait déclaré sur une plateforme interactive que la société avait des puces SoC appliquées à diverses formes de robots et avait une certaine part de marché dans le domaine des robots. Le processeur universel haute performance de la société peut assumer la fonction de traitement de données dans les robots et possède une certaine capacité à exécuter des modèles d'IA côté terminal. Les produits de vision par ordinateur de l'entreprise peuvent assumer la fonction de perception visuelle dans les robots. les produits audio de la société peuvent fournir des capacités d'interaction audio pour les robots.
Plus
09:13

泰凌微:发布机器学习与人工智能发展平台TLEdgeAI-DK

Le 17 décembre, Jinshi Data a annoncé que Teradyne avait récemment lancé la plateforme de développement TLEdgeAI-DK pour l'apprentissage automatique et l'intelligence artificielle basée sur les puces TL721x et TL751x. La société a déjà réussi à intégrer des modèles d'apprentissage automatique d'IA en périphérie sur des produits d'audio et de domotique intelligents en utilisant cette plateforme, réalisant ainsi une intégration étroite avec des applications réelles. Elle continue également à collaborer avec davantage d'utilisateurs et de partenaires stratégiques pour développer divers produits innovants dotés de fonctionnalités d'IA en périphérie adaptés à différents domaines d'application. La publication de la plateforme TLEdgeAI-DK renforcera la compétitivité des produits de la société dans les domaines connexes, ouvrira davantage le marché énorme et en hausse nécessitant à la fois une connectivité sans fil et des capacités de calcul en périphérie de l'IA, et devrait avoir un impact positif sur l'expansion future du marché et la croissance des performances de la société.
Plus
X-3.37%
11:00

La société de reconnaissance vocale AI WaveForms a levé 40 millions de dollars lors de son tour de financement initial, avec a16z comme investisseur principal

WaveForms est une start-up en intelligence artificielle (IA) fondée par l'ancien chercheur d'OpenAI, Alexis Conneau. La société a levé 40 millions de dollars lors d'un tour de financement de démarrage, ce qui lui a valu une valorisation de 200 millions de dollars. Son objectif est de développer un logiciel audio IA capable de capturer des indices émotionnels, de permettre une interaction vocale plus naturelle et d'améliorer l'expérience des conversations vocales entre humains et machines.
Plus
  • 1
06:20

Canalys: Au troisième trimestre, le volume d'expédition mondial des appareils audio intelligents personnels a augmenté de 15% par rapport à la même période de l'année précédente.

Selon un rapport de Canalys, au troisième trimestre 2024, le marché mondial des appareils audio personnels intelligents a connu un Rebond puissant, avec un volume total d'expédition approchant les 126 millions d'unités, soit une hausse de 15% par rapport à la même période de l'année précédente. Cela marque le troisième trimestre consécutif de Hausse sur ce marché, ce qui indique qu'il s'est remis des difficultés rencontrées en 2023 et connaît une reprise continue.
23:38

Le service de streaming audio Spotify a repris.

Le 30 septembre, selon les données de Jinshi, le site de surveillance de l'état du réseau, DownDetector, la plateforme de streaming audio Spotify a connu une panne pendant environ trois heures le dimanche, mais est maintenant rétablie, affectant plus de 40 000 utilisateurs aux États-Unis lors des heures de pointe.
13:59

AltLayer lance la plateforme AVS (Audio/Video Services) Wizard en tant que service

Odaily Planète Nouvelles, AltLayer a annoncé le lancement de la plateforme de service AVS-as-a-Service, Wizard, sur la plateforme X. Cette plateforme permet d'automatiser le déploiement et la gestion de l'AVS, augmentant ainsi de 10 fois le déploiement manuel et offrant une manière efficace, sans stress et simplifiée de faire du stake grâce à la complexité de la gestion opérationnelle et technique de Goutte.
ALT-4.54%
X-3.37%
06:44

Canalys: Le marché des audio personnels intelligents augmentera de 10,6 % en glissement annuel au T2 2024.

Les données du 19 août de Kinjun indiquent que, selon la dernière étude de Canalys, au deuxième trimestre de 2024, le marché des écouteurs personnels intelligents (y compris les écouteurs TWS, les écouteurs intra-auriculaires sans fil et les écouteurs sans fil) a connu un fort rebond, avec des hausses significatives dans plusieurs domaines segmentés. Le volume total des expéditions a atteint 106 millions d'unités, en hausse de 10,6 % par rapport à l'année précédente, établissant ainsi un nouveau record historique pour le volume d'expéditions au deuxième trimestre. Les TWS et les écouteurs sans fil ont été les principaux moteurs de cette hausse, atteignant respectivement 77 millions et 15 millions d'unités.
03:22

Le modèle linguistique audio Qwen2-Audio d'Open Source d'Alitongyi, dont l'article correspondant a été sélectionné pour la conférence de haut niveau ACL 2024

Golden Ten Data a rapporté le 13 août que le grand modèle d’Ali Tongyi continuait d’être open-source, et que la série Qwen2 de familles open-source ajoutait le modèle de langage audio Qwen2-Audio. Qwen2-Audio peut répondre directement aux questions et réponses sans saisie de texte, comprendre et analyser les signaux audio entrants par les utilisateurs, y compris les voix humaines, les sons naturels, la musique, etc. Le modèle a nettement surpassé les meilleurs modèles précédents dans plusieurs revues faisant autorité. Dans le même temps, l’équipe de Tongyi a également lancé un nouvel ensemble de benchmarks d’évaluation du modèle de compréhension audio, et des articles connexes ont été sélectionnés pour la ACL2024 de la conférence internationale au sommet qui se tient cette semaine.
AUDIO-2.33%
  • 3
07:48

Les forces armées sud-coréennes ont déclaré qu'elles poursuivraient les émissions de diffusion à grande échelle vers la Corée du Nord dans la zone frontalière le 19.

Les données de Jinshi le 19 juillet ont indiqué que, selon le quartier général conjoint des chefs d'état-major sud-coréens, les forces armées sud-coréennes ont continué à diffuser des messages audio amplifiés en réponse aux ballons contaminés largués par la Corée du Nord dans la région frontalière intercoréenne l'après-midi du 19. Le quartier général conjoint des chefs d'état-major a déclaré le matin du même jour que jusqu'à 9 heures, les forces armées sud-coréennes avaient trouvé plus de 200 ballons nord-coréens contaminés, dont plus de 40 étaient tombés. Après avoir détecté les ballons lancés par la Corée du Nord, les forces armées sud-coréennes ont diffusé des messages audio amplifiés en réponse dans la région frontalière intercoréenne du soir du 18 au matin du 19. La Corée du Nord n'a pas encore répondu à cela.
  • 1
18:14
Odaily星球日报讯 OpenAI a annoncé le lancement de son dernier modèle phare, le GPT-4o, qui peut réaliser des inférences en temps réel sur l'audio, la vision et le texte. Il se concentre sur les concepts d'assistant vocal personnalisé, surnaturel et à très faible latence. Selon le site officiel d'OpenAI et les informations du compte officiel de la plateforme X, le "o" dans GPT-4o représente "Omni" (complet), marquant une étape vers une interaction homme-machine plus naturelle - il accepte n'importe quelle combinaison de texte, audio et images en tant qu'entrée, et prend en charge la génération de n'importe quelle combinaison de texte, audio et images en tant que sortie. Il peut répondre à une entrée audio en 232 millisecondes en moyenne, ce qui est similaire au temps de réaction humain lors d'une conversation. En termes d'anglais et de code, il est aussi performant que le GPT-4 Turbo, il présente des améliorations significatives sur les textes dans les langues autres que l'anglais, et son API est plus rapide et 50% moins chère que les modèles existants. Comparé aux modèles actuels, le GPT-4o se distingue particulièrement dans la compréhension visuelle et auditive. Les entrées de texte et d'image seront lancées aujourd'hui dans l'API et ChatGPT, tandis que les entrées vocales et vidéo seront lancées dans les prochaines semaines.
TURBO-5.6%
OMNI-5.24%
GPT-9.19%
  • 1
04:17
1. Les États-Unis et la Chine ont annoncé qu’ils tiendraient la première réunion du Dialogue intergouvernemental entre les États-Unis et la Chine sur l’intelligence artificielle. 2. Le premier robot humanoïde grandeur nature au monde, « Tiangong », doté d’un entraînement purement électrique pour la course anthropomorphe, a été lancé3. Apple a relancé les négociations avec OpenAI pour ajouter de nouvelles fonctionnalités d’IA à ses nouveaux produits. 4. Musk : TSL investira environ 10 milliards de dollars cette année dans la formation et l’inférence de l’IA dans le domaine automobile. 5. Le gouvernement américain aurait mis en place un comité de sécurité de l’IA, dont les membres comprennent des dirigeants de géants de la technologie tels que Jensen Huang et Sam Altman. 6. Lancement de la version chinoise du modèle vidéo de niveau Sora Vidu : il peut générer jusqu’à 16 secondes et jusqu’à 1080p vidéo. 7. Nvidia Jensen Huang affirme que l’IA ne remplacera pas complètement les emplois humains. 8. Le modèle EMO sera entièrement lancé gratuitement sur l’application Tongyi, et la coopération avec les entreprises clientes sera ouverte dès que possible. 9. L’Université Tsinghua a créé l’École d’intelligence artificielle, et le premier doyen était l’académicien Yao Chizhi, lauréat du prix Turing. 10. Danghong Technology a publié le modèle audio-visuel le plus long, BlackEye. 11. Question k générale Open Source k modèle de paramètres de niveau milliard.
APP-4.49%
03:00

Le nouveau modèle Sora a explosé, et l’industrie a deux dangers cachés en plus du choc

Récemment, le nouveau modèle « Sora » d’OpenAI a attiré l’attention, et le New York Times a rapporté que la valorisation d’OpenAI pourrait maintenant atteindre environ 80 milliards de dollars. D’une part, le nouveau modèle Sora a choqué l’industrie de la production de contenu, et d’autre part, le marché est également attentif à ses deux dangers cachés. Tout d’abord, un dirigeant d’une société de publicité a déclaré qu’il y avait encore des questions sur le droit d’auteur du contenu. À l’heure actuelle, OpenAI ne divulgue pas le nombre de vidéos impliquées dans l’entraînement du modèle et ses sources spécifiques, mais a seulement déclaré que tous les supports de formation proviennent de sources publiques ou de contenus autorisés. Une autre préoccupation est Depth Fake. Cette année est une année importante pour les élections dans le monde entier, qui toucheront plus de 4 milliards de personnes, dont Long Long pays. La technologie AI Depth Fake peut générer un grand nombre de faux fichiers audio, vidéo et image pour influencer les élections.
Plus
  • 1
09:25
Selon les rapports de presse en amont, alors que l’IA est progressivement devenue un sujet brûlant dans l’industrie, Ximalaya adopte également activement la tendance de l’IA, aidant les ancres de plate-forme à réduire les coûts et à augmenter l’efficacité grâce à la technologie de l’IA, et à améliorer la capacité de production de contenu. Récemment, Ximalaya a organisé la cérémonie annuelle d’ancrage audio « 2024 Drama Elite Festival » à Chengdu, et Ximalaya a remis des prix aux créateurs exceptionnels de la plateforme, parmi lesquels les prix « Meilleur producteur d’IA » et « Meilleure équipe de production d’IA » ont été décernés aux créateurs exceptionnels qui adoptent l’IA avec la plateforme. En 2023, Ximalaya utilisera le modèle de « combinaison homme-machine » des producteurs d’IA pour doubler la production de contenu de haute qualité, et l’IA continuera d’itérer pour atteindre « l’hyperréalisme », ce qui favorisera également l’amélioration rapide de la qualité et de la quantité de contenu gratuit. En 2024, en plus de continuer à utiliser la technologie de l’IA pour aider à la génération audio, Ximalaya utilisera également l’IA pour améliorer le processus de production, aider les présentateurs à réduire considérablement les coûts de production et faire de chaque présentateur un club de théâtre.
  • 1
04:22
Selon IT Home le 8 janvier, la société de logiciels antivirus McAfee a récemment lancé un nouveau projet « Project Mockingbird » (robinbird) pour détecter et bloquer les escroqueries vocales générées par l’IA, et l’affirmation officielle selon laquelle le taux de réussite du projet est supérieur à 90%. Il est rapporté que « Mockingbird » dispose d’une technologie de détection audio « Depth Fake » pilotée par l’IA, et le directeur technique de McAfee, Steve Grobman, a annoncé que cette technologie sera officiellement annoncée lors du CES 2024.
03:34
NVIDIA NeMo, une boîte à outils d’IA conversationnelle open source, a annoncé la famille de modèles Parakeet ASR, une série de modèles de reconnaissance vocale automatique (ASR) de pointe capables de transcrire l’anglais parlé avec une précision exceptionnelle, comme l’a rapporté Webmaster Home le 8 janvier. Nvidia a annoncé quatre modèles Parakeet basés sur le décodeur RNN Transducer/Connectionist Temporal Classification et ayant 0,6 à 110 millions de paramètres. Ils sont capables de gérer un large éventail d’environnements audio et, après s’être entraînés sur seulement 64 000 heures d’ensembles de données, ils obtiennent d’excellentes performances en matière de taux d’erreur de mots (WER) sur l’ensemble de données Benchmark, surpassant les modèles précédents. Selon les développeurs, les modèles sont robustes aux segments non vocaux tels que la musique et la sourdine, et surpassent Whisper v3 d’OpenAI dans les tests de référence. Ils offrent également une intégration conviviale dans le projet avec des points de contrôle pré-entraînés.
ASR-2.7%
  • 1
07:57
Selon IT House, la Federal Trade Commission (FTC) des États-Unis a récemment annoncé une ordonnance de prime pour trouver un moyen de distinguer si un son est produit par un vrai humain ou généré par l’IA. Selon la FTC, les participants peuvent s’articuler autour des trois points suivants : la prévention ou l’authentification : un moyen de restreindre l’utilisation ou l’application d’un logiciel de clonage vocal par des utilisateurs non autorisés, la détection ou la surveillance en temps réel : un moyen de détecter les voix clonées ou d’utiliser la technologie de clonage vocal doit être fourni, et l’évaluation de suivi : un moyen de vérifier si les clips audio contiennent des voix clonées. Le grand gagnant du concours recevra 25 000 $ et le finaliste recevra 4 000 $, avec jusqu’à trois mentions honorables (une pour chaque point d’intervention) chacune de 2 000 $.
  • 1
05:10

Southwest Securities : l’IA de fin de gamme mènera un nouveau cycle d’innovation terminale

Le rapport de recherche de Southwest Securities a souligné que les appareils intelligents, en tant que vecteur de l’IA pour atteindre les utilisateurs, les terminaux d’IA apporteront un nouveau cycle d’innovation dans l’industrie. Le développement de l’IA est en train de passer d’une conduite logicielle à une conduite parallèle matérielle + logicielle, et les appareils intelligents, en tant que support ultime de l’IA pour atteindre les utilisateurs, deviennent une percée importante dans le développement et la mise en œuvre futurs de l’IA. Depuis le second semestre 2023, les fabricants de terminaux et de puces ont commencé à déployer intensivement l’IA côté appareil, et l’intégration de modèles d’IA avec les téléphones mobiles, les PC, les appareils portables, la XR, etc., apportera des innovations logicielles, matérielles et écologiques perdues depuis longtemps à l’industrie des terminaux, produira des méthodes d’interaction et des expériences audio et visuelles innovantes, et le rideau de l’IA côté appareil a été ouvert.
Plus
08:49
Selon un rapport de Jin Shi du 18 décembre, le rapport de recherche de Southwest Securities a souligné que les appareils intelligents, en tant que vecteur de l’IA pour atteindre les utilisateurs, les terminaux d’IA apporteront un nouveau cycle d’innovation dans l’industrie. Le développement de l’IA est en train de passer d’une conduite logicielle à une conduite parallèle matérielle + logicielle, et les appareils intelligents, en tant que support ultime de l’IA pour atteindre les utilisateurs, deviennent une percée importante dans le développement et la mise en œuvre futurs de l’IA. Depuis le second semestre 2023, les fabricants de terminaux et de puces ont commencé à déployer intensivement l’IA côté appareil, et l’intégration de modèles d’IA avec les téléphones mobiles, les PC, les appareils portables, la XR, etc., apportera des innovations logicielles, matérielles et écologiques perdues depuis longtemps à l’industrie des terminaux, produira des méthodes d’interaction et des expériences audio et visuelles innovantes, et le rideau de l’IA côté appareil a été ouvert.
  • 1
  • 1
08:20
PANews a rapporté le 6 décembre que, selon Cointelegraph, le premier enregistrement studio de Michael Jackson « Big Boy (One-Derful Version) », qui a été gardé secret pendant près de 50 ans, sortira sous forme de « disque vinyle numérique » le 7 décembre via la plate-forme musicale blockchain Anotherblock, et la chanson sera accessible via le lecteur de la plate-forme avec les images de la bande maîtresse et la bande originale de la chanson. Les éditions ouvertes et limitées seront disponibles dans les 48 heures. Cet enregistrement, qui date du 13 juillet 1967, enregistre le premier enregistrement de Michael Jackson, âgé de 8 ans, et de ses frères aux studios One-Derful de Chicago. L’offre est le résultat d’un partenariat entre le propriétaire d’enregistrements Recordpool et Anotherblock, une place de marché suédoise de musique et de redevances blockchain.
03:40
Selon Pinwan, la page Arxiv montre qu’Alibaba a récemment publié un modèle de langage audio appelé Qwen-Audio. Le modèle est conçu pour atteindre une compréhension audio universelle en élargissant le pré-entraînement au langage audio pour couvrir plus de 30 tâches et divers types audio, tels que les voix humaines, les sons de la nature, la musique et les chansons. Des recherches ont montré que Qwen-Audio atteint des performances significatives sur un large éventail de tâches de référence sans avoir besoin d’un réglage fin spécifique à la tâche.
AUDIO-2.33%
05:21
Golden Finance a rapporté que récemment, dans l’affaire de la vente et de l’achat illégaux par Wu de matériel de fabrication de drogue géré par le parquet de la ville de Sanming de la province du Fujian, le tribunal a conclu que l’affaire était en effet une situation statutaire d’une « personne ayant des connaissances spécialisées comparaissant devant le tribunal pour témoigner », mais Zhan ayant des connaissances spécialisées n’était en effet pas en mesure d’assister au procès sur les lieux pour des raisons objectives, et le travail devait être achevé dans une scène numérique inter-réseaux connectée au réseau externe et à l’intranet du tribunal en même temps, et il était nécessaire de répondre à son apparence. Le son et les autres renseignements personnels ne doivent pas être divulgués, et les enregistrements audio et vidéo synchrones des témoignages peuvent satisfaire aux exigences en matière de vérification de l’authenticité et à d’autres exigences en matière de contre-interrogatoire lorsque la source ne peut être retracée au moyen de l’identification par empreinte vocale et d’autres méthodes. Le tribunal a activement utilisé la pensée numérique de la poursuite pour recommander au tribunal de stocker les enregistrements audio et vidéo simultanés des personnes ayant des connaissances spécialisées dans l’affaire qui ont dissimulé leur identité et témoigné sur le réseau sur la blockchain avant le procès, et le tribunal a adopté la suggestion. Cette pratique constitue une référence efficace pour la pratique consistant à dissimuler son identité pour témoigner devant un tribunal dans le cadre d’une procédure pénale.
  • 1
Charger plus
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)